С нами уже 54 633 врача из различных областей
В нашей базе более 100 000 статей присоединяйтесь!

Компьютерная лингвистика в медицине

Импакт фактор - 0,731*

*Импакт фактор за 2017 г. по данным РИНЦ

Журнал входит в Перечень рецензируемых научных изданий ВАК.

Читайте в новом номере

Новости

25.04.2019

Интервью с Сергеем Михайловом - старшим лингвистом-разработчиком Semantic Hub

Компьютерная лингвистика в медицине. Рис. №1

-       В первую очередь, хотелось бы узнать, чем вообще занимаются компьютерные лингвисты?

-       Компьютерные лингвисты - это специалисты в области NLP - Natural Language Processing, т.е. обработке естественного языка (не путать с нейро-лингвистическим программированием!). Сфера компьютерной лингвистики охватывает широкий спектр задач, поэтому перечислю только основные: распознавание и синтез речи, оптическое распознавание символов (OCR), извлечение информации из текстовых коллекций (Information Extraction), создание вопросно-ответных систем (например, чат-ботов), создание электронных словарей, машинный перевод (да-да, Google-переводчик - самое известное “творение” компьютерной лингвистики).

 

-       А как так получилось, что компьютерная лингвистика оказалась востребованной в сфере медицины? 

-       В первую очередь, как бы банально это ни прозвучало, виной всему Интернет, который стал неотъемлемой частью жизни современного общества. В социальных сетях и на форумах можно найти обсуждения практически любой темы, которую можно только вообразить! Разумеется, медицинские темы, связанные с лечением всевозможных заболеваний или ЗОЖ, не стали исключением. Более того, количество людей, публикующих какую-либо информацию о своем здоровье в Интернете, увеличивается с каждым днем, следовательно, ежедневно порождаются огромные массивы новых данных. Кроме того, необходимо упомянуть возникновение и постепенное распространение электронных карт пациентов, а также постоянно растущее число научных медицинских публикаций. Этот список можно продолжать, однако у всех перечисленных источников есть одна общая важная черта: всю ценную информацию, которая “растворена” в этих коллекциях текстов, невозможно собрать и проанализировать “вручную”. Таким образом, суммируя все сказанное, появление в сфере медицины больших объемов неисследованных электронных текстов (т.н. текстовая Big Data) делает возможным применение методов компьютерной лингвистики.

 

-       Чем конкретно занимаются компьютерные лингвисты в Semantic Hub?

-       В нашей компании компьютерные лингвисты, в основном, сосредоточены на задачах извлечения информации. В качестве источников чаще всего используются общедоступные пациентские публикации в социальных сетях, но с одним важным условием: любые данные обязаны быть деперсонализированными. Это закон. Кроме того, наши заказчики нередко предоставляют нам собственные данные для аналитики. Если же Вы попросите описать нашу работу в строгих терминах, то это превращение неструктурированных массивов текстов в структурированные знания.

 

-       Что подразумевается под структурированностью и неструктурированностью в этой формулировке?

-       Начнем с неструктурированности. С точки зрения компьютерной лингвистики, любой текст в формате текстового файла считается неструктурированным представлением информации. Вы можете возразить и сказать, что как же, возьмем научные статьи, вот название, авторы, оглавление, введение, главы, подглавы и пр. Разумеется, это абсолютно верное замечание, однако для компьютера все содержимое текстового файла представляет собой просто последовательный набор закодированных символов, которые никак друг с другом не связаны. Задача компьютерного лингвиста - написать программы, которые позволят компьютеру распознавать взаимосвязи между комбинациями закодированных символов. Т.е. компьютерный лингвист на базе текстовых коллекций создает онтологию - упорядоченную структуру данных.

 

-       Пожалуйста, приведите пример.

-       Допустим, у нас есть текст из одного предложения: “Лекарство Х помогает от кашля”. Предположим, что перед нами стоит задача поиска информации об эффективности препаратов: в этом случае такое предложение является “значимым”, и мы захотим его “извлечь”. Для этого мы пишем программы, которые будут, во-первых, выделять комбинации символов, обозначающих, в частности, “лекарство Х” как препарат, “помогает” как положительное действие и “кашель” как цель положительного действия. Во-вторых, наши программы должны соединять выделяемые объекты между собой с помощью специальных связей. В нашем случае создается граф с двумя вершинами: препарат (“лекарство Х”) и цель (“кашель”), соединенные ребром “помогает”. Этот граф уже является мини-онтологией, пригодной для дальнейшей компьютерной обработки и вычислений. Разумеется, этот пример описан максимально схематично, т.к. не были упомянуты этапы обработки текста, связанные с выделением морфологических и синтаксических признаков, без которых описанный выше процесс не представляется возможным. 

 

-       Как вообще формулируются задачи для компьютерных лингвистов?

-       Разумеется, вопросы и задачи полностью зависят от того, с каким материалом приходится работать. Если говорить об анализе социальных сетей и медицинских форумов, то задачи могут быть следующими: понять, каковы причины наличия/отсутствия приверженности у пациентов? помогает ли людям какой-то конкретный препарат? Если не помогает, то почему? Какие побочные эффекты раздражают людей больше всего? Какие противопоказания к применению какого-либо препарата у определенного сегмента пациентов? Жалуются ли люди на то, что лекарство трудно достать или купить? Каких специалистов в первую очередь посещают пациенты с тем или иным заболеванием? Склонны ли люди менять один препарат на другой, и если да, то почему? Разумеется, это далеко не полный перечень возможных вопросов, ответы на которые мы можем дать нашим заказчикам.

 

-       Получается, чтобы писать эти “извлекающие программы”, компьютерным лингвистам необходимо хорошо разбираться в медицине?

-       Перед тем, как приступить к новому проекту, наши аналитики и медицинские специалисты помогают нам разобраться в предметной области предстоящей работы и подробно останавливаются на ключевых аспектах. В результате лингвист, который, например, работает с симптомами какого-либо заболевания, может похвастаться тем, что детально разбирается в этом вопросе. Хотя, на самом деле, нам не обязательно досконально знать, о чем говорят люди - самое главное, мы хорошо разбираемся в том, как они об этом говорят. Тем более, в конечном счете, наши решения ни в коем случае не заменяют экспертов заказчика, а лишь являются для них инструментом.

 

-       Действительно ли Вы так уверены, что разбираетесь в том, как люди говорят и пишут? Ведь каждый человек уникален в своей манере письма и речи... 

-       Безусловно, это так. Но согласитесь, что в манере письма и речи между носителями, например, русского языка, намного больше общего, чем различий. В противном случае лингвистика как наука вряд ли бы вообще могла существовать. Если мы пишем вопрос, с большой вероятностью закончим свое предложение вопросительным знаком или используем специальные слова. Если хотим сказать, что у нас что-то болит, то, скорее всего, используем слово “болеть” или его синонимы. Кроме того, обычно перед началом работы с новым массивом текстов мы составляем статистический портрет используемых слов и выражений, что позволяет нам понять общую “лингвистическую картину мира”, в котором нам предстоит работать. 

 

-       А как быть с устойчивыми конструкциями, нарушающими правила русского языка, но которые активно используются людьми? В первую очередь я имею в виду сленг.

-       Это прекрасный вопрос с учетом того, что мы постоянно сталкиваемся с интересными сленговыми выражениями. У нас даже была идея начать собирать коллекцию из “золотых цитат”! Если серьезно, то большинство сленговых конструкций нам удается оперативно выявить и учитывать при создании программ. Один из ярких примеров - это разнообразие в написании слова “флюорография” - практически никто не пишет это слово целиком, однако такие слова, как “флюр(к)а”, “флюха”, “флюш(к)а” встречаются регулярно. Иногда они сопровождаются специальными для такого случая глаголами: на одном форуме мы столкнулись с фразой “ХОБЛ палится флюшкой”, и с тех пор это стало нашим внутренним мемом. Но этот пример хотя бы интуитивно понятен. А что, по Вашему мнению, означает такая фраза: “Угли стараюсь набирать не менее 450”?

 

-       Без понятия, но вряд ли речь про угли из костра.

-       Совершенно верно. “Угли” в таком контексте - это сокращение от слова углеводы. Этот и множество других подобных случаев приходится учитывать при создании наших программ по извлечению информации.

 

-       Вы работаете с публикациями в социальных сетях, где уровень грамотности людей может серьезно различаться… Как Вы справляетесь с этим?

-       Очень хороший вопрос. На самом деле, орфографические ошибки, разного рода опечатки, лишние пробелы между словами или их отсутствие являются одной из наших основных “головных болей”. Однако не стоит думать, что компьютерные лингвисты не изобрели ни единого способа решить эту проблему: существует большое количество программ, исправляющих ошибки в словах (т.н. спеллчекеры). Основной проблемой является тот факт, что даже самые продвинутые спеллчекеры не предназначены для текстов из специфических предметных областей, в частности, медицины и фармакологии. Мы же не хотим, чтобы наши программы воспринимали, например, названия препаратов как какие-то более общие слова, написанные с ошибками, и “исправляли” их. Поэтому нам приходится прибегать к разного рода лингвистическим трюкам и ухищрениям – в этом, в частности, ноу-хау наших программ.

 

-       Орфографические и грамматические ошибки, сленг - это те трудности Вашей работы, которые, скажем так, “лежат на поверхности”. А можете поделиться еще какой-нибудь не очевидной для стороннего взгляда трудностью/особенностью работы с контентом в Интернете?

-       Да, конечно. Уникальной особенностью материала социальных сетей и форумов является свободная манера подачи информации. Это приводит к тому, что зачастую важная информация оказывается “растворенной” в повествовании пациента. Приведу пример. Предположим, мы хотим узнать, сколько дней люди проводят на больничном после какой-либо операции. Конечно, есть ярко выраженные “индикаторы”, такие как выражения “взял больничный”, “не ходил на работу”, “был дома”. Но они работают только в тех случаях, когда пациент захотел явно указать этот факт. Тем не менее, это происходит далеко не всегда, поэтому приходится также искать косвенные признаки продолжительности недееспособности: например, такие неочевидные фразы как “снял бинты только через N дней” или “дочь ухаживала за мной неделю”. Такие выражения в нашем понимании будут иметь меньший “коэффициент достоверности”, чем явное указание на больничный, но они также говорят о том, что пациент не ходил на работу. И тут необходимо сделать важное замечание: описанный сейчас пример не является случаем редкой синонимии (одно выражение/понятие под разными именами), это именно “завуалированность”, т.е. мы получаем целевую информацию там, где пациент писал вообще о чем-то другом.

     

-       До этого момента мы говорили о Вашей работе, подразумевая обработку текстов на русском языке. А с какими еще языками работают в Semantic Hub?

-       В данный момент проектов на материале русского языка у нас больше всего, это правда. Однако мы также работаем с английским, китайским и другими языками.

 

-       Как Вы оцениваете, скажем так, степень достоверности текстов, с которыми Вам приходится работать? И что Вы вообще можете сказать о качестве и ценности получаемой методами компьютерной лингвистики информации?

-       Конечно, у нас нет и никогда не будет способа проверить, правду ли пишет о себе или о своих близких человек в сети. Даже научные статьи далеко не всегда доступны для факт-чекинга. А если и доступны, то невозможно проверять каждую отдельную статью, когда у Вас, например, корпус из миллиона текстов. Поэтому мы исходим из предположения, что люди, в большинстве своем, пишут правду. В конце концов, если человек нашел время и мотивацию писать о своем здоровье (или о здоровье близких) на форуме или в онлайн-консультации со специалистами, то, скорее всего, его действительно что-то беспокоит. Вряд ли это такой изощренный способ досуга, верно? Впрочем, для отсева откровенно «подставных» материалов есть свои методы, т.к. такие тексты соответствуют другим «паттернам» подачи информации. Наш опыт показывает, что чем более сложным, жизнеугрожающим является заболевание (например, онкология), тем более ценные сведения можно найти в сообщениях пациентов и их близких. Они вынуждены становиться экспертами в своем заболевании, пишут много и откровенно о своих реальных историях. 

-       Кроме того, уже было несколько раз упомянуто, что наша работа - это текстовая разновидность Big Data. Это подразумевает, что мы ищем статистически значимые закономерности: каждый отдельный текст не представляет ценности и не может быть источником для общих выводов  (по крайней мере, чаще всего, есть и исключения!). Но если мы обнаруживаем какой-либо факт, который повторяется сотни, тысячи раз, то мы имеем основания говорить о его правдоподобности. Разумеется, формально наши методы и выводы не выходят за рамки текстовой коллекции, с которой нам пришлось работать. Компьютерная лингвистика никогда не доберется до информации о людях, которые ничего не публикуют в Интернете. Тем не менее, если мы обнаружили какую-либо закономерность на ста тысячах публикаций в сети, скорее всего, эта закономерность прослеживается и среди тех, кто ничего нигде не публиковал. Конечно, мы никогда не забываем о специфике и мотивации людей, публикующих информацию в Интернете. Приведу такой пример: наш опыт показывает, что общее количество негативных отзывов о препаратах или лечении всегда преобладает над количеством положительных оценок. Это связано не с тем, что большинство препаратов или методов лечения неэффективны, а с тем, что в случае положительного опыта у людей нет необходимости сообщать где-либо об этом. И наоборот, если Ваша проблема не была решена, то Вы с большей вероятностью “пойдете в Интернет” писать об этом и искать пути решения Вашей проблемы. Поэтому мы всегда в наших выводах делаем поправку на такие вещи. 

Главным же, на наш взгляд, является то, что люди просят в интернете о помощи, они рассказывают о своих нерешенных проблемах – а значит, мы должны помочь медицинским организациям и фармкомпаниям помочь этим людям. И в этой области мы всегда рады сотрудничеству с медицинскими специалистами и благодарны им за возможность обратиться к их опыту и экспертизе. По нашему мнению, искусственный интеллект никогда не сможет заменить высококвалифицированных специалистов, его задача – работать с ними в синергии.


Поделитесь новостью в социальных сетях

Предыдущая новость Следующая новость
Наши партнеры
Boehringer
Jonson&Jonson
Verteks
Valeant
Teva
Takeda
Soteks
Shtada
Servier
Sanofi
Sandoz
Pharmstandart
Pfizer
 OTC Pharm
Lilly
KRKA
Ipsen
Gerofarm
Egis
Dr. Reddis
Зарегистрируйтесь сейчас и получите доступ к полезным сервисам:
  • Загрузка полнотекстовых версий журналов (PDF)
  • Актуальные новости медицины
  • Список избранных статей по Вашей специальности
  • Анонсы конференций и многое другое

С нами уже 50 000 врачей из различных областей.
Присоединяйтесь!
Если Вы врач, ответьте на вопрос:
Дисфагия это:
Нажимая зарегистрироваться я даю согласие на обработку моих персональных данных
Если Вы уже зарегистрированы на сайте, введите свои данные:
Войти
Забыли пароль?
Забыли пароль?