28
лет
предоставляем актуальную медицинскую информацию от ведущих специалистов, помогая врачам в ежедневной работе
28
лет
предоставляем актуальную медицинскую информацию от ведущих специалистов, помогая врачам в ежедневной работе
28
лет
предоставляем актуальную медицинскую информацию от ведущих специалистов, помогая врачам в ежедневной работе
Компьютерная лингвистика в медицине
2266
25.04.2019
Интервью с Сергеем Михайловом - старшим лингвистом-разработчиком Semantic Hub

-       В первую очередь, хотелось бы узнать, чем вообще занимаются компьютерные лингвисты?

-       Компьютерные лингвисты - это специалисты в области NLP - Natural Language Processing, т.е. обработке естественного языка (не путать с нейро-лингвистическим программированием!). Сфера компьютерной лингвистики охватывает широкий спектр задач, поэтому перечислю только основные: распознавание и синтез речи, оптическое распознавание символов (OCR), извлечение информации из текстовых коллекций (Information Extraction), создание вопросно-ответных систем (например, чат-ботов), создание электронных словарей, машинный перевод (да-да, Google-переводчик - самое известное “творение” компьютерной лингвистики).

 

-       А как так получилось, что компьютерная лингвистика оказалась востребованной в сфере медицины? 

-       В первую очередь, как бы банально это ни прозвучало, виной всему Интернет, который стал неотъемлемой частью жизни современного общества. В социальных сетях и на форумах можно найти обсуждения практически любой темы, которую можно только вообразить! Разумеется, медицинские темы, связанные с лечением всевозможных заболеваний или ЗОЖ, не стали исключением. Более того, количество людей, публикующих какую-либо информацию о своем здоровье в Интернете, увеличивается с каждым днем, следовательно, ежедневно порождаются огромные массивы новых данных. Кроме того, необходимо упомянуть возникновение и постепенное распространение электронных карт пациентов, а также постоянно растущее число научных медицинских публикаций. Этот список можно продолжать, однако у всех перечисленных источников есть одна общая важная черта: всю ценную информацию, которая “растворена” в этих коллекциях текстов, невозможно собрать и проанализировать “вручную”. Таким образом, суммируя все сказанное, появление в сфере медицины больших объемов неисследованных электронных текстов (т.н. текстовая Big Data) делает возможным применение методов компьютерной лингвистики.

 

-       Чем конкретно занимаются компьютерные лингвисты в Semantic Hub?

-       В нашей компании компьютерные лингвисты, в основном, сосредоточены на задачах извлечения информации. В качестве источников чаще всего используются общедоступные пациентские публикации в социальных сетях, но с одним важным условием: любые данные обязаны быть деперсонализированными. Это закон. Кроме того, наши заказчики нередко предоставляют нам собственные данные для аналитики. Если же Вы попросите описать нашу работу в строгих терминах, то это превращение неструктурированных массивов текстов в структурированные знания.

 

-       Что подразумевается под структурированностью и неструктурированностью в этой формулировке?

-       Начнем с неструктурированности. С точки зрения компьютерной лингвистики, любой текст в формате текстового файла считается неструктурированным представлением информации. Вы можете возразить и сказать, что как же, возьмем научные статьи, вот название, авторы, оглавление, введение, главы, подглавы и пр. Разумеется, это абсолютно верное замечание, однако для компьютера все содержимое текстового файла представляет собой просто последовательный набор закодированных символов, которые никак друг с другом не связаны. Задача компьютерного лингвиста - написать программы, которые позволят компьютеру распознавать взаимосвязи между комбинациями закодированных символов. Т.е. компьютерный лингвист на базе текстовых коллекций создает онтологию - упорядоченную структуру данных.

 

-       Пожалуйста, приведите пример.

-       Допустим, у нас есть текст из одного предложения: “Лекарство Х помогает от кашля”. Предположим, что перед нами стоит задача поиска информации об эффективности препаратов: в этом случае такое предложение является “значимым”, и мы захотим его “извлечь”. Для этого мы пишем программы, которые будут, во-первых, выделять комбинации символов, обозначающих, в частности, “лекарство Х” как препарат, “помогает” как положительное действие и “кашель” как цель положительного действия. Во-вторых, наши программы должны соединять выделяемые объекты между собой с помощью специальных связей. В нашем случае создается граф с двумя вершинами: препарат (“лекарство Х”) и цель (“кашель”), соединенные ребром “помогает”. Этот граф уже является мини-онтологией, пригодной для дальнейшей компьютерной обработки и вычислений. Разумеется, этот пример описан максимально схематично, т.к. не были упомянуты этапы обработки текста, связанные с выделением морфологических и синтаксических признаков, без которых описанный выше процесс не представляется возможным. 

 

-       Как вообще формулируются задачи для компьютерных лингвистов?

-       Разумеется, вопросы и задачи полностью зависят от того, с каким материалом приходится работать. Если говорить об анализе социальных сетей и медицинских форумов, то задачи могут быть следующими: понять, каковы причины наличия/отсутствия приверженности у пациентов? помогает ли людям какой-то конкретный препарат? Если не помогает, то почему? Какие побочные эффекты раздражают людей больше всего? Какие противопоказания к применению какого-либо препарата у определенного сегмента пациентов? Жалуются ли люди на то, что лекарство трудно достать или купить? Каких специалистов в первую очередь посещают пациенты с тем или иным заболеванием? Склонны ли люди менять один препарат на другой, и если да, то почему? Разумеется, это далеко не полный перечень возможных вопросов, ответы на которые мы можем дать нашим заказчикам.

 

-       Получается, чтобы писать эти “извлекающие программы”, компьютерным лингвистам необходимо хорошо разбираться в медицине?

-       Перед тем, как приступить к новому проекту, наши аналитики и медицинские специалисты помогают нам разобраться в предметной области предстоящей работы и подробно останавливаются на ключевых аспектах. В результате лингвист, который, например, работает с симптомами какого-либо заболевания, может похвастаться тем, что детально разбирается в этом вопросе. Хотя, на самом деле, нам не обязательно досконально знать, о чем говорят люди - самое главное, мы хорошо разбираемся в том, как они об этом говорят. Тем более, в конечном счете, наши решения ни в коем случае не заменяют экспертов заказчика, а лишь являются для них инструментом.

 

-       Действительно ли Вы так уверены, что разбираетесь в том, как люди говорят и пишут? Ведь каждый человек уникален в своей манере письма и речи... 

-       Безусловно, это так. Но согласитесь, что в манере письма и речи между носителями, например, русского языка, намного больше общего, чем различий. В противном случае лингвистика как наука вряд ли бы вообще могла существовать. Если мы пишем вопрос, с большой вероятностью закончим свое предложение вопросительным знаком или используем специальные слова. Если хотим сказать, что у нас что-то болит, то, скорее всего, используем слово “болеть” или его синонимы. Кроме того, обычно перед началом работы с новым массивом текстов мы составляем статистический портрет используемых слов и выражений, что позволяет нам понять общую “лингвистическую картину мира”, в котором нам предстоит работать. 

 

-       А как быть с устойчивыми конструкциями, нарушающими правила русского языка, но которые активно используются людьми? В первую очередь я имею в виду сленг.

-       Это прекрасный вопрос с учетом того, что мы постоянно сталкиваемся с интересными сленговыми выражениями. У нас даже была идея начать собирать коллекцию из “золотых цитат”! Если серьезно, то большинство сленговых конструкций нам удается оперативно выявить и учитывать при создании программ. Один из ярких примеров - это разнообразие в написании слова “флюорография” - практически никто не пишет это слово целиком, однако такие слова, как “флюр(к)а”, “флюха”, “флюш(к)а” встречаются регулярно. Иногда они сопровождаются специальными для такого случая глаголами: на одном форуме мы столкнулись с фразой “ХОБЛ палится флюшкой”, и с тех пор это стало нашим внутренним мемом. Но этот пример хотя бы интуитивно понятен. А что, по Вашему мнению, означает такая фраза: “Угли стараюсь набирать не менее 450”?

 

-       Без понятия, но вряд ли речь про угли из костра.

-       Совершенно верно. “Угли” в таком контексте - это сокращение от слова углеводы. Этот и множество других подобных случаев приходится учитывать при создании наших программ по извлечению информации.

 

-       Вы работаете с публикациями в социальных сетях, где уровень грамотности людей может серьезно различаться… Как Вы справляетесь с этим?

-       Очень хороший вопрос. На самом деле, орфографические ошибки, разного рода опечатки, лишние пробелы между словами или их отсутствие являются одной из наших основных “головных болей”. Однако не стоит думать, что компьютерные лингвисты не изобрели ни единого способа решить эту проблему: существует большое количество программ, исправляющих ошибки в словах (т.н. спеллчекеры). Основной проблемой является тот факт, что даже самые продвинутые спеллчекеры не предназначены для текстов из специфических предметных областей, в частности, медицины и фармакологии. Мы же не хотим, чтобы наши программы воспринимали, например, названия препаратов как какие-то более общие слова, написанные с ошибками, и “исправляли” их. Поэтому нам приходится прибегать к разного рода лингвистическим трюкам и ухищрениям – в этом, в частности, ноу-хау наших программ.

 

-       Орфографические и грамматические ошибки, сленг - это те трудности Вашей работы, которые, скажем так, “лежат на поверхности”. А можете поделиться еще какой-нибудь не очевидной для стороннего взгляда трудностью/особенностью работы с контентом в Интернете?

-       Да, конечно. Уникальной особенностью материала социальных сетей и форумов является свободная манера подачи информации. Это приводит к тому, что зачастую важная информация оказывается “растворенной” в повествовании пациента. Приведу пример. Предположим, мы хотим узнать, сколько дней люди проводят на больничном после какой-либо операции. Конечно, есть ярко выраженные “индикаторы”, такие как выражения “взял больничный”, “не ходил на работу”, “был дома”. Но они работают только в тех случаях, когда пациент захотел явно указать этот факт. Тем не менее, это происходит далеко не всегда, поэтому приходится также искать косвенные признаки продолжительности недееспособности: например, такие неочевидные фразы как “снял бинты только через N дней” или “дочь ухаживала за мной неделю”. Такие выражения в нашем понимании будут иметь меньший “коэффициент достоверности”, чем явное указание на больничный, но они также говорят о том, что пациент не ходил на работу. И тут необходимо сделать важное замечание: описанный сейчас пример не является случаем редкой синонимии (одно выражение/понятие под разными именами), это именно “завуалированность”, т.е. мы получаем целевую информацию там, где пациент писал вообще о чем-то другом.

     

-       До этого момента мы говорили о Вашей работе, подразумевая обработку текстов на русском языке. А с какими еще языками работают в Semantic Hub?

-       В данный момент проектов на материале русского языка у нас больше всего, это правда. Однако мы также работаем с английским, китайским и другими языками.

 

-       Как Вы оцениваете, скажем так, степень достоверности текстов, с которыми Вам приходится работать? И что Вы вообще можете сказать о качестве и ценности получаемой методами компьютерной лингвистики информации?

-       Конечно, у нас нет и никогда не будет способа проверить, правду ли пишет о себе или о своих близких человек в сети. Даже научные статьи далеко не всегда доступны для факт-чекинга. А если и доступны, то невозможно проверять каждую отдельную статью, когда у Вас, например, корпус из миллиона текстов. Поэтому мы исходим из предположения, что люди, в большинстве своем, пишут правду. В конце концов, если человек нашел время и мотивацию писать о своем здоровье (или о здоровье близких) на форуме или в онлайн-консультации со специалистами, то, скорее всего, его действительно что-то беспокоит. Вряд ли это такой изощренный способ досуга, верно? Впрочем, для отсева откровенно «подставных» материалов есть свои методы, т.к. такие тексты соответствуют другим «паттернам» подачи информации. Наш опыт показывает, что чем более сложным, жизнеугрожающим является заболевание (например, онкология), тем более ценные сведения можно найти в сообщениях пациентов и их близких. Они вынуждены становиться экспертами в своем заболевании, пишут много и откровенно о своих реальных историях. 

-       Кроме того, уже было несколько раз упомянуто, что наша работа - это текстовая разновидность Big Data. Это подразумевает, что мы ищем статистически значимые закономерности: каждый отдельный текст не представляет ценности и не может быть источником для общих выводов  (по крайней мере, чаще всего, есть и исключения!). Но если мы обнаруживаем какой-либо факт, который повторяется сотни, тысячи раз, то мы имеем основания говорить о его правдоподобности. Разумеется, формально наши методы и выводы не выходят за рамки текстовой коллекции, с которой нам пришлось работать. Компьютерная лингвистика никогда не доберется до информации о людях, которые ничего не публикуют в Интернете. Тем не менее, если мы обнаружили какую-либо закономерность на ста тысячах публикаций в сети, скорее всего, эта закономерность прослеживается и среди тех, кто ничего нигде не публиковал. Конечно, мы никогда не забываем о специфике и мотивации людей, публикующих информацию в Интернете. Приведу такой пример: наш опыт показывает, что общее количество негативных отзывов о препаратах или лечении всегда преобладает над количеством положительных оценок. Это связано не с тем, что большинство препаратов или методов лечения неэффективны, а с тем, что в случае положительного опыта у людей нет необходимости сообщать где-либо об этом. И наоборот, если Ваша проблема не была решена, то Вы с большей вероятностью “пойдете в Интернет” писать об этом и искать пути решения Вашей проблемы. Поэтому мы всегда в наших выводах делаем поправку на такие вещи. 

Главным же, на наш взгляд, является то, что люди просят в интернете о помощи, они рассказывают о своих нерешенных проблемах – а значит, мы должны помочь медицинским организациям и фармкомпаниям помочь этим людям. И в этой области мы всегда рады сотрудничеству с медицинскими специалистами и благодарны им за возможность обратиться к их опыту и экспертизе. По нашему мнению, искусственный интеллект никогда не сможет заменить высококвалифицированных специалистов, его задача – работать с ними в синергии.


Последние новости
25.03.2022
Обновлены рекомендации по профилактике инсульта
Американская академия неврологии обновила рекомендации по профилактике инсульта при внутричерепном атеросклерозе крупных сосудов. Предпочтение отдается медикаментозной терапии и повышению физической активности, оперативное вмешательство в качестве начального метода ведения пациентов рассматривается в ограниченом количестве случаев.
1941
Новости/Конференции
Все новости
Новости/Конференции
Все новости
Ближайшие конференции
Все мероприятия

Данный информационный сайт предназначен исключительно для медицинских, фармацевтических и иных работников системы здравоохранения.
Вся информация сайта www.rmj.ru (далее — Информация) может быть доступна исключительно для специалистов системы здравоохранения. В связи с этим для доступа к такой Информации от Вас требуется подтверждение Вашего статуса и факта наличия у Вас профессионального медицинского образования, а также того, что Вы являетесь действующим медицинским, фармацевтическим работником или иным соответствующим профессионалом, обладающим соответствующими знаниями и навыками в области медицины, фармацевтики, диагностики и здравоохранения РФ. Информация, содержащаяся на настоящем сайте, предназначена исключительно для ознакомления, носит научно-информационный характер и не должна расцениваться в качестве Информации рекламного характера для широкого круга лиц.

Информация не должна быть использована для замены непосредственной консультации с врачом и для принятия решения о применении продукции самостоятельно.

На основании вышесказанного, пожалуйста, подтвердите, что Вы являетесь действующим медицинским или фармацевтическим работником, либо иным работником системы здравоохранения.

Читать дальше