ENG

Перейти в Дзен
Мнение, Технологии

ИИ в здравоохранении: где взять данные?

Илья Веригин

Илья Веригин

Директор по работе с государственными заказчиками компании «Биорг»

Волна инвестиций в искусственный интеллект (ИИ) продолжает расти. Согласно аналитическому отчету CB Insights, стартапы в сфере ИИ по итогам второго квартала 2021 года привлекли более $20 млрд. Лидирует по числу сделок (16,8%) здравоохранение, оно же занимает второе место по объему инвестиций (13,82%). За первое полугодие 2021 года в ИИ для здравоохранения было суммарно инвестировано $5,27 млрд, незначительно больше лишь у транспорта и логистики. Рост наблюдается седьмой квартал подряд, а суммарный объем финансирования ИИ в медицине превысил $34,7 млрд.

Фото: depositphotos.com
Фото: depositphotos.com

От эйфории к разочарованию

Тем не менее в последние месяцы темп инвестиций в «медицинский» ИИ несколько снижается. Причина этого — ряд скандалов, связанных с низкой эффективностью профинансированных разработок. Самым масштабным разочарованием рынка стал Epic Systems — крупнейший американский разработчик систем ведения электронных медицинских карт: в его базах хранится информация о 180 млн пациентов США (56% населения). Компания запатентовала 20 алгоритмов ИИ, предназначенных для выявления различных заболеваний и прогнозирования продолжительности пребывания в больнице.

Недавно группа независимых исследователей изучила результаты работы модели прогнозирования сепсиса Epic (ESM) в реальной клинической практике. Результаты шокировали как медицинское, так и инвестиционное сообщество:

  • Чувствительность модели, то есть умение выявлять патологии при их наличии, составила 33%. Если бы диагностику полностью доверили Epic (ESM), 67 пациентов из 100 не получили бы должного лечения.
  • Точность модели составила 12%. Только 843 из 6971 предупреждения системы о наличии сепсиса были правильными. 88% людей были назначены ненужные им исследования и анализы.

Как ИИ «провалил» Covid-аналитику

Все больше приходит отчетов и о том, что фиаско потерпели ИИ-инструменты, нацеленные на противодействие Covid-19. Согласно отчетам The Alan Turing Institute, British Medical Journal, MIT TechnologyReview и других аналитических центров, ИИ-инструменты практически не сыграли никакой роли в борьбе с новым коронавирусом. Ни один из них не пригоден для клинического использования. Вот только несколько примеров ошибочного поведения ИИ:

  • Делались снимки здоровой грудной клетки детей в качестве примеров того, как выглядят случаи не-ковида. В результате ИИ научился классифицировать не ковид, а детей.
  • Делались снимки тяжелых пациентов в лежачем положении. В результате ИИ научился неправильно предсказывать серьезность риска коронавируса по положению (если пациент стоял, серьезность поражение лёгких ИИ мог просто проигнорировать).
  • ИИ научился ориентироваться на шрифт, используемый разными больницами для текста маркировки изображений. Шрифты из больниц с большим количеством ковид-пациентов стали фактором риска заражения коронавирусом.

Что мешает ИИ работать эффективно

И хотя каждый из этих примеров — довольно «узкий» случай, все они иллюстрируют основную проблему внедрения ИИ в любых сферах здравоохранения: низкое качество данных. Неполные, недостоверные данные, данные из нескольких источников, которые содержат дубликаты, и т.д. — все это ведет к критическим ошибкам, которые могут негативно повлиять на качество диагностики.

При этом правильно работающий ИИ может не только существенно облегчить работу врача, давая общие рекомендации по клинической картине, но и выявлять потенциально опасные состояния, а значит — сохранять жизни. Он также способен экономить бюджет, определяя патологии на ранних стадиях, не требующих дорогостоящего лечения. Это жизненно необходимая технология, которая стоит на повестке дня многих стран, включая Россию. В соответствии с указами президента, до 1 октября 2021 года правительство должно утвердить стратегии цифровой трансформации 11 отраслей экономики. Здравоохранение входит в их число.

Как государству не нарваться на разработки «пустышек»? 

Для этого нужно выполнить два условия. Первое — предоставить медучреждениям и другим заинтересованным организациям централизованный доступ к накопленному массиву структурированных данных для тестирования гипотез и различных ИИ-инструментов. Второе — обеспечить полноту и качество наборов данных (дата-сетов).

Выполнить первое условие можно, если создать единого государственного оператора — организацию, уполномоченную управлять наборами данных и заключать соглашения с потенциальными потребителями на доступ к ним. На рынке идея обсуждается уже давно; есть основания полагать, что в ближайшее время такой оператор может появиться в формате автономной некоммерческой организации (АНО), учрежденной одним из федеральных министерств.

Решить вторую задачу намного сложнее, тем более в государстве, где в половине субъектов только-только внедряются электронные медкарты. Где взять актуальную информацию о здоровье населения? Как подготовить из нее корректные наборы данных?

Сложности перевода

Наиболее актуальный «срез» информации о здоровье населения сейчас — это сведения о пациентах, попадающих в стационар, и сведения по результатам диспансеризаций. Все эти данные лечащие врачи фиксируют в выписном документе — эпикризе. Его распечатывают, подписывают и передают в архив (на основании этого документа также выплачивают компенсацию лечения из ФОМС). Массив эпикризов, накопленный за последние 3–5 лет, — самая главная «пища» для нейросетей. Проблема в том, что каждая медицинская организация в лице главврача или заведующих отделениями пишет эпикриз так, как удобно ей. Соблюдается лишь общее расположение блоков в документе — от анамнеза до результатов лечения. Внутри же текст бывает как сухим, так и художественным, с сокращениями и латинскими наименованиями диагнозов, с таблицами и списками результатов обследований. И, аналогично медкнижкам, в эпикризах часто присутствует рукописный текст. А про особенности почерка врачей мы все прекрасно знаем.

Как перевести буквы в «цифру»?

Можно ли в принципе оцифровать такие массивы в строгий формат достоверного набора данных? Согласно практике цифровой трансформации других сфер госуправления — можно.

В декабре 2020 года был сдан Единый государственный реестр (ЕГР) ЗАГС, накапливающий информацию о населении нашей страны. По всей России провели масштабную оцифровку архивов ЗАГС — 2 млрд рукописных полей. Решали эту задачу в том числе с помощью нейросетей, но не только. Обеспечить 100% качества распознавания такого массива исключительно автоматическим путем — идея утопическая. Классифицировать документы, автоматически размечать сложную информацию на изображениях и распознавать рукописный текст с высокой достоверностью можно только при условии совмещения математической и биологической сети. Иными словами, в таких проектах не обойтись без участия человека, который берет на себя функцию проверки неуверенно распознанных документов.

Оцифровку медицинских документов также можно автоматизировать на уровне 60–70% за счет ИИ. Но, как и в случае с ЗАГС, потребуется привлечь людей, которые проверят, разметят и нормируют сложные объекты, например однозначно определят наименования диагнозов и виды исследований по принятому в мире классификатору ОКБ-10. На практике задачу можно решить быстро и эффективно, подключив к программной платформе сеть операторов ввода данных, которые работают удаленно.

Как обеспечить выполнение 152-ФЗ «О персональных данных»? 

Чтобы соблюсти закон и избежать утери персональных данных пациентов, нужно обучить программу «вырезать» из картинки документа все сведения, позволяющие идентифицировать человека — фамилию, дату, СНИЛС, — все по-отдельности. Таким образом люди-операторы смогут увидеть и работать только с единичными блоками, а не целыми документами. Это позволит обрабатывать и анализировать медицинскую информацию обезличено и избежать рисков ее утечки.

Готово ли государство провести подобную оцифровку? 

Фактически это единственный способ сформировать и проанализировать текущий срез данных о здоровье населения, выявить на его основе патологии и опасные состояния, вовремя среагировать и спасти сотни и тысячи людей. Альтернатива — доводить единые информационные системы до всех медицинских организаций региона и накапливать сведения по единым правилам ведения реестров. Но на это потребуется минимум от 5 до 7 лет.

Следите за нашими новостями в удобном формате
Перейти в Дзен

Предыдущая статьяСледующая статья