ИИ в здравоохранении: где взять данные?

Волна инвестиций в искусственный интеллект (ИИ) продолжает расти. Согласно аналитическому отчету CB Insights, стартапы в сфере ИИ по итогам второго квартала 2021 года привлекли более $20 млрд. Лидирует по числу сделок (16,8%) здравоохранение, оно же занимает второе место по объему инвестиций (13,82%). За первое полугодие 2021 года в ИИ для здравоохранения было суммарно инвестировано $5,27 млрд, незначительно больше лишь у транспорта и логистики. Рост наблюдается седьмой квартал подряд, а суммарный объем финансирования ИИ в медицине превысил $34,7 млрд.

От эйфории к разочарованию

Тем не менее в последние месяцы темп инвестиций в «медицинский» ИИ несколько снижается. Причина этого — ряд скандалов, связанных с низкой эффективностью профинансированных разработок. Самым масштабным разочарованием рынка стал Epic Systems — крупнейший американский разработчик систем ведения электронных медицинских карт: в его базах хранится информация о 180 млн пациентов США (56% населения). Компания запатентовала 20 алгоритмов ИИ, предназначенных для выявления различных заболеваний и прогнозирования продолжительности пребывания в больнице.

Недавно группа независимых исследователей изучила результаты работы модели прогнозирования сепсиса Epic (ESM) в реальной клинической практике. Результаты шокировали как медицинское, так и инвестиционное сообщество:

Чувствительность модели, то есть умение выявлять патологии при их наличии, составила 33%. Если бы диагностику полностью доверили Epic (ESM), 67 пациентов из 100 не получили бы должного лечения.
Точность модели составила 12%. Только 843 из 6971 предупреждения системы о наличии сепсиса были правильными. 88% людей были назначены ненужные им исследования и анализы.

Как ИИ «провалил» Covid-аналитику

Все больше приходит отчетов и о том, что фиаско потерпели ИИ-инструменты, нацеленные на противодействие Covid-19. Согласно отчетам The Alan Turing Institute, British Medical Journal, MIT TechnologyReview и других аналитических центров, ИИ-инструменты практически не сыграли никакой роли в борьбе с новым коронавирусом. Ни один из них не пригоден для клинического использования. Вот только несколько примеров ошибочного поведения ИИ:

Делались снимки здоровой грудной клетки детей в качестве примеров того, как выглядят случаи не-ковида. В результате ИИ научился классифицировать не ковид, а детей.
Делались снимки тяжелых пациентов в лежачем положении. В результате ИИ научился неправильно предсказывать серьезность риска коронавируса по положению (если пациент стоял, серьезность поражение лёгких ИИ мог просто проигнорировать).
ИИ научился ориентироваться на шрифт, используемый разными больницами для текста маркировки изображений. Шрифты из больниц с большим количеством ковид-пациентов стали фактором риска заражения коронавирусом.

Что мешает ИИ работать эффективно

И хотя каждый из этих примеров — довольно «узкий» случай, все они иллюстрируют основную проблему внедрения ИИ в любых сферах здравоохранения: низкое качество данных. Неполные, недостоверные данные, данные из нескольких источников, которые содержат дубликаты, и т.д. — все это ведет к критическим ошибкам, которые могут негативно повлиять на качество диагностики.

При этом правильно работающий ИИ может не только существенно облегчить работу врача, давая общие рекомендации по клинической картине, но и выявлять потенциально опасные состояния, а значит — сохранять жизни. Он также способен экономить бюджет, определяя патологии на ранних стадиях, не требующих дорогостоящего лечения. Это жизненно необходимая технология, которая стоит на повестке дня многих стран, включая Россию. В соответствии с указами президента, до 1 октября 2021 года правительство должно утвердить стратегии цифровой трансформации 11 отраслей экономики. Здравоохранение входит в их число.

Как государству не нарваться на разработки «пустышек»?

Для этого нужно выполнить два условия. Первое — предоставить медучреждениям и другим заинтересованным организациям централизованный доступ к накопленному массиву структурированных данных для тестирования гипотез и различных ИИ-инструментов. Второе — обеспечить полноту и качество наборов данных (дата-сетов).

Выполнить первое условие можно, если создать единого государственного оператора — организацию, уполномоченную управлять наборами данных и заключать соглашения с потенциальными потребителями на доступ к ним. На рынке идея обсуждается уже давно; есть основания полагать, что в ближайшее время такой оператор может появиться в формате автономной некоммерческой организации (АНО), учрежденной одним из федеральных министерств.

Решить вторую задачу намного сложнее, тем более в государстве, где в половине субъектов только-только внедряются электронные медкарты. Где взять актуальную информацию о здоровье населения? Как подготовить из нее корректные наборы данных?

Сложности перевода

Наиболее актуальный «срез» информации о здоровье населения сейчас — это сведения о пациентах, попадающих в стационар, и сведения по результатам диспансеризаций. Все эти данные лечащие врачи фиксируют в выписном документе — эпикризе. Его распечатывают, подписывают и передают в архив (на основании этого документа также выплачивают компенсацию лечения из ФОМС). Массив эпикризов, накопленный за последние 3–5 лет, — самая главная «пища» для нейросетей. Проблема в том, что каждая медицинская организация в лице главврача или заведующих отделениями пишет эпикриз так, как удобно ей. Соблюдается лишь общее расположение блоков в документе — от анамнеза до результатов лечения. Внутри же текст бывает как сухим, так и художественным, с сокращениями и латинскими наименованиями диагнозов, с таблицами и списками результатов обследований. И, аналогично медкнижкам, в эпикризах часто присутствует рукописный текст. А про особенности почерка врачей мы все прекрасно знаем.

Как перевести буквы в «цифру»?

Можно ли в принципе оцифровать такие массивы в строгий формат достоверного набора данных? Согласно практике цифровой трансформации других сфер госуправления — можно.

В декабре 2020 года был сдан Единый государственный реестр (ЕГР) ЗАГС, накапливающий информацию о населении нашей страны. По всей России провели масштабную оцифровку архивов ЗАГС — 2 млрд рукописных полей. Решали эту задачу в том числе с помощью нейросетей, но не только. Обеспечить 100% качества распознавания такого массива исключительно автоматическим путем — идея утопическая. Классифицировать документы, автоматически размечать сложную информацию на изображениях и распознавать рукописный текст с высокой достоверностью можно только при условии совмещения математической и биологической сети. Иными словами, в таких проектах не обойтись без участия человека, который берет на себя функцию проверки неуверенно распознанных документов.

Оцифровку медицинских документов также можно автоматизировать на уровне 60–70% за счет ИИ. Но, как и в случае с ЗАГС, потребуется привлечь людей, которые проверят, разметят и нормируют сложные объекты, например однозначно определят наименования диагнозов и виды исследований по принятому в мире классификатору ОКБ-10. На практике задачу можно решить быстро и эффективно, подключив к программной платформе сеть операторов ввода данных, которые работают удаленно.

Как обеспечить выполнение 152-ФЗ «О персональных данных»?

Чтобы соблюсти закон и избежать утери персональных данных пациентов, нужно обучить программу «вырезать» из картинки документа все сведения, позволяющие идентифицировать человека — фамилию, дату, СНИЛС, — все по-отдельности. Таким образом люди-операторы смогут увидеть и работать только с единичными блоками, а не целыми документами. Это позволит обрабатывать и анализировать медицинскую информацию обезличено и избежать рисков ее утечки.

Готово ли государство провести подобную оцифровку?

Фактически это единственный способ сформировать и проанализировать текущий срез данных о здоровье населения, выявить на его основе патологии и опасные состояния, вовремя среагировать и спасти сотни и тысячи людей. Альтернатива — доводить единые информационные системы до всех медицинских организаций региона и накапливать сведения по единым правилам ведения реестров. Но на это потребуется минимум от 5 до 7 лет.

Мнение, Технологии

ИИ в здравоохранении: где взять данные?

Илья Веригин