Волна инвестиций в искусственный интеллект (ИИ) продолжает расти. Согласно аналитическому отчету CB Insights, стартапы в сфере ИИ по итогам второго квартала 2021 года привлекли более $20 млрд. Лидирует по числу сделок (16,8%) здравоохранение, оно же занимает второе место по объему инвестиций (13,82%). За первое полугодие 2021 года в ИИ для здравоохранения было суммарно инвестировано $5,27 млрд, незначительно больше лишь у транспорта и логистики. Рост наблюдается седьмой квартал подряд, а суммарный объем финансирования ИИ в медицине превысил $34,7 млрд.
От эйфории к разочарованию
Тем не менее в последние месяцы темп инвестиций в «медицинский» ИИ несколько снижается. Причина этого — ряд скандалов, связанных с низкой эффективностью профинансированных разработок. Самым масштабным разочарованием рынка стал Epic Systems — крупнейший американский разработчик систем ведения электронных медицинских карт: в его базах хранится информация о 180 млн пациентов США (56% населения). Компания запатентовала 20 алгоритмов ИИ, предназначенных для выявления различных заболеваний и прогнозирования продолжительности пребывания в больнице.
Недавно группа независимых исследователей изучила результаты работы модели прогнозирования сепсиса Epic (ESM) в реальной клинической практике. Результаты шокировали как медицинское, так и инвестиционное сообщество:
- Чувствительность модели, то есть умение выявлять патологии при их наличии, составила 33%. Если бы диагностику полностью доверили Epic (ESM), 67 пациентов из 100 не получили бы должного лечения.
- Точность модели составила 12%. Только 843 из 6971 предупреждения системы о наличии сепсиса были правильными. 88% людей были назначены ненужные им исследования и анализы.
Как ИИ «провалил» Covid-аналитику
Все больше приходит отчетов и о том, что фиаско потерпели ИИ-инструменты, нацеленные на противодействие Covid-19. Согласно отчетам The Alan Turing Institute, British Medical Journal, MIT TechnologyReview и других аналитических центров, ИИ-инструменты практически не сыграли никакой роли в борьбе с новым коронавирусом. Ни один из них не пригоден для клинического использования. Вот только несколько примеров ошибочного поведения ИИ:
- Делались снимки здоровой грудной клетки детей в качестве примеров того, как выглядят случаи не-ковида. В результате ИИ научился классифицировать не ковид, а детей.
- Делались снимки тяжелых пациентов в лежачем положении. В результате ИИ научился неправильно предсказывать серьезность риска коронавируса по положению (если пациент стоял, серьезность поражение лёгких ИИ мог просто проигнорировать).
- ИИ научился ориентироваться на шрифт, используемый разными больницами для текста маркировки изображений. Шрифты из больниц с большим количеством ковид-пациентов стали фактором риска заражения коронавирусом.
Что мешает ИИ работать эффективно
И хотя каждый из этих примеров — довольно «узкий» случай, все они иллюстрируют основную проблему внедрения ИИ в любых сферах здравоохранения: низкое качество данных. Неполные, недостоверные данные, данные из нескольких источников, которые содержат дубликаты, и т.д. — все это ведет к критическим ошибкам, которые могут негативно повлиять на качество диагностики.
При этом правильно работающий ИИ может не только существенно облегчить работу врача, давая общие рекомендации по клинической картине, но и выявлять потенциально опасные состояния, а значит — сохранять жизни. Он также способен экономить бюджет, определяя патологии на ранних стадиях, не требующих дорогостоящего лечения. Это жизненно необходимая технология, которая стоит на повестке дня многих стран, включая Россию. В соответствии с указами президента, до 1 октября 2021 года правительство должно утвердить стратегии цифровой трансформации 11 отраслей экономики. Здравоохранение входит в их число.
Как государству не нарваться на разработки «пустышек»?
Для этого нужно выполнить два условия. Первое — предоставить медучреждениям и другим заинтересованным организациям централизованный доступ к накопленному массиву структурированных данных для тестирования гипотез и различных ИИ-инструментов. Второе — обеспечить полноту и качество наборов данных (дата-сетов).
Выполнить первое условие можно, если создать единого государственного оператора — организацию, уполномоченную управлять наборами данных и заключать соглашения с потенциальными потребителями на доступ к ним. На рынке идея обсуждается уже давно; есть основания полагать, что в ближайшее время такой оператор может появиться в формате автономной некоммерческой организации (АНО), учрежденной одним из федеральных министерств.
Решить вторую задачу намного сложнее, тем более в государстве, где в половине субъектов только-только внедряются электронные медкарты. Где взять актуальную информацию о здоровье населения? Как подготовить из нее корректные наборы данных?
Сложности перевода
Наиболее актуальный «срез» информации о здоровье населения сейчас — это сведения о пациентах, попадающих в стационар, и сведения по результатам диспансеризаций. Все эти данные лечащие врачи фиксируют в выписном документе — эпикризе. Его распечатывают, подписывают и передают в архив (на основании этого документа также выплачивают компенсацию лечения из ФОМС). Массив эпикризов, накопленный за последние 3–5 лет, — самая главная «пища» для нейросетей. Проблема в том, что каждая медицинская организация в лице главврача или заведующих отделениями пишет эпикриз так, как удобно ей. Соблюдается лишь общее расположение блоков в документе — от анамнеза до результатов лечения. Внутри же текст бывает как сухим, так и художественным, с сокращениями и латинскими наименованиями диагнозов, с таблицами и списками результатов обследований. И, аналогично медкнижкам, в эпикризах часто присутствует рукописный текст. А про особенности почерка врачей мы все прекрасно знаем.
Как перевести буквы в «цифру»?
Можно ли в принципе оцифровать такие массивы в строгий формат достоверного набора данных? Согласно практике цифровой трансформации других сфер госуправления — можно.
В декабре 2020 года был сдан Единый государственный реестр (ЕГР) ЗАГС, накапливающий информацию о населении нашей страны. По всей России провели масштабную оцифровку архивов ЗАГС — 2 млрд рукописных полей. Решали эту задачу в том числе с помощью нейросетей, но не только. Обеспечить 100% качества распознавания такого массива исключительно автоматическим путем — идея утопическая. Классифицировать документы, автоматически размечать сложную информацию на изображениях и распознавать рукописный текст с высокой достоверностью можно только при условии совмещения математической и биологической сети. Иными словами, в таких проектах не обойтись без участия человека, который берет на себя функцию проверки неуверенно распознанных документов.
Оцифровку медицинских документов также можно автоматизировать на уровне 60–70% за счет ИИ. Но, как и в случае с ЗАГС, потребуется привлечь людей, которые проверят, разметят и нормируют сложные объекты, например однозначно определят наименования диагнозов и виды исследований по принятому в мире классификатору ОКБ-10. На практике задачу можно решить быстро и эффективно, подключив к программной платформе сеть операторов ввода данных, которые работают удаленно.
Как обеспечить выполнение 152-ФЗ «О персональных данных»?
Чтобы соблюсти закон и избежать утери персональных данных пациентов, нужно обучить программу «вырезать» из картинки документа все сведения, позволяющие идентифицировать человека — фамилию, дату, СНИЛС, — все по-отдельности. Таким образом люди-операторы смогут увидеть и работать только с единичными блоками, а не целыми документами. Это позволит обрабатывать и анализировать медицинскую информацию обезличено и избежать рисков ее утечки.
Готово ли государство провести подобную оцифровку?
Фактически это единственный способ сформировать и проанализировать текущий срез данных о здоровье населения, выявить на его основе патологии и опасные состояния, вовремя среагировать и спасти сотни и тысячи людей. Альтернатива — доводить единые информационные системы до всех медицинских организаций региона и накапливать сведения по единым правилам ведения реестров. Но на это потребуется минимум от 5 до 7 лет.