Современные проблемы требуют современных решений. Одной из главных проблем сегодня, в эпоху всемирной цифровизации, можно назвать огромный переизбыток массы документации на устаревшем и ненадежном бумажном носителе. Существует различные решения и технологии, которые призваны стать новым словом в оцифровке бесконечного пласта бумажных документов, ведь, как выразился некогда Альфред Капю, «слово подобно мешку: оно принимает форму того, что в него вкладывают». Об этих инструментах и особенностях цифровизации мы побеседовали с Альмиром Давлетовым — экспертом в области применения технологий искусственного интеллекта (ИИ) и машинного обучения.

— Сегодня на рынке есть множество программ, распознающих текст и преобразующих изображения в текст. Есть ли в них какие-то явные недостатки? Насколько велик «запас» по их модернизации?
— Определенные недостатки возникают в виде ограниченной точности, особенно при работе с изображениями низкого качества или содержащими сложные шрифты. Некоторые системы неэффективно справляются с рукописным или многоязычным текстом. В то же время, я полагаю, что потенциал для модернизации весьма значителен: совершенствование алгоритмов, улучшение обучающих данных и интеграция с другими системами могут привести к заметному повышению общей производительности подобных систем.
— В каких сферах производства сегодня наиболее важен вопрос оцифровки документации?
— В сферах, где требуется высокая скорость обработки и безопасность данных. Примеры таких сфер включают здравоохранение, финансовый сектор, юридический сектор, государственное управление, логистика и торговля. Сфер много, и везде, где есть хоть какой-то документооборот, можно только выиграть от перехода на электронные документы.
Один из ярких примеров — стандарт GPDR, который вынуждает большую часть европейских банков полностью переходить на электронные документы, так как хранить сенситивные личные данные клиентов на бумаге не безопасно, и банкирам приходится массово переводить бумажные документы на электронный формат.
— Как вы считаете, процесс внедрения технологий машинного обучения для обработки документов потребует какое-то единое универсальное решение либо для каждой отрасли потребуются отдельные программы и приложения? Сможет ли один ИИ одинаково обрабатывать бухгалтерскую отчетность и медицинские заключения?
— Для каждой отрасли определенно потребуются отдельные программы и решения, адаптированные под их специфику и задачи. Один ИИ вряд ли сможет одинаково эффективно обрабатывать бухгалтерскую отчетность и медицинские заключения из-за различий в терминологии, структуре данных и регулятивных требований. Медицинские заключения, к примеру, в США защищены HIPAA. Поэтому перед обработкой таких документов происходит анонимизация документов, чтобы данные о здоровье пациента невозможно было привязать к конкретной личности. Уверен, в бухгалтерской отчётности есть свои нюансы. Валидация распознанных данных — отдельная сложная тема, которая также требует определенного подхода в зависимости от особенностей индустрии.
— Какие данные понадобятся для работы технологий ИИ? Какие алгоритмы при этом будут использованы?
— Обычно для работы требуются цифровые копии документов (сканы, фотографии и т.д. ) и размеченные данные. В зависимости от типа документа размеченные данные включают текст содержимого, описание изображений, подписи и другие объекты, координаты разметок, структуру документа и прочее.
Алгоритмы используются разные на разных этапах. OCR (Optical Character Recognition) используется, как правило, для извлечения текста (хотя есть и другие алгоритмы, близкие к OCR), NLP (Natural Language Processing) для анализа и классификации текста, алгоритмы машинного обучения для валидации и сопоставления данных (например, RandomForest, SVM).
— Возможно ли решение максимального количества задач путем доработки и модернизации имеющегося на сегодняшний день в арсенале специалистов программного обеспечения?
— Я считаю, что нет. Усовершенствование текущих решений, несомненно, привнесет свои изменения, включая повышение точности распознавания текста с нечетких изображений. Однако некоторые задачи требуют новых разработок и интеграции. Распознавание текста и извлечение информации — это только начало. Дальнейшие интеграции с внешними системами, распознавание исторических документов, выявление ошибок и недочетов в документах и многое другое. Эти проблемы могут потребовать совершенно новых, более эффективных решений.
— Так как цифровизация сегодня является одним из важнейших трендов почти в каждой отрасли производства — от крупных коммерческих предприятий до целых министерств и различных государственных учреждений, вопрос оцифровки является вопросом актуальным и своевременным. Будет ли эта технология актуальна в дальнейшем? Как скоро, на ваш взгляд, мир полностью откажется от бумаги и перейдет только на цифровые носители и соответствующий документооборот?
— Технология оцифровки точно будет оставаться актуальной в обозримом будущем, так как она повышает эффективность и снижает затраты. Однако полный переход на цифровые носители займёт какое-то время, и придется столкнуться с такими проблемами, как регулятивные, технические и культурные препятствия. Точные сроки предсказать никто не сможет, но, очевидно, полный отказ от бумаги в ближайшие десятилетия не произойдет. Какое-то время потребуется для повсеместной замены классической документации на цифровые решения.
— Разработка сложного программного обеспечения является сложным и дорогостоящим процессом. Не будет ли выгоднее всем работникам всех предприятий поставить задачу вручную обработать все бумажные документы? Является ли принятие таких решений оправданным шагом для руководств предприятий и компаний?
— Вручную обрабатывать все бумажные документы редко бывает выгодно, может быть, в каких-то редких и узких случаях. В большинстве ситуаций это неэффективно из-за высоких затрат на труд, риска ошибок и сложности масштабирования. Разработка или адаптация программного обеспечения для автоматизации обработки документов, несмотря на высокие начальные инвестиции, в долгосрочной перспективе оправдывает все вложенные средства.
— OCR и ML-технологии уже не первый год используется в различном программном обеспечении. Существуют ли такие разработки, где они объединены и успешно справляются с поставленными задачами?
— OCR — это подвид CV (Computer Vision), раздела машинного обучения, отвечающего за обработку изображений и извлечения из них полезных данных. Есть множество решений, где OCR и другие разделы ML работают вместе, чтобы повысить эффективность. Яркие примеры — решения от крупных производителей, например Amazon Textract, Google DocAI. Они комбинируют OCR с различными прочими вариантами, чтобы дать пользователю больше, чем просто распознанный текст.
— Что мешает сегодня создать ПО, которое решит все вышеозвученные проблемы?
— Избежать основных трудностей в процессе создания универсального решения — задача непростая. Каждая отрасль имеет свои уникальные требования и регулятивные ограничения, которые нельзя игнорировать. Например, законы о защите данных и технические ограничения, такие как точность и скорость алгоритмов, оказывают влияние на процесс разработки. Кроме того, стоимость и время, которые требуются для разработки и тестирования, являются существенными факторами. Также нельзя забывать о важности интеграции с уже существующими системами и соответствующей миграции данных. Все эти факторы делают создание универсального решения сложным и затратным процессом.
— Какие цели у подобных разработок? Повышение прибыли, сокращение расходов, оптимизация труда?
— Всё перечисленное, и даже больше — повышение точности и сокращение ошибок, соответствие регулятивным требованиям, создание архива данных и поиск по ключевым словам, аналитика и многое другое. Цели могут быть самыми разными в зависимости от отрасли экономики, но одно известно точно: движение в этом направлении стоит того и окупит все вложения в долгосрочной перспективе, может даже дать конкурентное преимущество.
Беседовал Василий Львов



ENG
