Качество данных: как не допустить незаметных ошибок, ведущих к катастрофе
ENG
Перейти в Дзен
Мнение, Технологии

Качество данных: как не допустить незаметных ошибок, ведущих к катастрофе

Денис Белых

Денис Белых

Руководитель ИТ-проектов компании Axenix

Сегодня практически любой бизнес активно оперирует данными. Всё, от рекламных стратегий до обучения ИИ, начинается и заканчивается в дата-сетах. Неточные, неактуальные, неполные данные — для бизнеса это упущенные возможности, потерянные деньги или ушедшие в отрыв конкуренты. 

Изображение от freepik

Когда «плохие» данные крадут выручку

Проблемы с качеством данных могут возникать практически на каждом этапе взаимодействия с ними — от ввода в систему до хранения и использования. И самая частая причина ошибок — человеческий фактор. При вводе данных вручную сотрудники нарушают форматы, допускают неточности, не соблюдают единообразие. Один оператор пишет «г. Москва», другой — «Москва», третий латиницей — Moscow.

Проблемы могут скрываться и в разных информационных системах. Например, когда решения, созданные в разное время, с разной логикой, хранят одни и те же сущности по-разному.

Технические сбои — еще одна невидимая ловушка: перепутанные при импорте даты, сбитые часовые пояса, несоответствие форматов — например, когда «американская» запись даты 01/03 трактуется в России как 1 марта вместо 3 января.

При этом ошибки в данных часто незаметны, пока не приводят к значительным финансовым потерям.

Поделюсь одним из типичных кейсов: аналитическая система компании прогнозирует отток клиентов на основе их обращений в поддержку. В данных, на которых обучалась система, использовались статусы заявок, в том числе пометка «заявка решена» в большинстве обращений. Только вот на самом деле «решены» они были лишь формально — оператор просто ставил галочку, чтобы закрыть кейс. В результате модель, обученная на таких данных, не замечает угрозы, а клиент, не получивший помощи, уходит. Бизнес теряет клиента, не понимая почему.

Второй пример из нашей практики: прогноз закупок в ретейлере FMCG. Модель должна была предсказать спрос, но в истории продаж фигурировали дубликаты товаров, фиктивные остатки, некорректные сроки годности. Например, продукт «шампунь 400 мл» был заведен с двумя ID, хотя это один и тот же товар. В результате система не могла оценить, что это дубли. Прогнозы плавали, склад был завален одними позициями, а других — не было.

После внедрения MDM-системы, очистки истории и настройки валидации точность прогноза выросла на 17%, а списания снизились на 25%. Ощутимый рост в бизнес-метриках дало не улучшение модели, а улучшение качества входных данных. И это классический пример, когда данные важнее алгоритма.

Критерии качества

Базовая сложность оценки качества данных заключается в том, что ее невозможно провести вне контекста. Это не универсальная шкала, как на термометре. Один и тот же набор сведений может быть ценнейшим активом в одном процессе — и бесполезным балластом в другом. Данные, собранные для логистики, где важны адрес и время доставки, окажутся неинформативными для маркетинга, если в них не содержатся возраст клиента, история покупок и актуальный номер телефона. Это не исключение, а, скорее, правило: в реальной жизни данные «хороши» только тогда, когда они соответствуют цели.

Однако существуют и общие критерии качества. В первую очередь — точность. Если номер клиента записан с ошибкой, система может отправить уведомление другому человеку. Если сумма платежа указана неверно — CRM или BI покажут искаженную выручку.

Другой общий критерий — полнота данных. Пропущенные значения бьют по всем этапам: от расчета KPI до корректной работы рекомендательной модели.

Актуальность — еще один принципиально важный аспект. Нет ничего опаснее красивой, но устаревшей аналитики, построенной на данных, которые описывают ситуацию двухгодичной давности.

Также важны согласованность — отсутствие противоречий между источниками, валидность — соответствие необходимым форматам и допустимым значениям, и, конечно же, уникальность — отсутствие дубликатов. 

В целом качество данных в бизнесе сегодня определяется через их пригодность к решению конкретной задачи. Это означает, что данные должны быть не просто корректными, но и актуальными, полными, непротиворечивыми и соответствующими цели использования — будь то отчётность, аналитика или обучение ИИ-моделей.

ИИ не прощает предвзятость

Наиболее чувствительные к этим критериям области — аналитика и искусственный интеллект. Модель ИИ не может быть «умнее» данных, на которых ее обучили. Она не исправляет ошибки, а систематизирует их. Если в обучающем наборе нет определенных вводных — модель просто не будет их учитывать. Если в истории заказов есть искажения, то предсказания станут не просто неточными, а вредоносными. ИИ не изобретает смысл, он отражает то, что ему дали. И если дали искаженную картину — именно ее он и масштабирует.

Одним из самых коварных врагов данных остается bias — предвзятость, особенно в чувствительных сценариях: подбор персонала, кредитование, медицина. Bias — это систематическое искажение в данных, которое приводит к несправедливым или ошибочным выводам. 

Исторические данные воспроизводят старые практики, в том числе — дискриминационные. Например, если компания в предыдущие десятилетия на определенные позиции нанимала только мужчин — модель будет считать, что это и есть «успешный» кандидат. Просто исключить очевидные чувствительные признаки, такие как пол или возраст, не всегда достаточно. Предвзятость может скрываться в косвенных данных, например, в почтовом индексе — актуальная проблема многих западных стран, где zip-code discrimination (дискриминация по почтовому индексу) является реальным фактором при приеме на работу, выдаче кредита, оформлении страховки.

Помогает здесь ребалансировка дата-сета, например: уменьшение объема данных по доминирующей группе или выравнивание представительства разных категорий в обучающей выборке. Также применяются специальные метрики, которые позволяют оценить, насколько модель принимает решения равномерно и справедливо для всех групп пользователей.

Но эти меры работают только при осознанном подходе. Дело не только в повышении точности модели, но и в том, чтобы задать ей корректное представление о мире — без искажений и слепых пятен, которые она могла бы воспроизвести и масштабировать.

Контроль на входе — спасение на выходе

Системы контроля качества данных развиваются. Уже сегодня доступны инструменты, которые отслеживают отклонения, проводят автоматическую валидацию, мониторят данные «на лету». В потоковых платформах можно внедрить фильтры, которые отбраковывают заведомо ошибочные события до попадания в хранилище. А продвинутые детекторы аномалий работают на уровне распределений, фиксируя подозрительные выбросы или нелогичные связи.

Особую роль играют системы Master Data Management. Это единая «точка правды». Один клиент — одна запись. Один товар — один артикул. Независимо от канала, системы, интерфейса. MDM гармонизирует данные, разрешает конфликты, делает их сопоставимыми. Без этого борьба за качество превращается в попытку исправлять хаос вручную.

Эволюция технологий и ответственности

Технологии обработки данных переживают стремительную трансформацию. То, что вчера было возможно только для крупнейших цифровых корпораций, сегодня становится индустриальным стандартом. Автоматические проверки, постоянный мониторинг качества, семантические каталоги уже не инновации, а инструменты повседневной работы.

Одним из ключевых изменений последних лет стало внедрение концепции Data Contracts — договоров о данных между командами. Это не просто формальный документ, а инженерный артефакт, аналог API-контрактов в разработке. Указывается, какие поля должны присутствовать, в каком формате передаются значения, с какой частотой, какие допускаются отклонения и что считается критической ошибкой. Data Contract делает поток данных предсказуемым, а ошибки — явными. Нарушение контракта не игнорируется системой, как это было раньше, — оно приводит к немедленной остановке пайплайна или алерту. В эпоху микросервисной архитектуры и Data Mesh (сетка данных, децентрализованный подход к хранению данных) такая строгость не роскошь, а необходимость.

Параллельно развивается инфраструктура автоматической нормализации. Современные инструменты, такие как Great Expectations, Soda, Monte Carlo или встроенные возможности в dbt, позволяют запускать профилирование данных в режиме реального времени. Система сама обнаруживает дрейфы — например, если доля одного значения в категории резко выросла или структура поля изменилась. Это уже не ручная работа аналитика, а встроенный механизм, который защищает бизнес от незаметного ухудшения качества входа.

Наряду с этим меняется и подход к каталогизации. Традиционные справочники уступают место так называемым semantic data catalogs — умным каталогам, которые связывают таблицы и поля с бизнес-смыслом. Это полноценная карта данных: откуда они пришли, как были трансформированы, кто за них отвечает, где использовались и насколько надёжны. Они показывают lineage, отражают метрики качества, позволяют отслеживать популярность таблиц, часто используемых в аналитике. Примеры таких платформ — Atlan, Alation, Collibra, а также open-source-решения вроде DataHub или Amundsen, которые активно применяются в российских компаниях. Внутри экосистем крупных игроков, таких как Яндекс и Сбер, также развиваются собственные инструменты каталогизации данных. Такие платформы становятся неотъемлемой частью аналитической культуры в больших организациях, заменяя устаревшее представление о данных как о чём-то сугубо техническом.

Другой значимый тренд — встраивание контроля качества в CI/CD-пайплайны. Проверка данных больше не происходит «раз в месяц» или «по запросу». Каждый раз, когда запускается процесс загрузки, обработки или трансформации данных, автоматически срабатывают тесты. Если найдены критические отклонения — пайплайн останавливается. Это не просто делает систему надёжнее. Это меняет инженерную культуру: качество данных становится такой же важной частью продукта, как его код или интерфейс.

Однако даже при таком прогрессе автоматизация решает лишь часть задачи. Машина может зафиксировать аномалию — но не понять ее контекст. Она укажет, что «что-то пошло не так», но не скажет, почему это произошло и насколько это критично. Вопрос о том, нормальна ли резкая смена доли заказов по категории или появилась ошибка в отчёте из-за сезонного фактора, требует бизнес-интерпретации со стороны человека.

Не ИТ-забота, а бизнес-интерес

Пожалуй, главный барьер на пути к культуре качества данных в компании — разделение на «техническое» и «бизнесовое». Пока менеджмент воспринимает данные как побочный продукт, ответственность будет размыта. Но когда с ним начинают говорить на языке потерь — ситуация меняется.

Ошибки в скидках, сгоревшие бюджеты на рекламу, упущенные клиенты — часто последствия некачественных данных. Визуализация этих последствий — мощный инструмент. Один дашборд «до» и «после» очистки — и аргументы заканчиваются.

Назначение ответственных за данные в конкретных зонах, интеграция метрик качества в бизнес-отчетность, простые механизмы обратной связи — все это работает. Кнопка «сообщить об ошибке» в отчете эффективнее, чем регламент в PDF. Когда департамент знает, что он отвечает за свой участок данных, тогда начинается настоящая внимательная работа.

Качество данных — вопрос выживания компаний в эпоху автоматизации и усиления роли ИИ в бизнес-процессах. Модели умны ровно настолько, насколько корректны входные данные. BI-отчет точен настолько, насколько актуальны данные в ней. Принятое решение будет эффективным ровно до первой дезинформации. Инвестиции в архитектуру, процессы и культуру данных — это условие того, чтобы остаться в игре и сохранять в ней шансы на победу.

Следите за нашими новостями в удобном формате
Перейти в Дзен

Предыдущая статьяСледующая статья