От big data к smart data: как правильный подход к данным меняет мир

Движение от big data к smart data — это процесс, направленный на обработку имеющихся данных и приведение их в упорядоченный вид. Конечный продукт в этом случае — полезная информация, которая будет способствовать не только генерации продаж и персонализации предложений, но и удовлетворению потребностей человека, устранению многих проблем, решить которые до сего момента имеющимися в распоряжении способами было сложно.

Оцифровка информации: массивы, масштабы

По состоянию на 2003 год миром было накоплено 5 эксабайтов информации (1 эксабайт равен более чем 1 миллиарду гигабайтов). Уже в 2015 году цифра увеличилась до 6,5 зеттабайт (1 зеттабайт — 1024 эксабайта). По прогнозам, в 2020 году объем всех данных на свете составит 45 зеттабайт. Только вдумайтесь в эти цифры: более чем 45 000 000 000 000 гигабайт информации, и расти этот объем продолжает в геометрической прогрессии.

Конечно, не вся информация может иметь существенную ценность и быть потенциально полезной для чего-либо. Согласно оценкам, лишь 1,5% данных являются значимыми, но даже этот объем огромен. При этом массивы данных неоднородны по своему составу, что вкупе с объемностью делает невозможным их обработку с применением привычных инструментов. Тут-то в дело и вступает big data — в понимании этого термина как комплекса средств.

После оцифровки и упорядочивания данные можно перенести из категории big data в категорию smart data. Это уже не пустой, бессмысленный сам по себе набор данных без структуры, начала и конца. Теперь это продукт для дальнейшего применения. Использоваться он может разными способами, например для обучения нейросетей.

Big data как база для машинного обучения

Использовать big data как инструмент для создания искусственного интеллекта начали сразу же с появлением нейросетей. Удачный пример обучения нейросети за счет массива данных — это распознавание объекта на картинках. Для того чтобы нейросеть научилась узнавать на фотографии кота, необходимо собрать большое количество разнообразных фотографий кошачьих и пометить их для машины соответствующим образом (подобный массив данных называется дата-сетом). После этого на основе заранее заданных алгоритмов нейросеть выявляет для себя черты и характеристики, типичные именно для этого объекта, за счет чего будет почти безошибочно определять его в дальнейшем. Такой интеллектуальный анализ называется data mining.

Обучение выглядит так: загружаем изображение кота; проверяем ответ нейросети; уточняем, верно ли она ответила. Первые ответы могут быть в большинстве своем неверными, однако через какое-то время нейросеть «поймет», как именно выглядит кот, и на основе уже накопленного опыта будет давать все более точный результат. Разумеется, это работает и в других случаях — распознавании голоса, рукописного текста, лиц, номеров автомобилей. Принять участие в процессе обучения сегодня может любой желающий — благодаря разработанным технологическими гигантами инструментам. Один из таких — «Толока» от «Яндекса», где люди даже получают небольшое вознаграждение за свой вклад в машинное обучение.

Данные: качество, очистка, обработка

Как ясно из названия, big data подразумевает под собой огромные массивы данных. Однако в контексте превращения их в smart data на первую роль выходит не количество, а качество исходных данных. Представьте себе — невероятные по своим размерам массивы данных, размер которых к тому же быстро растет. По мнению многих экспертов, к классу больших данных уже относится вся информация, объем которой превышает 100 Гб в день.

Чтобы разрешить этот вопрос, стоит обратить внимание на тип поступающей информации. Согласно статистике, 80% информации в сегменте big data — текстовая неупорядоченная информация. В большинстве случаев ее можно назвать некачественной, и именно это становится причиной многих неудач в проектах big data. К традиционным трем V, характеризующим данные (Volume, Velocity, Variety) со временем добавились еще две характеристики с этой же буквы — Veracity и Value, достоверность и ценность. Достоверность оценивать довольно непросто даже при помощи современных средств, но имеющиеся методы совершенствуются — а потому контроль качества и точности данных работает. Конкретный тому пример — использование GPS-навигатора, когда потеря сигнала со спутников может сбить весь маршрут, но данные от акселерометра и вышек сотовой сети обнаруживают неточности и корректируют их.

Прибавьте к этому различия в формате поступающих данных, и можно задуматься об инструментах коннектинга между различными системами. Один из основных инновационных трендов в секторе big data — именно разработка «коннекторов», позволяющих объединить разнородную информацию воедино. Справиться с обработкой такого масштаба сегодня помогают дата-аналитики, а также компании, которые специализируются на data science. В их распоряжении имеются эффективные системы получения, обработки и загрузки данных в непрерывном режиме. Кроме того, они постоянно ведут разработку собственного инструментария, так что на каждый новый вызов в нише сразу же появляется свое решение.

Конфиденциальность

С развитием подобных технологий неизбежно встает вопрос о конфиденциальности личных данных. Системы распознавания лиц, машинный интеллект, сбор пользовательских предпочтений — все это навевает на мысли о трансформации нынешнего мира в некую антиутопию, не раз описанную фантастами в художественных произведениях.

Даже крупные корпорации допускают «проколы» — коллекторы информации, такие как Target, Home Depot, Ashley Madison и Neiman Marcus, уже успели засветиться в историях с утечками данных. Одна из главных причин проблем — тот факт, что классическое защитное ПО вроде антивирусов и брандмауэров было создано с учетом особенностей защиты обычных данных, файлов относительно небольших размеров, которые находятся в статичном состоянии на жестких дисках, а никак не прибывают по гигабайту в секунду прямиком из облачного хранилища. Здесь же можно упомянуть и этический момент — когда утечки информации не происходит, но она изначально собирается без согласия и даже уведомления пользователя.

Однако некоторые недавние технологии позволяют улучшить ситуацию, например блокчейн, который произвел фурор в области финансов, а теперь помогает и с работой в сфере big data. Также стоит отметить плодотворность сотрудничества между крупнейшими игроками на рынке — как между собой, так и с антивирусной индустрией, и даже с пользователями.

Блокчейн как средство обработки данных

Блокчейн — термин не только из области криптовалюты. В общем понимании блокчейн — это метод хранения данных в блоках, каждый из которых несет в себе информацию о предыдущем блоке. Такая структура дает неоспоримые преимущества — надежность, конфиденциальность, неограниченность, и их можно использовать в том числе при работе с большими данными.

Тем не менее у технологии есть минусы. Первый и главный — не очень высокая скорость, вызванная децентрализацией. Самая по себе концепция big data подразумевает высокую скоростью обработки данных, и здесь блокчейн проигрывает схватку с альтернативными технологиями анализа информации. Второй минус — неизменяемость данных в цепочке и невозможность ее удаления (принцип «попало в сеть — осталось навсегда»).

С учетом перечисленных факторов блокчейн выглядит уместно в тех случаях, где на первый план должна выйти не скорость, а защищенность данных и их неизменность. Пример тому — массивы с электронными карточками пациентов, где записана история болезни и прочая личная информация, не подлежащая разглашению. Конкретные примеры совмещения технологии блокчейна — сервисы Omnilytics, Datum, Provenance.

Большим компаниям — большие данные

Большие данные нашли свое применение и в промышленности. Удачный пример: крупнейшее добывающее предприятие России, «Газпром», использует информацию, получаемую на собственной сети АЗС, для анализа продаж и прогнозирования спроса на продукты. Главным инструментом здесь стала программа лояльности в сочетании с мобильным приложением. Это позволило персонифицировать предложения для клиентов сети «Газпромнефть», что принесло вполне конкретные результаты: в 2017 году выручка подразделения увеличилась на 2 млрд рублей по сравнению с 2016 годом.

Другой частный пример использования big data в промышленности: прогнозирование работы оборудования. На машины, станки и любую другую технику устанавливаются датчики, которые собирают данные о работе. Далее на основе полученной информации получается прогноз — как долго то или иное оборудование проработает, когда наступит срок рекомендуемого ремонта, какие проблемы и в каких режимах возникают чаще всего. В той же самой добывающей промышленности это может применяться повсеместно. В «Газпроме» такой подход позволил выявить причины сбоя перезапуска электроцентробежных насосов скважинного оборудования.

Сегодня big data — это не просто термин, символизирующий большие объемы данных и методы работы с ними, но еще и бизнес, объединяющий сотни и тысячи предприятий. При правильном подходе он может принести выгоду всем сторонам — производителю тех или иных товаров и услуг, их потребителю, а также оператору данных.

Автор: Кристина Фирсова

Технологии