Facebook, Twitter, ВКонтакте, Одноклассники — социальные сети и мессенджеры из, казалось бы, пустого развлечения давно уже превратились в рабочий инструмент. В России выпускница журфака продает через Facebook встречи с известными людьми (проект MeetforCharity), а в Китае через мессенджер WeChat вовсю покупают эксклюзивные автомобили. Однако сами владельцы аккаунтов в популярных сетевых сервисах уже тоже «под колпаком» — их контент и данные все чаще используют в собственных интересах государственные структуры и бизнес. И если последний погрузился в соцсети в поисках целевой аудитории продаж, то государство все активнее используют сетевой контент для поиска преступников всех мастей. О том, что можно узнать о пользователе социальной сети по его профилю, а также как используют эти данные коммерческие банки, страховые компании и правоохранительные органы, «Инвест-Форсайт» поговорил с основателем компании SocialDataHub Артуром Хачуяном, в прошлом — сотрудником агентства Тины Канделаки «Апостол», а сегодня — одним из ведущих игроков российского рынка BigData-аналитики.
Сырые данные никому не нужны
— Почему вы решили создать свою компанию, на рынке был спрос на аналитику BigData?
— Идея родилась у меня еще во время работы в «Апостоле». Там, кстати, был целый департамент аналитиков, который, на мой взгляд, не всегда выдавал качественный продукт, при этом за очень большие деньги. У меня на тот момент родилась идея, как это все сделать лучше, еще и автоматически. И мы сделали первую версию продукта. Вообще, наша система задумывалась как аналог зарубежного сервиса DataSift по продаже необработанных, или сырых, данных. Как оказалось, в России это никому не нужно — на рынке нет такой модели продаж, даже за маленькие деньги. Все хотели аналитические выводы, чем мы и стали заниматься. Правда, сначала мы ударились в разработку продуктов для госорганов — решали задачи поиска людей по фотографиям. На коммерческом же рынке мы работаем последние 1,5-2 года.
— Не боялись отправляться в «одиночное» плавание, конкуренции, например?
— Когда мы запускались, на слуху были разве что «Медиалогия» и BrandAnalytics. В России и сегодня не так много компаний, которые работают в данном сегменте; в основном они продают выгрузки упоминаний в Excel. При этом одни сервисы мониторили только СМИ, другие работали только с данными из соцсетей. Мы же сделали продукт, который покрывал все сегменты — блоги, форумы, социальные сети, поисковую выдачу. Мы хотели запустить именно сервис аналитики — чтобы конечному клиенту дать ответы на вопросы, а также какие-то рекомендации к действию. Сейчас есть компании, которые занимаются анализом больших данных. Но на данный момент все они, так же, как мы, проводят ad hoc исследования.
— Какие массивы данных анализируете?
— Все социальные сети; практически по всем у нас есть полная копия информации — это профили пользователей, их данные, текстовые публикации и лайки. Из медиаконтента храним только фотографии, на которых есть лица. По ВКонтакте, Одноклассникам и Twitter есть полная копия всех пользователей с их текстами начиная с 2010 года. По Facebook и Instagram есть полная копия русскоязычной аудитории. Но мы за рубежом пока не работаем, поэтому это не нужно. Помимо социальных сетей анализируем блоги, а также форумы. Есть, по сути дела, такой же поисковик, как Яндекс, Гугл. Помимо этого, анализируем различные открытые базы данных — например, реестры судебных дел, таможенный реестр и т.д.
— Переписку анализируете?
— У нас нет переписки. Для этого нужен судебный запрос.
— Как и сколько времени вы формировали массив данных для анализа?
— Собрали из социальных сетей и спарсили. Мы собираем все, как будто это реальные пользователи заходят в соцсеть через браузер, скролят, кликают — то есть полностью эмулируем поведение пользователей. Базу мы формировали года три, может, немного больше, к тому же, мы постоянно добавляем в нее какие-то источники.
— Могут ли быть проблемы с законом о защите персональных данных?
— Владельцем конечных данных является человек, а не социальная сеть. В суд должен подавать именно человек, а таких проблем пока не было. Были суды с социальными сетями, с Facebook ругались. Но мы не используем программный интерфейс, все, что может сделать соцсеть, — запретить нам доступ. Но она не понимает, что наши сборщики — это боты, и не блокирует их. Правда, мы сейчас думаем над выходом на зарубежный рынок.
Главный клиент — государство
— Кто стал вашим первым клиентом?
— На данный момент 80-85% всех наших доходов — это государство. Государство заказчик основного продукта — это система распознавания изображений, система поиска людей по лицам, анализ связей, трафика между ними. Решение помогает искать террористов, педофилов, уклонистов от армии, точнее сказать не могу — мы не знаем, как именно используют решения, мы их продаем как коробочный продукт. Поэтому здесь такая сделка с совестью.
— Как именно работает ваш продукт?
— Вы же ищете в Google не все подряд, а что-то определенное. Например, вы знаете, что будете искать выпечку, сайты по выпечке и сайты по покупке машин. Мы собираем их, архивируем на диск и отдаем вам. А вы уже ищете все на диске. То есть нам говорят алгоритм «люди, которые публиковали оружие, состоят в ультраправых группах и ведут себя неадекватно». Мы их отбираем по разным критериям, а потом из массива уже отберут, к примеру, людей из Брянска, 25-35 лет, которые находятся в 2 км от какой-то точки. Приблизительно так. Приведу еще пример. Произошло убийство, и спецслужбы получили от оператора 100 тыс. номеров сотовых телефонов в радиусе нескольких километров от места преступления. Данные можно загрузить в наш софт и по ним найти аккаунты в социальных сетях, понять связи между людьми. И уже из этих 100 тысяч телефонов оставить 10-15 потенциальных подозреваемых.
— Какие ведомства таким пользуются?
— Это закрытая информация. Могу лишь сказать: в основном силовые и правоохранительные структуры.
— Вы передаете спецслужбам данные соцсетей?
— Да. Но только определенные данные. К примеру, есть задача поиска экстремистов, людей, которые публиковали в соцсетях оружие. Или тех, чья модель поведения говорит, что они могут прийти и расстрелять свою школу. Мы спецслужбам передаем аккаунты, которые подошли под данный запрос. Потому что если получать доступ напрямую, мы будем знать — кого они ищут. А мы не должны знать. В любом случае, все, что мы анализируем, — открытые источники данных.
BigData для бизнеса
— Почему вы решили работать с бизнесом, кто ваши клиенты в этом сегменте?
— В основном это банки, страховые компании, для которых мы делаем скоринг, ритейл и реклама. Почти все приходят с одной и той же задачей: либо хотят больше новых клиентов, либо лучше понять потребности текущих. Вообще, коммерческий рынок страдает от нехватки хороших решений, а наше решение нужное и важное. Если бы оно было плохим, его бы просто не покупали. Плюс для меня очень интересен выход на зарубежные рынки. А с околовоенными разработками на зарубежный рынок не выйдешь.
— Какие задачи вы помогаете решать ритейлу?
— Помогаем правильно прогнозировать покупки. Например, вы что-то покупаете, и вам предлагают посмотреть дополнительный товар, который, возможно, вам тоже понравится. Но главная история — поиск аудитории под конкретный продукт. Как это происходит сейчас? Вы хотите купить шторы, гуглите их, а потом Facebook две недели показывает рекламу штор. Мы же помогаем действовать наперед. Например, можем понять, что именно вы в этом месяце купите новый IPhone. Ведь у вас есть шестая модель, «семерку» вы пропустили, а восьмой точно купите, потому что летом не съездили отдыхать.
— А для банков? Вы упоминали финансовый скоринг.
— С одной стороны, мы помогаем выявлять потенциальную аудиторию, которой можно предложить финансовые продукты. Например, ищем людей, которые что-то хотят купить, но не могут себе позволить. Либо тратят деньги быстро, и им нужен кредитный продукт. Другая история — расчет потенциального возврата-невозврата кредита. К примеру, если у человека сезонный бизнес, скажем, торговля цветами, о чем он не сказал в банке, и он берет кредит, чтобы закрыть кассовый разрыв.Мы знаем: зимой будет не сезон, человек прогорит и кредит не вернет. Бывают люди, по модели поведения которых ясно, что они халтурно относятся к работе и могут ее потерять, не оплатив кредит. Так же и со страховыми компаниями — если человек занимается экстремальными видами спорта, значит, он получит высокую стоимость полиса страхования жизни. На самом деле, тут много зависимостей, мы изучаем массу параметров, начиная от примерной зарплаты человека и до того, насколько часто он ругается матом.
— Анализируют ли банки и страховые компании своих клиентов?
— Да, конечно. Обычно массив клиентов нам передают в обезличенной форме, или же мы свой сервер ставим внутрь банка, и он по ФИО, городу, телефону, e-mail «матчит» профили клиентов с соцсетями. Мы, в конце концов, получаем из закрытого контура банка только аккаунты в социальных сетях. Их уже анализируем и предоставляем банку аналитику — кто вернет кредит, кто не вернет и т.д. Либо формируем модель поведения этих людей и начинаем искать потенциально похожих клиентов из не-клиентов.
— Какие результаты получают ваши коммерческие клиенты?
— Сложно сказать. Бывают клиенты, которым мы привели 70-75% новых клиентов, и все счастливы. Но был и другой кейс — мы работали с компанией по продаже элитной недвижимости, 50 млн+. Такую аудиторию в соцсетях очень сложно найти, исследование было затратное. Вовлеченность на выходе там была где-то 1-2%. Но клиент был счастлив, потому что если из 1000 человек один покупает квартиру, окупается все месячное «веселье».
— Сможете в перспективе вытеснить аналитические департаменты банков?
— Знаете, раньше был очень моден консалтинг — во времена расцвета Ernst&Young, Deloitte и т.д. Никто не открывал департаменты аналитики. Потом случился обратный бум: престижно иметь департамент аналитиков в компании. Например, в KFC 57 аналитиков. Казалось бы, каким куриным крылышкам нужны аналитики? Сейчас снова начинается поворот в сторону консалтинга. Я думаю, мы продолжим в этом направлении развиваться, а еще параллельно будем создавать какой-то сервис, чтобы им мог пользоваться, условно говоря, не аналитик, а, может быть, руководитель.
Как врут в соцсетях
— Что можно узнать о человеке, проанализировав его профили в соцсетях?
— Интересы, модель поведения, объект интереса. Как часто человек путешествует. Какая у него зарплата, что он хочет сделать, купить, куда хочет поехать, пойти, что он может сказать завтра. За кого хочет проголосовать на выборах.
— Как вы анализируете BigData?
— У нас много разных алгоритмов — более 700, — каждый решает конкретную задачу. Есть алгоритм, который определяет возраст в Instagram. Казалось бы, простая штука. 98% людей делают пост о дне рождения: «Ребята, привет! Мне сегодня 27!». Есть алгоритм, который определяет для beauty-брендов как люди меняют прически, стиль в зависимости от сезона, интересов. Есть алгоритмы, которые выделяют факты из текстов: кто сказал, что сказал, про кого, когда и где. Есть и те, которые рассчитывают процент заинтересованной аудитории, другие прогнозируют, в какое время какой лучше контент публиковать, в каких группах, кого упомянуть, какие темы поднимать. Все зависит от конечного продукта.
— Как работают ваши алгоритмы?
— Например, если известен аккаунт в Facebook, мы можем по фотографии найти аккаунт в Tinder. Там люди практически всегда указывают реальные интересы, также можно определить примерную геолокацию. Есть алгоритмы, которые занимаются только интересами. Сейчас на рынке все интересы пользователя показываются на основании топ-10 групп, на которые он подписан в соцсетях. Но подписки сетях — это не очень релевантная история. Мы анализируем контент, который люди лайкают, который реально потребляют. Есть совсем простые алгоритмы, которые вычленяют телефоны из текстов. Есть сложные, которые по фотографиям пытаются определить наличие автомобиля, кошки, собаки.
— Вы как-то проверяете данную информацию?
— Да, конечно. Задача правильно понять, что люди наврали. Мы проводим проверку достоверности, ищем ложные корреляции. Из 700 наших алгоритмов 50 точно занимаются проверкой достоверности данных, потому что выпускников московских вузов в Москве на 60% больше, чем их в принципе существует. Города не всегда люди правильно указывают. Например, пользователь указал местом проживания Москву, но при этом сидит в группе объявлений «Томск» или «отдам даром Томск». И постоянно в ней что-то комментирует: «Ребята, заберу у вас с улицы Коммунистическая, 25». Понятно, что человек в Москве не живет, а живет в Томске. Часто молодежь указывает возраст более 100 лет. И всех этих людей надо правильно идентифицировать.
Сменится поколение госслужащих
— Поможет ли анализ соцсетей предотвращать преступления? Например, заранее «вычислить» ивантеевского стрелка?
— Да, конечно, поможет. У нас есть такие решения, и сейчас они работают. Мы гордимся тем, что уже что-то предотвращаем. К сожалению, ничего такого нельзя вынести в публичное поле пока. Но на данный момент анализ покрывает 1-2% всех данных, то есть система генерит до 1500 заявок по самым слабеньким фильтрам — например, экстремисты, которые вот-вот что-то совершат. Но затем их все равно будут вручную перепроверять. Это сложность организации внутренней системы. Сегодня до того, как рядовой полицейский получит список телефонов, «висящих» на сотовых вышках вокруг места преступления, может пройти от 3-4 месяцев до 1,5 лет. Дальше список телефонов дадут нам — и за 15 минут система выдаст результат. Здесь 90% всех временных задержек — какие-то ГОСТы 90-х годов, менталитет, нормы и правила.
— Что же должно измениться?
— Должно смениться поколение госслужащих. Сегодня люди думают, что если внедряют какую-то электронную систему, значит, их уволят. И автоматически начинают с недоверием к ней относиться, медленнее работают и так далее. Люди не понимают, что автоматизированная система позволит им анализировать больший объем данных.
Беседовала Ольга Блинова