«Эмоциональные» большие данные из «умной толпы»

Мы живём в новом сетевом обществе (британский социолог Зигмунт Бауман описывал его как «разжиженное общество» или «текучую современность»): структура многих отраслей перестраивается, появляются новые формы экономических и социокультурных отношений, привычные взаимодействия людей друг с другом и со средой обитания виртуализируются, пространство насыщается потоками плохо управляемой, слабо контролируемой и часто неверифицируемой информацией — всё это смещает технологическую парадигму к принципиально новым горизонтам. Жизнь перемещается в сеть, причем сразу на нескольких уровнях — профессиональном, частном, интеллектуальном и, наконец, эмоциональном.

Для технологичного бизнеса, анализирующего и интерпретирующего мысли, действия и чувства людей (являющихся к тому же потребителями товаров и услуг), миграция капиталов, ресурсов, рабочих мест и инструментов в интернет — источник новых возможностей. Одним из наиболее интересных вызовов стало масштабное распространение crowd-идеологии — обращение к коллективному разуму, к «толпе» как подвижному, взаимосвязанному, активно коммуницирующему сообществу, состоящему из множества функциональных ячеек (людей и распределенных групп), каждая из которых представляет совокупность навыков, знаний, компетенций, опыта.

Что такое краудсорсинг

Термин «краудсорсинг» впервые был использован в 2006 г. в исследовании Д.Хау и М.Робинсона для описания тех процедур ведения бизнеса в интернете, которые базируются на поиске решений путем открытых конкурсов предложений. Сегодня существует более сорока определений этого понятия; обобщённое звучит так:

«Краудсорсинг — один из видов интернет-активности, основанный на участии, при котором физическое лицо, учреждение, некоммерческая организация или коммерческая компания предлагает в форме открытого конкурса группе участников, которая может варьировать по уровню знаний, размеру и составу, выполнить задание. Такое задание может различаться по сложности и структуре. Для его выполнения участникам следует применить собственный труд, денежные средства и/или имеющиеся знания (в том числе жизненный опыт). Выполнение поставленного задания всегда влечет за собой взаимную выгоду. Участник имеет возможность удовлетворить свои потребности экономического и социального свойства, а также развить индивидуальные навыки. В свою очередь краудсорсер будет иметь возможность использовать в своих интересах все то, что сделают участники (форма конечного продукта будет зависеть от вида осуществляемой деятельности)».

Краудсорсинг давно пришел в IT и технологии, связанные с большими данными, искусственным интеллектом, нейросетевыми разработками, глубоким обучением, компьютерным зрением — и эмоциональными технологиями.

Что может толпа: опыт AmazonMTurk

Наиболее известная, популярная и «продвинутая» краудсорсинговая площадка — платформа для микротаскинга Amazon Mechanical Turk (MTurk), которая не только используется для научных исследований, но и выступает их объектом. Вот какие кейсы и задачи когнитивного типа чаще всего «выкидываются» на этой платформе:

«Экономические игры» — т.н. социальные дилеммы и дилеммы заключенного.
«Креативность толпы» — написание историй, сценариев и пр.
«Полевые исследования» — например, участников просят присылать фотографии домашних термостатов, что позволяет отслеживать корректность показателей и правильность настроек.
«Тесты на детское внимание» — веб-камеры в режиме реального времени фиксируют движения глаз, «остановки» и «переключения» при просмотре детьми видеороликов.
«Трансактивные толпы» — разработано приложение, позволяющее людям с нарушениями зрения загружать изображения и получать почти в режиме реального времени описания их содержимого, что, очевидно, содержит четкий социальный посыл.
«Тайминг и дневники» — например, участников просят делать пометки о приеме алкоголя, распределении дел или выполняемой работе.
«Толпа как сообщество научных ассистентов» — в случае статистически обширной выборки люди, как оказалось, часто формулируют суждения, эквивалентные или превосходящие оценки экспертов. Например, при изучении с помощью MTurk массива политических текстов было обнаружено, что 15 участников производят оценки с качеством, соразмерным пяти кандидатам PhD по политологии. Важно отметить, что толпа может поставлять данные очень быстро: участники обработали содержание 22 тыс. предложений менее чем за 5 часов и всего за 360 долларов.

Беспокойные интроверты с высшим образованием

Amazon утверждает, что на MTurk зарегистрировано более 500 тыс. работников, но активных, а тем более готовых участвовать в продолжительных и сложных исследовательских проектах, — несоизмеримо меньше. Это считается нормальным, хотя и влечет за собой исчерпание коммьюнити (обновляемого и пополняемого примерно раз в семь месяцев). Вместе с тем многие участники воспринимают MTurk как полноценную работу и соглашаются тратить определённое количество часов в неделю на заполнение анкет и опросников.

Каждый участник вовлечён в среднем в 160 академических исследований в течение месяца. Участники готовы работать и больше, если представится такая возможность.
Подавляющее большинство участников — американцы и индусы; европейцы предпочитают работать на площадках Prolific и Clickworker, жители Юго-Восточной Азии — на Microworkers, а японцы — на CrowdWorks.
Среди американцев больше людей европейского и азиатского происхождения, минимум афроамериканцев и выходцев из стран Латинской Америки. По другим параметрам их выборка также не репрезентативна по отношению к США.
Доминирующий язык коммуникаций — английский.
В гендерном срезе доминируют мужчины.
Участники, как правило, молоды (до 35 лет), имеют высшее образование, менее религиозны, отличаются либеральными политическими взглядами. При этом они часто не имеют постоянной занятости, а их доход ниже среднего.
Участники, как правило, отличаются целеустремленностью, исполнительностью, быстротой реакций и ярко выраженной потребностью к познанию, что периодически компенсируется интроверсией, социальным беспокойством (social anxiety), более слабой резистентностью к физическому и психологическому дискомфорту, определенным уровнем невротизма и чертами, присущими расстройствам аутистического спектра (РАС) в легкой форме.

А как же искусственный интеллект и эмоции?

Альтернативные платформы и типы задач

Конечно, можно было бы ограничиться только рассказом об AmazonMTurk. Однако эта платформа к настоящему времени превратилась преимущественно в гигантский маркетплейс, разветвленную систему сервисов, вокруг которой концентрируется распределенная рабочая сила. Для бизнеса, сфокусированного на развитии систем искусственного интеллекта и регулярно сталкивающегося с проблемой сбора, разметки и обработки данных для обучения собственных алгоритмов, могут подойти более специализированные платформы. Упомянем некоторые из них.

Mighty AI

Американская платформа, запущенная в ноябре 2014 года под названием Spark-5 и сумевшая привлечь за истекшие годы порядка 27,3 млн долларов венчурного финансирования (в том числе от Intel). Позволяет решать специфические задачи, связанные с компьютерным зрением и интеллектуальным транспортом. В частности, участники платформы работают с изображениями, фиксирующими дорожную ситуацию: локализуют, задают границы и тегируют объекты (автомобили, столбы, билборды, здания и пр.) и разметку, классифицируют все, что видят (цвет, формы, названия, марку машины, одежду людей и т.д. ), изолируют отдельные элементы, пополняют словари ключевых слов, обозначающих специфику магистралей, городских улиц и развязок.

Cloudfactory

Американская платформа из Северной Каролины, созданная в 2010 году и сумевшая привлечь порядка 13 млн долларов венчурных инвестиций. Платформа заточена на автоматизацию бизнес-процессов путем решения задач, требующих большого объема данных, через обращение к краудсорсингу: исполнители тасков, а это более 30 тысяч человек, находятся преимущественно в двух странах — Кении и Непале, и придирчиво отбираются. Спектр услуг широкий, но близок к стандартному набору: микротаски касаются анализа изображений любого типа (теги, границы, фон, окружение, сегментация), транскрипции текстов (считываемых с фото документов, чеков и т.д. ), тщательного описания и очистки данных (например, если мы видим на изображении кресло, то сверяем и/или дополняем агрегированную информацию по нему — от формы, цвета, марки и т.д. до производителя, стоимости, доступности для покупки).

Alegion

Американская платформа из штата Техас, основанная в 2011 году и поднявшая венчурный раунд объемом в 3,6 млн долларов от RHS Investments. Особенность проекта в том, что он представляет собой именно API (софт, интерфейс), а исполнители тасков берутся из AmazonMTurk-сообщества. Контент, с которым приходится иметь дело, самый разный: тут и тексты, и изображения, и аудио. Примерный спектр задач, отдаваемых «толпе»: пометка основных слов (создание метаданных), обучение чатботов (наборы вопросов и их синтаксические/смысловые вариации), картирование изображений (определение границ — bounding boxes), генерация синтезированных данных для обучения ИИ, модерация брендированного контента (например, исключение ситуаций, когда условный лейбл Кока-колы увязывается со скандальным, морально неприемлемы и т.п. контекстом), маркировка изображений и документов, отметка времени, концептуальный и композиционный анализ; анализ сообщений в социальных сетях для розничного продавца (когда нужно выяснить, что потребитель думает о твоем товаре или услуге), создание таксономий, списков и пр., онлайн-поиск и запись результатов, мониторинг изменений исходных данных в поисковиках, сбор и очистка данных с веб-сайтов, верификация клиентов (проверка адресов, электронных почт, телефонов и пр.), категоризация документов, классификация (и кодирование) изображений и продуктов, анализ настроений (sentiment analysis).

DefinedCrowd

США, 2015 год основания, 1,1 млн долларов посевных инвестиций. Здесь можно сосредоточиться на аудио: собрать записи голосов или музыкальных отрывков, транскрибировать песни, проверить, соответствует ли текст аудиозаписи, тегировать настроение или смысловые оттенки.

Эмоциональные технологии

Эмоциональные вычисления (affective computing) и системы детекции и распознавания эмоций (EDRS — Emotion detection and recognition systems) представляют собой немаловажную часть глобальной индустрии больших данных и технологий искусственного интеллекта. Это молодая, активно развивающаяся сфера (в 2016 году рынок оценивался в $6 млрд, к 2022, по прогнозам, вырастет до $30 млрд), постепенно формирующая собственную экосистему теоретических воззрений, концептов и технологических продуктов — Emotion AI (эмоциональный искусственный интеллект). В ней работают как «старые» игроки, вышедшие на рынок в начале 2010-х гг. и до сих пор задающие тон (Affectiva, Noldus, Eyeris или Sightcorp), так и глобальные корпорации вроде Facebook, Apple, Microsoft, IBM и др.

Это чрезвычайно ресурсо- и наукоемкое направление, сосредоточенное на анализе эмоций, физиологических параметров и поведенческих паттернов, причем как в статическом режиме (фотографии, фреймы и пр.), так и динамически (аудио-видеопоток — от скайпа и YouTube до роликов, снимаемых на камеры смартфонов). Например, мы в Neurodata Lab синхронно анализируем множество данных: микроэкспрессию лица, движение глаз, голос, язык тела, движения, жестикуляцию, физиологические и поведенческие нюансы.

Человеческие эмоции — очень вариативная, в каком-то смысле ускользающая сущность, которая меняется от человека к человеку, от социума к социуму (есть этнические, возрастные, гендерные, социокультурные различия). Нельзя говорить об абсолютной универсальности эмоций, поэтому чтобы выявить закономерности, нужно обучать нейросети на огромных выборках качественных данных. Чтобы собрать гигантские объемы неструктурированной, необработанной, «сырой» информации, а затем кластеризовать её, извлечь признаки, пригодные для обучения нейросетей и классификаторов, без обращения к краудсорсинговым инструментам и коммьюнити привлеченных дистанционных специалистов не обойтись.

Платформа Emotion Miner

Задача успешно решается нами через интегрирование краудсорсинга (а речь о более чем 20 тысячах работников из 35 стран мира) в комплексный цикл аннотирования аудиовизуального контента, что помогает в конечном счете собирать, анализировать, интерпретировать большие потоки данных (более 100 тыс. фрагментов видео, каждый из которых размечен не менее чем десятью людьми), свидетельствующих об эмоциях, физиологическом состоянии, поведенческих особенностях человека в различных коммуникативных контекстах: от интервью, ток-шоу и политических дебатов до презентации продукта, групповых дискуссий, собеседований, бесед с актерами на красной дорожке кинофестиваля, с художниками на выставке, спортсменами после футбольного матча. Прошедшие все этапы обработки данные служат для шлифовки мультимодальных алгоритмов распознавания и создания технологий эмоционального искусственного интеллекта (Emotion AI), востребованного в разных индустриях — от биометрии и цифровой медицины до транспорта, робототехники и Интернета вещей.

По нашим оценкам, мировой рынок краудсорсинговых платформ в среднесрочной перспективе (2018—2019 гг.) составит около 2,2 млрд долларов.

Мнение, Технологии