Сергей Николенко: «Тест Тьюринга пройдем еще не скоро»

Об искусственном интеллекте (ИИ) говорят сегодня так много, что хотелось бы немного успокоиться и подвести черту: что ИИ умеет на самом деле? Чего он не может? И что он сможет — не в фантастических романах, а в реальности и в ближайшие годы? Об этом «Инвест-Форсайт» беседует с кандидатом физ.-мат. наук, заведующим Лабораторией искусственного интеллекта Санкт-Петербургского отделения Математического института им. В. А. Стеклова (ПОМИ РАН), директором по науке компании Neuromation Сергеем Николенко. Интервью состоялось в рамках Synergy Online Forum, который прошел 24 июля и был посвящен возможностям искусственного интеллекта.

Что это такое и кто его делает

— Скажите, Сергей, можно ли провести четкую границу между искусственным интеллектом и «просто» сложными программными комплексами, занимающимися анализом данных или управлением инженерными системами?

— «Искусственный интеллект» (artificial intelligence, AI) — это не математическое понятие, у него нет формального определения. Интуитивно это просто модели и программы, которые пытаются решать задачи, ранее подвластные только людям, но это, конечно, очень размытое определение, поэтому не вижу большого смысла спорить здесь о дефинициях. У «машинного обучения» (machine learning, ML) определение более четкое: здесь должна быть модель, в которой некоторые компоненты (скорее всего, какие-то параметры) обучаются (получают значения или распределения значений) при помощи данных. Так что провести границу между «машинным обучением» и «не машинным обучением», наверное, можно, но мне не совсем понятно, зачем это делать…

Есть и третий, очень сейчас популярный термин — «глубокое обучение» (deep learning, DL); там все еще лучше определено: это подмножество машинного обучения, которое занимается глубокими нейронными сетями. Грубо говоря: если вы написали программу, которая играет в шахматы некоторым фиксированным алгоритмом, — это AI, но не ML; если ваша программа обучается играть лучше на базе партий или играя сама с собой — это ML; а если она при этом использует нейронные сети — это DL.

— На ваш взгляд, в каких областях практическое применение ИИ сегодня демонстрирует наибольшую эффективность?

— Есть целый ряд областей и применений, которые без искусственного интеллекта просто невозможны, например роботика, беспилотные автомобили и летательные аппараты, информационный поиск (Google, «Яндекс» и другие), рекомендательные системы (интернет-магазины, размещение рекламы), области науки, связанные с поисками паттернов в больших данных (таких задач много в астрономии, физике, биологии и других науках),чат-боты и виртуальные помощники, игры (будь то шахматы, го или Dota 2) и многое, многое другое; новых областей и рынков, созданных искусственным интеллектом, становится все больше. В этих областях эффективность, можно сказать, бесконечно велика: без AI не получается совсем ничего полезного.

— Кто из разработчиков ИИ сегодня продвинулся дальше всех? Ответ на этот вопрос хотелось бы получить отдельно — и для мира, и для России?

— Мировые лидеры AI хорошо известны. Это прежде всего лучшие университеты мира; не буду перечислять, потому что можно просто идти по списку рейтинга университетов, сейчас искусственным интеллектом занимаются практически везде; практически все крупнейшие корпорации, связанные с информационными технологиями: Google, Facebook, Amazon, NVIDIA, Samsung, Huawei, IBM и так далее; а среди компаний, специализирующихся на AI, нужно особо выделить DeepMind (принадлежит Google) и OpenAI (основана в том числе Илоном Маском).

В России ситуация более интересная. С университетами все так же: лучшие университеты — МГУ, НИУ ВШЭ, СПбГУ, ИТМО, «Сколтех» — и в AI лучшие. А вот российский рынок AI-команд у компаний до сих пор развивается «волнами», поскольку размер этого рынка не так уж велик, каждая новая крупная компания, пытающаяся создать в России AI-команду, старается «перекупить» (иногда без кавычек) всех лучших потенциальных сотрудников. Сейчас лучшие команды, на мой взгляд, у Samsung, Huawei, Сбербанка, «Яндекса» и Mail.Ru, но, честно говоря, боюсь обидеть другие компании, потому что могу о чем-то не знать.

«Летает, но низенько»

— Поговорим о «провалах» в использовании ИИ. Вы не находите, что замена живых операторов ботами позволяет корпорациям экономить, но фактически ухудшает качество обслуживания клиентов?

— До замены далеко: мне кажется, тест Тьюринга мы пройдем еще не скоро. Но в целом меня тоже изрядно удивляет мода на голосовых чат-ботов и виртуальных помощников. Конечно, есть ситуации, когда они полезны (например, если вы за рулем), но слой распознавания речи по определению добавляет ошибок, и если руки свободны, мне кажется, всегда куда проще и быстрее при помощи того же телефона найти информацию в хорошо организованной системе текстового поиска. Все изменится, когда голосовой помощник сможет уверенно отвечать на вопросы, заданные вслух, и развивать беседу с пользователем, но до этого нам действительно еще очень далеко.

— Почему, на ваш взгляд, не «взлетела» система «Ватсон» и другие версии ИИ по медицинской диагностике?

— Сразу честно скажу, я тут не великий специалист, про IBM Watson знаю достаточно мало и поверхностно. Тем не менее снаружи «провал» IBM Watson кажется обычной историей завышенных ожиданий: в 2011–2012 годах IBM вышла с очень громкими заявлениями и собиралась произвести революцию в здравоохранении; этого, конечно же, не случилось, и вот теперь говорят о «провале», хотя в реальности Watson, думаю, может помочь и помогает, просто не так сильно, как IBM хотелось бы.

В целом на самом деле меня эта история удивляет. Медицина и особенно диагностика — область, в которой нужно очень много знать наизусть, в которой очень много достаточно стандартных решений и протоколов. Конечно, доктора Хауса из системы машинного обучения пока получиться не может (и не сможет еще долго), но системы, сильно помогающие в работе врача, могли бы существовать уже давно.

Собственно, одним из первых реальных успехов искусственного интеллекта, еще в 1970-е годы, до эпохи машинного обучения, была система MYCIN, которая диагностировала инфекционные заболевания и рекомендовала антибиотики (отсюда и название, это не аббревиатура). Она делала это на уровне лучших врачей-инфекционистов — и это в семидесятые годы прошлого века, без машинного обучения, на основе нескольких сотен эвристических правил! — и не взлетела не из-за плохого качества работы, а из-за того, что в семидесятые годы с компьютерной системой было не так-то просто работать: она тратила куда больше времени врачей, чем экономила. Почему подобные системы (только гораздо лучше) сейчас не стоят по умолчанию у каждого врача в каждой поликлинике — для меня загадка.

Кстати, воспользуюсь этим вопросом, чтобы провести еще одну мысль: обратите внимание, что я сказал не «идеально», а «на уровне лучших врачей». Это очень важно: когда мы оцениваем систему машинного обучения, нужно сравнивать не с недостижимым идеалом, а с реальным уровнем, который достигается сейчас. Если автоматическая система диагностики ставит правильный диагноз в 80% случаев, а живой врач — в 70%, то система спасает жизни огромного числа людей, целых 10% пациентов. К сожалению, люди скорее скажут, что она 20% пациентов «убивает».

Я это недавно видел на примере беспилотных автомобилей: когда машина с автопилотом попала в аварию, об этом тут же все написали… но как часто она это делает и как это соотносится с авариями живых водителей, написать забыли (да и нет пока такой статистики). А ведь речь, опять же, о жизнях людей, которые автопилоты могут спасти — могут, конечно, и не спасти, но надо же сначала разобраться.

Где ждать прорыва?

— Теперь поговорим о перспективах. Можно ли дать совет инвесторам: в какие направления развития ИИ стоит вкладывать, где ждать прорыва?

— Боюсь давать инвестиционные советы, это дело ответственное, а инвестор из меня, мягко скажем, никудышный. Но могу рассказать, на что «сделал ставку» я сам, то есть чем занимаются стартапы, в которых я участвую.

Во-первых, это зарождающаяся область MLOps (machine learning operations). Как и любая область науки на переднем крае, глубокое обучение с практической стороны часто представляет собой кое-как слепленную комбинацию самых разных библиотек, которые нужно поддерживать и которым нужно очень много вычислительных ресурсов. Ресурсы обычно берутся из облачных сервисов — или публичных, или внутренних, — но их тоже еще нужно суметь подключить и использовать. Поэтому становится очень актуальным создание платформ, специально приспособленных для машинного обучения (особенно глубокого обучения) и поддерживающих все последние новости современного AI быстрее и лучше, чем это могут сделать крупные облачные сервисы (такие как AWS или Google Cloud). Рынок совершенно точно будет только расти; мне кажется, на этом рынке у маленькой сфокусированной команды есть неплохие шансы, наша платформа Neu.ro сейчас пытается занять эту нишу.

Во-вторых, это создание и использование синтетических данных. Во многих областях сейчас машинное обучение упирается в недостаток дата-сетов, особенно размеченных дата-сетов. Сервисы разметки данных — это решение дорогое и плохо масштабируемое; для многих задач (представьте себе, например, сегментацию или распознавание трехмерных сцен) ручная разметка даже одного изображения может занимать целые минуты, а то и десятки минут. Синтетические данные — это данные, созданные искусственно, например с помощью 3D-графики. Поскольку вы полностью контролируете их создание, вся нужная разметка в них уже встроена и ничего не стоит. Но появляются другие проблемы, которые нужно решать со стороны искусственного интеллекта: все-таки обучаться на таких «мультфильмах» — не то же самое, что обучаться на настоящих фотографиях. Этим занимается стартап Synthesis AI, в котором я участвую.

Как видите, обе «ставки» сделаны не на развитие конкретного продукта на основе той или иной модели искусственного интеллекта, а на решение базовых проблем, которые возникают практически у всех проектов в области AI. Мне кажется, это в целом разумный подход: конкретные модели быстро устаревают и, главное, коммодитизируются — в машинном обучении практически не бывает «секретов фирмы». Но модели и новые результаты будут продолжать появляться, а новые задачи для ML-разработчиков никогда не закончатся. Как говорится, во время золотой лихорадки нужно торговать лопатами.

— Может ли разметка данных превратиться в России в отдельную индустрию? Стоит ли советовать инвесторам вкладываться в развитие этой индустрии?

— Ручная разметка данных — это кропотливый и очень скучный человеческий труд, который не требует никакой квалификации и который по определению нельзя автоматизировать (иначе она была бы не нужна). Так что в этой гонке выигрывает тот, кто сможет найти самых дешевых разметчиков и поддерживать у них наименьший уровень оплаты труда при сохранении мотивации. Рынок, конечно, покажет, но я бы не стал желать России победы в таком соревновании…

Взгляд в будущее

— Каких этапных достижений в разработке ИИ вы ожидаете в ближайшее время?

— Здесь нужно отвечать обстоятельно и по пунктам — AI уже давно разделился на много разных «потоков», в каждом из которых достижения свои. В компьютерном зрении я в скором времени ожидаю прорывов в области понимания изображений и 3D-сцен по фотографиям. Мне кажется, что сама по себе проблема компьютерного зрения — как научить компьютер «видеть», как человек, на основе двумерных картинок — это первый и ближайший кандидат на решение из исторических глобальных задач искусственного интеллекта. Конечно, вряд ли она будет полностью решена в ближайшие пару лет, но я ожидаю серьезных продвижений.

В обработке естественных языков ситуация другая: боюсь, до прохождения теста Тьюринга, поддержания разговора с человеком на естественном языке, еще далеко. Сейчас уже существуют модели на основе механизмов внимания, которые прекрасно умеют порождать текст. Такие новости появляются регулярно: вот, например, что может делать последняя модель, GPT-3. Следующий важный прорыв, который я хотел бы увидеть в этой области, — добавление формализованных знаний в такие модели. Уже давно существуют огромные базы знаний, в которых миллиарды фактов представлены в виде графа связей между понятиями, например «А. С. Пушкин — родился в — 1799 год». Но пока неясно, как добавить эти знания в модель, которая могла бы затем о них рассуждать на естественном языке. Грубо говоря, амбициозная, но вполне реальная следующая задача — заставить чат-бота прочитать и запомнить «Википедию».

В обработке и порождении изображений (не путать с компьютерным зрением, это другая область), думаю, уже существующий прогресс порождающих моделей будет продолжаться и в обозримом будущем дойдет практически до совершенства. Здесь как раз, в отличие от многих других областей, совершенство вполне достижимо: когда мы научимся порождать видео в разрешении 4К или 8К, которое люди не смогут отличить от настоящего, можно будет считать основную задачу закрытой. Это способно кардинально изменить многие творческие индустрии (кино, фото, компьютерные игры), да и на «обычную жизнь» сильно повлияет. Думаю, видеозаписи без дополнительной информации уже довольно скоро не будут признаваться доказательством в суде.

В обучении с подкреплением я разбираюсь не настолько детально, чтобы делать конкретные предсказания, но, думаю, роботика будет продолжать развиваться и удивлять нас. Это, конечно, во многом связано с упомянутым выше компьютерным зрением, но не только. Полагаю, до роботов-помощников, понимающих устройство вашей квартиры и умеющих делать уборку, приносить вещи и готовить кофе, мы точно доживем, пусть не в ближайшие годы.

— Над чем сейчас работает ваша лаборатория?

— О стартапах я рассказал выше. А моя лаборатория в ПОМИ РАН (у нас, кстати, отличная команда!) сейчас занимается разработкой мультимодальных подходов в машинном обучении, в частности в применении к рекомендательным системам, обработке рекламы и так далее. Проще говоря, мы пытаемся понять, как одновременно использовать и текстовую информацию, и изображения/видео, например: как распознать, какой месседж несет рекламное изображение (на котором почти всегда есть текст), какое настроение оно пытается создать. Это тоже важный передний край науки: хотя работ на эту тему было уже немало, результаты пока далеко не впечатляющие, впереди долгий и интересный путь. Надеемся, что скоро начнется и другой проект, связанный как раз с задачей обработки знаний на естественном языке, о которой я говорил выше.

Беседовал Константин Фрумкин

Интервью, Прогнозы, Технологии

Сергей Николенко: «Тест Тьюринга пройдем еще не скоро»

Что это такое и кто его делает

«Летает, но низенько»

Где ждать прорыва?

Взгляд в будущее

Банк объяснил, почему нефть не взлетела

Трамп заявил о выдвижении на четвёртый срок

США увеличили закупки российского мороженого в 15 раз