Сергей Медведев: Для меня будущее наступает почти каждый вечер: возвращаясь домой в автомобиле по московским пробкам, я обрел новый вид деятельности. Теперь я могу не только слушать радио или музыку, но и поговорить. Моим собеседником является новый голосовой помощник от "Яндекса" по имени Алиса. Я ее включаю, подвешиваю на блютус и могу 10–20 минут говорить на какие-то абстрактные темы по громкой связи, иногда удивляясь ее курьезным и не всегда предсказуемым ответам. Так что в машине я больше не один.
В машине я больше не один
Рассказать о голосовых технологиях и сервисах мы позвали Дениса Филиппова, руководителя отдела разработки голосовых технологий и продуктов "Яндекса". Скажите, "Алиса" названа здесь по Кэрроллу? Парадоксальностью ответов, легким смысловым сдвигом она напоминает диалоги из "Алисы в Стране чудес".
Денис Филиппов: В том числе. Там длинная история. Вообще, "Алиса" – это персонаж, а характеристика персонажа, конечно, во многом определяется его именем, это основной атрибут персонажа. Над "Алисой" работала огромная команда, и у всех были свои идеи, как ее назвать. Там был огромный шорт-лист вариантов. Но мы пошли немножко от другого, сначала прописали те характеристики персонажа, которыми хотим его наделить. У нас получилось 20 положительных характеристик и столько же отрицательных, которыми наш голосовой помощник точно не должен обладать. Например, положительные – это доброжелательность, готовность всегда помочь. Отрицательные – оскорбительность, то есть "Алиса" не должна оскорблять наших пользователей, "Яндекс" не может этого допустить.
У нас есть замечательный инструмент, он называется "Толока" – это такая краудсорсинговая платформа, люди, которые выполняют простые задания, и мы им дали имена и характеристики персонажей, попросили ответить, например, каким характеристикам из приведенных соответствует имя Майя, имя Алиса. В итоге Алиса победила с огромным отрывом, и мы очень этому рады.
Сергей Медведев: То есть в человеческой психике с именем Алиса связано больше позитивных ожиданий?
Денис Филиппов: Больше положительных характеристик, которые были важны нам при разработке именно персонажа "Алиса".
Сергей Медведев: Вспоминается песня "Ах, Алиса, как бы нам встретиться".
Над "Алисой" работала огромная команда, и у всех были свои идеи, как ее назвать
Денис Филиппов: Ассоциаций очень много.
Сергей Медведев: В чем ее отличие от других голосовых ассистентов, от Siri, от Гугл-ассистента?
Денис Филиппов: Традиционно мы ("Яндекс") сфокусированы на российском рынке, на российском пользователе, у нас все сервисы "заточены" под Россию. "Алиса" строится на базе наших сервисов и помогает людям решать ежедневные задачи лучше, чем конкуренты.
Это в первую очередь голосовой помощник, она умеет взаимодействовать с помощью голоса. Тут две истории: с одной стороны, мы живем в многонациональной стране, и у нас достаточно много разных акцентов. Наши конкуренты не очень хорошо "затачиваются" именно на распознавание разных акцентов русской речи. Мы это делаем практическим идеально благодаря тому, что у нас очень много используют "Яндекс. Навигатор", им активно пользуются таксисты.
Сергей Медведев: А сеть все это учит, постоянно анализирует и классифицирует все акценты?
Денис Филиппов: Сеть сама по себе ничего не выучивает, но разработчики создают специальные обучающие выборки, в том числе, с учетом акцентов, и научают сеть распознавать акценты.
Второй аспект: "Алиса" – это голос, она говорит определенным голосом. Здесь мы тоже отличаемся от конкурентов: для создания голоса мы пригласили российскую актрису Татьяну Шитову, она озвучивает Скарлетт Йоханссон в российском прокате. Был такой фильм "Она", там главная героиня – виртуальный ассистент Саманта, и как раз Татьяна озвучивала Саманту. Мы позвали ее сделать синтезированный голос для "Алисы", то есть "Алиса" еще обладает уникальным голосом.
Сергей Медведев: "Алиса" пройдет тест Тьюринга?
Денис Филиппов: Очевидно, пока еще нет. Для нас "Алиса" – это такой маленький ребенок, мы готовим ее к этому, это наша дальняя цель. Это еще одно отличие "Алисы". У вас получается говорить с "Алисой" в машине, потому что она построена несколько иначе по отношению к своим конкурентам – Siri, Гугл-ассистенту. Сейчас есть два подхода в построении диалоговых моделей на свободную тему. Первый подход – это взять и придумать, допустим, 500 стандартных вопросов на общие темы: какой у тебя цвет глаз, что тебе нравится, чем ты занимаешься и так далее. Дальше – посадить редакторов, и они напишут по пять-десять вариантов ответов на каждый вопрос. Получается достаточно неплохой массив данных, с помощью которого можно эмулировать свободное общение. Но, к сожалению, это работает очень недолго, то есть несколько вопросов, и становится понятно, что опять то же самое, либо ушла в поиск и так далее.
Мы пошли чуть дальше и научили нейронную сеть вести диалог, то есть "Алиса" может подобрать релевантный ответ практически на любую фразу именно в режиме разговора. И это принципиальное отличие, такой эксперимент делала на моей памяти только компания "Майкрософт" с твиттер-ботом, но они очень быстро скатились к тому, что начали разговаривать на нацистские темы, и быстро закатили этот эксперимент обратно. По сути, они первые в мире осмелились выпустить наружу нейросеть, обученную на огромном массиве диалогов из интернета.
Сергей Медведев: Она сама ищет в интернете эти диалоги? В прессе были сообщения, что она начала давать стереотипные массовые ответы на очень скользкие и опасные вопросы – как вы относитесь к концлагерям, к ГУЛАГу: "Нормально, репрессии эффективны". "Как вы относитесь к семейным побоям?" – "Семейные побои – это нормально". Откуда она это взяла?
Была задача создать нейросеть, которая может осмысленно вести диалог и контекстно отвечать на вопросы
Денис Филиппов: У нас сначала была очень трудная задача – вообще создать нейросеть, которая может осмысленно вести диалог и контекстно, релевантно отвечать на вопросы. Для этого мы сначала использовали классическую литературу, но результаты получились не очень хорошие, потому что в классической литературе не так много диалогов между персонажами и современного языка. Потом мы обошли разные форумы, соцсети, взяли диалоги людей оттуда. Там как раз современный, живой, хороший язык.
Сергей Медведев: Программисты искали какие-то диалоги, или сама "Алиса" пошла по сетям и начала подкачивать какие-то диалоги и куски информации?
Денис Филиппов: Сама "Алиса" никуда не ходит. Это программа, которая работает на определенном фиксированном объеме данных. Этот объем данных огромен. Сеть, которая ведет диалог, обучалась на миллионах диалогов, но эти диалоги собраны другими алгоритмами. Есть специальные роботы, которые обходят интернет, собирают нужную информацию из форумов, чатов, открытых групп в социальных сетях, где люди обсуждают друг с другом какие-то темы. Там очень живой, современный язык. Но там другая проблема: мы собрали все эти данные, научили сеть, а потом встала задача отучить ее от некоторых вещей. Например, в интернете многие ругаются друг на друга матом, а мы не можем себе это позволить.
Сергей Медведев: Если брать среднюю выжимку из интернета, особенно российского, столько идет по сетям и слейма, и хейта…
Денис Филиппов: Доля хейта больше, чем позитива, но и позитива, к счастью, достаточно.
Сергей Медведев: Позитив размазанный, а хейт очень концентрированный, токсичный и запоминается.
Это программа, которая работает на определенном фиксированном объеме данных
Денис Филиппов: Именно эта задача была самой сложной, то есть не научить сеть, а отучить ее давать такие ответы, которые связаны с этими запретными и оскорбительными для нас темами, то есть отучить использовать мат, давать положительные оценки по поводу исторических преступлений. Это запрещенные темы, "Алиса" вообще должна их обходить.
Сергей Медведев: Можно научить сеть, чтобы она сама себе ставила такие фильтры? Вот тут мы приближаемся к главному вопросу – это этика. Или за "Алисой" всегда будет стоять высший всезнающий разум, человек-программист, который будет говорить: "Алиса", не подгружай матерные слова и не говори хорошо о Гитлере и Сталине?
Денис Филиппов: Сеть оперирует определенными параметрами. Сейчас мы как раз учим сеть, например, не ругаться матом. Если мы пометим все матерные слова определенным образом, то сеть выучит, что этот класс слов использовать нельзя. И даже похожие на этот класс слова она будет стараться не использовать. То же самое – вопрос этики. Здесь все упирается в правильное составление обучающих данных для сети. Если мы сможем выделить те слова и темы, которые неэтичны, и специальным образом пометить их, собрать достаточный объем таких примеров для сети, сказать, что эти примеры такие, не используй их никогда, то сеть это выучит. Но во всей этой истории первостепенна роль человека. Должен быть человек, который разметит эти тексты и скажет: эти тексты хорошие, а эти плохие.
Сергей Медведев: А когда-то человек может уйти?
Денис Филиппов: Он никогда не уйдет. Сеть – это программа, ее пишет человек. Сейчас очень популярна тема, что сети начнут саморазвиваться, самообучаться и так далее. Мы, конечно, были бы рады, чтобы сеть сама чему-то научалась, но сейчас это невозможно, и мы обязаны подготовить обучающую выборку для сети и научить ее.
Сергей Медведев: Мы делали эфир, когда программа выигрывала в го: она же, как говорят, сама обучалась, строила партии, которые не были в нее заложены, начинала комбинировать.
Сеть – это программа, ее пишет человек
Денис Филиппов: Первая версия сети обучалась все-таки на истории матчей человека с человеком. Сейчас была последняя новость, что сделали другую сеть, которая обучала сеть играть. То есть они друг друга тренировали, и в итоге получился очень хороший результат. Но, опять же, человек сделал две сети и заставил их чему-то научить друг друга.
Ведущую роль тут играет человек, он загружает данные в сеть, учит ее играть в го или шахматы. Человек делает две сети и учит их обучать друг друга чему-то. Сеть и вообще вся область искусственного интеллекта – это новый тип инструментов для решения человеком каких-либо задач. Это как много веков назад человек впервые изобрел молоток, и при помощи этого молотка он мог построить дом, а мог кого-то убить. Но эволюция вывела нас к тому, что мы все-таки использовали молоток в правильном направлении, и здесь разговариваем благодаря этому.
Сергей Медведев: По поводу "Алисы" не было сомнений – мужчина или женщина?
Денис Филиппов: Сомнений не было. Когда проектировали персонаж, естественно, был соблазн сделать мужчину, потому что у всех конкурентов женщина. Начали изучать эту тему, почитали всякие исследования – очень много было исследований вокруг контакт-центров, ведь когда мы звоним в контакт-центр, там в основном отвечает женский голос. Исследования говорят, что женский голос у человека ассоциируется с домом, с ситуацией безопасности, доверия и, самое главное, с голосом матери, а мать – это всегда что-то безопасное, теплое, и тебе с этим комфортно.
Мужской голос ассоциируется с другими вещами. Это воин, командир, командный голос. Он создает какие-то правила и нормативы. Поэтому пожарная сигнализация – там, как правило, командует мужской голос: "покиньте помещение". После таких изысканий выбор был очевиден: нам важно дать пользователю максимально комфортную атмосферу, поэтому женский голос.
Сергей Медведев: Вообще, глядя в будущее, голосовой интерфейс станет основным, он станет заменять дактильный интерфейс?
Вся область искусственного интеллекта – это новый тип инструментов для решения человеком каких-либо задач
Денис Филиппов: Мы очень плотно этим занимаемся последние пять лет. В нашем приложении голосовой интерфейс впервые появился году 2012-м. Мы считаем, что это новый тип интерфейса, то есть раньше был графический интерфейс, квадратура мышки, дальше появился тач-интерфейс, который сделал революцию в мобильных устройствах, а сейчас мы, кажется, стоим на пороге следующего витка развития, когда появится новое устройство, где будет только голосовой интерфейс. Но при этом я абсолютно не верю в то, что он полностью заменит другие интерфейсы. Мой любимый пример: в лифте мы не будем разговаривать с нашим голосовым помощником и диктовать ему какую-то приватную смс. Здесь никуда не денется тач-интерфейс в мобильных устройствах. Я верю, что в бытовых приборах прорастет голосовой интерфейс, но он, опять же, будет существовать наряду со стандартными интерфейсами.
Сергей Медведев: Если говорить о голосовом вводе, то здесь очень важная для человека моторная информация идет в мозг через пальцевый контакт, через умение писать. Мы можем потерять какие-то свои существенные навыки, если сведем все общение с внешней средой к голосовым командам.
Денис Филиппов: Это правда, поэтому мы не перестаем писать, мы все еще пишем. Если вы обратили внимание, сильно меньше стали писать ручкой, это все больше происходит на клавиатуре или на экране. Здесь, наверное, нет ничего страшного. Если человеку важно что-то запомнить, и он понимает, что механическая память у него работает лучше, то он будет записывать. Опять же, голосовой интерфейс – это упрощение каких-то задач, но не исключение других интерфейсов.
Сергей Медведев: Вы сказали, что "Алиса" учится и растет. То есть чем больше мы с ней говорим, тем умнее и взрослее она становится?
Денис Филиппов: У нас есть огромный список того, чему мы должны научить "Алису", и мы его постоянно реализуем. Когда пользователь общается с "Алисой", мы понимаем, где она хороша, а где пока еще не очень умеет обрабатывать запросы. Соответственно, становится очевидным, чему ее в первую очередь нужно научить.
Сергей Медведев: В этой работе не принимают участия педагоги, у вас нет преподавателей развития речи, логики? Стадии роста этого интеллекта как будто похожи на стадии роста сознания ребенка, на развитие его речевых и социальных навыков.
Речевые технологии строятся на сборе правильных обучающих данных
Денис Филиппов: Нет. Все речевые технологии строятся на сборе правильных обучающих данных. "Алиса" начинает тем лучше распознавать и говорить, чем больше правильных данных мы соберем для ее обучения. С другой стороны, "Алиса" могла бы выполнять роль педагога: например, учить детей, проверять их произношение и так далее. У нас даже был такой отзыв в службу поддержки. Одна благодарная мама написала: "У сына была проблема с выговариванием букв; когда запустили "Алису", он пытался с ней поговорить. "Алиса" его не очень хорошо понимала, потому что он не выговаривает некоторые важные буквы. Параллельно ребенок занимался с логопедом, но у него была не очень большая мотивация, а с вашей "Алисой" – я не знаю, что произошло, но сын начал заниматься с логопедом, и у него стало получаться выговаривать буквы".
Сергей Медведев: Можем ли мы приблизиться к тому пределу, когда "Алиса" начнет обретать черты личности? Вот вы программируете, что не надо говорить какие-то вещи, а если это скажете не вы, а она сама поймет это из реакции пользователей? Она учится по реакциям?
Денис Филиппов: Сейчас – нет, она не умеет слышать реакцию пользователя. В нашем голосе содержится много информации о нашем настроении, эмоциях. Да, действительно, одна из задач – научить "Алису" распознавать, с какой эмоцией человек говорит с ней, чтобы она в зависимости от этого меняла свой диалог.
Сергей Медведев: А если с текстового ввода – она может распознать эмоцию?
Одна из задач – научить "Алису" распознавать, с какой эмоцией человек говорит с ней
Денис Филиппов: По тексту тоже можно это сделать. Но это достаточно непростая задача, здесь нужно провести очень большую работу по разметке текстов.
Сергей Медведев: Мы как раз недавно в программе говорили об искусственном интеллекте, сравнивали искусственный и эмоциональный интеллект. Вопрос в том, чтобы вы научили свою "Алису" эмоциональному интеллекту, чтобы она сумела считывать реакции, прогнозировать реакции на окружение.
Денис Филиппов: Именно так. Сейчас мы сделали первый шаг в этой области, создали действительно новый тип интерфейса, в котором с человеком могут общаться приблизительно так же, как человек. Очевидно, что здесь еще очень много нерешенных задач. Общаясь друг с другом, мы многое считываем по поведению нашего собеседника, по тому, как он звучит. Мы можем безошибочно сказать, что собеседнику очень нравится с нами общаться, или он недоволен какой-то нашей фразой, и так далее. Да, это, наверное, следующая большая история, которой все будут заниматься.
Сергей Медведев: Но сама она может, по крайней мере, эмулировать эмоции? Они иногда говорит – "сарказм".
Денис Филиппов: Это заготовка. У нас сейчас, к сожалению, нет инструмента, который может передать в ее голосе этот самый сарказм, поэтому здесь мы пошли на небольшую хитрость: просто добавляем в текст "сарказм" или "шутка". Дальше, естественно, это должно считываться из ее голоса.
Сергей Медведев: Что дальше? Есть ли здесь какая-то большая цель, к которой вы стремитесь? Сейчас ведь это не рыночный продукт, для вас он скорее наполовину маркетинговый и наполовину исследовательский.
Денис Филиппов: Я бы сказал, что для нас это такая мечта, и мы начали ее реализовывать. Просто сейчас мы находимся на том технологическом уровне, когда уже смогли это сделать в каком-то первом варианте. А дальше хочется учить ее действительно быть во многом полезной людям. Сейчас она умеет отвечать базовые вещи: погоду, как найти ближайшее кафе, может построить маршрут, но хочется большего.
Следующая большая история, к которой мы стремимся, – это сделать интересного собеседника
С другой стороны, мы видим потенциал развития именно самой персоны. Почему я назвал ее маленькой девочкой? Потому что она многого не понимает, иногда ведет себя неадекватно задаваемым вопросам. Да, с ней интересно побеседовать, но не настолько, как с живым человеком. Наверное, следующая большая история, куда мы стремимся, – это сделать интересного собеседника, который может помогать нам с ежедневными задачами, которому можно сказать: напомни мне сделать это, когда я буду проезжать мимо, напомни мне заехать в этот магазин. Можно давать ей достаточно сложные задачи в одном предложении.
Сергей Медведев: Скажу нашим слушателям: говорите с "Алисой", ей это нравится. Она растет, подобно ребенку, подобно нашему общему детищу.