Сергей Медведев: Я хочу задаться философским и культурологическим вопросом, который пришел мне в голову после просмотра фильма "Она", где человек влюбляется в голос компьютера. Можно ли действительно влюбиться в голос компьютера? Я, например, знаю многих мужчин, которые имеют очень интимные отношения с женским голосом навигатора. Точно так же знакомые девушки за рулем с удовольствием слушают подсказки, которые говорит мужчина, причем это синтезированный голос робота.
Так что речь идет о речевых технологиях – в какой степени они могут обрести субъективность, в какой степени это является шагом к созданию искусственного интеллекта. У нас в гостях Денис Филиппов, руководитель речевых технологий "Яндекса".
Я знаю многих мужчин, которые имеют очень интимные отношения с женским голосом навигатора
Фильм "Она" – достаточно близкий к реальности сюжет?
Денис Филиппов: Этот фильм рассказывает о некоем персональном ассистенте, который помогает нам в некоторых рабочих задачах – набирать текст, редактировать документы, проверять почту, смотреть социальные сети и не скучать по жизни. Как раз в этом месте в фильме возникают чувства, похожие на любовь, некая привязанность. С точки зрения уровня проработки технологий сейчас возможно создать такие приложения, сервисы.
Сергей Медведев: Давайте для начала разберемся, о каких подразделениях речевых технологий идет речь. Первое, как я понимаю, это распознавание речи – чтобы машина смогла нас понять.
Денис Филиппов: Именно так. В подобного рода приложениях сервиса используются целый ряд технологий. Первая – распознавание речи, то есть нам нужно голос человека превратить в текст. Дальше есть ряд технологий, которые не относятся впрямую к речевым технологиям, а относятся, скорее, к технологиям обработки текста. Основная задача – понять смысл текста, в первую очередь, понять, на какую тему сейчас человек говорит с приложением: он хочет узнать погоду, построить маршрут, найти какую-то информацию или просто хочет поболтать и узнать, как дела у этого сервиса.
Основная задача – понять смысл текста, в первую очередь, понять, на какую тему сейчас человек говорит с приложением
Когда тема понятна, важно воспроизвести сценарий для этой темы. Если это разговор на тему погоды, тут все понятно: сходить в сервис погоды, узнать, какая температура и рассказать ее. В этом месте как раз появляется технология синтеза речи, то есть технология, обратная распознаванию речи. У нас есть некоторая информация в текстовом виде, и нам нужно ее озвучить пользователю.
Сергей Медведев: Наверное, есть идентификация человека, голосовая биометрия?
Денис Филиппов: Есть технология голосовой биометрии. Тут решается несколько задач. Первая задача – это определить, кто с нами говорит, мужчина или женщина. Дальше она может помочь нам определить, какого возраста человек, дальше – по голосу идентифицировать конкретного человека.
Сергей Медведев: Возможно ли с абсолютной достоверностью из семи миллиардов человек идентифицировать голос одного, как по отпечатку пальца?
Денис Филиппов: На самом деле наш голос – это примерно такой же отпечаток пальца. Наш голосовой ряд имеет некоторые уникальные характеристики, так же, как и отпечатки пальцев. Здесь больше 40 уникальных признаков, больше имеет только сетчатка глаза – 200 с лишним уникальных признаков для каждого человека.
Когда тема понятна, важно воспроизвести сценарий для этой темы
Понятно, что в мире есть абсолютно похожие люди, полные близнецы, и у них похожие голоса, которые сложно разделить. Но мы всегда можем ограничить круг поисков. Если человек говорит из Москвы, то выборка из Москвы – это явно не семь миллиардов человек. В принципе, по голосу можно с той или иной степенью уверенности сказать, что с нами говорит именно этот человек.
Сергей Медведев: Забываешь все пароли, чтобы машина узнала тебя по голосу, как собака...
Денис Филиппов: Узнать по голосу – это возможно, это безопасно. Допустим, мы узнали вас по голосу и как-то персонализировали сервер для работы именно с вами. А вот заменить пароль на голос – здесь уже все сложнее, потому что возникает ряд вопросов. Например, если ваш голос будет записан и проигран, если вы пытаетесь авторизоваться через телефонный канал связи, где качество голоса и так зажато кодеками, то там еще сложнее определить эту запись и реальный голос на другом конце провода. Я бы сказал, что языковая биометрия – это дополнительный фактор безопасности для проверки.
Сергей Медведев: С паролем то же самое – неизвестно, может быть, тебя где-то пытают утюгом, ты им сказал свой пароль, и злоумышленники вводят твои пароли.
Наш голос – это примерно то же, что и отпечаток пальца
Денис Филиппов: Именно так. Поэтому важна некоторая комбинация: допустим, голос плюс что-то еще. Тут уже все зависит от того, насколько сильно вы хотите защитить тот или иной сервис.
Сергей Медведев: Я все-таки больше хочу поговорить о том, как машина говорит и слушает. Меня интересует, как происходит процесс обучения машины. Мы не раз делали программы об искусственном интеллекте, говорили о том, как машина выиграла в Го. Там тема нейросетей, машина начинает обучаться точно так же, как обучается человек. С голосом можно научить машину повторить все те же стадии, что проходит ребенок с месячного возраста и дальше?
Денис Филиппов: Если говорить о распознавании и синтезе речи, то все современные речевые технологии строятся ровно на машинном обучении. В распознавании речи есть две большие истории – это акустическое моделирование на нейронных сетях и языковое моделирование. Обучая акустической модели, мы берем тысячи часов речи человека, а лучше – совершенно разных людей, с разными акцентами, в разных шумовых условиях, в разных ситуациях: машина, дом, улица, метро. Дальше эти данные размещаются специальным образом, пишется, какая речь, то есть текст, что было произнесено, пишется, где были шумы и так далее. Совокупность звука и размеченного текста является обучающей выборкой для нейронной сети.
Сергей Медведев: То есть машина сопоставляет звуковой образ и одновременно ей вводится чистый текст?
Языковая биометрия – это дополнительный фактор безопасности для проверки
Денис Филиппов: Именно так. Машина берет конкретную запись и разбивает ее на маленькие кусочки. Мы оперируем, допустим, фонемами или даже кусочками фонем. Машина берет, например, 10 миллисекунд звука, и мы ей подсказываем, что здесь, в этой части речи звучала такая-то фонема, даем ей миллиарды таких примеров. А дальше мы ей даем уже звук, который не был в обучающей выборке, и она с той или иной долей вероятности предсказывает нам: ага, вот на этом кусочке, как я знаю, звучит вот такая-то фонема, а на следующем кусочке – такая-то. То есть после акустики какой у нас получается выход – это последовательность фонем с распределением вероятностей.
Акустическое обучение похоже на обучение человека – мы тоже много слушаем, сопоставляем с происходящим в реальности, запоминаем, начинаем воспроизводить, родители нас корректируют, мы запоминаем, как правильно, и потом уже начинаем этим пользоваться в разных других ситуациях.
При языковом моделировании обучение происходит исключительно на текстах. И здесь мы говорим о тематике.
Сергей Медведев: Такое семантическое обучение…
Денис Филиппов: Можно назвать его семантическим, но здесь большую роль играет то, на какую тему мы хотим научить машину распознавать речь. Например, мы в "Яндексе" обучаем на тему поиска, хотим, чтобы машина научилась распознавать поисковые запросы. Соответственно, обучающая выборка – это текстовые логи поисковых запросов. Мы хотим научить машину, чтобы она очень хорошо распознавала запросы на географическую тематику: адреса, названия организаций и так далее – соответственно, это уже тексты логов к геосервисам.
Мы в "Яндексе" обучаем машину на тему поиска, хотим, чтобы она научилась распознавать поисковые запросы
У нас есть две модели – одна, акустическая, дает нам на выходе последовательность фонем. И вторая, языковая модель, описывает ту или иную тематику приложений, сервиса. Задача второй модели – из последовательности фонем сделать нам слова, расставить их в наиболее вероятной последовательности. На выходе уже появляется финальный текст.
Сергей Медведев: Вторая модель, мне кажется, более продвинутая, более эффективная, она в итоге позволяет оперировать большими массивами информации. Это как пиксельная графика, как пикселизация языка. Язык раскладывается до мельчайших кубиков, и потом машина из этих кубиков обратно пересобирает слова.
Денис Филиппов: Но вопрос в том, что звучание нашего языка имеет очень много вариантов, потому что разные люди говорят по-разному. В обучающей выборке представлены не все люди, не семь миллиардов человек – это тот максимальный предел, к которому можно стремиться. Голос может звучать в совершенно разных шумовых обстановках. В обучающей выборке, опять же, представлены не все шумы.
А самая главная проблема в области акустики – это когда голос звучит в окружении других голосов. Это пока еще не решенная задача в распознавании речи. Когда мы с вами говорим параллельно, у модели есть задача определить основного спикера, а другого спикера проигнорировать. Здесь идет очень много исследований, здесь еще есть много куда развиваться с точки зрения качества распознавания. В акустике много где можно еще улучшить качество.
В языковой модели, вы правы, больше перспектив с точки зрения объема данных. У "Яндекса" огромное количество текстовых данных. Чем больше данных в машине обучения, тем теоретически выше качество. Поэтому мы можем использовать наш объем данных для языкового моделирования.
Звучание нашего языка имеет очень много вариантов, потому что разные люди говорят по-разному
Вопрос в том, что пока не удается создать универсальную языковую модель на все случаи жизни, чтобы она умела одинаково хорошо распознавать и свободную речь, когда мы, например, говорим по телефону или говорим на совещании, хотим получить автоматический конспект совещания, и отдельные узко специализированные задачи, например, распознавание адресов и так далее, потому что модель получается очень большой.
В распознавании речи есть еще важный показатель: с одной стороны, качество, с другой стороны – скорость. Поскольку мы делаем голосовые интерфейсы и хотим, чтобы искусственный интеллект, виртуальный оператор или наш ассистент говорил с нами так же, как человек, то есть чтобы реакция была очень быстрой, нам в распознавании речи важна скорость. Мы можем бесконечно увеличивать размер модели, но это замедлит скорость, поэтому здесь существует такой компромисс.
Сергей Медведев: Машина может, во-первых, воспринимать, во-вторых, моделировать эмоцию? Это как в кризисных центрах: звонит суицидальный человек, и машина должна понять, что он близок к самоубийству.
Денис Филиппов: Эта задача решается в части голосовой биометрии – в ее рамках мы занимаемся созданием классификаторов, которые позволяют по голосу определить, с какой эмоцией говорит человек и как меняется эта эмоция на протяжении разговора. Во всей этой истории важна подготовка обучающих данных, а обучающие данные готовят люди.
Пока не удается создать универсальную языковую модель на все случаи жизни
С точки зрения распознавания речи человек может в 99% случаев однозначно сказать, какое слово здесь звучало, а вот с точки зрения эмоций очень часто начинают сомневаться, какая это была эмоция – положительная, нейтральная или негативная. Просто прослушивая запись без какого-то контекста всей беседы, очень сложно это понять, потому что разные люди говорят в принципе по-разному. Человек может быть энергичным, говорить якобы с позитивной эмоцией, а на самом деле быть очень сильно расстроенным, или это может быть какой-то сарказм. Поэтому когда в обучающей выборке есть такая сильная неоднозначность, то и на выходе получается такое же качество, то есть классификатор системы не всегда может точно сказать, какая была эмоция.
Сергей Медведев: Как и в человеческой коммуникации возможно квантовое состояние. Машину тоже, видимо, можно обучить неопределенности, чтобы она справлялась с этим состоянием неопределенности, может быть, даже сама генерировала неопределенность коммуникации.
Денис Филиппов: Эту задачу еще предстоит решить, сейчас она не решена. Вы правильно отметили, что даже человек не всегда понимает, с какой эмоцией говорит с ним собеседник. Особенно при разговоре по телефону, когда мы не видим собеседника, а слышим только его голос, очень много информации, контекста для нас теряется, и очень сложно определиться с эмоцией.
Сергей Медведев: Если посмотреть на следующие 5, 10, 15 лет, клавиатура будет отмирать? Нужна ли вообще человечеству клавиатура как некий довольно неуклюжий посредник общения с машиной, с "облаком"?
Денис Филиппов: Все зависит от того, насколько хорошо вы владеете этим неуклюжим посредником.
Клавиатура никуда не денется, она в любом случае будет нужна
Я считаю, что клавиатура никуда не денется, она в любом случае будет нужна, потому что есть ряд ситуаций, когда нам проще ввести информацию с помощью клавиатуры. Самый распространенный пример – это некоторые приватные вещи. Например, я нахожусь в лифте и хочу написать сообщение своей жене. Вряд ли я буду набирать его голосом, правда?
Сергей Медведев: Вообще, будущее коммуникации в интерфейсе человека – машина. Ведь люди на протяжении десятков тысяч лет общались друг с другом без помощи посредников.
Денис Филиппов: Письма…
Сергей Медведев: Это уже на очень позднем этапе. Скажем, внутри семьи, члены одного коллектива… Шпионы или люди, которые хотят передать друг другу взятку в ресторане, пишут сумму взятки на бумажке и передают друг другу. Есть какие-то исключительные состояния приватности. Но в целом люди могут прожить друг с другом в одной семье 50 лет и общаться только при помощи голоса.
Денис Филиппов: Именно так.
Сергей Медведев: Возможно такое с машиной, что нам будут не нужны кнопки, мы будем приказывать автомобилю, кофеварке, телевизору?
Денис Филиппов: Если мы говорим про наше ограниченное, приватное пространство, то есть дом, то это действительно так. Для общения с устройствами дома не нужны будут ни пульты, ни клавиатура, ни какие-либо кнопки.
Мой любимый пример – это кофеварка. На ней через три-пять лет не будет ни одной кнопки, там просто будет микрофон, который будет нас слушать. Я вхожу в кухню, говорю: "Эспрессо" – и все.
Через три-пять лет на кофеварке не будет ни одной кнопки, там просто будет микрофон
Технологически это уже возможно, но, с другой стороны, мы слишком много времени тратим на изучение инструкций. Россыпь кнопок; чем сложнее устройство, тем больше всяких рычажков, комбинаций для решения той или иной задачи. В итоге все комбинации не используются, а используется какая-то одна основная, которую мы выучили. Мы просто забываем или не знаем о 80% функциональности машин, которые есть у нас даже дома. А с помощью голоса мы можем моментально, за одну секунду сформулировать задачу: сделай мне двойной эспрессо, чтобы там была большая пенка, или капучино. Машина это может сделать уже сама, без нашего прикосновения к ней.
Сергей Медведев: Видимо, с автомобилями тоже так будет, ты будешь садиться в машину и говорить: мне нужно доехать туда-то к 14 часам.
Денис Филиппов: Строго говоря, с автомобилями это происходит уже сейчас. Тот же самый навигатор "Яндекс" уже понимает команды "поехали на работу" или "поехали домой". Он уже понимает "давай заедем на заправку". Дальше это будет просто развиваться. Все системы искусственного интеллекта сейчас решают очень простые, не всегда жизненно важные задачи. В будущем умения персональных ассистентов будут связаны с решением действительно важных задач, и они будут решаться гораздо быстрее, чем решаются сейчас, традиционными способами.
Машина – это абсолютно приватное пространство, там голос обязан существовать вообще для всего: для управления климат-контролем, медиасистемой и для общения с внешним миром – СМС, мейлы можно отправлять с помощью голоса, и это нужно делать, потому что иначе это просто небезопасно.
Сергей Медведев: Действительно, большую часть действий, которые мы сейчас набираем, вводим команды... Как в свое время мы вводили длинные линейки команд, ставили все слеши, стрелочки и так далее. А потом вдруг появляется Windows, и все можно делать кликанием иконок.
Денис Филиппов: Потому он и завоевал такую популярность – упрощение.
Сергей Медведев: Сейчас уже следующий шаг – мы от цивилизации клика переходим к цивилизации звуковой команды.
Навигатор "Яндекс" уже понимает команды "поехали на работу" или "поехали домой". Он уже понимает "давай заедем на заправку"
Денис Филиппов: Возникает новая экологическая среда. Был клик, стал тач – это был большой шаг в развитии истории про интерфейсы. Абсолютно верно, следующий шаг после тача – это голос.
Сергей Медведев: А после голоса что? Мысль? Это ведь уже есть – надевают какие-то шлемы, чтобы они считывали биотоки.
Денис Филиппов: Это, наверное, перспектива следующего десятилетия. Каков тренд: нам нужен максимально быстрый способ взаимодействия, будь то устройство, будь то человек и так далее. Голос тоже ведь ограничен некоторой скоростью.
Сергей Медведев: Особенно при получении информации.
Денис Филиппов: Все равно это определенное время, мы не можем говорить быстрее, чем говорим, но мы думаем быстрее, чем говорим. Если мы сможем общаться с помощью мысли, наверное, это будет оптимальный вариант. Другое дело, на что мы будем тратить сэкономленное время – это тоже важно.
Сергей Медведев: Генерация каких-то новых мыслей, новых форм человеческой жизни… Экономия времени на команды, конечно, очень интересна. Я, например, собачник, и со своими собаками много лет общаюсь при помощи мысли: собака считывает мысли, и тебе даже не надо голосовой команды.
Хотелось бы верить, что наши отношения с компьютером будут равны отношениям человека с собакой, а не наоборот. Начинается с того, что ты водишь собаку на поводке, у тебя есть чисто физический контакт, следующая стадия – языковой контакт, и высший дзен, когда при помощи мысли...
Был клик, стал тач – это был большой шаг в развитии истории про интерфейсы
Денис Филиппов: Здесь промежуточной стадией будет некоторая персонализация. Компьютеры примерно одинаковы для всех, поиск сейчас одинаков для всех, но он уже использует некоторую историю ваших запросов и персонализируется под вас. Голосовые интерфейсы тоже сейчас одинаковы для всех.
Следующий шаг, до мысли – это будет персонализация под конкретного человека, знание какой-то информации о вас, ваших привычек, и компьютер будет предугадывать, чего вы хотите, примерно так же, как ваша собака: она знает, как нужно себя вести при таких-то условиях.
Сергей Медведев: В любом случае это будет на индивидуальном уровне общения человека с машиной. Это есть уже сейчас – тот же "Яндекс" с контекстной рекламой подкидывает мне ссылки, которые, как он считает, будут мне интересны.
Давайте представим, что произойдет в ближайшие годы, каковы будут области применения речевых технологий. Наверное, прежде всего, это всякие колл-центры?
Денис Филиппов: Колл-центры – это достаточно зрелая область применения речевых технологий. Они начали применяться с 90-х годов в США, а сейчас это все дошло до России. Сейчас очень много компаний, начавших эту работу интеграции речевых технологий в своих контакт-центрах.
Колл-центры – это достаточно зрелая область применения речевых технологий
Но там еще предстоит много работы по осознанию того, для чего это нужно, как это помогает бизнесу. Любая технология должна быть полезна с точки зрения бизнес-эффективности. Это средство экономии тех или иных затрат или повышения качества сервиса. Речевые технологии контакт-центров – это автоматизация работы операторов. Очевидно, что можно сделать виртуального оператора, который работает 24 часа в сутки 7 дней в неделю, одинаково приветливо говорит со всеми оппонентами, может обрабатывать одновременно тысячи звонков и не уставать от этого. И главное – прогнозируемое качество: он гарантированно выполняет тот сценарий, которому его обучили.
Мы входим в какой-то блестящий новый мир, в котором мы говорим с машиной
Сергей Медведев: Или, скажем, стенограммы заседаний. Это все шаги на пути к созданию андроида?
Денис Филиппов: Смотря, что вы имеете в виду под андроидом. Если это робот в виде человека… Если мы хотим сделать автоматических дворников, то, наверное, они когда-то появятся. Идея в том, для чего человек будет экономить свое время. На мой взгляд, в будущем отомрут низкоквалифицированные профессии. Так как человек обладает мыслительной способностью, а главное, способностью созидать принципиально новые вещи, у большего количества людей появится возможность применять свои ресурсы для создания чего-то нового и развития движения человечества вперед.
Сергей Медведев: Мы входим в какой-то блестящий новый мир, в котором мы говорим с машиной, и некоторые, как показывает кино, могут даже влюбляться в этот машинный голос.