Редактор Ирина Лагунина
В передаче участвуют: Игорь БОГУСЛАВСКИЙ - заведующий Лабораторией компьютерной лингвистики ИППИ РАН Леонид ИОМДИН - научный сотрудник Лаборатории компьютерной лингвистики ИППИ РАН Благодарность Михаилу СУББОТИНУ, США
В 50-е годы ХХ века не только писатели-фантасты, но и ученые задумались о том, не пора ли создать машину, способную переводить тексты с одного языка на другой. В Европе и Америке государство щедро оплачивало подобные научные разработки, а в России энтузиазм исследователей толкал вперед неповоротливую чиновничью телегу. Однако перед лингвистами неожиданно встали сложные проблемы. Оказалось, что умная техника совсем не так, как люди, понимает смысл слов. В известном рассказе Станислава Лема "Вторжение с Альдебарана" это описано с юмором. Пока космический прибор "телепат", понимавший более 190 тысяч языков галактики, выводил на экране: "Потомок по женской линии четвероногого млекопитающегося :", пьяный землянин настиг умного пришельца и нанес ему смертельный удар палкой по голове.
Елена Ольшанская: 7 января 1954 года в нью-йоркском офисе фирмы IBM состоялась первая публичная демонстрация машинного перевода. Перевод осуществлялся на машине IBM-701. Сообщение об этом вскоре появилось в американском научном журнале, и в том же 1954 году в сентябрьском номере российского реферативного журнала "Математика" была напечатана заметка, подписанная Дмитрием Юрьевичем Пановым - "Перевод с одного языка на другой при помощи машины: отчет о первом успешном испытании." С появления этого реферата начинается отсчет истории машинного перевода в СССР", - утверждает выдающийся математик Владимир Андреевич Успенский. Российская наука, по его словам, тогда шагнула в эпоху, которую он назвал "серебряным веком структурной, прикладной и математической лингвистики". Участники нашей передачи - лингвисты, заведующий Лабораторией компьютерной лингвистики ИППИ РАН Игорь Михайлович Богуславский и научный сотрудник этой лаборатории Леонид Лейбович Иомдин.
Игорь Богуславский: Эта идея, насколько я помню, появилась после Второй мировой войны, когда возникла аналогия между тем, что американцы делали, когда дешифровывали коды немцев и японцев. Кроме того, когда война окончилась, появились компьютеры, возникла идея, что ту же самую технику можно применить для перевода с одного языка на другой. Например, мы хотим переводить с русского языка на английский, представим себе, что у нас не русский текст, а текст зашифрованный, который нам надо дешифровать, как мы дешифровывали коды. Возникла эта идея, и очень быстро ее стали реализовывать, появились первые успехи, которые показались очень обнадеживающими. Но оказалось все не так просто.
Леонид Иомдин: В 1954 году был первый, собственно, эксперимент по машинному переводу в Джорджтаунском университете. Перевод этот был, между прочим, с русского языка на английский. Решили: зачем стараться, утруждать себя и делать перевод вручную, когда можно поручить это машине. Взяли, попробовали какой-то текст из области угольной промышленности, по-моему, это было устройство шахты или процессы добычи угля, не помню точно, появилась какая-то последовательность английских слов. Вместо сложных русских слов, которые написаны кириллицей, которые никто не понимает, вдруг появились английские слова. Уже Сталина не было, уже была какая-то оттепель, об этом стало быстро известно. Показалось, что это перспективно, немножко пройдет времени, и компьютерный переводчик будет сделан. И хотя тот перевод был абсолютно некачественный и никуда не годился, люди воспряли духом. Был академик Ляпунов, который об этом узнал, отец кибернетики наряду с Бергом и с другими, и он решил, что у нас тоже надо попробовать сделать машинный перевод. У него была аспирантка в институте имени Стеклова, Ольга Сергеевна Кулагина, которая с детства великолепно знала французский язык. Он говорит: "Будешь делать машинный перевод". Она язык знала, но ни о какой лингвистике не имела понятия. И она решили пойти в МГУ, найти какого-нибудь толкового студента и сделать с ним машинный перевод. Она пришла в университет и нашла толкового студента - это был Мельчук.
Елена Ольшанская: Пятидесятые годы вошли в историю как эпоха романтики, веры в безграничные возможности науки. Математики, лингвисты, логики, психологи, кибернетики, литературоведы, физиологи высшей нервной деятельности, семиотики, аналитические философы встречались на междисциплинарных семинарах, работали вместе. Одной из легендарных фигур того времени был Игорь Мельчук. "За безупречно украинским именем скрывался огненно-рыжий еврей :, похожий на Романа Якобсона и Вуди Аллена, - пишет о том времени друг и коллега Мельчука Александр Жолковский. - Он в буквальном смысле слова не мог молчать и пребывать в неподвижности; отсюда, наверное, лингвистика и походы. На заре туманной юности он был положительным героем стенгазеты филфака "Комсомолия" ("Человек, Который Знает 10 Языков, 100 песен и 1000 анекдотов"). О его научной славе распространяться не буду. С ним все хотели быть, говорить, быть им замечены, взяты с собой. Однажды в поход явилось 108 человек, с детьми и собаками". Сегодня Игорь Александрович Мельчук - один из крупнейших лингвистов в мире, профессор Университета в Монреале.
Леонид Иомдин: Если я правильно помню, эта система называлась ФР-1, французско-русская система один. Вот в "Стекловке" они начали это делать. И постепенно в Советском Союзе это стало развиваться очень широко. Ольга Сергеевна Кулагина сделал первую систему, написала книгу о машинном переводе, она называется "Исследования по машинному переводу", такая советская классика. Мельчук и в мыслях не имел сделать действующую систему машинного перевода, ему было просто интересно, как можно автоматически с помощью машины или без нее, совершенно неважно, как можно автоматически описать язык.
Любой перевод он разделил на две процедуры - анализ языка и его синтез. Имеется текст на входном языке, его надо проанализировать, понять, что там говорится, получить что-то вроде представления. Это все постепенно вырабатывалось, понятие семантического представления или семантической структуры далеко не сразу появилось и вовсе не в результате работы над машинным переводом, а скорее независимо. Но, тем не менее, Мельчук написал две толстых книги "Алгоритм автоматического синтаксического анализа". Это был абсолютно лобовой алгоритм, никаких компьютеров не предполагалось, все было написано от руки. То есть, Мельчук как бы симулировал действие машины. А потом эти системы машинного перевода стали плодиться и размножаться.
Кто были люди, которые этим занимались? Какие были организации? Был так называемый Всесоюзный центр переводов, где занимались переводами с английского, французского и с немецкого на русский, кажется, и в обратную сторону тоже. Эти системы большого распространения не получили, хотя людей там работало довольно много и делалось все довольно быстро. Потом был такой человек Раймонд Генрихович Пиотровский в Ленинграде, который очень много сделал в этом направлении. У него была большая группа людей, которые ездили по стране и собирали энтузиастов машинного перевода. Была большая группа в Минске, была большая группа в Чимкенте, там был человек по фамилии Бектаев. В Ин'язе была организована лаборатория машинного перевода, ее возглавил Виктор Юрьевич Розенцвейг. Что касается нашей группы, то мы попали в работу по машинному переводу достаточно случайно, когда Юрия Дерениковича Апресяна за его деятельность в качестве "подписанта" разных писем выгнали из Института русского языка, где он работал.
Елена Ольшанская: В предисловии ко второму изданию своего труда "Лексическая семантика" академик Юрий Дереникович Апресян вспоминает начало 1970-х годов, когда рукопись только что написанной книги была им сдана в Ученый совет Института русского языка. Как раз в это время дирекция и партбюро института "развязали настоящую охоту на сотрудников, замеченных в инакомыслии. В 1970 году из института была изгнана Татьяна Сергеевна Ходоркович - член Инициативной группы по защите прав человека. В самом начале 1971 года Константину Иосифовичу Бабицкому, участнику знаменитой демонстрации протеста на Красной площади против оккупации Чехословакии советскими войсками было отказано в восстановлении на работе после того, как он вернулся из ссылки: Одновременно началась чистка института от сотрудников, подписавших письма протеста против политических судебных процессов 60-х годов. В июне 1972 года наступила моя очередь. Ученый совет института: не переизбрал меня в должности младшего научного сотрудника на очередной трехлетний срок. Совет не был смущен тем, что за отчетный период я сдал в печать "Лексическую семантику" и опубликовал около 20 внеплановых статей, из которых девять были переведены на английский, французский, польский и венгерский языки. Не помогло и вмешательство академика Акселя Ивановича Берга, которому в 1970 году в сходных обстоятельствах удалось спасти от увольнения Игоря Александровича Мельчука. Письмо Берга : было расценено как попытка оказать давление на Совет. "
Леонид Иомдин: Он искал работу. Искал ее достаточно долго, и совершенно неожиданно ему такую работу предложили в институте, который назывался Информэлектро. Надо сказать, что до этого он работал абсолютно блестяще и был одним из ведущих лингвистов страны. Тем не менее, все это известно, его выгнали. Можно сказать, что тем, что его пригласили работать в Информэлектро, это был институт при Министерстве электротехнической промышленности СССР, его просто спасли для науки. В это время институтом руководил очень порядочный и достойный человек Сергей Глебович Малинин. И вот его пригласили работать в Информэлектро. Там уже кое-то работал, правда, в других местах. Там работал Леонид Львович Цинман, потом появился Владимир Зиновьевич Санников, Игорь Георгиевич Богуславский, Александр Вадимович Лазурский, появился я, Леонид Петрович Крысин, который сейчас является заместителем директора Института русского языка. И постепенно выкристаллизовалась такая тема - машинный перевод.
Игорь Богуславский: Я поступил в Информэлектро в лабораторию Апресяна вскоре после окончания университета, собственно, с этого и началась моя лингвистическая деятельность. Для меня это была большая удача, потому что я, конечно, как и все студенты, изучавшие лингвистику в то время, очень хорошо знал и ценил работы Апресяна. Но совершено нельзя было представить возможность работать с ним вместе, поскольку в Институт русского языка, в котором он тогда был, поступить было крайне трудно. Апресян, работая в Институте русского языка, занимался семантикой и вместе с Мельчуком разрабатывал то, что потом стало называться "моделью Смысл- Текст". Это общелингвистическая теория, говорящая о том, как надо описывать естественный язык. Оказалось, что теоретические занятия семантикой и моделью Смысл-Текст в целом очень естественно прилагаются к машинному переводу.
Леонид Иомдин: Семантика - это наука о смысле, о смысле языковых элементов, о смысле слов, смысле предложений. Мельчук написал в свое время книгу, которая называется "Действующие модели языка типа Смысл-Текст", где язык рассматривается как механизм, преобразующий тексты в передающиеся этими текстами смыслы и обратно. Нельзя сказать, что мы просто взяли готовую модель и ее реализовали, воплотили, компьютеризовали, но очень много идей, которые в этой модели звучали, пошли в дело.
Игорь Богуславский: Что значит, что мы владеем данным языком? Это значит, что если я хочу что-то сказать, значит у меня в голове есть какая-то мысль, я включаю свою языковую машинку и преобразую эту мысль в слова, которые вы слышите. Это значит, что мой язык поработал, преобразовав мою идею в слова. А когда вы услышали мои слова, то вы пустили в ход свою языковую машинку, которая проработала в обратную сторону, она восприняла мои слова и преобразовала их в значение, которое я хотел вам передать. Описать вот эти два процесса от значения к словам и от слов к значению и значит описать язык. Собственно, если мы умеем это делать, это значит, что мы умеем переводить с одного языка на другой.
Леонид Иомдин: Мы стали делать машинный перевод с французского языка на русский, в общем, по причинам достаточно случайным. Дело в том, что Информэлектро получил с выставки, которая проходила в Москве, большую электронно-вычислительную машину французского производства "Ирис-50", к этой машине прилагался целый шкаф документации. Она сама занимала пару комнат, но к ней еще целый шкаф документации на французском языке. И кому-то пришла в голову счастливая мысль: зачем ее, собственно, переводить вручную, давайте мы по этой документации сделаем машинный перевод и будем переводить это автоматически. Было непонятно, каким образом можно это алгоритмизовать, было непонятно, каким образом все это представлять машине.
Условия для работы были на нынешний взгляд просто невероятные. Чтобы ввести что-нибудь в машину, требовалось воспользоваться перфокартами. Каждое слово, каждый элемент набивался на перфокарту, перфокарта могла нести 80 символов, если какая-то была ошибка, перфокарта выбрасывалась, она уже никуда не годилась. Если с ней в процессе работы что-то случалось, она заминалась или ящик с перфокартами рассыпался, это была полная катастрофа. Были специальные сотрудники - перфораторщица, которая все это набивала. Еще на самом деле были дисплеи, к которым можно было подойти и уж там для перевода какую-нибудь фразу ввести. Выхода на дисплей не было, выход был на бумагу. Представим себе, что переводим фразу в десять слов и нам нужны все промежуточные протоколы, чтобы посмотреть это, нужно было огромное количество бумаги, невероятного объема рулоны огромной толщины.
И нам очень повезло, что в нашей группе был совершенно замечательный логик Леонид Львович Цинман, ученик Петра Сергеевича Новикова. В институт он тоже пришел по все той же проторенной дорожке: его в свое время выгнали с работы за подписание все тех же писем. И поскольку у него была очень хорошая логическая база, он смог придумать, как сделать язык для представления лингвистических данных. В лучшие времена у нас работало человек 12-14, в основном это были лингвисты. Было несколько очень хороших математиков и программистов. Одна из программисток, которая, к сожалению, трагически погибла, попала под машину в 1985 году, Татьяна Коровина, собственно, придумала название для нашей системы - "Этап". Название очень хорошее. С одной стороны, это было сокращение "Электротехнический автоматический перевод", а с другой стороны, это удобное слово, чтобы можно было говорить "Этап-1", "Этап-2", "Этап-3".
Игорь Богуславский: Система "Этап" - это результат фундаментального описания естественного языка. Естественный язык - это такой язык как русский, английский, немецкий, турецкий и так далее. Про эти языки стали говорить, что они естественные, когда возникло большое количество искусственных языков, которые применяются, например, в программировании. Когда начали заниматься естественным языком в компьютерном аспекте, оказалось, что огромное количество знаний, которое было накоплено о языке до этого, трудно применить. Не то, что знания были неправильными, эти знания были правильными, но эти знания вырабатывались и формулировались в расчете на человека, а для машины они были совершенно непонятны.
Леонид Иомдин: Давайте возьмем какое-нибудь простенькое предложение: "Трое вышли из леса". Мы строим такую синтаксическую структуру, если воспользоваться школьной терминологией, то "трое" - это подлежащее, "вышли" - сказуемое и так далее. Когда мы поручим это машине, то мы увидим, что эта простейшая синтаксическая структура оказывается омонимичной. Мы получим дательный падеж от слова "Троя", а второе - это повелительное наклонение от глагола "высылать", то есть, "когда ты будешь в лесу, пошли что-нибудь Трое, что-нибудь тебе ненужное. "Трое вышли из леса" - эта фраза кажется настолько нелепой для человека, взятая сама по себе, что непонятно, почему же этого не понимает машина. Но мы ей ничего не сказали, у нас нет ни контекста, ни ситуации. Вообще каждое предложение, которое мы произносим реально в жизни, помещается, во-первых, в лингвистический контекст, во-вторых, в реальную житейскую ситуацию, и в этой реальной житейской ситуации человек может ориентироваться. Машина в ней ориентироваться не может, если мы только не найдем специальной возможности ей на это указать.
В опыте машинного перевода мы сталкивались с многочисленными случаями, когда нет никаких оснований дать машине понять, что это не те примеры убийственные, которые могут подорвать всю идею машинного перевода как таковую. У нас есть лента "ИТАР ТАСС", которая обычно идет в компьютере, и мы ее время от времени смотрим. Написано: "В 1999 году в ФРГ переехало 95 тысяч этнических немцев". И вот получаем такой перевод: "95 тысяч этнических немцев в 99 году попало под машину". "Переехало машиной" - безличная конструкция, "В ФРГ переехало 95 тысяч немцев". Как это можно исключить? Конструкция абсолютно законная, если машина кого-то переезжает, то именно безлично должно употребиться. "В ФРГ" - само выражение ФРГ неоднозначно. Если бы там было сказано "в Германию", то это было бы указание на направление, а машина "переехать куда" не может, она может переехать где и кого. Но поскольку ФРГ - это вещь неопределенная, то ли это предложный падеж с предлогом "в", то ли это винительный падеж "куда", то стало возможным это получить. Как это исключить? Наверное, есть какие-то законы, согласно которым жизнь не так плоха, чтобы в один год 95 тысяч человек попало под машину, так не бывает. Но нельзя же машине это объяснить.
Елена Ольшанская: В Священном Писании вторым Божьим наказанием после изгнания из Рая Адама и Евы упоминается смешение языков - за самодовольство и гордыню, когда люди вознамерились построить Вавилонскую башню до небес. До того все люди говорили на одном языке. По мнению знаменитого лингвиста Николая Трубецкого, множественность языков и культур является карой, такой же, как и "труд в поте лица". "Сколько бы человек ни изобретал машин, чтобы уменьшить применение своего физического труда, совсем упразднить этот труд никогда не удастся".
Игорь Богуславский: Первоначально казалось, что достаточно нескольких очень простых правил для того, чтобы правильно переводить предложение. Оказалось, что простых правил недостаточно и что составить более сложные правила - очень трудоемкая задача, если вообще она разрешима. Стало казаться, что это вообще невозможно, и тогда возникло разочарование. Но, тем не менее, люди продолжали над этим работать, хотя в гораздо меньшем объеме, чем первоначально. И постепенно накопилось достаточное количество данных, свидетельствующих о том, что прогресс в этой области возможен.
Такой пример, с которым мы столкнулись несколько лет назад. Мы дали машине для анализа предложение "Моих детей звали Иван и Петр". Машина поняла это предложение не в том смысле, каковы имена у моих детей, а в том смысле, что кто-то позвал моих детей, и люди, которые позвали моих детей, это были Иван и Петр. То есть, это предложение значит реально две вещи и обе эти интерпретации, оба эти понимания вполне допустимы для данного предложения. Понятно, что машина сделать правильный выбор между этими двумя вариантами не может.
Допустим, надо перевести это предложение на другой язык. Машина начинает анализировать это предложение, и когда она сталкивается с тем, что для слова "звать" имеется два возможных понимания, она не имеет возможности выбрать среди них, она останавливается и спрашивает у человека - а что вы тут имели в виду, что в данном случае значит слово "звать"? И дает ему все варианты, которые для нее доступны. Человек, который понимает анализируемый текст, говорит, что в данном случае имеется в виду первый вариант, а не второй. После этого машина продолжает двигаться дальше, и уже эта проблема для нее решена. Вот подобным образом машина будет привлекать человека для разрешения трудных ситуаций, с которыми она сама справиться не в состоянии, и благодаря этому мы рассчитываем, что можно будет добиться более высокого качества перевода, чем то, которое доступно сейчас.
Леонид Иомдин: В 1985 году нам удалось поступить в Институт проблем передачи информации. Восемь человек, собственно, влились в математическую лабораторию Роланда Львовича Добрушина. Лет через пять мы преобразовались в самостоятельную лабораторию, которая сейчас называется Лаборатория компьютерной лингвистики. Долгие годы ее возглавлял академик Апресян, потом он сосредоточился на другой задаче - это задача создания синонимических русских словарей, он вернулся в свой родной Институт русского языка в качестве заведующего сектором теоретической семантики и лексикографии. Но он нас не оставил, он половину рабочего времени, три дня проводит в Институте проблем передачи информации и очень активно работает в тех задачах, в которых работаем мы все.
Елена Ольшанская: В эпоху "бури и натиска", когда прикладная лингвистика была одной из самых заметных, самых перспективных наук, "все делалось по внутренней потребности, а не в силу назязанного ("спущенного") кем-то плана, - вспоминает Владимир Андреевич Успенский. - Скажем, занятия И.А. Мельчука и и Ю.Д. Апресяна толково-комбинаторным словарем не были предусмотрены никакими планами: Никто не заставлял П. С. Кузнецова, В.В.Иванова и меня открывать семинар по математической лингвистике. Или А.А. Зализняка заниматься со студентами санскритом". И в другом месте: " Я не вижу в нашей стране человека, более компетентного в лингвистических аспектах информатики или же информатических аспектах лингвистики, чем Ю.Д. Апресян".
Игорь Богуславский: Не только для машинного перевода важно хорошо разбираться в лингвистике, опираться на лингвистические достижения. Но и, наоборот, лингвистика очень много получила, как мне кажется, от машинного перевода. В частности, утвердилось представление о том, что язык должен описываться во всей своей целостности так, чтобы грамматика была согласована со словарем. Это то, что называется теорией интегрального описания языка. Эта теория, выдвинутая Апресяном, собственно, была стимулирована работами в машинном переводе, потому что без тесного согласования грамматики и словаря совершенно невозможно научить машину языку.
Как мы знаем, описание языка состоит из двух частей. У многих из нас дома на полке, может быть, стоит Словарь русского языка (наиболее известный словарь - Ожегова) и все мы знаем, как он устроен. Там в алфавитном порядке перечислены все слова русского языка и про каждое сообщается его значение. С другой стороны, помимо словарей существуют грамматики. Грамматика - такая книга, в которой описано, как тот или иной язык функционирует, как слова связываются друг с другом, какие формы есть у слова, какие бывают в этом языке подлежащие, сказуемые, обстоятельства и так далее. Все это мы проходили в школе, и это описывается не только в школьных грамматиках, но и в солидных академических грамматиках. И долгое время, даже до сих пор в академической науке эти два вида книг - словари и грамматики - разрабатывались независимо. Одни люди писали словари, а другие люди писали грамматики. Эти люди могли быть хорошо знакомы друг с другом, но, говоря грубо, не обращали внимания на то, что другой человек делает. Для того, чтобы построить компьютерную систему, такой порядок совершенно невозможен. И очевидно, конечно, что это очень важно для лингвистики, потому что без этого никакое описание языка не будет полным.
Елена Ольшанская: Группа лингвистов под руководством Ю.Д. Апресяна работает в последние годы над Синонимическим словарем русского языка. Тончайшие оттенки смыслов слов и понятий исследуются в огромных словарных статьях с почти поэтической подробностью.
Игорь Богуславский: Синонимический словарь - совершенно замечательное произведение в том смысле, что ничего подобного никогда раньше не было. Синонимы - это слова, близкие по смыслу, значащие одно и то же или очень близкие вещи. И люди много раз пытались составлять словари синонимов, то есть, перечислять и описывать слова, которые значат близкие вещи. Но никогда ни для русского языка ни для какого другого не было еще создано такого словаря, который описывал бы все сходства и различия между синонимами с такой ясностью, подробностью и тонкостью, как это делается в этом синонимическом словаре. Это делается не в рамках компьютерной лингвистики и, к сожалению, пройдет еще много времени прежде чем машина сможет воспользоваться таким описанием.
Группы, которые занимались машинным переводом, конечно, были и помимо нас, таких групп было довольно много. Но специфика нашей группы в том, что для нас машинный перевод никогда не был главным. Главный интерес состоял в том, что мы - лингвисты, и мы интересуемся тем, как правильно описывать естественный язык, мы пытались разработать модель, которая описывает функционирование естественного языка. А применение этой модели для разных полезных целей, в первую очередь для машинного перевода - это было для нас вещью второй. И в этом наше отличие от многих других групп, которые занимались машинным переводом, потому что для них машинный перевод - это главный приоритет. У нас было несколько групп, занимавшихся машинным переводом. Это группа, работавшая во Всесоюзном центре переводов, это группа, работавшая и работающая сейчас в Петербурге, группа, из которой вышла система "Стайлас" и "Пронт" - это замечательные системы, которыми сейчас многие пользуются, наверное, лучшие системы машинного перевода, работающие с русским языком. Наша система "Этап" - это в первую очередь то, что мы называем лингвистический процессор, то есть система, которая умеет анализировать предложения и строить правильные предложения по заданному смыслу. Для нас очень важно, чтобы результаты, которые производит эта система, соответствовали тому, как правильно описывать язык, с нашей точки зрения.
Елена Ольшанская: "Неужели есть средства дознаться, кто звонил из автомата? Если говорить только по-русски? Если не задерживаться, быстро уйти? Неужели узнают по телефонному сдавленному голосу? Не может быть такой техники". В романе Александра Солженицына "В круге первом" после звонка неизвестного человека в американское посольство сталинский КГБ срочно переориентируют "шарашку" - научно-исследовательский институт за колючей проволокой - требуя немедленно изобрести устройство для распознавания голосов. Приходилось ли лингвистам сотрудничать с "органами"?
Леонид Иомдин: Никогда не слышал, чтобы КГБ было впрямую заинтересовано машинным переводом. Может быть, у них что-то и есть, но ничего мне про это неизвестно. Я знаю, что работали системы машинного перевода в программе "Союз-Аполлон", это, по-моему, были американские разработки. Но в любом случае, они никак не продвинулись, и про такие работы мне неизвестно, это то, что касается нас. А что касается западных спецслужб, то они активно принимали в этом участие. В частности, этим интересовалась германская разведка, поддерживала работы по машинному переводу. Насколько они в этом продвинулись, я не знаю. Большие проекты по машинному переводу и смежным областям финансировались Европейским Союзом. В частности, была огромная программа, которая называлась "Евротро" - большая программа машинного перевода между многими языками. На ее излете я даже работал в свое время в Германии. Она успешно провалилась, потому что не удалось достаточно хорошо продвинуться. Но в любом случае эта работа была далеко не бесполезная. Был один такой проект многолетний, наверное, лет пять продолжался, и участвовало несколько групп из европейских стран - из Германии, из Англии, из Люксембурга, из Бельгии, из Италии, из Греции.
Потом был очень амбициозный проект, который назывался "Вербмобиль". Это тоже был европейский проект, в который было вложено очень много денег. Очень много денег ушло на оплату нескольких исследовательских групп, а кроме того, на оплату оборудования. Потому что "Вербмобиль" - это была попытка построить устный машинный перевод. Идея очень хорошая. Кто-то говорит на своем родном языке, машина переводит, синтезирует текст на выходном языке, и все получается. Они достигли очень многих интересных побочных результатов. Хорошее распознавание речи, скажем, для немецкого языка, для английского языка, очень хороший синтез речи.
Распознавание речи и синтез речи - это две противоположные задачи. Что такое распознавание речи? Кто-то говорит и в некотором роде, его речь представлена, грубо говоря, в машиночитаемом виде, а проще говоря, в письменном виде. Эта задача на порядок сложнее, чем синтез речи, то есть, задача обратная - прочитать то, что написано. Синтетических программ сейчас очень много, они используются. Например, в МГУ есть группа людей, которые разрабатывают программы синтеза речи. Программы безумно полезные, скажем, для слепых, которые ничего не видят, но можно включить записанный текст, и его компьютер прочитает. На таком же примерно уровне работаем и мы. Мы никак не хуже мировых образцов. Что разнится - это оболочка, как ведет себя система, когда она проваливается, когда она хорошего перевода построить не может, а должна скомбинировать, сварганить что-то. И у кого-то это получается лучше, у кого-то хуже. У нас, я думаю, это получается хуже всех. Потому что у нас таких механизмов нет, мы зависим от бюджета Академии наук, от российских научных фондов, ну и частично от тех грантов, которые мы получаем от международных фондов. У нас есть другие интересные разработки с машинным переводом. Эти все разработки роднит тот факт, что они используют одну и ту же лингвистическую информацию, одни и те же словари, одни и те же грамматики, а под грамматиками я понимаю синтаксическое описание разных языков. У нас есть хорошее описание двух языков русского и английского. Хотя мы немножко экспериментировали и с другими языками, с корейским, с немецким, с испанским и в самое последнее время немножко с арабским.
Елена Ольшанская: Идея создания искусственного подобия человеческого разума для решения сложных задач моделирования мыслительной способности витала в воздухе с древнейших времен. На заре Нового времени великие ученые Декарт и Лейбниц независимо друг от друга предлагали создать универсальный язык как новую основу для логического мышления, а также для устранения взаимонепонимания, происходящего от нелогичности естественных языков. В своих заметках гениальный француз Рене Декарт набросал план создания языка, который можно было бы легко усвоить с помощью простого словаря. Но он имел в виду не то, что потом появилось в виде эсперанто, не язык для "удовлетворения, как он писал, запросов "грубого разума", но создание истинно "философского языка", который помог бы "навести порядок в человеческом уме, также, как он существут среди чисел. И как можно за один день научиться произносить и писать все числа до бесконечности на незнакомом языке, хотя это бесконечное количество слов, мы когда-нибудь сможем сосчитать их все до бесконечности и записать, так и в этом языке будет бесконечность разных слов, чтобы можно было сделать подобное со всеми другими словами, необходимыми для выражения всего остального, что может оказаться в человеческом сознении. Если это будет найдено, я уверен, что такой язык быстро получит распространение в обществе, поскольку найдется много людей, которые охотно потратят пять или шесть дней на то, чтобы их мог понять каждый. Изобретение этого языка основывается на истинной философии, поскольку по-другому невозможно перечислить все человеческие мысли, упорядочить их или даже различить таким образом, чтобы они были простыми и ясными. : Я верю в возможность такого языка и в то, что возможно открыть Науку, от которой он будет исходить, и с помощью которой даже крестьяне станут понимать природу вещей лучше, чем это доступно нынешним философам".
Игорь Богуславский: Одна из тем, которой занимается наша лаборатория в последние годы, связана с разработкой системы для многоязычной коммуникации в Интернете. Это не совсем машинный перевод, хотя и область, связанная с этим. Идея здесь такая: как известно, в Интернете сейчас очень много накопилось текстов на самых разных языках и для того, чтобы сделать эти тексты понятными для людей, которые этими языками не владеют, под эгидой ООН был начат проект. Существует некий формальный язык, и в разных странах разные группы стали работать над созданием систем, которые умели бы переводить с этого формального языка на тот или иной естественный язык. Мы в этой работе участвуем, и мы отвечаем за русский язык в этом проекте. То есть, мы разрабатываем систему, которая может переводить с формального искусственного языка на русский и обратно. Если такие системы будут созданы для многих разных языков, то, тем самым, будет установлен мостик между всеми этими языками.
Были, кстати говоря, попытки использовать в качестве языка-посредника эсперанто, то есть, язык, который был предназначен не для машин, а для людей. В нашем случае в системе, над которой мы работаем, в качестве языка-посредника выбран искусственный язык. Это в ряде отношений удобнее, потому что искусственный язык лишен тех сложностей, которых так много в естественном языке. В частности, все единицы этого языка однозначны. Проект называется "UNL" по названию самого этого искусственного языка - универсальный сетевой язык. Этот язык был разработан в университете ООН, который расположен в Токио, автор этого языка профессор Учидо. Это создатель одной из лучших систем машинного перевода между японским и английскими языками, системы "Атлас". И вот профессор Учидо разработал этот язык, и группы в других странах сейчас над ним работают. Помимо нашей группы, участвует группа из Гренобля, группа из Испании, есть партнеры из Иордании, которые работают с арабским языком, партнеры в Индии, работающие с хинди, в Италии, в Индонезии и некоторых других странах.
Когда система будет разработана, то можно представить себе множество компьютеров, объединенных в сеть по всему миру и, скажем, компьютер, работающий с русским языком, будет находиться в Москве, компьютер, отвечающий за французский язык, будет находиться в Гренобле и так далее. Если у вас есть своя собственная страничка в Интернете и вы держите тексты, которые хотите сделать известными другим людям, вы можете перевести эти тексты на универсальный язык и держать на своей страничке. Человек, живущий в совершенно другой стране, интересуется тем же, чем и вы, и с помощью поисковой системы, их много сейчас, обнаружит вас текст. У него будет возможность выбрать язык, на который он сможет перевести ваш текст. Если он выберет испанский язык, то он пошлет ваш текст в Мадрид и он будет переведен на испанский, если же он хочет прочесть по-французски, то он пошлет его на компьютер во Францию и получит его оттуда переведенным на французский.