Самовосстановитель древнего языка

Ученые разработали компьютерную программу, реконструирующую древнейшие праязыки, на которых говорили наши предки

Программу уже прозвали новым “розеттским камнем” — в честь знаменитой плиты, найденной в Египте в XVIII веке и совершившей переворот в лингвистике того времени. Плита содержала надписи на неизвестном тогда древнеегипетском и их перевод на хорошо знакомый древнегреческий, что позволило ученым начать расшифровку иероглифов. Современный аналог тоже рукотворный, но куда более сложно устроенный. Исследователи из университетов Британской Колумбии и Беркли потратили на создание программы несколько лет и уверены, что в скором будущем она станет настоящим спасением для ученых, занимающихся сравнительно-историческим языкознанием — именно так называется область лингвистики, изучающая родство между современными языками и воссоздающая мертвые праязыки.

Несмотря на тяжеловесное название и сложнейшую методологию, это одна из самых красивых и увлекательных наук в мире. Благодаря ей, например, можно узнать, что баски и китайцы — далекие родственники кавказских племен, а английское leaf и русское “лепесток” восходят к одному индоевропейскому корню “леп”, то есть “лист.”

“Самая важная цель этой области языкознания — историческая, — объясняет Георгий Старостин, заведующий кафедрой истории и филологии Дальнего Востока РГГУ, старший научный сотрудник Центра компаративистики, соруководитель международного проекта “Эволюция языка”. — Классификация языков просто-напросто проливает очень важный свет на лингвистическую предысторию человечества, а вместе с нею — на историю человечества как такового”.

“Розеттский камень” работает, используя один из главных методов исторического языкознания — поиск регулярных фонетических соответствий. Как объяснила мне Александра Бушар-Коте, главный разработчик программы и доцент факультета статистики университета Британской Колумбии, система анализирует звуковые законы, по которым на протяжении веков изменялись слова в конкретной языковой семье, а затем фиксирует совпадения между ними. Этот алгоритм многократно повторяется, пока не будет вычислен наиболее точный вариант каждого слова из праязыка.

В общих чертах принцип выглядит так: есть некий набор современных слов (Y), из которого нужно вычислить слово-предка (Z). На основании известных звуковых законов, заложенных в систему, компьютер строит две модели развития Y: вперед, в будущее, и назад, по направлению к неизвестному Z. Затем эти модели автоматически объединяются с помощью байесовского классификатора и складываются в более сложную формулу соотношения Z и Y. После этого шаг за шагом восстанавливаются формы праязыка, причем на каждом этапе система анализирует адекватность результатов и отметает их, если вычисляет нарушения.

Говоря о регулярных соответствиях, Бушар-Коте и прочие лингвисты имеют в виду следующее: случайное совпадение можно обнаружить практически в любых двух языках — даже в русском и китайском найдется пара удивительно похожих слов. Но это совершенно не означает, что они братья. А вот если таких слов пятьдесят и они, что самое главное, с течением времени эволюционировали по одинаковым законам, это повод задуматься. Например, английский звук [t] всегда, во всех равнозначных словах, соответствует немецкому [z] и русскому [д]. Простой пример: два, two, zwei. После того как выявляются общие закономерности, по ним можно постепенно восстановить сам праязык: для английского, немецкого и русского это праиндоевропейский.

Закономерности и совпадения, которые выявляются с помощью исторического языкознания, очень изящны. Например, русское “жена”, тюркское “кюн” и английское queen восходят к единому древнему корню “кена”, что значит “женщина”. Греческое “фумус”, индийское dhumos и русское “дым” — к праиндоевропейскому dum.

Российская школа исторического языкознания считается одной из сильнейших в мире, и так сложилось, что на Западе эта наука развита хуже. Тем важнее, что за создание программы взялись американские ученые. Кстати, универсальную компьютерную рабочую среду, которой сейчас пользуются лингвисты из всех стран, создал именно русский ученый — великий лингвист и полиглот Сергей Старостин, отец Георгия.

Его масштабный электронный проект Evolution of Human Language (“Вавилонская башня” в русском варианте) содержит в открытом доступе этимологические базы данных по языкам мира, статистику, схемы и алгоритмы — словом, море бесценных инструментов.

Впрочем, ни “Вавилонская башня”, ни новый “розеттский камень” не заменит лингвисту его главных инструментов — ума и чутья. “Мы отдаем себе отчет в том, что историческое языкознание — это на большую долю чистое творчество, — говорит Бушар-Коте, — а работа лингвиста в этой области больше всего похожа на работу детектива. Мы ни в коем случае не стремимся ее полностью компьютеризировать — скорее облегчить”.

Благодаря “розеттскому камню” ученым уже удалось восстановить более 600 австронезийских праязыков — впечатляет. Казалось бы, такими темпами можно за пару месяцев осуществить мечту всех лингвистов — восстановить мифический единый праязык, тот самый, на котором говорило человечество “до Вавилонской башни”. Но есть подводные камни.

“Действительно, многие типологические базы и алгоритмы уже компьютеризированы, — объясняет Георгий Старостин, — информация в них обрабатывается автоматически, и результаты, казалось бы, неплохо соотносятся с реальными историческими данными. Но если провести более пристальный анализ, мы увидим, что, какую бы модель ни брали, она на 20-30% будет давать заведомо абсурдные результаты”.

Дело в том, что компьютер не может разграничить вертикальную и горизонтальную передачу языка, то есть от предков к потомкам или от соседей к соседям. Например, французское fete и английское feast очень похожи фонетически, но это горизонтальное заимствование, на основе которого просчитывать закономерности нельзя. А вот менее очевидное oeil — eye действительно указывает на их родство. В данном случае все просто, так как ученые прекрасно знают историю индоевропейских языков, а вот если таких сведений нет, проверить достоверность компьютерных результатов сложно. Кроме того, компьютер анализирует только звуковую сторону языка, не обращая внимания на их смысл, а это часто приводит к ошибкам.

Радует, что создатели “розеттского камня” несовершенства системы признают. “Она работает примерно с 85% точности, — признается Бушар-Коте. — Со временем мы постараемся свести ошибки к минимуму и для этого будем анализировать другие аспекты языкознания, включая лексику и грамматику”. И это внушает большой оптимизм: возможно, в недалеком будущем археологи, найдя бусы пазырыкской красавицы, смогут двумя кликами восстановить язык, на котором она говорила с торговцем ювелирными изделиями две с половиной тысячи лет назад.