Спросите специалистов по языковедению, в чем разница между языком и диалектом, — и ваш разговор затянется на несколько часов. Потому что короткого однозначного ответа нет. Но его пытается найти датский лингвист Серён Вихманн: он разработал программу, которая анализирует языки и сравнивает их друг с другом. Почитайте, как он рассказывает об этом порталу Aeon.
С точки зрения политики, язык — это то, на чем говорит нация. С 1850 по 1992 годы, например, существовал язык, который был известен как сербо-хорватский. Он включал в себя три диалекта: сербский, хорватский и боснийский. Но так как в середине 90-х Югославия разделилась на несколько независимых государств, эти диалекты были признаны самостоятельными языками.
Политическое определение языка в какой-то степени работает, но в конечном итоге создает больше проблем, чем решений. Есть языки, на которых говорят в разных странах — например, испанский в Латинской Америке. Никому не придет в голову заявить, что испанский, на котором говорят в Мексике, и испанский Колумбии — это два разных языка. А испанский, на котором говорят в некоторых частях Испании, так сильно отличается от своих латиноамериканских разновидностей, что впору было бы объявить его полноценным языком.
Может, разницу между этими понятиями можно объяснить с точки зрения того, насколько хорошо люди, говорящие на языке и диалекте, понимают друг друга? К сожалению, и этот подход не выдерживает критики. Датчанин поймет шведа лучше, чем швед — датчанина. У человека, который говорит на своеобразном сельском диалекте британского английского, гораздо больше шансов понять американца из Лос-Анджелеса, чем наоборот. Взаимопонимание собеседников зависит скорее от взаимодействия, чем от языковых факторов. А взаимодействие между людьми — вещь довольно изменчивая, его трудно контролировать.
Поэтому давайте придерживаться сугубо лингвистического подхода. Представьте, что мы можем измерить разницу (обозначим ее D) между двумя вариантами речи. Тогда величина D, принимая определенное значение, может определить границу между двумя диалектами и двумя языками. Величина D однозначно существует, ведь в языках полно особенностей, которые можно сравнить: звуки, грамматические характеристики, лексика. <...>
Как алгоритмы помогают назвать вещи своими именами
Недавно мы поняли, как измерить разницу между речевыми вариантами и определить значение переменной D. В 2008 году группа лингвистов создала автоматизированную программу оценки сходства (Automated Similarity Judgment Program, или ASJP). Я один из ее основателей и ежедневных кураторов. Эта программа тщательно отбирает, систематизирует и сравнивает языковые данные.
В ASJP хранятся 7655 списков слов из двух третей мировых языков, если ориентироваться на ISO 639-3 (международный стандарт классификации языков мира, где каждому языку присваивается уникальный идентификационный код — Прим. ред.). Поскольку каждый список слов содержит фиксированный набор из 40 понятий и расшифровывается единообразно, их можно легко сравнить и измерить разницу.
Разницу между двумя словами измеряется очень просто — с помощью версии расстояния Левенштейна (названо в честь советского ученого Владимира Левенштейна). В 1965 году он разработал алгоритм для сравнения двух строк символов. Он определил «расстояние» как количество замен, вставок и удалений одного символа, нужное для превращения одной строки в другую.
Чтобы можно было поместить этот показатель на шкалу от 0 до 1, мы делим расстояние Левенштейна на количество символов одной из двух строк (той, которая длиннее). Получается «нормализованное расстояние Левенштейна», или LDN.
Понятия «язык» и «диалект», возможно, присваиваются произвольно и даже интуитивно. Но здесь есть многообещающие подвижки. Если посмотреть на все языковые семейства в ASJP (а там довольно много близких, родственных вариантов), можно увидеть, что пара языков и пара язык-диалект проявляют себя по-разному. Вот что интересно: нормализованное расстояние Левенштейна склонно колебаться либо относительно небольшого значения переменной, либо относительно достаточно крупного. Между этими двумя значениями — внушительный «зазор».
Как выяснилось, этот «зазор» чаще всего находится в довольно узком диапазоне. Его среднее значение — 0,48 LDN
Разновидности речи, скорее, не похожи друг на друга в основной лексике. Если они больше похожи, мы можем определить их как диалекты (и значение LDN меньше 0,48), если же они меньше похожи или совсем не похожи — это разные языки (значение LDN выше 0,48). Вот вам и главное различие между языком и диалектом.
Диалекты, вероятно, «удаляются» друг от друга по мере того, как люди переселяются на новые места и формируют новые идентичности. Но если люди продолжают контактировать, их язык все-таки сохраняет точки соприкосновения. Пусть речевые разновидности совпадают лишь наполовину, это будет все еще один и тот же язык. Стоит им лишь немного разойтись, наступает своеобразная точка невозврата: диалекты становятся все менее и менее похожими, расстояние Левенштейна между ними увеличивается — и вот это уже два разных языка. <...>
Некоторые диалекты лишь маскируются под полноценный язык. И наоборот
Поскольку мы нашли объективный и непроизвольный критерий, по которому можно отличить язык от диалекта, мы можем применить его к языкам мира. Некоторые пары речевых разновидностей, которые считаются национальными языками (боснийский и хорватский), на шкале нормализованного расстояния Левенштейна LDN находятся ниже предельного порога в 0,48 LDN. То есть, несмотря на распад Югославии, это один и тот же язык.
Некоторые языковые разновидности совсем чуть-чуть не дотягивают до этого порога — например, хинди и урду (то есть разными языками их можно назвать с большой натяжкой). А показатель LDN у разновидностей китайского, которые часто рассматриваются как один язык, взлетает выше отметки 0,48, поэтому на самом деле речь идет о разных языках. Та же ситуация — с арабским.
Есть несколько пар языковых разновидностей, которые мы рассматриваем как самостоятельные языки, а на самом деле их значение LDN тоже опасно близко к предельному порогу. К примеру, LDN шведского и датского языков равняется 0,4921.
За какой срок диалекты становятся самодостаточными языками
Наконец, есть метод, с помощью которого можно определить, сколько времени потребуется диалектам, чтобы окончательно разделиться и стать отдельными языками. Этот метод, который мы назвали ASJP-хронологией, был получен на основе наборов языковых данных.
Учитывая возможную погрешность, мы пришли к выводу, что речь идет приблизительно о 1059 годах
Чтобы подтвердить эту цифру, мы анализировали, за какое время протоязык (язык-прародитель — Прим. ред.) какой-либо языковой семьи распадался на дочерние языки — предков языковых ветвей. Для этого используются другие методы подсчета, но результаты совпадают: пройдет примерно тысячелетие, прежде чем диалекты станут самостоятельными языками. В этом мы уверены, потому что теперь знаем, чем одно отличается от другого.
Об авторе: Сёрен Вихманн — датский лингвист, который сотрудничал с Лейденским университетом в Нидерландах, Казанским федеральным университетом в России и Пекинским университетом языка и культуры в Китае. Соавтор книги Temporal Stability of Linguistic Typological Features.