Исследователи из Китайского университета связи сопоставили наблюдение лингвиста 80-летней давности с механизмом работы человеческого сознания и обнаружили фундаментальную закономерность в выборе слов, которая проявляется как минимум в 50 различных языках.
В 1935 году американский лингвист Джордж Ципф заинтересовался пропорцией часто встречающихся в речи слов с менее распространенными. Он распределил слова по популярности и вывел странную закономерность: слова первого разряда используются ровно вдвое чаще, чем второго, и втрое чаще, чем третьего.
Например, английское «the» составляет 7% всех слов, а «and» — 3,5%. Около 135 самых популярных слов используются в половине случаев, а весь остальной словарный запас применяется крайне редко.
В Китайском университете группа во главе с лингвистом Шуйюань Юй проверили эту закономерность на полусотне различных языков из всех уголков мира — индо-европейской, уральской, алтайской, кавказской, сино-тибетской, дравидийской, афразийской групп. Они доказали, что «закон Ципфа» действует для всех, и не может быть вызван статистической ошибкой или особенностями английского языка.
Более того, единая структура языков указала на то, что мозг обрабатывает распространенные слова иначе, чем редкие.
Это открытие может привести к важным выводам для обработки естественного языка и автоматической генерации текста, пишет MIT Technology Review.
Метод Юя довольно прост. Они начали с двух крупных собраний текстов — Британского национального корпуса и Лейпцигского корпуса, которые содержат образцы 50 различных языков, в каждом из которых минимум по 30 000 предложений и до 43 млн слов.
Исследователи обнаружили, что частота слов во всех этих языках соответствует модифицированному закону Ципфа. То есть отражает закономерность при разбиении словарного запаса на три больших группы. При этом метод генерации случайных наборов слов такого распределения не дал.
Затем ученые связали эту структуру с моделью работы мозга, так называемой теорией двойственного процесса, которая утверждает, что мозг работает двумя различными путями. Первый — это быстрое интуитивное мышление, которое развилось для того, чтобы человек мог быстро реагировать на опасность. Оно позволяет ловко справляться с не очень сложными проблемами, но пасует перед нестандартными ситуациями. Второй тип — более рациональный, медленный и осознанный. Он используется в работе над трудными задачами.
В разговоре первый тип мышления проявляет себя при использовании самых распространенных слов. Они становятся скелетом предложения. Менее частотные требуют более внимательного размышления и поэтому встречаются реже.
Смоделировав этот двойственный процесс, ученые пришли к выводу, что он совпадает со структурой закона Ципфа.
«Результаты указывают на то, что закон Ципфа в языке обосновывается когнитивными механизмами, в частности, двойственным процессом, который управляет вербальным поведением человека», — утверждают исследователи. Возможно, эти выводы помогут сделать речь виртуальных помощников вроде Siri или Alexa более человеческой.
В начале лета нейросеть ELMo получила приз за лучшее исследование Ассоциации компьютерной лингвистики Северной Америки (NAACL). Она научилась лучше понимать смысл многозначных слов и на 25% улучшила работу алгоритмов распознавания речи.
Больше на Granite of science
Subscribe to get the latest posts sent to your email.