Site icon Granite of science

Единство естественнонаучного и гуманитарного начал в научном творчестве академика Широкова

Остро и как-то хайпово стоящая в Украине проблема языка застит вопросы закономерные и конструктивные, связанные с развитием «державної мови». Известно ли, например, чубатым ребятам в чёрном и ведущим их патриотическим организациям о человеке, который изо дня в день кропотливо, без перерывов на отпуск, выходные и даже праздники собирает Толковый словарь — «Библию» украинского языка (логично, что отнюдь не Закону о языке принадлежит этот статус)?

Академик Владимир Широков в 1991 году основал Украинский языково-информационный фонд Национальной академии наук, которым руководит уже более 30 лет. Сотрудниками фонда создана Национальная словарная база – научный объект, имеющий статус национального достояния Украины. Кроме изданных 11 томов нового академического толкового «Словника української мови в 20 томах» и большого количества специализированных словарей, фонд подготовил также электронную систему «Словники України онлайн», пользующуюся самой широкой популярностью.

Мы посетили фонд, расположенный в Национальной библиотеке им. В.Вернадского и надёжно укрытый в лабиринте коридоров, словно из фильма «Чародеи». Ученый оказался симпатичным человеком с безбрежной эрудицией, превосходным чувством юмора и неординарным талантом в сочинении музыки. 

— Владимир Анатольевич, справочники, включая Википедию, характеризуют вас как «основателя украинской научной школы лингвистической технологии». Что это означает?

Имеется некая область науки и техники, в данном случае – лингвистическая технология. И ваш покорный слуга является, как вы сами отметили, основателем украинской научной школы в данной области. Это значит, что мною написаны научные труды по лингвистическим технологиям и есть некоторое число последователей-учеников, специалистов, которые под моим руководством написали и защитили соответствующие диссертационные работы. Кстати, если вы наберете в Гугле «language technology», то поисковик выдаст около трех миллиардов (!) ссылок. Таким образом, не стоит думать, что эта область – мало кому известная экзотика. Например, количество ссылок по запросу “Ukrainian language” не дотягивает и до миллиарда. Так что актуальность направления «лингвистические технологии» несомненна.

 — И всё-таки, по существу: как бы вы научно, но в то же время популярно определили, что такое лингвистическая технология?

Давайте «отмотаем назад» и вспомним далёкий 1963 год, когда Станислав Лем написал свою футурологическую книгу «Сумма технологий». Многие её положения, несмотря на почти 60 лет со времени написания, остаются актуальными и сейчас. Поэтому я советую нашим читателям прочесть и этот труд. Так вот, Лем среди прочего предрекал универсальность технологии как цивилизационного метода и цивилизационной практики. В частности, он предвидел, что технологические подходы из сферы материального производства будут дрейфовать в социальную, интеллектуальную и иные области. И теперь мы являемся свидетелями и даже участниками информационных, биологических, гуманитарных, социальных, политических и иных технологий. Среди них можно выделить и лингвистические, то есть те, которые относятся к обработке объектов естественного языка. Это в двух словах. Для самого, так сказать, общего понимания.

— Владимир Анатольевич, по своему научному происхождению вы являетесь физиком-теоретиком. Как Вас занесло в лингвистику?

Действительно, первую диссертацию я защитил в Институте теоретической физики после окончания аспирантуры. Затем перешел на работу в Президиум Академии наук Украины, где мне было поручено курировать вопросы автоматизации научных исследований и вычислительной техники. Это была совершенно новая для меня область, связанная с автоматизированной обработкой информации. Ничем подобным до этого я не занимался. Ведь традиционным орудием физика-теоретика является его голова, ручка и лист бумаги. И вот – обработка информации. Имея обыкновение во всём разбираться досконально, я и здесь начал, как говорится, с самых «фундаментальных оснований». То есть, с изучения теории информации. Ведь до этого я имел самое поверхностное представление о том, что это за зверь такой: информация как научная дисциплина. У меня была хорошая математическая подготовка, поскольку теоретическая физика работает с самым изощренным математическим аппаратом. Поэтому формальных трудностей в овладении новой областью знаний у меня не было. К тому же, оказалось, что теория информации в её наиболее распространенной, Шенноновской интерпретации довольно близка по форме (местами даже вплоть до формального совпадения) к статистической физике, которую мы изучали еще в университете. Недаром этот вариант теории информации называют информацией Шеннона-Больцмана.

При изучении информационной теории меня очень интересовал вопрос: как информация связана с материальными процессами, в частности с энергетическими? Ведь, как известно, энергия и связанные с ней гамильтонов и лагранжев формализмы для физика представляют основу описания любых явлений и процессов. Таким образом я познакомился с энерго-информационными и информационно-энергетическими процессами. Меня тогда особенно поразило объяснение Лео Силардом парадокса с так называемым демоном Максвелла (данное еще в 1929 году). Согласно Силарду, он оказался машиной, которая, образно говоря, «перерабатывает» информацию в энергию. При этом теория давала даже некоторые количественные оценки такого преобразования.

Еще большее впечатление на меня произвели труды А. Н. Колмогорова по теории информации. Являясь классиком теории вероятности, он создал и свой вариант теории информации, в которой, однако, не использовалось понятие вероятности, положенное в основу определения информации Клода Шеннона. Вместо этого Колмогоровым было введено и формализовано новое в науке понятие, а именно понятие сложности объекта, и также выведена соответствующая формула меры сложности так называемых конструктивных объектов. Уже через сложность вычислялось количество информации, содержащейся в конструктивном объекте.

Я был просто очарован теорией Колмогорова! А его статья «Три подхода к определению понятия «количество информации» стала для меня настольной. Что особенно меня поразило в этой работе, так это то, что для определения количественной меры сложности Колмогорову потребовалось ввести понятие описания объекта. Причём один и тот же объект мог обладать множеством (возможно даже бесконечным) формально различных, но по существу эквивалентных описаний. Я себе образно представлял, что математические операторы, составляющие эти описания из отдельных символов – элементов некоторого алфавита, являются такими себе человечками-свидетелями-наблюдателями, которые трудолюбиво и добросовестно выполняют свою нелёгкую работу по выработке этих описаний. А уже из множества полученных таким образом описаний некий Высший Руководитель выбирает самое лучшее и самое короткое, наиболее полно отображающее свойства описываемого объекта. Вот оно-то и представляет сложность этого самого объекта!

Библиотека им. Вернадского, где «квартирует» Фонд

Сия странная картинка наталкивала меня на мысль о сходстве и каком-то глубоком внутреннем родстве процесса порождения этих абстрактных описаний с реальными процессами, происходящими в области естественного языка. (Забегая вперёд, скажу, что гораздо позже я узнал, что Андрей Николаевич Колмогоров является автором чрезвычайно глубоких собственно лингвистических результатов, до сих пор по заслугам не оценённых.)  И тут — а это был 1985 год — на меня совершенно случайно и неспровоцированно вышли филологи-лингвисты из нашего академического Института языкознания имени А. А. Потебни с просьбой помочь им в автоматизации их языковедческих исследований. Я с энтузиазмом взялся за эту задачу, потому что уже начал интуитивно чувствовать (скорее даже предчувствовать!) фундаментальный характер связи между естественным языком и колмогоровскими описаниями, фигурирующими в его определении информации. Как говорится, Бог знает, что делает, и Он посылает Свои случаи тем, кто может ими воспользоваться!

В результате этих контактов у нас с лингвистами завязалось тесное сотрудничество и дружба. В первую очередь с профессором Марией Михайловной Пещак, которую вспоминаю с огромным уважением и любовью. А также и с другими сотрудниками её группы. В это время я уже руководил академическим Отделением научной информации, где у меня работал целый отдел над информационно-лингвистическими проблемами. В результате (и с благословления президента Академии Бориса Евгеньевича Патона и академика-секретаря отделения литературы, языка и искусствоведения Виталия Макаровича Русанивского) в 1991 году мне удалось создать целый новый институт – Украинский языково-информационный фонд, ориентированный на исследование языка именно как информационной системы определенного типа. Здесь я работаю и до сего дня. 

И вот из этих, поначалу полу-интуитивных соображений, о которых я говорил, мне впоследствии удалось осознать и сформулировать универсальный феноменологический принцип – лексикографический эффект в информационных системах, — а уже на его основе построить теорию лексикографических систем и теорию семантических состояний. Эти теории и послужили основой для создания соответствующих формальных моделей различных аспектов языка, и затем – компьютерных цифровых технологий обработки языка. Собственно того, что и называется теперь лингвистическими технологиями.

Прошу прощения, если изложение моей истории вышло недостаточно популярным. В таких делах я всегда осторожничаю, потому что боюсь, извините, впасть в грех вульгаризации.

И всё-таки, лексикографический эффект в информационных системах, теория лексикографических систем, теория семантических состояний… – вам не кажется, что это звучит довольно загадочно для обыкновенного читателя? Нельзя ли уточнить, как от этих абстракций вам удалось перейти к конкретным, практически работающим языковым системам?

—  Давайте попробуем так. При образовании Украинского языково-информационного фонда (далее для краткости я буду называть его просто Фондом) перед нами были поставлены вполне практические, прикладные задачи. А именно: создание информационного компьютерного корпуса (фонда) материалов об украинском языке, разработка словарей, компьютерных систем обработки языка и т. д. Не забывайте, что это было в начале 90-х годов прошлого столетия, а в то время у нас практически не было даже элементарных персональных компьютеров – мне удалось достать около двух десятков «персоналок» для оснащения Фонда только в конце 1991 года. Но это отдельная эпопея. А пока нужно было выполнять текущие задания. И тут выяснилось, что автоматизировать здесь практически нечего. Не было формальных моделей тех языковых объектов, которые мы должны были автоматизировать, и программистам с таким материалом просто нечего было делать. Разумеется, я изучил опыт предшественников из других стран (в Украине направление компьютерной лингвистики до этого практически не развивалось). При этом мне стало очевидно, что передовым иностранным опытом нам воспользоваться не удастся, потому что у нас совершенно недостаточно ни времени, ни денег, ни кадров для выполнения той работы, которая на Западе, например, велась на протяжении многих десятков лет.

А перед нами ставились задачи, требовавшие быстрых результатов. В первую очередь – создание нового поколения украинских словарей. Эта проблема чрезвычайно обострилась с обретением Украиной независимости. Поэтому задача создания автоматизированной технологической системы для разработки словарей вышла на передний план актуальности. Но для создания автоматизированной системы, как известно, необходима модель автоматизируемого объекта. И тут выяснилось, что формальной теории словарей не существует. Для меня этот факт был неким потрясением. Мне казалось, что из всех объектов, связанных с языком, словарь больше всего подходит для формализации и вот – на тебе! Как выражался классик: «Никогда такого не было, и вот опять!».

Передо мной во всей своей полноте встал вопрос о формализации в области лингвистики и научном описании языка вообще. И тут я, конечно, вспомнил колмогоровскую идею описания и еще более уверился в фундаментальности такого явления как язык в структуре мироздания. Очень скоро я выяснил, что существует два базовых способа описания языка: грамматический и лексикографический. Первый относится к процедурному типу описаний и излагает правила, второй же относится к декларативному типу и описывает репертуары языковых единиц. Что касается грамматики, то формальная грамматическая теория уже была достаточно разработана. Формальным коррелятом грамматического описания стала теория формальных грамматик, которая относится к классу математических объектов, называемых логико-лингвистическими исчислениями. И эта тема имела огромную научную библиографию. Формальную же теорию словарей ещё предстояло создать. И за эту работу взялся ваш покорный слуга.

Несмотря на огромное разнообразие словарей (а может, именно благодаря ему!) общего определения словаря как бы и не было. Хотя лексикографы безошибочно определяли: является тот или иной языковедческий труд словарём, или нет. Эти их убеждения базировались всего на двух положениях. Во-первых, каждый словарь обязан состоять из отдельных фрагментов – словарная статей, озаглавленных, как это положено, заглавным словом. Множество заглавных слов составляет реестр словаря. И во-вторых, каждая словарная статья обязана состоять из двух частей, условно называемых левой и правой. Причем первая описывает заглавное слово со стороны его языковой формы, а вторая, соответственно, со стороны содержания. И это, в общем, всё.

Интересно, как же вам всё-таки удалось из такой, я бы сказала, элементарной эмпирики добраться до общей теории словарей? 

— Я специально так подробно останавливаюсь на этих, казалось бы, элементарных фактах, потому что из них выросли далеко идущие и довольно неожиданные следствия. Для начала мне необходимо было выяснить природу порождения реестров словарей. Оказалось, что, вообще говоря, реестрами служат некие дискретные комплексы относительно устойчивых сущностей (я назвал их элементарными информационными единицами), комбинации которых обслуживают некий аспект действительности. Для языка такими дискретными комплексами служат фонемы, граммемы, морфемы, синтаксемы, лексемы, фраземы и т. д. Все они и многие-многие другие могут служить объектами лексикографирования.

Но из сказанного следует, что такие дискретные комплексы могут возникать и в других участках бытия, вовсе не связанных с человеческим языком. Мой научный опыт и интуиция убедили меня, что принцип порождения такого рода дискретных комплексов является всеобщим и действует на всём так сказать диапазоне мироздания. Этот, феноменологический по своей сути принцип, и был мною назван лексикографическим эффектом. Многочисленные подтверждения его действия можно наблюдать в целом ряде природных явлений. Несмотря на то, что по современным представлениям всё мироздание помещено в четырёхмерный пространственно-временной континуум, наблюдаемые величины зависят от небольшого числа так называемых «мировых констант» (скорости света, заряда и массы электрона, постоянной Планка и т.п.), которые вместе со множеством целых чисел составляют своеобразный «алфавит» физики, в котором выражаются все содержательные утверждения о поведении физических систем (значения наблюдаемых величин). Аналогичная ситуация и с научным описанием иных систем: все химические вещества являются некими «словами» в алфавите химических элементов, а их взаимопревращения – «предложениями» этого языка; белки в основным состоят из 20 аминокислот, молекулы ДНК строятся на основе четырех типов нуклеотидов и т. д. Сами химические элементы являются элементарными информационными единицами относительно лексикографического эффекта, определяемого принципом Паули, который допускает нахождение в одном квантовом состоянии не более одного электрона, регламентируя таким образом порядок заполнения электронных орбит атомов и, следовательно, определяя возможный набор химических элементов. Примеры такого рода можно приводить десятками. Показательно, что данное поведение характерно не только для реальных объектов мира – природных и технических, но и для образований концептуального уровня, оперирующих идеальными объектами, абстракциями и ментальными конструкциями.

И вот теперь мне стало понятно, что любой комплекс элементарных информационных единиц относительно того или иного лексикографического эффекта может стать объектом соответствующего словаря. Для этого, понятно, нужно сначала определить характеристики самого лексикографического эффекта, затем состав порождаемых им элементарных информационных единиц, а затем уже построить их описание по правилам соответствующей науки, то есть конкретной предметной области.

На этом пути мне собственно и удалось построить общую теорию словарей; я назвал её теорией лексикографических систем. Нельзя сказать, что это было сделано чисто дедуктивным путём. Параллельно с общими информационными феноменами я исследовал строение десятков реальных словарей, особенности формирования их реестров (комплексов элементарных информационных единиц), детали описания тех или иных их свойств. В результате получилась довольно стройная и хорошо формализованная теория. Смешно, но формулы теории лексикографических систем приснились мне во сне – как Менделееву его таблица. Произошло это в 1995 году; никогда ни до, ни после мне формулы не снились. Кстати, таблица Менделеева также представляет собой некую лексикографическую систему! Нечего и говорить, что и любой словарь (а также и энциклопедия) является лексикографическими системами.

После этого дело создания словарей было поставлено нами на индустриальную основу. Были разработаны программные средства для лексикографирования в сетевой среде. Они были названы виртуальными лексикографическими лабораториями. Разработаны формальные структуры многих типов словарей и отношений языка. Осуществлен парсинг текстов ряда традиционных словарей в цифровую среду. При этом данные тексты были автоматически (подчёркиваю!) конвертированы в структуры соответствующих им лексикографических систем. Это позволило сэкономить десятки лет рабочего времени. Особенно впечатляющим стал парсинг фундаментальных лексикографических объектов: 11-томного толкового Словника української мови и Етимологічного словника української мови, исключительно сложных в лингвистическом отношении.

— И как у Вас теперь обстоит дело с производством словарей? Какие достижения и какие проблемы?

— Первый наш словарь – Орфографічний словник української мови был издан в 1994 году. Он открывал серию украинских словарей нового поколения «Словники України». Сейчас эта серия насчитывает уже около 90 изданий и среди них 15 электронных словарей. Наиболее известный из них «Словники України онлайн» находится на сайте созданного у нас Украинского лингвистического портала с 2001 года. К нему обеспечен прямой доступ. Ежегодно к словарю обращается более миллиона пользователей из многих стран мира. Объём этого словаря колоссален: если распечатать на бумаге в формате А4 его текст, получится около 120 тысяч страниц. Это 120 томов по тысяче страниц! Таких бумажных словарей не бывает. Вручную создать такой лексикографический объект невозможно. Словарь проиндексирован по всем словоформам, а их миллионы. Это стало возможным благодаря применению уникальной компьютерной системы индексирования. Она была разработана нашими сотрудниками Александром Георгиевичем Рабульцом и Игорем Викторовичем Шевченко, который создал полную парадигматическую классификацию украинского словоизменения, насчитывающую в настоящее время около трёх тысяч словоизменительных классов. Над формированием и верификацией индекса словаря работал весь институт. И теперь ежегодно к словарю обращается более миллиона пользователей из многих стран мира.

В настоящее время основным нашим лексикографическим проектом является создание нового толкового академического Словника української мови в 20 томах. Этот словарь составляется коллективом лексикографов с помощью разработанной у нас виртуальной лексикографической лаборатории «Словник української мови» и Украинского лингвистического корпуса – цифровой системы, в которой собран текстово-иллюстративный фонд современного украинского языка. На данный момент издано 11 томов этого двадцатитомника, в этом году выйдет 12-ый том. Они также представлены в свободном доступе на сайте Украинского лингвистического портала.

К сожалению, из-за финансовых ограничений мы выпускаем только по одному тому словаря в год. Правда, каждый том – это фолиант объёмом около тысячи страниц, но тем не менее. Можно было бы значительно ускорить эту работу, но бесплатно в наше время – не получается. В бюджете державы денег на эти дела не хватает. А меценаты тоже не спешат вкладывать свои деньги в украинские словари. Как бы там ни было, созданную в Фонде Национальную словарную базу решением Кабинета Министров Украины включили в государственный реестр научных объектов, имеющих статус национального достояния Украины. Значит, у нас имеются определённые достижения, как говорилось в старое время. 

С главным редактором «Гранита науки» во время интервью

— Владимир Анатольевич, а какие работы ведутся у вас помимо словарной тематики?

— Это, в первую очередь, направление, связанное с интеллектуальной обработкой языка. Когнитивная лингвистика, лингвистическая концептография, экстракция знаний из естественноязыковых текстов. Недавно у нас была защищена исключительно интересная докторская диссертация Ларисы Леонидовны Шевченко на тему системной концептографии Святого Письма.  Ну и, кроме этого, исследования в области общей эволюционной теории, которыми я занимаюсь лично.

Как вы знаете, сейчас во всём мире интенсифицировались исследования и разработки в области искусственного интеллекта. В то же время, крепнет убеждение, что интеллект и язык вообще неразрывно связаны. Недаром Рей Курцвайль – главный специалист компании Google в области искусственного интеллекта — одновременно является и главным консультантом в области natural language processing. Мною еще в 2004 году в книге «Феноменология лексикографических систем» было сформулировано определение интеллекта как формы индивидуализации систем, обладающей языковым статусом. По моему убеждению, языковой статус является необходимым условием интеллекта. Это означает, что если система обладает интеллектом, то ей обязательно присущ и какой-то языковой статус. Поэтому мы занимаемся созданием моделей и систем, связанных с интеллектуальной обработкой текстов. В частности, это вопросы лингвистических экспертиз, в том числе и текстов законодательной и нормативно-правовой базы. У нас имеются примеры применения разработанных инструментов интеллектуального анализа для целей экспертизы. Но о них я предпочёл бы умолчать, поскольку все наши попытки убедить руководство страны в необходимости применения этих инструментов в законодательной и правоприменительной практике до сих пор успеха не имели. Увы!

Хотел бы подчеркнуть, что, по моему мнению, у нас в стране происходит недооценка, а точнее искаженная оценка роли языка в современном мире. Поэтому руководство страны при разработке мер по укреплению статуса украинского языка как государственного делает акцент на бюрократических и полицейских мерах, пренебрегая научно-техническими. Учитывая масштабы, которые приобрела во всём мире интеллектуализация информационных технологий и связанная с ней интенсификация исследований и разработок в области лингвистических технологий, такая ошибочная позиция может привести к стратегическим просчётам. Особенно учитывая многочисленные прогнозы, связанные с возможной технологической сингулярностью, а также всё громче звучащие эсхатологические концепции трансгуманизма и тому подобное. Как писал в своё время Джон Донн: «…не спрашивай, по ком звонит колокол: он звонит по Тебе».   

Exit mobile version