«Нейросетевой писатель» GPT-3: как распознать?

Чем отличается художественная литература от технической? В технической литературе используется исключительно стандартная лексика. Тексты как бы слагаются из наперед определенных «кубиков». Таковые области использования больше открыты к применению искусственного интеллекта, ведь там творчество даже наказуемо: если ты придумал вместо формализованного термина свое слово, то твой текст перестает вписываться в ряд других. Программа, судья или спортивный комитет просто его не распознает.

Третье поколение алгоритма обработки языка от OpenAI знает 40 языков, но понятие семантики ей неизвестно. GPT-3 (Generative Pre-trained Transformer) классно генерирует текст, но когда ты читаешь его, то в конечном итоге теряешь смысл. Так случается и с людьми, когда автор сам не понимает, о чем пишет. Даже если алгоритм «прочитал» — точнее, через него пропустили – миллиарды текстов художественной литературы, он ведь все равно не понимает, что такое душа или дружба. Таким образом, мы получили генератор умно звучащего бреда, при чтении «творчества» которого многим так называемым «писателям»/ «журналистам» должно становиться стыдно за собственный подход к ремеслу.

Наиболее известное на сегодняшний день произведение GPT-3 – колонка в британской газете The Guardian, опубликованная 8 сентября 2020 года. Довольно объемный текст, набор размытых мыслей о «жизни, Вселенной и вообще» с претензией на философию.

Первая научная статья с подробным описанием алгоритма была опубликована 28 мая 2020 года группой исследователей под руководством Дарио Амодея. От своего предшественника GTP-2 современная программа отличается количеством используемых параметров, увеличенным более чем в сто раз: с 1,5 до 175 млрд. Обучение модели проходило на суперкомпьютере Microsoft Azure AI, построенном специально для Open AI. Начальное обучение (на английском языке) велось на основании набора данных из более 570 ГБ текстов, позднее подключились и другие языки. Доступ к пользованию алгоритмов можно получить лишь после заполнения 50-страничной анкеты, и то еще вопрос, предоставят ли его в конечном счете.

OpenAI – некоммерческая исследовательская организация, в числе основателей которой Илон Маск, Илья Сутскевер (также один из создателей AlphaGo и TensorFlow) и Сэм Альтман, специализирующийся на высокотехнологичных IT-компаниях и стартапах. Лаборатория OpenAI также известна нейросетевыми алгоритмами, которые обыгрывают профессиональных киберспортсменов в играх наподобие DotA.

Отметим, что на колонках в газету «нейросетевые писатели» не останавливаются. Уже существует, к примеру, сборник стихов, полностью написанный ИИ – верлибром. В нем даже присутствуют художественные тропы, такие как метафоры. Которые, в сущности, не так сложно «изготовить», если умело формализовать задачу для ИИ. А 26 февраля 2021 года в Чехии (проект “THEaiTRE”) состоялась премьера первой пьесы, написанной искусственным интеллектом, которая так и называется: «ИИ: когда робот пишет пьесу». Ее онлайн-трансляцию смотрели с 18 450 девайсов по всему миру – аудитория в людях, предположительно, составила около 30 000 зрителей.

В этом инновационном проекте, приуроченном к 100-летию пьесы «Р.У.Р.» Карела Чапека, исследователи из Карлова университета, театра «Шванда» и Академии исполнительских искусств в Праге объединили ИИ, робототехнику и театральные навыки. Именно благодаря этой пьесе роботы, как известно, стали называться роботами: слово было придумано писателем Карелом Чапеком и его братом художником Йозефом.

Как отмечают авторы экспериментальной работы во главе с Рудольфом Розой, ранее искусственный интеллект уже занимался и музыкой, и живописью, и поэзией. Сейчас уже существуют роботы, которые используют вычислительные методы для создания диалогов или историй. Однако это первая работа в театральной сфере с таким большим объемом данных. Произведена она была еще на базе предыдущей модели языкового алгоритма, GPT-2.

Группа, работающая над созданием пьесы, дала GPT-2 несколько строк драматического текста, и алгоритм смог создать больший текст, в похожем стиле придерживаясь темы. Однако исследователи решили усовершенствовать GPT-2, также обучив его существующим театральным сценариям.

Похоже, что проблема состоит в том, что мы сами не знаем, как выразить, формализовать то, что делает нас людьми – и поэтому не можем вложить это в робота. Ведь это явно нечто большее, чем просто примат эмоций или эмпатия.