Робот на марше через «зловещую долину»

Что такое зловещая долина (uncanny valley)? Это психологическая точка, в которой такие вещи, как гуманоидные роботы и персонажи компьютерной графики, начинают вызывать у нас жуткое ощущение. Причина этого в том, что они не идеальные репрезентации людей – и никогда таковыми не станут. Поэтому роботы вызывают у нас чувства ужаса, беспокойства и недружелюбия. Доктор Карл Стратерн (Carl Strathearn), научный сотрудник Школы вычислительной техники Эдинбургского университета Напье, беседует с редактором BBC Science Focus Джейсоном Гудйером о своем исследовании реалистичных гуманоидных роботов.

С самого рождения мы способны распознавать и анализировать лица. Лица играют важнейшую роль в нашем общении. Когда мы начинаем видеть вещи, которых не должно быть, то, что не на своем месте, мы действительно испытываем чувство отвращения. Но дело не только в внешнем виде, но и в функциональности. Скажем, как двигаются роботы. Если робот движется не так, как мы ожидаем, это снова вызывает чувство неестественности и беспокойства.

— Ваша работа сосредоточена на сопоставлении движений лица с речью. Почему это играет в этом такую важную роль?

— Две ключевые области теоремы о «зловещей долине» — это глаза и рот. Когда мы общаемся, наше внимание перемещается между глазами и ртом. Мы смотрим в глаза, чтобы привлечь внимание, и мы смотрим в рот, чтобы прочитать речь, чтобы понять. В частности, в случае с роботами все, что выходит за рамки естественного движения губ, может сбивать нас с толку и дезориентировать. Особенно если вы взаимодействуете в течение определенного времени.

— Как начался проект?

— Я фактически тогда преподавал на факультете анимации, потому что в моем предыдущем университете не было отдела робототехники. Вот здесь и начали приходить эти идеи. Они используют такие программы, как Oculus, которые в основном принимают речь и преобразуют рот в компьютерную графику с позициями губ. Он автоматически читает речь и извлекает виземы [форма губ, используемая для формирования определенного звука] для положения рта, и я хотел сделать это с помощью робота. Итак, я создал рот робота по образцу человеческого рта.

Но прежде чем я это сделал, я посмотрел на предыдущие роботизированные ротовые системы, чтобы увидеть, чего не хватало. И это было действительно важно, просто чтобы иметь возможность увидеть, какие были ключевые мышцы, какие мышцы работают вместе, а что можно не использовать во рту.

Очевидно, что это очень маленькая область, и мы ограничены тем, что действительно можем вложить в рот робота. Одна из ключевых вещей, которую я обнаружил, которой не хватало, — это мышцы, называемые букцинаторами, которые представляют собой мышцы в углах рта, а не мышцы щек, они используются для сжатия и растягивания губ, когда мы создаем гласные и согласные звуки. Итак, я воспроизвел эти мышцы и создал прототип рта робота.

Я подумал: «Хорошо, следующий этап — создать приложение, которое может взять эти формы губ и поместить их в этот роботизированный рот». Итак, мы использовали нечто, называемое диаграммой визем. Это то, что часто используется для компьютерной графики в игровом дизайне — в основном это список звуков и соответствующая форма рта. Я заставил своего робота создавать эти формы. Для абсолютно каждого звука у меня были все эти роботизированные положения рта. Я собрал и сохранил их в файл конфигурации, чтобы потом можно было извлечь их и использовать.

Следующей частью было создание системы, которая могла бы обрабатывать речь (а не только простые звуки). Но я хотел сделать это вживую, чтобы не было времени на обработку, потому что если вы используете время обработки, то речь становится неестественной, так как в разговоре много больших пауз. Итак, я создал алгоритм машинного обучения, который использует синтез речи и выдаёт роботизированную речь, как у вас на Siri, из ноутбука в микропроцессор, который превращает эти аудиоданные обратно в цифровые данные. Часть этого также пошла в систему обработки, чтобы я действительно мог видеть звуковую волну, как вы видите в студии звукозаписи.

— Не могли бы вы рассказать немного подробнее о том, как работает система?

— Я создал алгоритм машинного обучения, который мог распознавать шаблоны во входящей речи. Это было сделано не путем отслеживания самой речи как таковой, а путем отслеживания закономерностей в форме волны. Итак, вы смотрите на размер пикселя, длину каждого слова и каждого звука, а затем вводите в систему кучу образцов.

Таким образом, алгоритм как бы знал, что искал. И когда он услышал [звук, который ему был знаком], он смог преобразовать ротовую систему робота, чтобы она соответствовала положениям, которые я сопоставил на диаграмме. Это сработало на удивление хорошо.

Следующим шагом было то, что я называю системой формирования голоса, которая работает со слогами. Очевидно, что когда вы говорите, ваша челюсть движется вверх и вниз по слогам. Итак, это был следующий этап создания этой системы паттернов, что означало, что если звука нет, рот закрыт, и чем громче звук, тем шире рот.

— Как вы подошли к выбору внешнего вида робота?

— Что ж, на самом деле в эксперименте участвуют два робота — старый на вид и молодой на вид. Младший робот не привлекает столько внимания; я думаю, что старший робот выглядит более реалистично. Но я создавал их с идеей, что один будет младшей версией другого. Я хотел сравнить, как люди взаимодействуют с более старым роботом и более молодым роботом. Я обнаружил, что молодые люди предпочитают взаимодействовать с более молодым роботом, а пожилые люди предпочитают взаимодействовать с другим роботом, выглядящим старше.

Я также наделил их личностями. Я подумал, что я довольно молод, поэтому я основываю более молодую личность на себе. И я довольно хорошо знаю своего отца, он вроде как старый, поэтому я смоделировал старшего по его образцу. Я заставил младшего робота интересоваться тем, что мне интересно, а старшего — снукером и Джоном Смитом.

— Итак, каковы потенциальные применения проделанной Вами работы?

— Я всегда использую пример из «Звездного пути» как идеальный для ответа на этот вопрос. Вспомните гуманистический интерфейс между множеством разных вещей: людьми и инопланетянами — очевидно, пришельцами, которые не говорят по-английски, поэтому он действует как переводчик. Но он также действует как интерфейс между корабельным компьютером и людьми.

Вещи, которые были бы очень трудными для человека, например вычисления, он может перевести и передать ее в упрощенном виде — гуманистическим способом, с эмоциями, с помощью мимики. И я думаю, что в конечном итоге эта технология будет развиваться.

Мы должны помнить, что не все могут эффективно взаимодействовать с технологиями. Я считаю, что для нас большая честь, что мы выросли на технологиях и у нас есть возможность их использовать. Но в мире много людей, у которых этого нет, поэтому создание чего-то вроде робота-гуманоида позволило бы им гораздо более естественно интегрироваться с технологиями.