Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Андрей Гафинчук Lab1.docx
Скачиваний:
2
Добавлен:
01.07.2025
Размер:
5.8 Mб
Скачать

Interfaces Using Natural Language

Человеко-машинные интерфейсы стали частью про-фессиональной и личной жизни человека. При этом способы взаимодействия пользователя и компьютера постоянно совершенствуются. Описаны подходы кпро-ектированию диалоговых интерфейсов для автомати-зированного рабочего места оператора и приведен ва-риант технической реализации. Разработана структура испытательного стенда для исследования интерфейсов на примере биллинговой системы.

Ключевые слова: человеко-машинный интерфейс, син-тез и распознавание речи, интерфейс, естественный язык, испытательный стенд.

Human-machine interfaces have become a part of professional and personal people’s life. Ways of interaction between users and computer are constantly evolving. This paper describes approaches to the design of interactive interfaces for operators of personal computers workstations and variant of the technical implementation of the model. The structure of the test stand for the study of interfaces on the example of the billing system is worked out.

Key words: human-machine, speech synthesis and recognition, interface, natural language, automated work place, test stand.

DOI 10.14258/izvasu(2013)1.2-22

Введение. В настоящее время компьютеры полу-чили широкое распространение в ежедневной жизни человека. Примерами являются роботы, навигацион-ные системы, регистраторы и т. д. В момент своего функционирования они взаимодействуют с челове-ком. По типам взаимодействий можно выделить сле-дующие:

—   

дание было понято; — 

дание было принято к исполнению; — 

дание было выполнено; — 

—  

Одновременно с созданием новых устройств происходит активное совершенствование спосо-бов взаимодействия. В качестве примеров можно привести сенсорные дисплеи , интерфейсы, управ-ляемые жестами, движением глаз, тактильные ин-терфейсы, например «надувная» клавиатура теле-фона, и др. [1].

Указанные типы взаимодействий позволяют уско-рить общение при передаче простых команд от че-ловека к компьютеру. Аналогичные прорывы будут осуществляться и при обратном общении — от ком-пьютера к человеку.

Перспективным направлением является двух-стороннее взаимодействие человека и компьютера на естественных языках. Примеров много — это ис-пользование естественного языка при передаче голо-совых сообщений: электронные очереди, любые спра-вочно-информационные системы.

Однако углубленного теоретического исследова-ния возможностей создания человеко-машинных ин-терфейсов в настоящее время проводится недоста-точно. В частности, не исследуются возможности применения таких систем в профессиональной дея-тельности пользователей ЭВМ; настройки модулей синтеза и распознавания к особенностям индивиду-альной речи конкретного человека и к синтезирова-нию и распознаванию речевых сигналов с высоким уровнем информативности и контекстным фоном. Исследование этой группы вопросов с применени-ем тестовых испытаний представляется актуальной задачей.

Степень изученности проблемы. Проблемы создания человеко-машинных интерфейсов интере-совали многих российских и зарубежных ученых.

Речевое взаимодействие в человеко-машинных системах рассматривалось в трудах таких ученых, как Л. Р. Рабинер, Р. В. Шафер, Б. М. Лобанов, а также в настоящее время представляет интерес для таких крупных компаний, как Google, Microsoft, Apple и др. Вопросы генерации и распознавания речевых сигналов изучали ученые В. Н. Сорокин, Н. Г. Загоруйко, Б. М. Лобанов, Л. В. Златоустова,

114

структура стенда для исследования человеко-машинного интерфейса...

группа специалистов из «Центра речевых техноло-гий» (Санкт-Петербург) и др. Технологии построения интерфейсов с элементами искусственного интеллекта были изучены автором на основе трудов Е. Сугак, Ю. Н. Филиппович, А. Ю. Филиппович, Г. С. Осипова

  • др.

  • рассмотренных работах не исследованы пробле-мы адаптации и выбора модулей генерации и распоз-навания речи; проблемы создания исследовательских систем для изучения возможностей взаимодействия человека и компьютера на естественных языках; оцен-ка погрешностей при речевом взаимодействии и спо-собы их снижения, включая организацию инфор-мационной избыточности; разработка возможных приложений в составе автоматизированных рабочих мест. В данной статье будут рассмотрены подходы к решению указанных проблем.

Требования к организации эффективных ин-

терфейсов. Интерфейс совокупность возможно-

стей взаимодействия по двум направлениям: от че-ловека к компьютеру и от компьютера к человеку. В настоящее время сформировался следующий ряд основных требований к человеко-машинному интер-фейсу [2]:

  • Естественность заключается в использовании знакомой и интуитивно понятной пользовате-лю среды.

  • Согласованность позволяет использовать полу-ченные на ранних этапах знания и навыки, де-лая интерфейс узнаваемым и предсказуемым. Согласованность важна как в пределах среды, так и в пределах самого приложения.

  • Дружественность интерфейса проявляется

  • разрешении на каждом этапе ограниченного набора действий, в предупреждении ошибок, а также в умении адаптироваться к потенциаль-ным ошибкам пользователя и оказывать помощь

  • их устранении.

  • Простота легкость в изучении и использова-нии интерфейса, но при этом должен быть до-ступ ко всему функционалу.

  • Принцип обратной связи состоит в том,

что каждое действие должно подтверждаться визуально или при помощи звука; в случае вы-полнения длительной операции — предостав-ление соответствующей информации об этом.

  • Гибкость способность учитывать уровень подготовки и производительность пользователя.

Классификацию интерфейсов можно провести по способу взаимодействия. При этом выделяют сле-дующие виды: текстовый, графический, тактильный, жестовый, голосовой, материальный, сенситивный. Чаще всего в настоящее время используют текстовый и графический интерфейсы.

По типам интерфейсы бывают простыми и слож-ными.

Простой интерфейс взаимодействие проис-ходит в одностороннем режиме, при помощи набора ограниченного набора команд. Примером простого интерфейса являются принтер, фотоаппарат, кнопка вызова пожарной службы и т. д.

Сложный интерфейс подразумевает взаимодей-ствие с пользователем в двухстороннем режиме с об-ратной связью и возможностью уточнить вопрос. Набор сценариев взаимодействий при этом велик, примерами систем со сложным интерфейсом явля-ются поисковые, информационные, вычислитель-ные системы.

Сложные интерфейсы представляют наибольший интерес, так как позволяют реализовать привычную для человека форму общения в виде диалога. Кроме того, с их помощью можно провести адаптацию к ин-дивидуальным особенностям пользователя и учиты-вать контекст взаимодействия.

Разработка структуры испытательного стенда для исследования интерфейсов. В качестве стенда рассмотрим автоматизированное рабочее место опе-ратора. Для примера выберем АРМ оператора бил-линговой системы. Структура взаимодействия пред-ставлена на рисунке 1.

Рис. 1. Схема взаимодействия оператора с ВЦ

Операторы взаимодействуют с вычислительным центром посредством приложения, и форма взаи-модействия зависит от поставленных перед ними задач. Это может быть формирование отчетности, ввод данных или поиск информации по лицевым счетам в системе. Но при любом способе взаимодей-ствия пользователи видят результат своих действий на экране либо в печатном виде . Связь от человека к системе и обратно происходит на протяжении все-го сеанса работы. В данном случае мы имеем дело со сложным интерфейсом и двухсторонней связью ПК и оператора.

Взаимодействие пользователя с ВЦ можно улуч-шить, адаптировав систему к привычным средствам коммуникации — речевому диалогу. Такая оптими-зация позволит не только улучшить качество работы операторов, но и может стать инструментом для лю-дей с ограниченными возможностями.

115

управление, вычислительная техника и информатика

Вариант технической реализации. В рамках ис-

следования была создана модель программы в виде интернет-сервиса, а в качестве системы синтеза и рас-познавания речи на начальном этапы были выбраны сервисы Google [3]. При этом предусмотрена возмож-ность интеграции альтернативных модулей синтеза

  • распознавания, в частности таких, которые смогут дать дополнительную информацию о речевом сигнале. Это необходимо для проведения испытаний по адап-тации к особенностям пользователей и оценке каче-ства распознавания самого модуля. Также может быть выбран вариант компоновки модулей синтеза и рас-познавания в зависимости от предпочтений операто-ра. Для работы необходимы микрофон и динамики.

Модуль состоит из следующих компонентов: ком-понент синтеза, компонент распознавания, преобра-зующий речь человека в текст; компонент анализа

  • сопоставления текста с набором команд (он также уточняет команду в случае ошибки); компонент при-менения команды.

Компонент распознавания. Для преобразования

речи в текст и синтеза использовались голосовые сервисы Google. Компонент активируется нажатием на кнопку микрофона либо при запуске программы. Произнесенные фразы запоминаются, и по окончании ввода распознанный текст передается

  • разработанный модуль анализа и сопоставления с командами. Остановить работу модуля можно, произнеся команду «готово» или нажав на микрофон внизу экрана, а исправить некорректно введенные данные — командой «вместо».

Компонент синтеза. Для преобразования речи

  • текст используется элемент html5 <audio> и серви-

Компонент анализа и сопоставления текста

  • набором команд. Текст, сформированный на основе фразы пользователя, разбирается на слова, полученные слова анализируются в произнесенной последовательности, сравниваются

  • набором синонимов и происходит поиск команд, соответствующих фразе. Реализован механизм запоминания контекста. Принцип работы следующий: при первом вводе проанализированные данные сохраняются в памяти и остаются там как контекст. При последующих операциях, если вводятся данные того же типа, уже существующие в контексте, они и все от них зависимые удаляются. Иначе используется сохраненный контекст. При необходимости можно очистить контекст командой «заново».

Компонент применения команды анализирует фра-зу и сопоставляет с набором имеющихся команд и со-ответствующими им действиями.

Перечень испытаний, которые могут быть прове-дены для данной модели.

  • Отработка режимов взаимодействия для АРМ оператора.

При использовании сложных интерфейсов и ме-ханизмов адаптации необходимо предусмотреть воз-можность выбора режима ввода: только голос, только клавиатура или комбинирование режимов голосового ввода и ввода с клавиатуры. При этом нужно опреде-лить некоторую конечную цепочку шагов для дости-жения результата. Таким образом, должна быть обе-спечена однозначность исполнения команд в любом из режимов. В случае использования только клавиату-ры последовательность действий сводится к графиче-скому взаимодействию. При использовании голосового ввода схема взаимодействия представлена нарисунке 2.

Рис. 2. Схема взаимодействия пользователя с ПК в голосовом режиме

В случае комбинированного ввода данных схе-ма сочетает режимы, описанные выше с учетом до-полнений. Необходимо предусмотреть способы пе-

реключения между данными видами взаимодействий в автоматическом и ручном режимах, так, например, произнеся команду «говорю» или «готово», можно

вызвать или остановить работу голосового модуля. В автоматическом режиме можно предложить поль-зователю переключиться с голосового ввода на ввод с клавиатуры при определенном количестве ошибок либо после нескольких попыток ввести фразу.

• Определение возможности адаптации к индиви-дуальным речевым сигналам при их распознавании.

Кроме информации о правильности распознавании фраз, при помощи набора тестов можно определить и другие характеристики речевых сигналов.

Общие характеристики для оценки модуля рас-познавания речи:

— cкорость восприятия имеет значение для поль-зователей с опытом. Как правило, чем дольше чело-век работает в системе, тем быстрее происходит про-цесс взаимодействия с ней. И если при голосовом режиме ввода данных произойдет снижение скорости по причине медленного ответа от программы распоз-навания, то применение системы распознавания бу-дет бессмысленным;

— надежность распознавания можно определить при помощи подсчета количества ошибок в некото-рой тестовой последовательности. При этом мож-но использовать многоуровневые тесты. На первом уровне выделяются короткие слова и определяется количество ошибок при их распознавании. На втором уровне определяется ограниченный набор команд (по-рядка 10) и происходит проверка правильного опреде-ления команды. На третьем шаге происходит адапта-ция к особенностям человека, например, определение характеристик голоса и автоматическая донастрой-ка. Надежность распознавания может быть улучшена как за счет использования разных модулей распозна-вания, так и предварительного обучения или за счет формирования словаря синонимов на основе испы-таний. Перечисленные проверочные тесты можно

проводить как на отдельном человеке (зависимость от диктора), так и на группе людей (дикторонезави-симые системы).

Аналогично можно разработать технологию тести-рования синтезатора речи.

  • Скорость восприятия синтезированной речи. Так же, как и в случае распознавания, при синтези-ровании речи должна быть определена скорость про-изнесения и формат произносимых фраз. Формат фраз должен быть определен на основе квалифика-ции пользователя, так, например, для опытных опе-раторов фраза должна быть максимально краткой

  • информативной, для менее опытных — подробной

  • с разъяснениями. Словарь для модуля генерации должен соответствовать привычной предметной об-ласти пользователя. Также можно провести тестиро-вание восприятия фраз, построенных на основе обще-принятых в предметной области выражений, и таким образом определить наиболее подходящие.

  • Восприятие синтезированной речи человеком. От того, насколько правильно будет построена фра-за, зависит последовательность дальнейших действий пользователя. Для этого необходимо формулировать фразы на основе словаря системы и опыта работы раз-ных типов пользователей.

Заключение. В результате работы выделены под-

ходы к созданию и тестированию человеко-машинных интерфейсов на примере АРМ оператора ВЦ.

Следующей задачей является исследование воз-можностей применения подобных интерфейсов. Также планируется получить оценку эффективности системы голосового взаимодействия на примере вне-дрения модуля в биллинговую систему. Полученные результаты могут быть использованы при проектиро-вании интерфейсов на естественном языке в соста-ве АРМ различного профессионального назначения.

Статья №19.

АЛГОРИТМЫ ВЕДЕНИЯ ЧЕЛОВЕКО-МАШИННОГО ДИАЛОГА

ГУМАНОИДНЫМИ РОБОТАМИ НАО

О.А. Турбина, Е.А. Фостаковский

Рассмотрена актуальная тема разработки алгоритма ведения человеко-машинного диалога гуманоидными роботами. Проведен обзор и описание сущест-вующих теоретических и прикладных исследований в этой области, включая клас-сификацию уже разработанных разными авторами алгоритмов по уровню их слож-ности.

Ключе6вые слова: алгоритм, гуманоидный робот, человеко-машинный диалог, диалоговая система.

  • современном мире компьютерные техноло-гии активно внедряются во всё новые и новые сферы человеческой жизни. В этой связи особенно актуальны разработки способов обеспечения чело-веко-машинного диалога вообще и общения гума-ноидного робота с пользователем-человеком на естественном языке– в частности.

  • настоящее время одними из наиболее попу-лярных и доступных гуманоидных роботов явля-ются гуманоидные роботы Нао (Nao) французской компании Альдебаран Роботикс (Aldebaran Robotics). Исследования по созданию систем ис-кусственного интеллекта для таких роботов, по-зволяющих им становиться участниками полно-ценного диалога, ведутся учеными разных стран достаточно активно, о чем свидетельствуют труды

таких авторов, как Г. Уилкок (G. Wilcock), К. Джокинен (K. Jokinen) (Финляндия), А. Ксапо

(A. Csapo) (Венгрия), Д. Энэстейжеу (D. Anasta-siou), М. Киршнер (M. Kirschner) (Германия) и

других. Однако сегодня эта проблема пока далека от своего окончательного решения.

Данная статья посвящена краткому обзору существующих разработок в рассматриваемой об-ласти и выделению тех из них, которые представ-ляются наиболее перспективными.

Говоря о системах, позволяющих гуманоид-ным роботам вести диалог на естественном языке с пользователем-человеком, прежде всего, отме-тим, что различают несколько уровней подобных систем. Системы первого уровня представляют собой линейную модель «вопрос пользователя– ответ робота» и функционируют по принципу за-программированной реакции: пользователь-человек дает роботу голосовую команду из заранее заданного набора команд, в ответ на которую ро-бот произносит один из заранее запрограммиро-ванных в его памяти текстов-ответов. В действи-

тельности, подобные системы не являются диало-говыми в строгом смысле, поскольку речь робота по сути представляет собой монолог, произнесен-ный в ответ на реплику пользователя. При этом каждая речевая реакция робота следует «вне кон-текста», ибо ответ на любую последующую репли-ку-команду для него не связан и, тем более, не обусловлен тем, что им говорилось и воспринима-лось ранее. Системы этого типа состоят из двух основных компонентов – модуля распознавания речи, определяющего, какая именно команда была отдана роботу, и модуля синтеза речи, который воспроизводит («произносит») ответные реплики робота. Подобные модели могут применяться, на-пример, для создания простых вопросно-ответных систем в различных областях, о чем пишет фин-ский исследователь Грэхэм Уилкок в своей статье «ВикиТок: Открытая диалоговая система, исполь-зующая Википедию как источник знаний» [9].

В диалоговых системах второго, более высо-кого уровня робот проявляет коммуникативную инициативу и задает пользователю-человеку во-просы, направленные на выполнение некоторой коммуникативной цели. Для робота коммуника-тивная цель в данном случае состоит в том, чтобы посредством вопросов выяснить у пользователя некоторые сведения и, условно говоря, вписать их в некую таблицу с результатами. Модель функ-ционирования таких систем более сложная, по-скольку, робот здесь запоминает ответы пользова-теля и использует их для «заполнения» электрон-ных таблиц данных [9].

Например, подобным образом устроены сис-темы автоматического бронирования транспорт-ных билетов. По сравнению с системами преды-дущего уровня, в таких моделях результаты ком-муникации сохраняются в памяти робота, и могут оказывать влияние на его дальнейшее языковое

поведение. Так, в случае, если роботом не был распознан ответ пользователя на вопрос: «Каков конечный пункт вашего путешествия?», ему

(пользователю) может быть задан роботом допол-нительный вопрос, уточняющий эту информацию,

например: «Не могли бы вы повторить, каков ко-нечный пункт вашего путешествия?». Как уже было сказано, устройство таких систем отличается от устройства систем первого уровня в сторону усложнения. Системы второго уровня состоят из следующих основных компонентов: модуль анали-за речи, модуль синтеза речи, а также конечный автомат, контролирующий непосредственно про-цесс коммуникации. Количество состояний авто-мата зависит от конкретной коммуникативной це-ли, которая должна быть выполнена в финале кон-кретного диалога. Г. Уилкок приводит в качестве примера устройство конечного автомата, задачей которого является помощь пользователю в брони-ровании авиабилета. Автомат начинает свою рабо-ту со стандартного для любого диалога состояния приветствия, находясь в котором, система привет-ствует пользователя и сразу же переходит в сле-дующее состояние. При бронировании авиабилета, в состоянии «узнать город отправления» (getDepartureCity) автомат выясняет, из какого пункта пользователь намерен совершить вылет: активируется модуль синтеза речи, адресующий пользователю соответствующий вопрос. Затем подключается модуль распознавания речи, задача которого воспринять и распознать ответ пользова-теля. Список возможных ответов ограничен и оп-ределен заранее, что значительно облегчает работу модуля. В данном случае это список городов, в которые возможно забронировать полет из данно-го аэропорта. Если ответ пользователя был распо-знан, то система переходит в следующее состоя-ние, если нет – пользователю задается дополни-тельный уточняющий вопрос. Схожим образом, переходя от состояния к состоянию, система выяс-няет у пользователя город прибытия, даты вылета и прочую необходимую информацию. Предпо-следним состоянием является состояние «подтвер-дить правильность полученной информации» (giveSummary), войдя в которое, система вслух проговаривает всю полученную от пользователя информацию и задает вопрос, всели указано верно. Если пользователь отвечает утвердительно, систе-ма переходит в «прощальное»состояние «попро-щаться с пользователем» (sayGoodbye) и брониру-ет билет. Если же пользователь отвечает отрица-тельно, то система произносит соответствующую общую фразу, наподобие:«Что ж, в таком случае,

повторим все сначала», и снова переходит в со-

стояние «узнать город отправления» [9].

Оба рассмотренных типа систем относятся к так называемым «закрытым диалоговым систе-

мам» (closed-domain systems), которые способны к ведению человеко-машинного диалога на фикси-

рованную, заранее заданную тематику. Им проти-вопоставляются так называемые «открытые диало-

говые системы» (open-domain systems), которые поддерживают ведение человеко-машинного диа-лога на множество заранее не заданных тем, что поднимает их ещё на уровень выше по сравнению с закрытыми диалоговыми системами [1, 3, 9].

Количество возможных тем для разговора в открытых диалоговых системах напрямую зависит от заложенной в систему информации. Г. Уилкок упоминает систему ВикиТок, источником знаний для которой является интернет-энциклопедия Ви-кипедия, но источником знаний для системы мо-жет служить любой соответствующим образом предобработанный гипертекстовый корпус доста-точной величины. Преимуществом Википедии в этом плане является то, что она общедоступна, постоянно обновляется и дополняется, в силу чего количество возможных тем для разговора посто-янно увеличивается по мере роста объема инфор-мации по уже представленным темам [1, 9].

Поскольку концепция ведения роботом диалога на свободную тематику гораздо сложнее, чем чело-веко-машинный диалог на заранее заданную тему, алгоритм ведения свободного диалога будет отли-чаться от алгоритма диалога заданного также в сто-рону усложнения, хотя формально он по-прежнему будет представлять собой конечный автомат. Рас-смотрим подробнее строение такого алгоритма – алгоритма третьего уровня, описание которого встречается в работах разных авторов [1, 3, 9]).

Система третьего уровня по-прежнему состо-ит из трех основных элементов: модуля распозна-вания речи, модуля синтеза речи и конечного ав-томата, контролирующего ход диалога. Как и в случае с диалогами на заданную тему, автомат начинает свою работу с состояния приветствия, после которого происходит переход в следующее состояние – состояние выбора темы. Тема разго-вора может быть выбрана несколькими способами. Во-первых, если пользователь разговаривает с ро-ботом не в первый раз, система может обратиться к списку недавних тем беседы при условии, что такой список ею ведется. Во-вторых, тема может быть выбрана из используемой базы знаний слу-чайным способом. В-третьих, могут применяться функции «популярная тема» или «favourites», как, например, в упомянутой системе ВикиТок [1, 3, 9]. Иными словами, система получает доступ к спи-ску тем, которые отметил сам пользователь как наиболее интересные. Наконец, если пользователя интересует какая-то определенная тема, он может просто продиктовать её роботу, и в работу вступа-ет модуль распознавания речи. Здесь, однако, сто-ит отметить, что, поскольку список возможных тем для диалога в рассматриваемых системах чрезвычайно велик, то классическое распознава-ние речи по ключевым словам не вполне подходит по ряду причин. В частности, если в используемой

Экспериментальная и прикладная лингвистика

базе знаний представлено большое количество тем, и они никак не сгруппированы, то система с высокой долей вероятности будет совершать ошибки при распознавании. Наиболее эффектив-ным способом решения данной проблемы пред-ставляется информационный поиск внутри ис-пользуемого источника знаний, который может осуществляться как по словам, так и по частям слов. Например, если пользователь произнесет сло-во «закон», то система будет искать все темы, в на-звании которых оно встречается: первый закон термодинамики, закон об авторском праве и т. д.

Затем, система представит пользователю все най-денные варианты для выбора темы разговора. Так-же может применяться поиск по частям слов, когда пользователь последовательно по буквам называет роботу часть ключевого слова, например, «р», «о», «б», «о», «т». Наконец, на основании предостав-ленной ему информации робот производит поиск в источнике знаний и обнаруживает, или не обнару-живает необходимую статью/статьи, при этом эф-фективность поиска зависит от выбора ключевого слова и от длины продиктованного пользователем отрезка этого слова. В качестве дополнительной страховки от ошибок система может попросить пользователя подтвердить, правильно ли были рас-познаны его слова или фразы, например: «Итак, вы хотите поговорить о роботах Нао, верно?» [1, 9].

После выбора темы разговора, система обраща-ется к используемому источнику знаний, из которого извлекает и «зачитывает»пользователю соответст-вующую информацию: вступает в работу модуль синтеза речи. Количество информации, которое ро-бот сообщает пользователю, напрямую зависит от сложности выбранной темы и оттого, насколько под-робно она представлена в источнике знаний. При выборе тем, представленных объемными текстами, перед роботом встает проблема определения количе-ства выдаваемой пользователю информации за один раз, поскольку если робот будет говорить слишком долго, то коммуникация примет форму не диалога, а монолога, и достаточно быстро наскучит пользова-телю. Наиболее очевидным решением данной про-блемы представляется, «зачитывание» роботом тек-ста частями – по абзацам, либо группами предложе-ний. Хотя для этого системе дополнительно потре-буется модуль анализа текста, сложность такого анализа относительно невелика, ибо он будет огра-ничен поиском границ абзацев и отдельных пред-ложений. После зачитывания первого фрагмента текста автомат переходит в следующее состояние – состояние продолжения темы, и система спросит у пользователя, хочет ли он услышать ещё что-нибудь интересное по текущей теме. Если ответ человека утвердительный, автомат остается в со-стоянии продолжения темы, и робот зачитает сле-дующий

говора и сообщит роботу о своем решении, конеч-ный автомат из состояния продолжения темы вер-нется в состояние выбора темы.

Смена темы разговора может проходить и бо-лее плавно. В упомянутой выше статье Г. Уилкока [9], используется термин «плавные смены темы»

(smooth topic shifts). Автор описывает, как проис-

ходят такие «плавные переходы» между темами, на примере робота Нао, подключенного к системе ВикиТок. Известно, что статьи в Википедии со-единены между собой посредством гиперссылок, которыми могут являться слова непосредственно в тексте той или иной статьи. Например, из статьи о роботах Нао, производимых французской компани-ей Альдебаран Роботикс, можно перейти к статье, посвященной самой этой компании, при условии, что слова Альдебаран Роботикс являются гипер-ссылкой. Робот Нао, использующий Википедию как источник знаний, способен делать то же самое пря-мо во время разговора. Алгоритм работы в этом случае следующий: пользователь сообщает системе, что хочет поговорить о роботах Нао, система нахо-дит в Википедии соответствующую статью и начи-нает «зачитывать» пользователю первый её фраг-

мент, например:«Роботы Нао производятся фран-цузской компанией Альдебаран Роботикс» (фраза

«Альдебаран Роботикс» выделена в тексте как ги-перссылка). После того, как робот закончит чтение, пользователь может: а) попросить рассказать ему ещё что-нибудь о роботах Нао, б) спросить: «Альде-

баран Роботикс?» или «А что такое “Альдебаран Роботикс?”» В первом случае робот продолжит чтение статьи, во втором случае система переходит по соответствующей гиперссылке и начинает чте-ние статьи, посвященной компании «Альдебаран Роботикс». Основываясь на встреченных в тексте гиперссылках, робот может и сам предложить поль-зователю сменить тему разговора, произнеся шаб-лонную фразу, например: «А хотите что-нибудь узнать о … ?», что повышает степень естественно-сти диалога [3, 4, 7– 9].

Схожий подход к проблеме смены темы диа-лога в процессе человеко-машинного общения описывается в статье Мануэля Киршнера (Manuel Kirschner) «Применение древовидной модели представления диалога в интерактивных системах поиска ответов на вопросы» [7].

Распознание гиперссылки внутри текста (на-пример, «Альдебаран Роботикс») человеком-пользователем, воспринимающим текст на слух, может осуществляться при помощи жестов робота: именно способность жестикулировать является одним из важнейших свойств, отличающих гума-ноидных роботов от негуманоидных. Поэтому для решения проблемы с обозначением гиперссылок в устной речи робота, достаточно включить в его поведение мультимодальный компонент, описан-ный в статье К. Джокинен «Мультимодальное об-щение на свободную тему с роботами Нао» и

«обучить» его жестам, какими пользуются люди для того, чтобы подчеркнуть важность произноси-мых слов. Таким жестом может быть, например, поднятый вверх указательный палец или поворот ладони тыльной стороной вверх или вниз при со-гнутой в локте руке и т. д. (более подробно об ос-новных видах жестов, которым можно научить гуманоидного робота, см. в работах Адама Кендо-на и Р. Миины [6, 8]). В данном случае важно до-биться, чтобы жесты всегда были синхронизиро-ваны с речью, поскольку сервоприводы, приводя-щие в движение конечности робота, имеют скоро-стные ограничения. Для тех роботов, у которых конечности не предусмотрены (роботы Нао вы-пускаются в трех конфигурациях – с руками и но-гами; с руками, но без ног; без рук и ног, но спо-собные двигать головой), могут применяться такие жесты, как кивок или поворот головы, изменение цвета глаз и т. д. Стоит отметить, что мультимо-дальный компонент, кроме обозначения гиперссы-лок, может использоваться также для придания диа-логу максимальной естественности и создания ре-альной модели беседы с одушевленным собеседни-ком. Последнее не менее важно, ибо «обучение» ро-бота естественному поведению в диалоге с челове-ком является одной из главных задач в области раз-работки алгоритма ведения человеко-машинного диалога гуманоидными роботами [2, 5, 6, 8].

Для завершения диалога пользователь имеет возможность прервать речь робота прикосновени-ем к одному из расположенных у него на голове сенсоров.

Таким образом, на сегодняшний день существу-ет значительное количество способов и моделей ве-дения человеко-машинного диалога разной степени сложности и предназначенных, соответственно, для разных целей. Наиболее перспективным направлени-ем в этой области представляется разработка выше-упомянутых «открытых диалоговых систем», по-скольку они, в силу самой своей концепции, предпо-лагают соблюдение пользователем минимального количества условностей во время ведения диалога с роботом. Тематика такого диалога может быть сво-бодно выбрана пользователем

Статья №20.

ЛИНГВИСТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ ДИАЛОГОВЫХ СИСТЕМ

Современные диалоговые системы представляют собой мультимодаль-ные системы с использованием не только голосовой информации, но и ви-зуальной. Целью данной статьи является описание диалоговых систем, при этом особое внимание уделяется лингвистическому аспекту проблемы. Тео-ретические положения проиллюстрированы на примере анализа пяти швед-ских мультимодальных диалоговых систем, разработанных в центре KTH в университете Стокгольма. В ходе анализа систем освещаются проблемы, с которыми сталкиваются исследователи при создании диалоговых систем.

Ключевые слова: мультимодальные диалоговые системы; симуляция диалоговых систем; речевые диалоговые системы; взаимодействие «чело-век – машина».

Взаимодействие человека с машиной в век развития высоких ин-формационных технологий является популярным и очень актуальным предметом исследований. В XXI в. очень сложно представить себе жизнь без компьютера. Практически каждый день человек взаимодей-ствует с той или иной информационной системой. Внедрение интел-лектуальных информационных систем, в частности систем речевого управления, например, диалоговых систем, отвечает тенденции совре-менного общества к автоматизации как можно большего числа про-цессов. В западных странах диалоговые системы получили широкое коммерческое применение во всех сферах жизни: начиная от всеми используемых диалоговых справочных систем расписания движения железнодорожного транспорта, бронирования билетов в кинотеатры, цен на недвижимость, расположения мест досуга и др., до, напри-мер, узкоспециализированных медицинских диалоговых систем или технических диалоговых систем контролирования производственных процессов.

Исследование и построение диалоговых систем началось с мо-мента появления вычислительной техники. В те времена только спе-циально обученный пользователь мог взаимодействовать с системой, так как общение происходило на языке машинных кодов. С тех пор и до наших дней ученые занимаются оптимизацией процесса общения. Переход к естественному языку стал качественно новым этапом в про-цессе эволюции диалоговых систем. Использование естественного

148

И. В. Медведева

языка значительно облегчило взаимодействие с системой. Далее си-стемы все больше и больше усложнялись, а взаимодействие стано-вилось все более естественным. Появление систем речевого ввода-вывода также являлось важным этапом в истории коммуникации человек – машина. Речь является удобным привычным и естествен-ным способом взаимодействия [3].

Современные диалоговые системы представляют собой мультимо-дальные системы с использованием не только голосовой информации, но и визуальной и др. Стратегии общения направлены на облегчение усилий пользователя. Диалог ведется по правилам общения человек – человек. Уровень понимания современных систем настолько высок, что пользователь не всегда способен осознать, что он общается с ком-пьютером, а не с оператором-человеком.

Для привлечения широкого круга пользователей к применению диалоговых систем взаимодействие с системой должно быть макси-мально приближено к общению между людьми, а система должна быть проста в употреблении и адекватно отвечать на запросы пользо-вателя, быстро выдавая необходимую ему информацию. Во времена, когда человек ежедневно сталкивается с большими информационны-ми потоками, часто с избыточной, нерелевантной информацией, по-следнее условие оказывается особенно важным.