Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
IIS / Лекции / ИИС - Лекции.doc
Скачиваний:
250
Добавлен:
31.03.2015
Размер:
1.6 Mб
Скачать

Тема 5.2. Интеллектуальные интерфейсы

5.2.1. Речевое взаимодействие с иис

Естественно-языковые интерфейсы

Естественный язык, выработанный эволюцией человеческого общества, самый удобный для человека интерфейс для взаимодействия. Поэтому разработчиками систем всегда посвящалось большое внимание удобному и, по возможности, интеллектуальному интерфейсу.

Речевой интерфейс может использоваться для многих прило­жений. Например, при устном за­просе к базе данных; в прикладных программах, используемых в медицине для постановки диагноза пациентам; автоматического речевого перевода на иностранные языки; для автоматизации технологических процес­сов производств, подготовки и корректировки документов; организации автоматических контрольно-пропускных пунктов; в кабинах летательных аппаратов, диспетчерских пультах атомных и гидроэлектростанциях и так да­лее, а также в условиях перегрузок, темноты или резкого изменения освещён­ности; при занятости рук, чрезвычайной сосредоточенности внимания на объ­екте, который не позволяет отвлечься ни на секунду, то есть там, где су­ществует большое количество аварийных, предупреждающих и уведомляю­щих сигналов.

Это мотивировало исследования в области автоматического распознавании речи, начиная с 1950-х годов. Большой прогресс был, достигнут в начале 1970-х, благодаря использованию серии инженерных подходов, которые включали в себя сравнение с шаблонами, технику представления знаний и статистическое моделирование.

В теории и практике широко нашли применение модели Маркова. Широкое их использование именно в качестве моделей систем объясня­ется тем, что они давали возможность получить адекватное описание системы с относительной простотой, так как для этих процессов будущее при извест­ном настоящем не зависит от прошлого.

Однако скорость вычислений обычных последовательных современных компьютеров пока еще ниже ско­рости принятия решений человеческим мозгом в процессе распознавании речи, и дальнейшие усовершенствования требуют нового пони­мания существующей проблемы.

Также в это же время велись исследования в области применения нейронных сетей для распознавания речи, так как распознавание речи человеком основано именно на этом подходе. К 1990-му году, многие исследователи продемонстрировали значи­мость нейронных сетей для важных подзадач в области распознавания речи - подобно распознаванию речевых единиц (фонем) и цифр. Эта научно-исследовательская область известна, как коннекционизм (connectionism).

В настоящее время известно три наиболее емких класса задач, связанных с распознаванием речи.

Первый - связан с системами распознава­ния изолированных слов (РИС), в которых необходимым условием распо­знавания является выдержка паузы перед произнесением слова и после него, что позволяет определить границы слова для надежного распознавания.

Второй - представляет собой системы, которые работают по принципу "ко­манда-управление" с небольшими словарями и ограниченными фразами, но используют связные словосочетания или слитную (непрерывную) речь.

Третий - системы распознавания слитной речи (РСР) с большими слова­рями, словарь которых насчитывает десятки тысяч слов. Такие системы на­целены на распознавание произвольных "длинных" предложений, произнесен­ных в естественной форме.

Последние системы вызывают наибольший интерес т.к. слитная речь, в отличие от изолированной (дискретной) речи, является естественной формой общения и характеризуется большей скоростью пере­дачи информации, которая составляет 200 - 300 и более слов в минуту. При дискретной речи слова необходимо разделять (изолировать) паузами. В этом случае скорость передачи информации становится около 100 и менее слов в минуту.

Наиболее точные системы распознавания речи с большими словарями находятся в стадии научных исследований. Они еще слишком медленны и дороги для широкого практического применения.

Широкое внедрение средств речевого ввода-вывода сдерживается; рядом существенных ограничений, присущих современным системам распо­знавания и синтеза речи.

Для системы распознавания речи - это, прежде всего невозможность речевого ввода в привычной для человека форме, необходимость обучения на голос каждого нового пользователя, низкая помехоустойчивость канала речевого ввода информации. Для систем синтеза речи – недостаточная естественность звучания синтезированной речи, невозможность задания требуемого множества голосов. Весьма актуальными остаются вопросы технологичности устройств речевого ввода-вывода информации, оснащения их прикладным математическим обеспечением.

Характеристики систем распознавания речи

Наиболее важными характеристиками систем распознавания речи яв­ляются быстродействие и точность (вероятность) распознавания.

Скорость распознавания определяется, как время (измеряемое в се­кундах), необходимое на распознавание одной секунды входного PC. Ско­рость распознавания может измеряться «реальным» временем или машин­ным временем. Единица машинного времени измеряется в «реальных» секун­дах, затрачиваемых непосредственно центральным процессором (ЦП-секун­дах) исключительно для обработки процесса распознавания.

Совершенно понятно, что время распознавания зависит от компьютера и компиляторов, используемых в эксперименте.

В этой связи в качестве единицы измерения времени распознавания удобнее всего использовать показатель реального времени (РВ). Запись "2'РВ" означает, что компьютеру на обработку процесса распознавания необ­ходимо время в два раза большее, чем время, за которое диктор смог произ­нести заданное слово или высказывание. В идеальном случае время распо­знавания равно времени, в течение которого произнесена речь. [3, с.23]

Кроме этого, следует выделить не менее значимые характеристики:

Режим ввода речи - определяет способ подачи речевых сигналов (РС), то есть изолированно или слитно (непрерывно);

Размер словаря - является важной характе­ристикой, влияющей на быстродействие и вероятность распознавания. Он определяется количеством словарных статей или очень часто - количеством слов. Словарной статьей может быть буква, слово, словосочетание, фраза или даже при необходимости целое высказывание. Чем больше словарь, тем больше вероятность содержания в нём акустически схожих словарных статей. В этой связи, увеличение размеров словаря требует большего количества обучающей выборки и большего периода распознавания.

Дикторозависимость (ДЗ) - системы предназначены для распознавания речи, произнесённой одним конкретным диктором. Дикторонезависимые (ДНЗ) системы предназначены для распознавания речи, произнесённой любым новым диктором. Очень часто ДЗ системы достигают лучшего результата распознавания, чем ДНЗ. Это связано с ограничениями изменчивости PC, поступающего от одного и того же диктора. ДНЗ системы требуют более сложного акустического моделирования для описания изменчивости PC между дикторами. Это оказывает неблагоприятное воздействие на быстродействие и вероятность правильного распознавания.

Приемлемые характеристики систем распознавания речи часто дости­гаются за счёт ограничения размера словаря, ограничения манеры произне­сения и ограничения числа дикторов. Даже такие ограничения иногда не позволяют достичь необходимых результатов. Поэтому большинство иссле­дований направлено на совершенствование характеристик существующих систем распознавания с небольшими, но полезными словарями, такими как словарь цифр или словарь букв.

Современные системы распознавания и синтеза речи

Количество научно-исследовательских групп, рабо­тающих в области распознавания речи в мире очень велико, поэтому расскажем только о наиболее известных.

Серийные системы распознавания речи (РР), выпускаемые отечествен­ными предприятиями и странами СНГ широко не известны. Существуют отдельные устройства и системы РР, большинство из которых функционируют в лабораторных условиях.

Многие зарубежные фирмы выпускают специальные устройства и про­граммы распознавания речи, в том числе для персональных ЭВМ.

Фирма Siemens (ФРГ) разработала голосовой комплект громкой связи Car Kit Professional Voice, который предназначен для использования его в автомобиле с мобильным телефоном Siemens S25. Всеми функциями в этой системе можно управлять с помощью раздельно произнесенных команд. По мнению разработчиков, для безопасности движения важно, чтобы води­тель всегда мог держать руль обеими руками. Подобные системы громкой связи предлагают многие зарубежные фирмы.

Фирма IBM (США) создала систему распознавания раздельно произно­симых, словарь которой содержит 32 тысячи слов - VoiceType Dictation. Эта система реализована на IBM PC совместимом компьютере. Фирма указы­вает, что вероятность распознавания достигает 97%.

Фирма Dragon Systems (США) выпускает системы распознавания раз­дельно произносимых слов серии Dragon Dictate. Система данной серии реализована на IBM PC совместимом компьютере, словарь которой содержит 30 тысяч слов. Фирма указывает, что вероятность распознавания достигает 97%. Данную систему можно встретить и у нас, существует ее русифицированный вариант.

Вес эти системы основаны на распознавании изолированных слов, являются дикторозависимыми и обеспечивают распознавание слов в реальном масштабе времени. При этом фирмами - производителями указыва­ются высокие значения вероятности распознавания. Достичь таких значений представляется возможным лишь при многократных настройках на заданный словарь, что увеличивает время на подготовительные операции.

Интерес представляют системы, связанные с автоматиче­ским распознаванием слитной речи (РСР).

Фирма Speech Systems (США ) создала речевой интерфейс модели DS200 на английском языке для экспертной системы медицинской диагно­стики пациентов - QMR. (Quick Medical Reference). Эта система распознает слитную дикторонезависимую речь в реальном масштабе времени. Словарь насчитывает более 38000 слов. При этом вероятность распознавания выра­жений достигает 90%.

Фирма Articulate Systems (США) создала речевой интерфейс Voice Navigator XA на английском языке для экспертной системы медицинской диагностики пациентов - QMR-DT. Этот интерфейс реализован на базе ком­пьютера Apple Macintosh, в отличие от DS200 фирмы Speech Systems, дикторозависимый. Он обеспечивает распознавание в реальном масштабе времени и основан на распознавании изолированных выражений. Словарь системы составляет 1000 выражений. Фирма указывает, что вероятность распознава­ния выражений достигает 90%.

Фирма BBN (США) разработала дикторонезависимую систему РСР - Byblos. Данная система не обеспечивает распознавание слов в реальном масштабе времени. Словарь её составляет 45 тысяч слов. При этом вероят­ность ошибочного распознавания слов достигает 30,2%.

В Кембриджском университете (Великобритания) разработана дикторонезависимая система РСР - ABBOT. Словарь системы составляет 65 тысяч слов. Вероятность ошибочного распознавания слов достигает 34,7%. В этом же университете разработана еще одна дикторонезависимая система РСР - НТК System. Словарь последней системы составляет 65 тысяч слов, а вероятность ошибочного распознавания слов достигает 27,5%. Обе системы не обеспечивают распознавание слов в реальном масштабе вре­мени. При этом скорость распознавания НТК System примерно в 5-6 раз медленнее, чем у системы ABBOT.

Фирма Dragon Systems разработала коммерческую систему дикторозависимого распознавания в реальном времени слитно произносимых английских слов из словаря в 30 тысяч слов - Dragon Naturally Speaking. Фирма указывает, что вероятность распознавания слов достигает 90%.

Dragon Systems, была первой компанией, предложившей программу распознавания непрерывной речи общего пользования (1997 г.). Сейчас Dragon предложил улучшенный ее вариант -  Dragon NaturallySpeaking Preferred Edition 2.0.

Этот программный пакет для диктования рассчитан на рынок SOHO и поэтому включает большой набор команд форматирования и редактирования, хотя  предполагает использование только собственного текстового процессора. Чтобы использовать другие программы, следует загрузить с Web-сайта компании отдельный модуль.

Имея точность около 89%, она оказалась в этом смысле лучше  ViaVoice (IBM). Чтобы добиться точности порядка 95% и разобраться со всеми особенностями и возможностями программы с ней необходимо работать ежедневно и длительное время.

NaturallySpeaking не заменяет клавиатуру и мышь. Имея неплохую точность, программа устроена так, что обнаруженные ошибки быстрее устраняются вручную, чем голосовыми командами.

Dragon рекомендует использовать микрофоны лишь определенных производителей, среди которых Labtec и Vxi.

Инсталлирование программы не представляет трудностей. Ее тренировка начинается с задания уровня громкости и качества звука при помощи Audio Setup Wizard. Затем следует зачитать получасовые отрывки   из рекомендуемых книг: Arthur C. Clarke "3001: The Final Odyssey, David Barry in Cyberspace" и Scott Adams Dogbert "Top Secret Management Handbook". И, в заключение, поупражнять программу   распознавать специфические слова и импортировать документы (формата DOC, HTML, RTF и TXT), чтобы расширить имеющийся базовый словарь из 230 000 слов (программа может работать лишь с 30 000 словами единовременно). Можете добавлять также фразы, состоящие из нескольких слов, например, On-Line! Digest, задавая желаемую пунктуацию и орфографию. Данная программа дает возможность работать нескольким пользователям, каждый из которых может провести собственный цикл подготовительных упражнений.

Большим преимуществом NaturallySpeaking является то, что нет необходимости прекращать диктование для внесения исправлений. Сделав ошибку, следует лишь сказать  "Scratch that" и программа удалит последнее сказанное слово. Можно свободно перемещаться по документу и форматировать его параллельно с диктованием. Произнося "Correct that", открывается окно со списком альтернативных вариантов сказанного слова. Если желаемое слово есть в списке, достаточно произнести "Choose" и номер слова в списке. Если слова нет в списке - произнести его еще раз полностью или по буквам (Alpha, Bravo . . .). Программа может также воспроизвести пассаж или весь документ.

Наличие голосовых команд управления позволяет управлять меню и диалоговыми окнами. Например, произнеся "Click Edit", откроется меню редактирования, а произнеся "Click OK" или "Cancel" меню закроется. При этом можно оперативно работать мышью.

Чтобы изучить весь набор команд редактирования, форматирования и навигации, имеющиеся в NaturallySpeaking, придется потратить довольно много времени. Этот процесс может быть облегчен заданием вопроса "What Can I Say?" и программа предложит список возможных команд.

NaturallySpeaking очень выиграет, если появится возможность ее интегрирования с другими программами. На сегодняшний день это лучшая программа распознавания непрерывной речи.

Фирма IBM (США) создала коммерческую систему РСР - Via Voice. Данная система является диктороззвисимой. Она имеет ряд преимуществ, среди которых хорошо проработанная система команд и возможность интеграции с Microsoft Word. Однако тесты показывают, что она не столь точна, как NaturallySpeaking и имеет мало голосовых команд редактирования и навигации. Точность ViaVoice составляет около 88%. Однако ситуация значительно улучшается при продолжительном использовании программы (несколько недель, как рекомендуется производителем) и особенно при немедленном исправлении ошибок.

При исправлении ошибок ViaVoice предлагает список возможных вариантов и можно вручную внести изменения. В отличие от NaturallySpeaking, предоставляющем возможность при помощи голосовых команд перемещаться по документу и вносить исправления, ViaVoice предполагает работу с документом при помощи мыши и клавиатуры. Имеется лишь несколько команд форматирования типа   "New-Paragraph" (Новый абзац) и  "New-Line" (Новая строка). В то же время в NaturallySpeaking можно голосом изменять шрифт, его размер и другие атрибуты, задавать параметры абзаца, создавать нумерованные списки.

ViaVoice работает с низкошумящим набором наушники-микрофон Andrea NC-8. Он достаточно удобен, но крепление микрофона слишком мягкое, что вынуждает постоянно отводить его от лица. Имеющиеся подсказки позволяют легко настроить устройство по уровню громкости. Начать работать с ViaVoice можно только после прочтения всего трех тренировочных предложений. Однако для большей точности следует прочесть весь набор упражнения из 265 предложений. После этого программе потребуется около часа, чтобы проанализировать особенности речи; Dragon затрачивает на это менее пяти минут.

ViaVoice имеет активный словарь из 22 000 слов, в который можно внести до 42 000 дополнительных слов и терминов. Вы можете импортировать текстовые файлы в формате Microsoft Word, RTF и ViaVoice покажет список нераспознанных слов и терминов, который можно внести в словарь. Для диктовки следует использовать специальный текстовый процессор SpeakPad. Вы можете использовать SpeakPad самостоятельно с последней версией Microsoft Word. Если Word установлен на вашем компьютере, ViaVoice при инсталлировании может автоматически добавить команду диктования в программное меню.

Кроме того, ViaVoice может перенести текст в любое Windows-приложение. Чтобы это сделать, вы помещаете курсор в желаемое приложение, возвращаетесь в SpeakPad, выбираете желаемый текст, затем щелкаете на кнопке переноса и перемещаете курсор на панель задач выбранного приложения. Практика показывает, что этот метод ничуть не эффективнее использования буфера обмена Windows.

ViaVoice имеет специальные команды для произношения слов и цифр, однако они трудны для новичков. Со временем все становится на свои места, особенно если правильно провести тренировку программы при введении новых слов и фраз.

При помощи команд текст-речь можно прослушать отрывок или весь документ. При этом можно задать тембр звучания, а также анимированный рисунок лица (можно также выбрать фотографию ребенка с движущимися губами).

Хотя ViaVoice не столь точен, как NaturallySpeaking,  он дает неплохие результаты при минимуме усилий. Главным недостатком является отсутствие голосовых команд редактирования и навигации.

Новая версия этой программы ViaVoice Gold имеет больший базовый словарь (260 000 слов) и набор голосовых команд навигации и исправления ошибок, а также возможность прямого ввода текста во многие приложения Windows.

Группа французских исследователей разработала дикторонезависимую систему РСР - LIMSI (Laboratoire d'lnformatique pour la Mecanique et les Sciences de I'lngenieur). Данная система не обеспечивает распознавание слов в реальном масштабе времени. Словарь системы составляет 65 тысяч слов, а вероятность ошибочного распознавания слов достигает 27.1%.

Philips SpeechMagic 2.0. Компания Philips Electronics занимается проблемами речи более 40 лет, однако менее известна в этой области, поскольку ее продукты предназначаются для ткихспецифических профессиональных областей, как медицина, юриспруденция и т.п.

Главным итогом работы Philips является основанная на естественной манере общения программа SpeechMagic 2.0 - программа распознавания непрерывной речи, используемая разработчиками для придания способности распознавать разговор существующими приложениями или для создания новых инструментов. SpeechMagic может использоваться и самостоятельно. Она имеет активный словарь из 64 000 слов и базовый словарь из 270 000 слов. Если этого недостаточно, то можно его расширить.

SpeechMagic является частью SpeechMagic Suite Version 2.0, включающей SpeechNote, профессиональную программу диктования и транскрипции. Она предназначена для групповой работы и использования в шумных помещениях. SpeechMagic может использоваться и с другими программами Philips. SpeechPad (розничная цена $770), например, это устройство цифровой записи, позволяющее пользователю, осуществляющему частые передвижения, надиктовать в дороге текст, а затем загрузить его для расшифровки. SpeechMagic также поддерживает SpeechMike (розничная цена $150) - уникальную комбинацию микрофона, динамика и мыши.

L&H Voice Xpress. Выпустив в июне 1997 года программу Kurzweil Applied Intelligence, компания Lernout & Hauspie положила начало ряду программ распознавания речи. Первым в этом ряду стоит L&H Voice Xpres, который не был готов ко времени тестирования.

Voice Xpress - программа распознавания непрерывной речи, позволяющая диктовать, редактировать и форматировать документы, используя голосовые команды, основанные на разговорном языке. Другими словами, вместо того, чтобы запоминать специфические команды, можно использовать собственный набор слов.

Не зависящая от стиля говорящего, Voice Xpress не требует предварительной тренировки. Программа имеет активный словарь из 30 000 слов и обладает способностью анализировать документ для расширения словарного запаса. Чтобы увеличить точность можно предварительно задать тембр говорящего человека - мужчины, женщины, подростка, ребенка. Lernout & Hauspie гарантирует точность в 95% для обычного пользователя.

Подобно Dragon NaturallySpeaking, Voice Xpress имеет набор голосовых команд и возможность преобразования текст-речь. В дополнение к Voice Xpress Lernout & Hauspie предлагает Voice Xpress Plus, работающий с  Microsoft Word 97. Каждая из программ стоит менее 100$ и дает лучшие результаты при работе с низкошумящим набором наушники-микрофон.

Соседние файлы в папке Лекции