Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Полный текст учебника.docx
Скачиваний:
26
Добавлен:
17.04.2019
Размер:
10.83 Mб
Скачать

Системы речевого ввода и вывода информации

Существуют две технологии речевого общения с компьютером:

  • системы распознавания речи;

  • системы синтеза речи.

Системы распознавания речи

В системах распознавания речи выполняется оцифровка звуковой информации, ее идентификация с кодами, содержащимися в электронных тезаурусных (иногда многоязычных) словарях, необходимая автоматическая коррекция кодов и генерация соответствующих им символов, слов и предложений, возможный вывод текстов на экран для ручной их коррекции (иногда звуковое воспроизведение) и запись текстов в память машины либо исполнение «услышанных» команд.

По характеру распознаваемой речи системы речевого ввода можно разделить на:

  • системы, ориентированные на распознавание отдельных слов, команд и вопросов;

  • системы распознавания предложений и связной речи;

  • системы идентификации по образцу речи.

Системы, ориентированные на распознавание отдельных слов, команд и вопросов

Такие системы часто называют системами речевого управления, поскольку их основная задача — обеспечить выполнение компьютером действий, задаваемых голосом. Наибольшее распространение такие системы получили в автоматических телефонных службах. В них можно ввести голосом номер телефона вызываемого абонента или его имя; можно задать простой вопрос автоматической справочной службе и т. д. Наиболее разработаны системы распознавания чисел, которые можно отнести к средствам распознавания первого поколения. В развитых системах такого рода человек сначала сообщает свой числовой пароль, затем свой числовой идентификатор, и только после этого может назвать число, кодирующее сущность запроса.

К средствам второго поколения относятся системы распознавания имен. Основаны эти средства на использовании ключевых слов (имен), хранимых, естественно, в базе данных системы. Множество хранимых слов и ограничивает возможные имена (при вызове телефонного абонента, например) и распознаваемые команды и вопросы. Система VoiceCommands компании KurzWeilAppliedIntelligence позволяет распознавать около 10 000 слов английского языка, которые после идентификации преобразуются в соответствующие ASCII-последовательности и либо исполняются машиной (если это команды), либо заносятся в файл. Система компании CharlesSchwab & Co.,специализирующейся на предоставлении брокерских услуг участникам фондового рынка, при обработке более 10 000 названий и десятков видов ценных бумаг обеспечивает при распознавании 95%-ю точность (что, конечно, недостаточно, но количество клиентов этой справочной службы не убывает).

Существенно сложнее строятся системы третьего поколения, в которых диалог с пользователем реализуется с помощью голосовых меню. Такие системы основаны на идее обучения: в течение некоторого времени система обучается на большом количестве типовых речевых диалогов (включающих, кстати, и слова-паразиты). В ходе этого обучения создается рабочий словарь и база данных отношений между отдельными словами (база знаний). Примером системы третьего поколения может служить NaturalDialogueSystem фирмы Philips, используемая швейцарской железнодорожной компанией SwissRailways для справочной системы, обслуживающей не только железнодорожные, но и автобусные маршруты, и паромные переправы.