Системы речевого ввода и вывода информации

Существуют две технологии речевого общения с компьютером:

системы распознавания речи;
системы синтеза речи.

Системы распознавания речи

В системах распознавания речи выполняется оцифровка звуковой информации, ее идентификация с кодами, содержащимися в электронных тезаурусных (иногда многоязычных) словарях, необходимая автоматическая коррекция кодов и генерация соответствующих им символов, слов и предложений, возможный вывод текстов на экран для ручной их коррекции (иногда звуковое воспроизведение) и запись текстов в память машины либо исполнение «услышанных» команд.

По характеру распознаваемой речи системы речевого ввода можно разделить на:

системы, ориентированные на распознавание отдельных слов, команд и вопросов;
системы распознавания предложений и связной речи;
системы идентификации по образцу речи.

Системы, ориентированные на распознавание отдельных слов, команд и вопросов

Такие системы часто называют системами речевого управления, поскольку их основная задача — обеспечить выполнение компьютером действий, задаваемых голосом.

Наибольшее распространение такие системы получили в автоматических телефонных службах. В них можно ввести голосом номер телефона вызываемого абонента или его имя; можно задать простой вопрос автоматической справочной службе и т. д.

Наиболее разработаны системы распознавания чисел, которые можно отнести к средствам распознавания первого поколения. В развитых системах такого рода человек сначала сообщает свой числовой пароль, затем свой числовой идентификатор, и только после этого может назвать число, кодирующее сущность запроса.

К средствам второго поколения относятся системы распознавания имен. Основаны эти средства на использовании ключевых слов (имен), хранимых, естественно, в базе данных системы. Множество хранимых слов и ограничивает возможные имена (при вызове телефонного абонента, например) и распознаваемые команды и вопросы. Система Voice Commands компании KurzWeil Applied Intelligence позволяет распознавать около 10 000 слов английского языка, которые после идентификации преобразуются в соответствующие ASCII-последовательности и либо исполняются машиной (если это команды), либо заносятся в файл. Система компании Charles Schwab & Co., специализирующейся на предоставлении брокерских услуг участникам фондового рынка, при обработке более 10 000 названий и десятков видов ценных бумаг обеспечивает при распознавании 95%-ю точность (что, конечно, недостаточно, но количество клиентов этой справочной службы не убывает).

Существенно сложнее строятся системы третьего поколения, в которых диалог с пользователем реализуется с помощью голосовых меню. Такие системы основаны на идее обучения: в течение некоторого времени система обучается на большом количестве типовых речевых диалогов (включающих, кстати, и слова-паразиты). В ходе этого обучения создается рабочий словарь и база данных отношений между отдельными словами (база знаний). Примером системы третьего поколения может служить Natural Dialogue System фирмы Philips, используемая швейцарской железнодорожной компанией Swiss Railways для справочной системы, обслуживающей не только железнодорожные, но и автобусные маршруты, и паромные переправы.

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 1112 / 1812 13 14 15 16 17 18 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
08.11.2019162.82 Кб6Глава 6.doc
#
23.11.2018294.99 Кб7Глава 9.docx
#
14.04.2019205.82 Кб6Глава07.DOC
#
14.04.2019473.09 Кб3Глава08.doc
#
14.04.2019389.12 Кб17Глава09.doc
#
14.04.2019409.09 Кб3Глава10.DOC
#
14.04.2019288.26 Кб12Глава11.doc
#
14.04.2019241.15 Кб6Глава12.DOC
#
14.04.2019485.38 Кб27Глава13.doc
#
14.04.2019565.76 Кб14Глава14.DOC
#
14.04.2019111.1 Кб9Глава15.doc