Скачиваний:
105
Добавлен:
01.05.2014
Размер:
282.62 Кб
Скачать

2. Общие понятия о системах распознавания речи и обзор современных систем распознавания речи.

2. 1. Классификация систем распознавания речи.

Автоматическое речевое распознавание - процесс, которым компьютер отображает акустический речевой сигнал в виде текста или соответствующих команд , управляющих вычислительным процессом. Более сложным понятием является автоматическое понимание речи которое включает в себя автоматическое распознавание и семантический анализ распознанного текста. Последние системы в настоящее время находятся в стадии исследовательских разработок,

Системы распознавания речи можно разделить можно классифицировать по ряду признаков , в том числе :

  • по зависимости от диктора,

  • по объему словаря,

  • по характеру распознаваемого речевого потока.

Рассмотрим эти характеристики.

Диктор -зависимые системы разрабатываются для одиночного пользователя. Эти системы обычно проще по структуре , дешевле однако не обладают достаточной гибкостью и возможностью адаптации к группе дикторов либо к работе с неизвестным диктором.

Диктор - независимые системы разрабатываются , чтобы эксплуатировать с любым диктором специфического типа . Эти системы наиболее трудно развиваются, являются наиболее дорогим и обеспечивают точность распознавания ниже чем диктор-зависимые системы. Однако, они более гибки и удобны в использовании.

Системы с адаптацией под диктора позволяют производить настройку под конкретного диктора или группу дикторов. Такие системы позволяют обеспечить достаточно эффективность распознавания, однако сам процесс настройки ее под диктора или группу дикторов может быть достаточно трудоемким.

Размер словаря речевой системы распознавания непосредственно связан с ее сложностью и сильно влияет на характеристики точности распознавания.

Размер словаря определяется конкретными требованиями соответствующей прикладной системы. Некоторые прикладные программы только требуют нескольких слов (например только числа ), другие требуют очень больших словарей (например системы автоматической диктовки текста).

Обычно рассматриваются следующие градации объема словарей:

* Маленький словарь - десятки слов

* Средний словарь - сотни слов

* Большой словарь - тысячи слов

* Очень большой словарь - десятки тысяч слов.

По характеру речевого потока системы распознавания речи делятся на системы распознавания изолированных слов и непрерывной речи.

Системы распознавания изолированных слов ориентированы на распознавание одиночных слов с одновременным требование паузы между высказыванием каждого слова. Это - самая простая форма распознавания, потому что здесь проще найти конечные и начальные точки слова и при этом произношение соседних слов не влияет друг на друга, что обеспечивает достаточно высокое качество распознавания.

Примером применения распознавания ограниченного набора слов является управление работой операционной системы WINDOWS путем открытия и запуска определенных элементов меню:

FILES CLOSE

NEW EXIT

OPEN COPY

SAVE CUT

SAVE_AS PASTE

PRINT UNDO

PRINTER_SETUP FIND

PRINT_DOCUMENT FINDNEXT

REPLACE

TILE

CASCADE

NEXT

PREVIOUS

Другим примером может быть система распознавания команд в задаче управления кораблем.

Типовой словарь может включать в себя например такие команды :

КУРС

ПЕЛЕНГ

СКОРОСТЬ

ДИСТАНЦИЯ

КАБЕЛЬТОВ

КАБЕЛЬТОВЫХ

ГРАДУС

ГРАДУСОВ

ГРАДУСА

УЗЕЛ

УЗЛОВ

УЗЛА

МИЛЬ

МИЛИ

Дополнительно словарь должен включать в себя цифровые команды в виде одиночных цифр 1; 2; 3; 4; 5; 6; 7; 8; 9; 0. Распознавание произвольных числительных в системе рассматриваемого типа может представлять значительные трудности так как словарь произвольных числительных может иметь достаточно большой объем. Поэтому в системах с ограниченным словарем можно использовать распознавание числительных путем их произнесения по отдельным цифрам , например "дистанция 573 мили " может произносится как "дистанция пять семь три мили " .

Системы распознавания одиночных команд должны обеспечивать достаточно высокую надежность (95%-97%) правильного распознавания для группы дикторов до 5-7 человек, а также иметь возможность подстройки системы при наличии ошибок распознавания.

Система распознавания одиночных команд должна отвечать требованиям быстроты реакции , обеспечивающей минимальную задержку выдачи ответа после произнесения слова. Существующие системы практически обеспечивают это требование, давая время реакции не более одной секунды для процессора типа PENTIUM/150 и выше.

Системы распознавания непрерывной ( слитной ) речи функционирует с речью, в которой слова соединены вместе, то есть не отделяемый к паузам. Непрерывная речь более трудно обрабатывается из-за ряда эффектов. Сначала, трудно найти начало и конечные пункты (точки) слов. Другая проблема - "коартикуляция". Смысл ее состоит в том что воспроизведение каждой фонемы зависит от окружающих фонем, и аналогично, на начало и конец слов воздействуют предшествующие и последующие слова. На распознавание непрерывной речи также воздействует темп речи. Кроме этого размер словаря систем распознавания непрерывной речи должен иметь достаточно значительный объем (десятки и сотни тысяч слов ).

Возможное применение состоит в создании системы автоматической диктовки для оперативного формирования отчетов о проделанной работе, Существующие системы автоматической диктовки позволяют создавать текстовые файлы в большинстве используемых текстовых редакторов - Word, Word Perfect ,WordPad с достаточно высоким качеством текста . Следует отметить однако что последнее замечание касается в основном систем англо-язычного распознавания, хотя в настоящее время на рынке начали появляться варианты систем для автоматической диктовки русско-язычного текста,

Соседние файлы в папке Lecture13