Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

распознавание речи

.docx
Скачиваний:
58
Добавлен:
30.03.2015
Размер:
25.32 Кб
Скачать

УДК

Белоусова О. С., Панова Л.

Омский Государственный Технический Университет

РАСПОЗНАВАНИЕ РЕЧИ

В настоящее время речевое распознавание находит все новые и новые области применения, начиная от приложений, осуществляющих преобразование речевой информации в текст и заканчивая бортовыми устройствами управления автомобилем.

Выделяют несколько основных способов распознавания речи:

1. Распознавание отдельных команд – раздельное произнесение и последующее распознавание слова или словосочетания из небольшого заранее заданного словаря. Точность распознавания ограничена объемом заданного словаря

2. Распознавание по грамматике – распознавание фраз, соответствующих определенным правилам. Для задания грамматик используются стандартные XML-языки, обмен данными между системой распознавания и приложением осуществляется по протоколу MRCP.

3. Поиск ключевых слов в потоке слитной речи – распознавание отдельных участков речи. Речь может быть как спонтанной, так и соответствующей определённым правилам. Произнесенная речь не полностью преобразуется в текст - в ней автоматически находятся те участки, которые содержат заданные слова или словосочетания.

4. Распознавание слитной речи на большом словаре – все, что сказано, дословно преобразуется в текст. Достоверность распознавания достаточно высока.

5. Распознавание речи с помощью нейронных систем. На базе нейронных сетей можно создавать обучаемые и самообучающиеся системы, что является важной предпосылкой для их применения в системах распознавания (и синтеза) речи.

а) Представление речи в виде набора числовых параметров. После выделения информативных признаков речевого сигнала можно представить эти признаки в виде некоторого набора числовых параметров (т.е. в виде вектора в некотором числовом пространстве). Далее задача распознавания примитивов речи сводится к их классификации при помощи обучаемой нейронной сети.

б) Нейронные ансамбли. В качестве модели нейронной сети, пригодной для распознавания речи и обучаемой без учителя можно выбрать самоорганизующуюся карту признаков Кохонена. В ней для множества входных сигналов формируется нейронные ансамбли, представляющие эти сигналы. Этот алгоритм обладает способностью к статистическому усреднению, что позволяет решить проблему изменчивости речи.

в) Генетические алгоритмы. При использовании генетических алгоритмов создаются правила отбора, позволяющие определить, лучше или хуже справляется новая нейронная сеть с решением задачи. Кроме того, определяются правила модификации нейронной сети. Изменяя достаточно долго архитектуру нейронной сети и отбирая те архитектуры, которые позволяют решить задачу наилучшим образом, рано или поздно можно получить верное решение задачи.

Общий алгоритм распознавания связной речи

Исходный сигнал

Начальная фильтрация и усиление полезного сигнала

Выделение отдельных слов

Распознавание слова

Распознавание речи

Реакция на распознанный сигнал

Всё многообразие систем распознавания речи условно можно разделить на несколько групп.

1. Программные ядра для аппаратных реализаций. TTS engine – синтез речи по тексту, и ASR engine – для распознавания речи.

2. Наборы библиотек для разработки приложений. Существует два стандарта для интеграции речевых технологий: VoiceXML – для разработки интерактивных голосовых приложений управления медиаресурсами, и SALT – поддерживает многомодальные приложения, сочетающие распознавание речи с другими формами ввода информации.

3. Независимые пользовательские приложения. Dragon NaturallySpeaking Preferred – распознает слитную речь; безошибочность распознавания – 95%. «Диктограф» – с функцией ввода текста в любой редактор, точностью распознавания – 30-50%.

4. Специализированные приложения. Компания «Центр Речевых Технологий» разрабатывает и производит программы для МВД, ФСБ, МЧС: «ИКАР Лаб», «Трал», «Территория». Германский институт DFKI разработал – Verbmobil, программу способную переводить разговорную речь с немецкого на английский или японский и обратно, непосредственно произнесенную в микрофон. Точность – 90%.

5. Устройства, выполняющие распознавание на аппаратном уровне. Компания Sensory Inc разработала интегральную схему Voice Direct™ 364 – осуществляет дикторозависимое распознавание небольшого числа команд (около 60) после предварительного обучения. Корпорация Primestar Technology Corporation разработала чип VP-2025 – осуществляет распознавание с помощью нейросетевого метода.

Методы распознавания речи.

1. Метод скрытых марковских моделей. Базируется на следующих предположениях: речь может быть разбита на сегменты, внутри которых речевой сигнал может рассматриваться как стационарный, переход между этими состояниями осуществляется мгновенно; вероятность символа наблюдения, порождаемого моделью, зависит только от текущего состояния модели и не зависит от предыдущих.

2. Метод скользящего окна. Суть: определение вхождения ключевого слова с помощью алгоритма Витерби. Так как ключевое слово может начинаться и заканчиваться в любом месте сигнала, то этот метод перебирает все возможные пары начала и конца вхождения ключевого слова и находит самый вероятный путь для ключевого слова и этого отрезка, как если бы ключевое слово присутствовало в нем. Для каждого найденного вероятного пути ключевого слова применяется функция правдоподобия, основанная на срабатывании, если значение пути, рассчитанное в соответствии с применяемым методом оценки пути, больше предопределенного значения. Недостатки: большая вычислительная сложность; команды могут включать слова, которые плохо распознаются с помощью алгоритма распознавания ключевого слова.

3. Метод моделей заполнителей. Для алгоритмов распознавания ключевого слова слово для распознавания представляется встроенным в инородную речь. На этом основании методы моделей заполнителей обрабатывают эту инородную речь с помощью явного моделирования инородной речи за счет второстепенных моделей. Для этого в словарь системы распознавания добавляются «обобщенные» слова. Роль этих слов в том, чтобы любой сегмент сигнала незнакомого слова или неречевого акустического события был распознан системой как одно слово или цепочка из обобщенных слов. Для каждого обобщенного слова создается и обучается акустическая модель на корпусе данных с соответствующими размеченными сегментами сигнала. На выходе из декодера выдается цепочка, состоящая из слов словаря (ключевых слов) и обобщенных слов. Обобщенные слова затем отбрасываются, и оставшаяся часть цепочки считается результатом распознавания. Недостатки: ключевые слова могут быть распознаны как обобщенные; сложность оптимального выбора алфавита обобщенных слов.

Библиографический список

1. Методы автоматического распознавания речи: В 2-х книгах. Пер. с англ./Под ред. У. Ли. – М.: Мир, 1983. – Кн. 1. 328 с., ил.

2. Винцюк Т. К. Анализ, распознавание и интерпретация речевых сигналов. Киев: Наукова Думка, 1987.

3. Винцюк Т.К. Сравнение ИКДП- и НММ - методов распознавания речи // Методы и средства информ. речи. Киев, 1991.

4. http://www.mstechnology.ru

5. http://www.comptek.ru

6. http://www.ipu.ru