
- •1 Разработка информационной системы (ее структуры, информационного, алгоритмического и математического обеспечения)
- •Современное состояние исследований и разработок в области информационных систем распознавания речи
- •1.1.1 1950-1965Гг.: Начало исследований
- •1.1.2 1970-Е: Системы постепенно приобретают популярность
- •1.1.3 1980-Е: Распознавание речи оправдывает прогнозы
- •1.1.4 1990-Е: Автоматическое распознавание речи получает широкое распространение
- •1.1.5 2000-Е: Застой в распознавании речи
- •Способы и этапы распознавания речи
- •Современные программные продукты для распознавания голосовых команд
- •ViaVoice (компания «ibm»)
- •Моделирование процесса распознавания голосовых команд
- •Моделирование информационной системы распознавания голосовых команд
- •Выводы по разделу
Современные программные продукты для распознавания голосовых команд
Автоматизированная система поиска ключевых слов и выражений VoiceDigger (компания «Центр речевых технологий» (ЦРТ))
Характеристики:
Удаленная работа;
масштабируемость;
Точность поиска определяется размером словаря, по которому осуществляется поиск, для словаря из 5 слов надежность поиска составляет не менее 95%, для словаря из 100 слов - 81%.
Typle Premium 2.0
Это простая в использовании программа для управления компьютером с помощью голоса. Она обладает следующими возможностями: можно записать сколь угодно много голосовых команд, а потом просто произнести их в микрофон. Распознавание речи на очень высоком уровне. Команду можно присвоить и сайтам. Для этого достаточно в настройках указать определенный параметр и произнести в микрофон «Открыть сайт Корпорации Typle». Команды можно назначить практически на любые файлы, никаких ограничений в этом нет. Настройка программы простейшая.
Есть две версии Typle - Free (распространяется с официального сайта бесплатно) и Premium ($12.99). Главное отличие бесплатной версии в том, что она позволяет записать только 15 голосовых команд, в то время как Premium - до 450. Кроме этого, платный Typle имеет еще несколько преимуществ облегчающих работу с программой.
Google Voice Search (компания «Google»)
Голосовой поиск от компании Google. Ранее поиск применялся исключительно в мобильных устройствах. С недавнего времени голосовой поиск от Google встроен в браузер Google Chrome, что позволяет использовать этот сервис на различных платформах.
Характеристики:
поддержка русского языка;
возможность встраивать распознавание речи на веб-ресурсы;
голосовые команды, словосочетания;
для работы необходимо постоянное подключение к сети internet.
Dragon NaturallySpeaking 11 (компания «Nuance»)
Мировой лидер в программном обеспечении по распознаванию человеческой речи. Возможность создавать новые документы, отправлять электронную почту, управлять популярными браузерами и разнообразными приложениями посредством голосовых команд.
Характеристики:
отсутствует поддержка русского языка;
точность распознавания до 99%.
ViaVoice (компания «ibm»)
ViaVoice представляет собой программное ядро для аппаратных реализаций. Компания ProVox Technologies на основе этого ядра создала систему для диктовки отчетов врачей-радиологов VoxReports .
Характеристики:
точность распознавания достигает 95-98%;
дикторонезависимость;
словарь системы ограничен набором специфических терминов.
Рассмотрев сравнительные характеристики (таблица 1.2) современных систем распознавания речи, можно сделать следующие выводы:
наиболее перспективными разработками на российском рынке являются продукты компании «Центр речевых технологий» (ЦРТ);
большинство популярных на сегодняшний день систем распознавания работают с изолированными словами;
разработчики достигли высокой точности в командных системах (речевые интерфейсы, голосовое управление);
в наиболее распространенных современных приложениях точность распознавания составляет в среднем 95-99% ;
задача распознавания слитной речи в достаточной степени не решена.
Таблица1.2 – Сводная таблица характеристик систем распознавания речи
Название системы |
Назначение |
Структур-ная единица |
Обуче-ние |
Поддерж- ка русского языка |
Дикторо-независи-мость |
Коэфф. расп., зависит от словаря |
Стоимость |
Voice Digger
|
Поиск ключевых слов |
Слово, фраза |
Да |
Да |
Да |
до 97% , |
– |
Typle Premium 2.0 |
Голосовое управление ПК |
Слово, фраза |
Да |
Да |
Да |
до 95% |
0$-13$ |
Google Voice Search |
Голосовой поиск |
Слово, фраза |
Нет |
Да |
Да |
– |
– |
Dragon NaturallySpeaking |
Голосовое управление, распознавание речи |
– |
Нет |
Нет |
Нет |
до 98% |
85-100$ |
ViaVoice |
Голосовое управление, распознавание речи |
– |
Нет |
Нет |
Да |
до 95% |
100-110$ |
Таким образом, для моделирования ИС голосового управления персональным компьютером наиболее подходящей по критерию цена-качество является система Typle Premium 2.0.
Основными проблемами существующих систем являются: отличие длительности звуков речи, голосовые различия отдельных людей, сильное влияние эмоционального состояния говорящего на изменения в его речи, потери и искажение звука при распространении в пространстве, усложнение системы обработки в связи с почти бесконечным числом вариаций звуков речи. Решение перечисленных проблем в проектируемой ИС будет осуществляется с помощью качественных устройств ввода команд, фильтрации и улучшения характеристик сигнала.