Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Alexandr.doc
Скачиваний:
5
Добавлен:
01.04.2025
Размер:
1.9 Mб
Скачать

Вопрос 22. Классификация систем распознавания речи. Применение систем распознавания речи.

Классификация систем распознавания речи:

  • по назначению – командные системы и системы диктовки текста

  • по механизмам функционирования – корреляционные детекторы, экспертные системы, вероятностные модели принятия решения, в том числе нейронные сети

  • по ориентации на пользователя – дикторонезависимые и диктороориентированные, по ориентации на слитную речь – распознающие отдельные слова и слитную речь

Простейшая программа распознавания способна распознавать только относительно не большой набор команд и символов, например цифры 0-9, слова да-нет, команда открыть, создать и тд. Такие программы давно употребляются в компьютерной телефонии для голосового набора номера или организации голосового, а также могут применяться для управления компьютером.

Программы для диктовки текстов первоначально могли распознавать только отдельную речь, в которой после каждого слова требовалось делать паузу. Первые успехи в распознавании слитной речи были сделаны коммерческими системами в 1997 году. Современные системы по мнению разработчиков (ibm, dragon systems) способны распознавать до 95% текста при непрерывной диктовке, тогда как для комфорта требуется 97%.

Наиболее известные системы распознавания: via voice, dragon dictat naturally speaking, voice xpess plus, natural dialogie system.

Многие системы распознавания речи, кроме dragon, работая в ОС Microsoft используют модуль microsoft speech api. Качественных систем русскоязычной речи пока нет. Для их разработок требуется построение модели алгоритмов ориентированных на русскую фонетику и лингвистику. Есть более менее удачные адаптации англоязычных продуктов Горыныч – адаптация dragon.

Перспективы систем распознавания речи

Несмотря на все успехи имеющиеся системы обеспечивают качество недостаточное для профессионального использования, кроме того они нуждаются в длительной настройке, требовательны к аппаратной части, чувствительны к наличию шума. Вопреки заявлениям производителей имеющиеся системы обеспечивают скорость диктовки порядка 0,5 слов в секунду, когда скорость проф. машинистки около 2 слов в секунду, а спонтанной – 2,5 слов в секунду. Высоких показателей достигают с проф. диктором, известно что постановка произношения занимает до нескольких лет, а обучения работы на клавиатуре до 2 месяцев. Необходимость подстраиваться под особенность систем может способствовать к появлению проф. заболеваний. Применение систем остается узкоспециализированными областями.

Вопрос 23. Критерии оценки качества озвучивания речи. Факторы, влияющие на озвучивание слов. Основные подходы к озвучиванию речи.

Технология генерации речи

Критерии оценки качества метода озвучивания речи.

Качество речи прямо пропорционально объему потребляемому синтезатором речи от ресурса. Качество характеризуется естественностью звучания, фонетической разборчивостью, комфортностью восприятия и временем привыкания. Естественность звучания характеризует то, на сколько близок синтезируемый звук к человеческой речи. Частые негативные эффекты: металлический призвук, отсутствие интонационного отделения, резкость или затянутость некоторых звуков.

Фонетическая разборчивость характеризует насколько слушателю трудно лили легко разбирать фонемы произносимые синтезатором. Фонетическая разборчивость может быть достаточно высокой, в том числе выше естественной речи.

Комфортность восприятия и время привыкания относят к субъективным показателям. Произнесение слов зависит от: расположения в предложении, знаков препинания и типа грамматической конструкции, смысла слова.

Подходы к озвучиванию речи: построение действующей модели речепроизводящей системы человека (артикуляционный синтез); моделирование акустического сигнала как такового: формантный синтез и компилятивный синтез.

Билет 24.

Обобщенная функциональная структура синтезатора речи.

Основные модули:

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]