Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Ответы на билеты.doc
Скачиваний:
25
Добавлен:
05.09.2019
Размер:
1.84 Mб
Скачать

4.3. Система распознавания речи «Dragon Naturally Speaking»

Разработка компании Nuance (капитализация 5 млрд. долларов) – программный продукт, система диктовки для любого текста и любого пользователя на английском языке. Система требует пред началом работы адаптации языковых моделей и расширения словаря. Адаптация языковых моделей производится путем загрузки в систему типичных для работы пользователя текстов и последующей корректировки статистических языковых моделей. Расширение словаря – задача пользователя. Насколько успешно он с ней справится, настолько успешно будет работать система. Любая система распознавания знает только те слова, что есть в ее словаре. Существует в этой системе и подстройка под голос диктора. Для этого нужно минут тридцать почитать тексты, предложенные системой, что бы программа адаптировала параметры существующих акустических моделей.

Следует четко понимать, что на данном этапе (а может быть и в принципе) создание универсального продукта невозможно. Например, для журналистов, которые проводят интервью с разными людьми,

в разном окружении, в разных местностях. Надеяться на появление мобильных и даже стационарных устройств для распознавания спонтанной речи не приходится. Спонтанная речь отличается более сложными языковыми и акустическими моделями. Вычислительные мощности и речевые базы спонтанной речи должны иметь гигантские размеры. В то же время системы с ограниченным специализированным словарем есть и хорошо работают. Например, их используют медицинские учреждения в США. Известно, что медицинским работникам постоянно требуется делать какие – то записи, будь то история болезни или протоколирование действий. Медики в США наговаривают текст, который автоматически переводится в машинный вид. Затем текст подвергается косметической правке. Соответствующие технологии есть у фирмы Nuance. Объем продаж медицинских систем распознавания речи в США составляет 12 – 15 млрд. долларов. Можно, так же отметить мультимедийную систему изучения английского языка в игровой форме «TriplePlayPlus English». Разработка Сиракузского университета США (так же разновидность системы Dragon), в которой реализован диалоговый речевой режим обучаемого и программы. Производится предварительная настройка по принципу (мужчина, женщина или ребенок). Затем, в ходе речевого диалога, программа не пропустит на следующий этап обучения до тех пор, пока ее не «удовлетворит» произношение обучаемого.

В целом, в плане практического применения, наибольших успехов достигли системы на ограниченных специализированных словарях.

4.4. Разработка «Горыныч».

Это доморощенная адаптация под русский язык системы распознавания речи «Dragon Naturally Speaking» от компании Nuance.

Основные свойства:

  • вывод речевого текста может производиться в любые текстовые редакторы, а также в иные программы независимо от их производителя;

  • совместимость с операционными системами Windows;

  • удобный интерфейс, включая настройку микрофона;

  • возможность добавлять в словарь собственные слова;

  • тренировка слов непосредственно в процессе диктовки.

Требуемые ресурсы:

  • Процессор Pentium® 500 МГц;

  • 64 МБ оперативной памяти;

  • 250 МБ свободного места на жестком диске;

  • Звуковое устройство 16 бит с микрофонным входом;

  • Устройство для чтения компакт-дисков;

  • Микрофон (рекомендуется гарнитура – микрофон и наушники).

Тем не менее, разработку «Горыныч» нельзя признать удачной (специалисты называют ее «весьма неуклюжей»). Причина - прототип «Dragon» создавался для английского языка, организованного совершенно иначе, чем русский.

В английском и подобных языках есть жесткая последовательность слов в предложениях. С русским языком у специалистов возникают немалые трудности. В области акустики наибольшую проблему для распознавания русской речи представляет необычайно сильная количественная и качественная изменчивость гласных безударных слогов, частично обусловленная свободным характером словесного ударения. Это приводит к нейтрализации и «размазыванию» акустических свойств сегментов, особенно в спонтанной разговорной речи.