Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
2_4 Принципы обработки звуковой информации.doc
Скачиваний:
21
Добавлен:
07.07.2019
Размер:
210.94 Кб
Скачать

Программное обеспечение, позволяющее диктовать тексты

 

Другой тип программного обеспечения распознавания речи гораздо сложнее. Преобразование речи в текст — необычайно трудная задача, прежде всего из-за различий в речевых моделях разных людей. Поэтому почти все программное обеспечение этого типа (а также некоторые приложения для подачи команд голосом) предусматривает этап “обучения” технологии распознавания голоса конкретного пользователя. В процессе такого обучения пользователь должен читать текст (или слова), выводимый программой на экран компьютера. И поскольку предполагается, что программе заранее известно то, о чем вы говорите, это помогает ей адаптироваться к вашей манере речи.

В результате проведенных экспериментов оказалось, что качество распознавания зависит от индивидуальных особенностей речи. Кроме того, как известно, некоторые способны надиктовать целые страницы текста и при этом не прикоснуться к клавиатуре, в то время как другие утверждают, что исправление множества ошибок значительно больше утомляет их, чем набор текста вручную.

Существует множество параметров, влияющих на качество распознавания речи, основные из них представлены далее.

        Программы распознавания дискретной и слитной речи. Слитная (или связная) речь, позволяющая вести более естественный “диалог” с компьютером, в настоящее время является стандартной, но, с другой стороны, существуют большие проблемы в достижении приемлемой точности распознавания.

        Обучаемые и необучаемые программы. Обучение программы для корректного распознавания речи дает хорошие результаты даже в тех программах, которые позволяют пропустить этот этап.

        Большие активные и общие словари. Программы с большим активным словарем значительно быстрее реагируют на устную речь, а программы, имеющие больший общий словарь, позволяют сохранить более уникальный запас слов.

        Производительность аппаратного обеспечения компьютера. Увеличение скорости процессоров и объема оперативной памяти приводит к ощутимому повышению скорости и точности программ распознавания речи, а также позволяет разработчикам вводить дополнительные возможности в новые версии этих приложений.

        Высококачественная звуковая плата и микрофон. Используйте высококачественное аппаратное обеспечение, рекомендуемое производителем для достижения наилучших результатов; наушники со встроенным микрофоном предназначены не для записи музыки или звуковых эффектов, а именно для распознавания речи.

 

Звуковые файлы

 

Для хранения аудиозаписей на персональном компьютере используются файлы двух основных типов. В файлах первого типа, называемых обычными звуковыми файлами, используются форматы .wav, .voc, .au и .aiff. Звуковой файл содержит данные о форме волны, т.е. такой файл представляет собой запись аналоговых аудиосигналов в цифровой форме, пригодной для хранения на компьютере. Подобно графическим изображениям с различными разрешающими способностями, можно хранить и звуковые файлы, которые представляют собой записи различного качества. По умолчанию определены три уровня качества записи звуков, используемые в Windows 9x и Windows Me (табл. 16.2).

В операционной системе Windows Me используется еще один уровень качества записи звука — 48 000 Гц, 16-разрядный стерео и 188 Кбайт/с. Этот уровень предназначен для поддержки воспроизведения звука из таких источников, как DVD и Dolby AC-3.

Для достижения компромисса между высоким качеством звука и малым размером файла можно преобразовать файлы .wav в .mp3. Более подробно эти файлы описываются далее.