- •Принципы обработки звуковой информации, звуковоспроизводящие системы, средства распознавания речи
- •DirectX и звуковые адаптеры
- •История мультимедийного компьютера
- •Современные минимальные требования
- •Область применения звуковых плат
- •Дополнительные разъемы
- •Таблично-волновой синтезатор
- •Сжатие данных
- •Многофункциональные сигнальные процессоры
- •Разъем для накопителя cd-rom
- •Драйверы звуковых плат
- •Критерии выбора звуковой платы
- •Минимальные требования, предъявляемые к звуковым платам
- •Фильмы dvd на мониторе
- •Программное обеспечение, позволяющее диктовать тексты
- •Звуковые файлы
- •Сжатие аудиоданных
- •Файлы midi
- •Проигрывание файлов midi
- •Частотный синтез
- •Таблично-волновой синтез
- •Подключение других устройств к разъему midi
- •Программное обеспечение для устройств midi
- •Оценка качества звукового адаптера
- •Дискретизация
- •Обработка трехмерного звука
- •Подключение стереосистемы к звуковой плате
- •Акустические системы
- •Система объемного звучания
- •Типичные настройки акустической системы
- •Микрофоны
Программное обеспечение, позволяющее диктовать тексты
Другой тип программного обеспечения распознавания речи гораздо сложнее. Преобразование речи в текст — необычайно трудная задача, прежде всего из-за различий в речевых моделях разных людей. Поэтому почти все программное обеспечение этого типа (а также некоторые приложения для подачи команд голосом) предусматривает этап “обучения” технологии распознавания голоса конкретного пользователя. В процессе такого обучения пользователь должен читать текст (или слова), выводимый программой на экран компьютера. И поскольку предполагается, что программе заранее известно то, о чем вы говорите, это помогает ей адаптироваться к вашей манере речи.
В результате проведенных экспериментов оказалось, что качество распознавания зависит от индивидуальных особенностей речи. Кроме того, как известно, некоторые способны надиктовать целые страницы текста и при этом не прикоснуться к клавиатуре, в то время как другие утверждают, что исправление множества ошибок значительно больше утомляет их, чем набор текста вручную.
Существует множество параметров, влияющих на качество распознавания речи, основные из них представлены далее.
Программы распознавания дискретной и слитной речи. Слитная (или связная) речь, позволяющая вести более естественный “диалог” с компьютером, в настоящее время является стандартной, но, с другой стороны, существуют большие проблемы в достижении приемлемой точности распознавания.
Обучаемые и необучаемые программы. Обучение программы для корректного распознавания речи дает хорошие результаты даже в тех программах, которые позволяют пропустить этот этап.
Большие активные и общие словари. Программы с большим активным словарем значительно быстрее реагируют на устную речь, а программы, имеющие больший общий словарь, позволяют сохранить более уникальный запас слов.
Производительность аппаратного обеспечения компьютера. Увеличение скорости процессоров и объема оперативной памяти приводит к ощутимому повышению скорости и точности программ распознавания речи, а также позволяет разработчикам вводить дополнительные возможности в новые версии этих приложений.
Высококачественная звуковая плата и микрофон. Используйте высококачественное аппаратное обеспечение, рекомендуемое производителем для достижения наилучших результатов; наушники со встроенным микрофоном предназначены не для записи музыки или звуковых эффектов, а именно для распознавания речи.
Звуковые файлы
Для хранения аудиозаписей на персональном компьютере используются файлы двух основных типов. В файлах первого типа, называемых обычными звуковыми файлами, используются форматы .wav, .voc, .au и .aiff. Звуковой файл содержит данные о форме волны, т.е. такой файл представляет собой запись аналоговых аудиосигналов в цифровой форме, пригодной для хранения на компьютере. Подобно графическим изображениям с различными разрешающими способностями, можно хранить и звуковые файлы, которые представляют собой записи различного качества. По умолчанию определены три уровня качества записи звуков, используемые в Windows 9x и Windows Me (табл. 16.2).
В операционной системе Windows Me используется еще один уровень качества записи звука — 48 000 Гц, 16-разрядный стерео и 188 Кбайт/с. Этот уровень предназначен для поддержки воспроизведения звука из таких источников, как DVD и Dolby AC-3.
Для достижения компромисса между высоким качеством звука и малым размером файла можно преобразовать файлы .wav в .mp3. Более подробно эти файлы описываются далее.
