- •Классификация систем распознавания речи
- •Наиболее распространенный подход к распознаванию речи
- •Лекция 2
- •Цифровой звук и частота дискретизации
- •Ключевые операции цос
- •Формы преобразования Фурье
- •Б. Амплитудно-фазовая форма
- •В. Комплексная форма
- •А. Прореживание по времени
- •Вейвлет-разложение как способ представления речевого сигнала
- •Лекция 3
- •Методы представления речевого сигнала на основе кепстрального анализа и кодирования с линейным предсказанием
- •Лекция 4
- •Процесс речеобразования и принципы восприятия речи
- •Образование и артикуляционная классификация звуков речи
- •Психоакустические принципы восприятия речи
- •Признаки распознавания
- •Временные и спектральные характеристики, используемые для классификации звуков речи
- •Лекция 5
- •Выделение речи из звукового сигнала (vad-алгоритмы)
- •Сегментация речевого сигнала
- •Лекция 6
- •Применение скрытых марковских моделей для распознавания речи
- •Решение задачи 1, распознавание
- •Решение задачи 2. Алгоритм Витерби
- •Решение задачи 3. Алгоритм Баума-Уэлча.
- •Лекция 7
- •Гауссовы смешанные модели (gmm)
- •Распознавание речи с помощью нейронных сетей
- •Введение в нейронные сети
- •Лекция 8
- •Метод нелинейного растяжения-сжатия оси времени
Лекция 2
Тема. Способы параметризации речевого сигнала
На лекции будет рассмотрено:
Дискретизация звука.
Амплитудно-временное представление (АВП) сигнала.
Спектральное представление сигнала.
Спектры Фурье и вейвлет-спектры.
Цифровой звук и частота дискретизации
Звук представляет собой непрерывный во времени и по амплитуде процесс, то есть давление воздуха изменяется во времени плавно, а не перепрыгивает от одного значения к другому.
Звук может быть преобразован в электрический сигнал при помощи микрофона, который в зависимости от изменения давления воздуха изменяет создаваемое им на выходе электрическое напряжение. После перевода акустического звука в электрический сигнал непрерывность во времени и по амплитуде сохраняется: напряжение сигнала изменяется аналогично изменению давления воздуха, вот почему полученный на выходе звук называют аналоговым. Мы можем записать электрический сигнал на магнитную ленту и превратить его вновь в звук при помощи динамика, который работает как «микрофон наоборот» — перемещает воздух в соответствии с изменениями напряжения. Соответственно сохраняется и упомянутая непрерывность сигнала.
Несмотря на то, что аналоговый электрический сигнал исправно служит человечеству на протяжении десятилетий, со временем стало ясно, что аналоговые сигнал и магнитная запись — не лучшие способы передачи и хранения звуковой информации, поскольку и при передаче, и при хранении данных происходит неизбежная потеря информации, то есть ухудшение звука. В то же время передачу и хранение данных в компьютерах, оперирующих исключительно цифровыми данными, возможно производить без каких-либо потерь. Вопрос только в том, как перевести аналоговый звук в цифровой и обратно.
Для решения первой задачи существуют специальные устройства, известные как аналого-цифровые преобразователи (АЦП). Эти устройства способны преобразовать непрерывный аналоговый сигнал в последовательность отдельных чисел, то есть сделать его дискретным (англ. «discrete» — раздельный, состоящий из отдельных частей). Преобразование происходит следующим образом: устройство много раз в секунду измеряет амплитуду аналогового сигнала и выдает результаты измерений в виде чисел. Результат дискретизации не является точным аналогом непрерывного электрического сигнала. Очевидно, что соответствие цифрового звука аналоговому будет тем полнее, чем чаще происходят измерения и чем они точнее. Частота, с которой производятся измерения, называется частотой дискретизации. А на точность измерений амплитуды указывает число бит, использующихся для представления результата измерений. Этот параметр называют разрядностью.
Преобразование аналогового сигнала в цифровой состоит из двух этапов: дискретизации по времени и квантования по амплитуде (процесс перехода от континуального множества значений сигнала к дискретному множеству, объем которого равен количеству уровней квантования). Дискретизация по времени означает, что сигнал представляется рядом отсчетов (сэмплов), взятых через равные промежутки времени. Например, когда мы говорим, что частота дискретизации 44,1 кГц, то это значит, что сигнал измеряется 44 100 раз в течение одной секунды. Основной вопрос на первом этапе преобразования аналогового сигнала в цифровой (оцифровки) состоит в выборе частоты дискретизации аналогового сигнала. Чем больше частота, тем точнее соответствует цифровой сигнал аналоговому. Однако пропорционально увеличению частоты возрастают: а) интенсивность потока цифровых данных, а пропускные возможности интерфейсов не безграничны, особенно если записывается/воспроиз водится одновременно несколько каналов; б) вычислительная нагрузка на цифровые процессоры, а их вычислительные возможности также ограничены; в) объем памяти, необходимой для хранения цифрового сигнала. Очевидно, что необходим компромисс. От выбора частоты дискретизации зависит частотный диапазон полученного цифрового звука и максимальная частота аналогового сигнала, правильно представлена в цифровом. Считается, что человек слышит частоты в диапазоне от 20 до 20000 Гц. Согласно известной теореме Найквиста, для того, чтобы аналоговый (непрерывный по времени) сигнал можно было точно восстановить по его отсчетам, частота дискретизации должна быть как минимум вдвое больше максимальной звуковой частоты. Звуковая частота, равная половине частоты дискретизации, называется частотой Найквиста и является максимальной частотой, которую данная цифровая система может правильно сохранить и воспроизвести. Таким образом, если реальный аналоговый сигнал, который мы собираемся преобразовать в цифровую форму, содержит частотные компоненты от 0 до 20 кГц, то частота дискретизации такого сигнала должна быть не менее 40 кГц. Сегодня самыми распространенными частотами дискретизации являютя 44,1 кГц (CD) и 48 кГц (DAT).
Достоинства и недостатки цифрового звука
Цифровое представление звука ценно прежде всего возможностью бесконечного хранения и тиражирования без потери качества, однако преобразование из аналоговой формы в цифровую и обратно все же неизбежно приводит к частичной его потере. Наиболее неприятные для слуха искажения, вносимые на этапе оцифровки — гранулярный шум, возникающий при квантовании сигнала по уровню из-за округления амплитуды до ближайшего дискретного значения. Гранулярный шум сильно коррелирован с сигналом (зависит от него) и представляет собой гармоники сигнала, искажения от которых наиболее заметны в верхней части спектра. Проявления гранулярного шума и его связь с сигналом легко определить, прослушав синусоидальный сигнал с частотой около 0,1— 5 Гц (гранулярный шум в этом случае проявляется в виде изменяющегося по высоте паразитного тона, частота которого зависит от частоты, формы и максимальной амплитуды полезного сигнала). Мощность гранулярного шума обратно пропорциональна количеству ступеней квантования, однако из-за логарифмической характеристики слуха при линейном квантовании (постоянная величина ступени) на тихие звуки приходится меньше ступеней квантования, чем на громкие, и в результате основная плотность нелинейных искажений приходится на область тихих звуков. Во время восстановлении звука из цифровой формы в аналоговую возникает проблема сглаживания ступенчатой формы сигнала и подавления гармоник, вносимых частотой дискретизации. Из-за неидеальности амплитудно-частотной характеристики (АЧХ) фильтров может происходить либо недостаточное подавление этих помех, либо избыточное ослабление полезных высокочастотных составляющих. Плохо подавленные гармоники искажают форму аналогового сигнала (особенно в области высоких частот), что создает впечатление «шероховатого», «грязного» звука.
