Скачиваний:
139
Добавлен:
01.05.2014
Размер:
311.3 Кб
Скачать

Частота дискретизации

При записи через SB сигнал от микрофона подается на звуковую плату. Здесь микросхема АDC формирует отсчеты входного звука. Число отсчетов в секунду называется частотой дискретизации. Отсюда нетрудно сделать вывод о принципе записи звуков через SB: чем выше частота дискретизации, тем лучше воспроизведение. Другими словами, большее число отсчетов создает более реалистический звук. В SB и большинстве других звуковых плат нижняя частота дискретизации составляет 11025 отсчетов в секунду или 11,025 кГц. Имеется также возможность записывать с частотой дискретизации 22,05 и 44,1 кГц.

Очевидно, что при большей частоте дискретизации звук лучше, потому что при этом увеличивается диапазон слышимых частот. Однако здесь кроется и недостаток: чем выше частота дискретизации, тем больше данных необходимо хранить в WAV-файле, а для этого требуется дисковое пространство.

Разрядность представления звуковых данных

На качество звука большое влияние оказывает разрядность представления звуковых данных (количество бит на отсчет), получаемых с выхода аналого-цифрового преобразователя. Чем больше битов применяется для представления данных , тем более точными будут цифровые запись и воспроизведение.

Первые платы SB были 8-битовыми. Эти платы можно применять, если требования к качеству воспроизводимого звука невысоки. Преимущество 8-битовых плат заключается в их дешевизне по сравнению с более современными. Разрабатываемая система сжатия речевых сигналов ориентирована на использование 16-битовых плат, таких, например, как SB16 и AWE32. Переход от 8 битов к 16 не просто удвоил качество, а повысил его на порядок. Но, разумеется, для хранения 16-битовых звуковых файлов требуется вдвое большее дисковое пространство.

Монофонический и стереофонический звук

Еще одним важным компонентом звука является стереофонический и монофонический звук. Монофоническая запись проще, так как здесь нужен только один канал данных и звук этого канала подается на оба динамика. Для стереофонического же звука требуются два канала информации. Эти каналы могут содержать либо одинаковую, либо различную информацию. Однако даже в случае, когда оба канала содержат одинаковую информацию, наличие двух каналов обеспечивает более полный и богатый звук. Вот почему стереозвуки качественнее монозвуков, хотя для них и требуется большее дисковое пространство.

Итак, получая высшее качество речи, например используя 16-битовую стереозапись с частотой дискретизации 44.1 кГц, приходится жертвовать дисковым пространством. Но для записи человеческой речи, которая будет использоваться в системе сжатия, вполне достаточно 8- битовой монозаписи с частотой дискретизации 11,05 кГц.

Формат wav-файла

Данные, имеющие отношение к мультимедиа (звук, видео и т.п.), хранятся в файлах в так называемом RIFF-формате (Resource Interchange File Format - формат файла для обмена ресурсами). Как wav-файлы, содержащие звук, так и avi-файлы, содержащие видеоинформацию, имеют формат RIFF.

Файл в формате RIFF содержит вложенные фрагменты (chunk’s). Внешний фрагмент состоит из заголовка и области данных (рис.2).

0 4 8

rID rLen rData

04 24

wID Format Chunk WAVE Data Chunk

04 8 10 12

fID fLen wFormatTag nChannels nSamplesPerSec

14 16 18

nAvgBytesPerSec nBlockAlign FormatSpecific

04 8

dID dLen dData

Рис.4.2. Формат WAV-файла.

Первое двойное слово заголовка содержит четырехбуквенный код, который идентифицирует данные, хранящиеся во фрагменте. Второе двойное слово заголовка - код размера области данных в байтах (без учета размера самого заголовка).

Область данных имеет переменную длину, однако она должна быть выравнена по границе слова и при необходимости дополнена в конце нулевым байтом до целого числа слов.

Формат RIFF не описывает формат данных. Практически файл в формате RIFF может содержать любые данные для мультимедиа, причем формат данных зависит от типа данных.

Область, обозначенная на рис. 4.2. как ”rData”, может содержать внутри себя другие фрагменты Для файла, в котором хранятся звуковые данные (wav-файл), эта область содержит идентификатор данных “WAVE” , фрагмент формата звуковых данных “fmt” (три символа “fmt” и пробел на конце), а также фрагмент звуковых данных. Файл может дополнительно содержать фрагменты данных других типов, поэтому не следует думать, что заголовок wav-файла имеет фиксированный формат. Например, в файле могут присутствовать фрагменты “LIST” или “INFO”, содержащие информацию о правах копирования и другую дополнительную информацию (её можно узнать из документации, поставляемой в составе Microsoft SDK for Windows 95, v.3.1).

Область, обозначенная на как “Format Chunk” , описывает звуковые данные следующим образом:

1) поле wFormatTagописывает тип формата звуковых данных;

2) для импульсно-кодовой модуляции РСМ в этом поле должно находиться значение 1;

3) поле nChannelsсодержит количество каналов. В нем могут находиться значения 1 (моно) или 2 (стерео);

4) в поле nSamplesPerSecзаписана частота дискретизации, то есть количество выборок сигнала в секунду. В этом поле могут находиться стандартные значения (11,025 кгц, 22,05 кгц, 44,1 кгц) либо нестандартные значения, такие как 5000 кгц или 4400 кгц.

Правда, не все драйверы звуковых адаптеров могут работать с нестандартными частотами дискретизации.

Поле nAvgBytesPerSecсодержит среднюю скорость потока данных, т. е. количество байт в секунду, передаваемых драйверу устройства или получаемых от него. Эта информация может быть использована для оценки размера буфера, необходимого для размещения звуковых данных. Для монофонического сигнала с дискретностью 8 битов численное значение скорости совпадает со значением частоты дискретизации. Для стереофонического сигнала с дискретностью 8 битов скорость в два раза выше. Точное значение можно определить по формуле:

nAvgBytesPerSec = ( nChannels* nSamplesPerSec* wBitsPerSample) / 8

В поле nBlockAlignнаходится выравнивание блока в байтах, которое подсчитывается по формуле:

nBlockAlign = ( nChannels* wBitsPerSample ) / 8

Поле wBitsPerSampleсодержит количество битов, используемых для представления одной выборки сигнала. Обычно используются значения 8 или 16.

Что же касается формата самих звуковых данных, то он зависит от количества каналов и от дискретности.

Для монофонического сигнала с дискретностью 8 битов звуковые данные представляют собой массив однобайтовых значений, каждое из которых является выборкой сигнала.

Для стереофонического сигнала с дискретностью 8 битов звуковые данные имеют формат массива двухбайтовых слов, причем младший байт слова соответствует левому каналу, а старший - правому.

Формат звуковых данных с дискретностью 16 битов выглядит аналогично. Для монофонического сигнала данные хранятся в массиве 16-битовых слов. Для стереофонического используется массив двойных слов, причем младшему слову соответствует левый канал, а старшему - правый.

Диапазон изменения значений выборок сигнала определяется дискретизацией. Для 8-битовых данных он составляет от 0 до 255 (0), причем отсутствию сигнала (полной тишине) соответствует значение 128 (0). Для 16-битовых данных диапазон изменения составляет от -32768 до 32767, отсутствию сигнала соответствует значение 0.

Представим формат заголовка WAV-файла в виде таблицы:

.

Byte OffSet

Имя переменной

Длина в байтах

Описание

00h

rID

4

“RIFF”

04h

rLen

4

длина блока данных

08h

rData

rLen

блок данных

Блок данных “rData”

00h

wID

4

“WAVE”

04h

Format Chunk...

18h

блок формата звуковых данных

18h

WAVE Data Chunk...

---

блок звуковых данных

Блок формата звуковых данных

00h

fID

4

“fmt “

04h

fLen

4

длина данных в блоке ФЗД

08h

wFormatTag

2

тип формата звуковых данных

0Ah

nChannels

2

количество каналов

0Ch

nSamplesPerSec

2

частота дискретизации

0Eh

nAvgBytesPerSec

2

средняя скорость потока данных

10h

nBlockAlign

2

выравнивание блока в байтах

12h

FormatSpecific

2

формат спец. области данных

Блок звуковых данных

00h

dID

4

“DATA”

04h

dLen

4

Длина Wav-данных

08h

dData

dLen

Wav-данные

.\ 2.1. Методы параметрического описания речевых сигналов

При распознавании речи, как правило, оперируют не с исходным речевым сигналом, а с так называемым параметрическим описанием речевого сигнала.

Существует два подхода к параметрическому описанию слитной речи

  • выделение информативных признаков речевого сигнала, аппроксимирующих параметры речевого тракта, непосредственно по оцифрованной речевой волне;

  • выделение признаков речевой волны аналоговым способом с последующей их оцифровкой.

Достоинствами первого подхода являются большая гибкость и стабильность выделения признаков. К недостаткам можно отнести большой объем памяти для хранения оцифрованной речи и большие временные затраты на последующую обработку. Достоинства второго подхода заключаются в возможности получения информативных параметров первичного описания, а также их обработки в реальном масштабе времени. К основным недостаткам этого подхода следует отнести трудность создания стабильной аппаратуры для получения некоторых параметров (частоты основного тона, значения формантных частот и др.)

Современные вычислительные системы, включающие более одного процессора, позволяют осуществить формирование параметров, учитывая достоинства обоих подходов. Однако успехи цифровой ВТ и микроэлектроники привели к тому, что для реализации устройств анализа речевых сигналов преобладающее значение приобрели цифровые методы обработки сигналов. Поэтому в дальнейшем будет рассматриваться только первый подход.

Человек может быть рассмотрен как идеальная система восприятия речевых сигналов, поэтому при разработке блоков ПРО важно и необходимо учитывать следующие особенности восприятия речи человеком

  • описание сигнала методами спектрального анализа;

  • высокие быстродействие и избирательность анализатора спектра;

  • логарифмическая шкала спектрального анализатора;

  • малое влияние фазовых соотношений на качество анализа;

  • большой динамический диапазон входных сигналов;

  • использование операторов дифференцирования, интегрирования, бинарного квантования, сглаживание параметров.

В СРР блок ПРО выполняет две важные функции

  • выделение наиболее информативных с точки зрения распознавания параметров речевого сигнала;

  • сжатие исходного амплитудно-временного описания речевого сигнала до приемлемых размеров. (Возможность подобного вида обработки вытекает из огромной избыточности речи: так, для непосредственной передачи амплитудно-временного описания речи требуется 50-100 Кбит/с речи, в то же время информационное содержание речи составляет 50-100 бит/с).

Существующие методы выделения параметров речевого сигнала можно условно разделить на три группы: параметрические, фонетические и неакустические.

Параметрические методы основаны на представлении речевого сигнала как реализации некоторого процесса во времени и выделении каких-либо параметров этого процесса. К ним относятся:

  • спектрально-полосные;

  • ортогональные;

  • корреляционные;

  • метод непосредственного вычисление спектра с помощью быстрого преобразования Фурье;

  • методы, связанные с выделением мгновенной частоты переходов через нуль клиппированного речевого сигнала;

  • временные методы, основанные на анализе распределения длительности интервалов между переходами через нуль или экстремумами.

Фонетические методы опираются на теорию речеобразования и выделение признаков, характеризующих спектр артикуляции. К этим признакам относятся:

  • дифференциальные;

  • сегментные;

  • формантные параметры, обратная фильтрация;

  • методы оптимальной фильтрации и рекуррентного оценивания.

Неакустические методы состоят в выделении информации о процессах, сопровождающих артикуляцию:

  • о положении и движении артикуляционных органов;

  • о скорости потоков воздуха через рот и нос говорящего;

  • о биоэлектрической активности мышц, участвующих в артикуляции и т.д.

Соседние файлы в папке Lecture14