Добавил:

Studfiles2 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Санкт-Петербургский государственный электротехнический университет "ЛЭТИ"

Предмет:

Распознавание изображений и речевых сигналов

Файл:

Лекции по МРРиИ, Геппенер В.В. / Lecture14 / Lecture14.doc

Скачиваний:

139

Добавлен:

01.05.2014

Размер:

311.3 Кб

Скачать

☆

<<< < Предыдущая 12 / 62 3 4 5 6 > Следующая >>>

Частота дискретизации

При записи через SB сигнал от микрофона подается на звуковую плату. Здесь микросхема АDC формирует отсчеты входного звука. Число отсчетов в секунду называется частотой дискретизации. Отсюда нетрудно сделать вывод о принципе записи звуков через SB: чем выше частота дискретизации, тем лучше воспроизведение. Другими словами, большее число отсчетов создает более реалистический звук. В SB и большинстве других звуковых плат нижняя частота дискретизации составляет 11025 отсчетов в секунду или 11,025 кГц. Имеется также возможность записывать с частотой дискретизации 22,05 и 44,1 кГц.

Очевидно, что при большей частоте дискретизации звук лучше, потому что при этом увеличивается диапазон слышимых частот. Однако здесь кроется и недостаток: чем выше частота дискретизации, тем больше данных необходимо хранить в WAV-файле, а для этого требуется дисковое пространство.

Разрядность представления звуковых данных

На качество звука большое влияние оказывает разрядность представления звуковых данных (количество бит на отсчет), получаемых с выхода аналого-цифрового преобразователя. Чем больше битов применяется для представления данных , тем более точными будут цифровые запись и воспроизведение.

Первые платы SB были 8-битовыми. Эти платы можно применять, если требования к качеству воспроизводимого звука невысоки. Преимущество 8-битовых плат заключается в их дешевизне по сравнению с более современными. Разрабатываемая система сжатия речевых сигналов ориентирована на использование 16-битовых плат, таких, например, как SB16 и AWE32. Переход от 8 битов к 16 не просто удвоил качество, а повысил его на порядок. Но, разумеется, для хранения 16-битовых звуковых файлов требуется вдвое большее дисковое пространство.

Монофонический и стереофонический звук

Еще одним важным компонентом звука является стереофонический и монофонический звук. Монофоническая запись проще, так как здесь нужен только один канал данных и звук этого канала подается на оба динамика. Для стереофонического же звука требуются два канала информации. Эти каналы могут содержать либо одинаковую, либо различную информацию. Однако даже в случае, когда оба канала содержат одинаковую информацию, наличие двух каналов обеспечивает более полный и богатый звук. Вот почему стереозвуки качественнее монозвуков, хотя для них и требуется большее дисковое пространство.

Итак, получая высшее качество речи, например используя 16-битовую стереозапись с частотой дискретизации 44.1 кГц, приходится жертвовать дисковым пространством. Но для записи человеческой речи, которая будет использоваться в системе сжатия, вполне достаточно 8- битовой монозаписи с частотой дискретизации 11,05 кГц.

Формат wav-файла

Данные, имеющие отношение к мультимедиа (звук, видео и т.п.), хранятся в файлах в так называемом RIFF-формате (Resource Interchange File Format - формат файла для обмена ресурсами). Как wav-файлы, содержащие звук, так и avi-файлы, содержащие видеоинформацию, имеют формат RIFF.

Файл в формате RIFF содержит вложенные фрагменты (chunk’s). Внешний фрагмент состоит из заголовка и области данных (рис.2).

0 4 8

rID rLen rData

04 24

wID Format Chunk WAVE Data Chunk

04 8 10 12

fID fLen wFormatTag nChannels nSamplesPerSec

14 16 18

nAvgBytesPerSec nBlockAlign FormatSpecific

04 8

dID dLen dData

Рис.4.2. Формат WAV-файла.

Первое двойное слово заголовка содержит четырехбуквенный код, который идентифицирует данные, хранящиеся во фрагменте. Второе двойное слово заголовка - код размера области данных в байтах (без учета размера самого заголовка).

Область данных имеет переменную длину, однако она должна быть выравнена по границе слова и при необходимости дополнена в конце нулевым байтом до целого числа слов.

Формат RIFF не описывает формат данных. Практически файл в формате RIFF может содержать любые данные для мультимедиа, причем формат данных зависит от типа данных.

Область, обозначенная на рис. 4.2. как ”rData”, может содержать внутри себя другие фрагменты Для файла, в котором хранятся звуковые данные (wav-файл), эта область содержит идентификатор данных “WAVE” , фрагмент формата звуковых данных “fmt” (три символа “fmt” и пробел на конце), а также фрагмент звуковых данных. Файл может дополнительно содержать фрагменты данных других типов, поэтому не следует думать, что заголовок wav-файла имеет фиксированный формат. Например, в файле могут присутствовать фрагменты “LIST” или “INFO”, содержащие информацию о правах копирования и другую дополнительную информацию (её можно узнать из документации, поставляемой в составе Microsoft SDK for Windows 95, v.3.1).

Область, обозначенная на как “Format Chunk” , описывает звуковые данные следующим образом:

1) поле wFormatTagописывает тип формата звуковых данных;

2) для импульсно-кодовой модуляции РСМ в этом поле должно находиться значение 1;

3) поле nChannelsсодержит количество каналов. В нем могут находиться значения 1 (моно) или 2 (стерео);

4) в поле nSamplesPerSecзаписана частота дискретизации, то есть количество выборок сигнала в секунду. В этом поле могут находиться стандартные значения (11,025 кгц, 22,05 кгц, 44,1 кгц) либо нестандартные значения, такие как 5000 кгц или 4400 кгц.

Правда, не все драйверы звуковых адаптеров могут работать с нестандартными частотами дискретизации.

Поле nAvgBytesPerSecсодержит среднюю скорость потока данных, т. е. количество байт в секунду, передаваемых драйверу устройства или получаемых от него. Эта информация может быть использована для оценки размера буфера, необходимого для размещения звуковых данных. Для монофонического сигнала с дискретностью 8 битов численное значение скорости совпадает со значением частоты дискретизации. Для стереофонического сигнала с дискретностью 8 битов скорость в два раза выше. Точное значение можно определить по формуле:

nAvgBytesPerSec = ( nChannels* nSamplesPerSec* wBitsPerSample) / 8

В поле nBlockAlignнаходится выравнивание блока в байтах, которое подсчитывается по формуле:

nBlockAlign = ( nChannels* wBitsPerSample ) / 8

Поле wBitsPerSampleсодержит количество битов, используемых для представления одной выборки сигнала. Обычно используются значения 8 или 16.

Что же касается формата самих звуковых данных, то он зависит от количества каналов и от дискретности.

Для монофонического сигнала с дискретностью 8 битов звуковые данные представляют собой массив однобайтовых значений, каждое из которых является выборкой сигнала.

Для стереофонического сигнала с дискретностью 8 битов звуковые данные имеют формат массива двухбайтовых слов, причем младший байт слова соответствует левому каналу, а старший - правому.

Формат звуковых данных с дискретностью 16 битов выглядит аналогично. Для монофонического сигнала данные хранятся в массиве 16-битовых слов. Для стереофонического используется массив двойных слов, причем младшему слову соответствует левый канал, а старшему - правый.

Диапазон изменения значений выборок сигнала определяется дискретизацией. Для 8-битовых данных он составляет от 0 до 255 (0), причем отсутствию сигнала (полной тишине) соответствует значение 128 (0). Для 16-битовых данных диапазон изменения составляет от -32768 до 32767, отсутствию сигнала соответствует значение 0.

Представим формат заголовка WAV-файла в виде таблицы:

Byte OffSet	Имя переменной	Длина в байтах	Описание
00h	rID	4	“RIFF”
04h	rLen	4	длина блока данных
08h	rData	rLen	блок данных

Блок данных “rData”

00h	wID	4	“WAVE”
04h	Format Chunk...	18h	блок формата звуковых данных
18h	WAVE Data Chunk...	---	блок звуковых данных

Блок формата звуковых данных

00h	fID	4	“fmt “
04h	fLen	4	длина данных в блоке ФЗД
08h	wFormatTag	2	тип формата звуковых данных
0Ah	nChannels	2	количество каналов
0Ch	nSamplesPerSec	2	частота дискретизации
0Eh	nAvgBytesPerSec	2	средняя скорость потока данных
10h	nBlockAlign	2	выравнивание блока в байтах
12h	FormatSpecific	2	формат спец. области данных

Блок звуковых данных

00h	dID	4	“DATA”
04h	dLen	4	Длина Wav-данных
08h	dData	dLen	Wav-данные

.\ 2.1. Методы параметрического описания речевых сигналов

При распознавании речи, как правило, оперируют не с исходным речевым сигналом, а с так называемым параметрическим описанием речевого сигнала.

Существует два подхода к параметрическому описанию слитной речи

выделение информативных признаков речевого сигнала, аппроксимирующих параметры речевого тракта, непосредственно по оцифрованной речевой волне;
выделение признаков речевой волны аналоговым способом с последующей их оцифровкой.

Достоинствами первого подхода являются большая гибкость и стабильность выделения признаков. К недостаткам можно отнести большой объем памяти для хранения оцифрованной речи и большие временные затраты на последующую обработку. Достоинства второго подхода заключаются в возможности получения информативных параметров первичного описания, а также их обработки в реальном масштабе времени. К основным недостаткам этого подхода следует отнести трудность создания стабильной аппаратуры для получения некоторых параметров (частоты основного тона, значения формантных частот и др.)

Современные вычислительные системы, включающие более одного процессора, позволяют осуществить формирование параметров, учитывая достоинства обоих подходов. Однако успехи цифровой ВТ и микроэлектроники привели к тому, что для реализации устройств анализа речевых сигналов преобладающее значение приобрели цифровые методы обработки сигналов. Поэтому в дальнейшем будет рассматриваться только первый подход.

Человек может быть рассмотрен как идеальная система восприятия речевых сигналов, поэтому при разработке блоков ПРО важно и необходимо учитывать следующие особенности восприятия речи человеком

описание сигнала методами спектрального анализа;
высокие быстродействие и избирательность анализатора спектра;
логарифмическая шкала спектрального анализатора;
малое влияние фазовых соотношений на качество анализа;
большой динамический диапазон входных сигналов;
использование операторов дифференцирования, интегрирования, бинарного квантования, сглаживание параметров.

В СРР блок ПРО выполняет две важные функции

выделение наиболее информативных с точки зрения распознавания параметров речевого сигнала;
сжатие исходного амплитудно-временного описания речевого сигнала до приемлемых размеров. (Возможность подобного вида обработки вытекает из огромной избыточности речи: так, для непосредственной передачи амплитудно-временного описания речи требуется 50-100 Кбит/с речи, в то же время информационное содержание речи составляет 50-100 бит/с).

Существующие методы выделения параметров речевого сигнала можно условно разделить на три группы: параметрические, фонетические и неакустические.

Параметрические методы основаны на представлении речевого сигнала как реализации некоторого процесса во времени и выделении каких-либо параметров этого процесса. К ним относятся:

спектрально-полосные;
ортогональные;
корреляционные;
метод непосредственного вычисление спектра с помощью быстрого преобразования Фурье;
методы, связанные с выделением мгновенной частоты переходов через нуль клиппированного речевого сигнала;
временные методы, основанные на анализе распределения длительности интервалов между переходами через нуль или экстремумами.

Фонетические методы опираются на теорию речеобразования и выделение признаков, характеризующих спектр артикуляции. К этим признакам относятся:

дифференциальные;
сегментные;
формантные параметры, обратная фильтрация;
методы оптимальной фильтрации и рекуррентного оценивания.

Неакустические методы состоят в выделении информации о процессах, сопровождающих артикуляцию:

о положении и движении артикуляционных органов;
о скорости потоков воздуха через рот и нос говорящего;
о биоэлектрической активности мышц, участвующих в артикуляции и т.д.

<<< < Предыдущая 12 / 62 3 4 5 6 > Следующая >>>

Соседние файлы в папке Lecture14

#
01.05.2014311.3 Кб139Lecture14.doc
#
01.05.201416 б86readme