
- •Методы обработки речевых сигналов в задаче распознавания
- •1. Основные этапы обработка звукового сигнала в системе распознавания речи.
- •2. Регистрация речевых сигналов с использованием звуковых карт.
- •Частота дискретизации
- •Разрядность представления звуковых данных
- •Монофонический и стереофонический звук
- •Формат wav-файла
- •2.2. Окно и шаг анализа
- •2.3. Некоторые основные методы анализа речевых сигналов
- •2.4. Влияние метода анализа на надежность распознавания
- •1.2.5. Недостатки существующих методов первичного описания
- •1.2.6. Обработка речевого сигнала в условиях шума
- •1.2.7. Выделение начала и конца слова
Частота дискретизации
При записи через SB сигнал от микрофона подается на звуковую плату. Здесь микросхема АDC формирует отсчеты входного звука. Число отсчетов в секунду называется частотой дискретизации. Отсюда нетрудно сделать вывод о принципе записи звуков через SB: чем выше частота дискретизации, тем лучше воспроизведение. Другими словами, большее число отсчетов создает более реалистический звук. В SB и большинстве других звуковых плат нижняя частота дискретизации составляет 11025 отсчетов в секунду или 11,025 кГц. Имеется также возможность записывать с частотой дискретизации 22,05 и 44,1 кГц.
Очевидно, что при большей частоте дискретизации звук лучше, потому что при этом увеличивается диапазон слышимых частот. Однако здесь кроется и недостаток: чем выше частота дискретизации, тем больше данных необходимо хранить в WAV-файле, а для этого требуется дисковое пространство.
Разрядность представления звуковых данных
На качество звука большое влияние оказывает разрядность представления звуковых данных (количество бит на отсчет), получаемых с выхода аналого-цифрового преобразователя. Чем больше битов применяется для представления данных , тем более точными будут цифровые запись и воспроизведение.
Первые платы SB были 8-битовыми. Эти платы можно применять, если требования к качеству воспроизводимого звука невысоки. Преимущество 8-битовых плат заключается в их дешевизне по сравнению с более современными. Разрабатываемая система сжатия речевых сигналов ориентирована на использование 16-битовых плат, таких, например, как SB16 и AWE32. Переход от 8 битов к 16 не просто удвоил качество, а повысил его на порядок. Но, разумеется, для хранения 16-битовых звуковых файлов требуется вдвое большее дисковое пространство.
Монофонический и стереофонический звук
Еще одним важным компонентом звука является стереофонический и монофонический звук. Монофоническая запись проще, так как здесь нужен только один канал данных и звук этого канала подается на оба динамика. Для стереофонического же звука требуются два канала информации. Эти каналы могут содержать либо одинаковую, либо различную информацию. Однако даже в случае, когда оба канала содержат одинаковую информацию, наличие двух каналов обеспечивает более полный и богатый звук. Вот почему стереозвуки качественнее монозвуков, хотя для них и требуется большее дисковое пространство.
Итак, получая высшее качество речи, например используя 16-битовую стереозапись с частотой дискретизации 44.1 кГц, приходится жертвовать дисковым пространством. Но для записи человеческой речи, которая будет использоваться в системе сжатия, вполне достаточно 8- битовой монозаписи с частотой дискретизации 11,05 кГц.
Формат wav-файла
Данные, имеющие отношение к мультимедиа (звук, видео и т.п.), хранятся в файлах в так называемом RIFF-формате (Resource Interchange File Format - формат файла для обмена ресурсами). Как wav-файлы, содержащие звук, так и avi-файлы, содержащие видеоинформацию, имеют формат RIFF.
Файл в формате RIFF содержит вложенные фрагменты (chunk’s). Внешний фрагмент состоит из заголовка и области данных (рис.2).
0 4 8
rID
rLen rData
04 24
wID Format Chunk WAVE Data Chunk
04 8 10 12
fID fLen wFormatTag nChannels nSamplesPerSec
14
16 18
nAvgBytesPerSec nBlockAlign FormatSpecific
04 8
dID dLen dData
Рис.4.2. Формат WAV-файла.
Первое двойное слово заголовка содержит четырехбуквенный код, который идентифицирует данные, хранящиеся во фрагменте. Второе двойное слово заголовка - код размера области данных в байтах (без учета размера самого заголовка).
Область данных имеет переменную длину, однако она должна быть выравнена по границе слова и при необходимости дополнена в конце нулевым байтом до целого числа слов.
Формат RIFF не описывает формат данных. Практически файл в формате RIFF может содержать любые данные для мультимедиа, причем формат данных зависит от типа данных.
Область, обозначенная на рис. 4.2. как ”rData”, может содержать внутри себя другие фрагменты Для файла, в котором хранятся звуковые данные (wav-файл), эта область содержит идентификатор данных “WAVE” , фрагмент формата звуковых данных “fmt” (три символа “fmt” и пробел на конце), а также фрагмент звуковых данных. Файл может дополнительно содержать фрагменты данных других типов, поэтому не следует думать, что заголовок wav-файла имеет фиксированный формат. Например, в файле могут присутствовать фрагменты “LIST” или “INFO”, содержащие информацию о правах копирования и другую дополнительную информацию (её можно узнать из документации, поставляемой в составе Microsoft SDK for Windows 95, v.3.1).
Область, обозначенная на как “Format Chunk” , описывает звуковые данные следующим образом:
1) поле wFormatTagописывает тип формата звуковых данных;
2) для импульсно-кодовой модуляции РСМ в этом поле должно находиться значение 1;
3) поле nChannelsсодержит количество каналов. В нем могут находиться значения 1 (моно) или 2 (стерео);
4) в поле nSamplesPerSecзаписана частота дискретизации, то есть количество выборок сигнала в секунду. В этом поле могут находиться стандартные значения (11,025 кгц, 22,05 кгц, 44,1 кгц) либо нестандартные значения, такие как 5000 кгц или 4400 кгц.
Правда, не все драйверы звуковых адаптеров могут работать с нестандартными частотами дискретизации.
Поле nAvgBytesPerSecсодержит среднюю скорость потока данных, т. е. количество байт в секунду, передаваемых драйверу устройства или получаемых от него. Эта информация может быть использована для оценки размера буфера, необходимого для размещения звуковых данных. Для монофонического сигнала с дискретностью 8 битов численное значение скорости совпадает со значением частоты дискретизации. Для стереофонического сигнала с дискретностью 8 битов скорость в два раза выше. Точное значение можно определить по формуле:
nAvgBytesPerSec = ( nChannels* nSamplesPerSec* wBitsPerSample) / 8
В поле nBlockAlignнаходится выравнивание блока в байтах, которое подсчитывается по формуле:
nBlockAlign = ( nChannels* wBitsPerSample ) / 8
Поле wBitsPerSampleсодержит количество битов, используемых для представления одной выборки сигнала. Обычно используются значения 8 или 16.
Что же касается формата самих звуковых данных, то он зависит от количества каналов и от дискретности.
Для монофонического сигнала с дискретностью 8 битов звуковые данные представляют собой массив однобайтовых значений, каждое из которых является выборкой сигнала.
Для стереофонического сигнала с дискретностью 8 битов звуковые данные имеют формат массива двухбайтовых слов, причем младший байт слова соответствует левому каналу, а старший - правому.
Формат звуковых данных с дискретностью 16 битов выглядит аналогично. Для монофонического сигнала данные хранятся в массиве 16-битовых слов. Для стереофонического используется массив двойных слов, причем младшему слову соответствует левый канал, а старшему - правый.
Диапазон изменения значений выборок сигнала определяется дискретизацией. Для 8-битовых данных он составляет от 0 до 255 (0), причем отсутствию сигнала (полной тишине) соответствует значение 128 (0). Для 16-битовых данных диапазон изменения составляет от -32768 до 32767, отсутствию сигнала соответствует значение 0.
Представим формат заголовка WAV-файла в виде таблицы:
.
-
Byte OffSet
Имя переменной
Длина в байтах
Описание
00h
rID
4
“RIFF”
04h
rLen
4
длина блока данных
08h
rData
rLen
блок данных
Блок данных “rData”
-
00h
wID
4
“WAVE”
04h
Format Chunk...
18h
блок формата звуковых данных
18h
WAVE Data Chunk...
---
блок звуковых данных
Блок формата звуковых данных
-
00h
fID
4
“fmt “
04h
fLen
4
длина данных в блоке ФЗД
08h
wFormatTag
2
тип формата звуковых данных
0Ah
nChannels
2
количество каналов
0Ch
nSamplesPerSec
2
частота дискретизации
0Eh
nAvgBytesPerSec
2
средняя скорость потока данных
10h
nBlockAlign
2
выравнивание блока в байтах
12h
FormatSpecific
2
формат спец. области данных
Блок звуковых данных
-
00h
dID
4
“DATA”
04h
dLen
4
Длина Wav-данных
08h
dData
dLen
Wav-данные
.\ 2.1. Методы параметрического описания речевых сигналов
При распознавании речи, как правило, оперируют не с исходным речевым сигналом, а с так называемым параметрическим описанием речевого сигнала.
Существует два подхода к параметрическому описанию слитной речи
выделение информативных признаков речевого сигнала, аппроксимирующих параметры речевого тракта, непосредственно по оцифрованной речевой волне;
выделение признаков речевой волны аналоговым способом с последующей их оцифровкой.
Достоинствами первого подхода являются большая гибкость и стабильность выделения признаков. К недостаткам можно отнести большой объем памяти для хранения оцифрованной речи и большие временные затраты на последующую обработку. Достоинства второго подхода заключаются в возможности получения информативных параметров первичного описания, а также их обработки в реальном масштабе времени. К основным недостаткам этого подхода следует отнести трудность создания стабильной аппаратуры для получения некоторых параметров (частоты основного тона, значения формантных частот и др.)
Современные вычислительные системы, включающие более одного процессора, позволяют осуществить формирование параметров, учитывая достоинства обоих подходов. Однако успехи цифровой ВТ и микроэлектроники привели к тому, что для реализации устройств анализа речевых сигналов преобладающее значение приобрели цифровые методы обработки сигналов. Поэтому в дальнейшем будет рассматриваться только первый подход.
Человек может быть рассмотрен как идеальная система восприятия речевых сигналов, поэтому при разработке блоков ПРО важно и необходимо учитывать следующие особенности восприятия речи человеком
описание сигнала методами спектрального анализа;
высокие быстродействие и избирательность анализатора спектра;
логарифмическая шкала спектрального анализатора;
малое влияние фазовых соотношений на качество анализа;
большой динамический диапазон входных сигналов;
использование операторов дифференцирования, интегрирования, бинарного квантования, сглаживание параметров.
В СРР блок ПРО выполняет две важные функции
выделение наиболее информативных с точки зрения распознавания параметров речевого сигнала;
сжатие исходного амплитудно-временного описания речевого сигнала до приемлемых размеров. (Возможность подобного вида обработки вытекает из огромной избыточности речи: так, для непосредственной передачи амплитудно-временного описания речи требуется 50-100 Кбит/с речи, в то же время информационное содержание речи составляет 50-100 бит/с).
Существующие методы выделения параметров речевого сигнала можно условно разделить на три группы: параметрические, фонетические и неакустические.
Параметрические методы основаны на представлении речевого сигнала как реализации некоторого процесса во времени и выделении каких-либо параметров этого процесса. К ним относятся:
спектрально-полосные;
ортогональные;
корреляционные;
метод непосредственного вычисление спектра с помощью быстрого преобразования Фурье;
методы, связанные с выделением мгновенной частоты переходов через нуль клиппированного речевого сигнала;
временные методы, основанные на анализе распределения длительности интервалов между переходами через нуль или экстремумами.
Фонетические методы опираются на теорию речеобразования и выделение признаков, характеризующих спектр артикуляции. К этим признакам относятся:
дифференциальные;
сегментные;
формантные параметры, обратная фильтрация;
методы оптимальной фильтрации и рекуррентного оценивания.
Неакустические методы состоят в выделении информации о процессах, сопровождающих артикуляцию:
о положении и движении артикуляционных органов;
о скорости потоков воздуха через рот и нос говорящего;
о биоэлектрической активности мышц, участвующих в артикуляции и т.д.