Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции Максимова.doc
Скачиваний:
1
Добавлен:
30.12.2019
Размер:
20.86 Mб
Скачать

Клиппирование речевого сигнала

Клиппирование – предельное амплитудное ограничение сигнала, которое применяется только для обработки речи. Речевой сигнал превращается в последовательность прямоугольных импульсов разной ширины, то есть передается информация только о моментах перехода сигнала через ноль. Цифровой вариант клиппирования можно назвать ИКМ с одним битом на отсчет: если сигнал в момент отсчета положителен, он кодируется единицей, если отрицателен – нулем.

Удивительно, что при таком компактном представлении речи её разборчивость остается весьма высокой. Естественность, конечно, теряется. Речь приобретает специфичное жесткое звучание. Разработано много методов улучшения звучания клиппированной речи, например, дополнительная передача огибающей речи, выделенной до клиппирования.

Избыточность речевого сигнала. Вокодер

При ИКМ с А- и -законами, ДИКМ, АДИКМ, АДМ, клиппировании сжатие речи достигается за счет компактного описания формы звукового сигнала. При этом не учитывается природа речеобразования. Если же при анализе и синтезе речи ее учесть, то речь можно сжать значительно сильнее. Это и делают ВОКОДЕРЫ.

В русском языке 42 фонемы: 6 гласных звуков, остальные – согласные. Чтобы закодировать их номера нужно 6 бит. Человек произносит в секунду около 10 звуков. То есть от центральной нервной системы к речевому аппарату сигналы управления передаются со скоростью 10[log 2 42] = 60 бит/с. В то же время в цифровой телефонии используется скорость 64 Кбит/c (8 бит на отсчет, частота дискретизации 8 кГц). Разница (то есть избыточность) ощутима. B речевой аппарат поступает сигнал небольшого объема, а создается сигнал с большим объемом. Причинa этого – способ образования речевого сигнала. Линейная модель речеобразования представляет речь как систему, состоящую из генератора сигнала возбуждения (генераторная функция) и линейной системы с медленно изменяющимися параметрами (фильтровой функции), которая им возбуждается. В такой модели не учитывается взаимное влияние голосовой щели и голосового тракта. Это не соответствует действительности, зато сильно упрощает анализ и синтез.

Для воссоздания речи необходимо создавать "несущую" (с помощью генераторов основного тона и шума) и возбуждать полученным сигналом фильтр с передаточной функцией, соответствующей огибающей спектра и изменяющейся во времени со скоростью произнесения звуков речи.

Эта идея была осуществлена в конце 30-х годов Дадли (Homer W. Dudley). Он разработал устройство, которое преобразовывало речь в аналоговый сигнал с полосой частот шириной 300 Гц для передачи по каналу связи, т.е. с компрессией речи в 10 раз. Это устройство было названо вокодером (VOice – голос, CODER – кодировщик) и давало синтезированную речь низкого качества. За прошедшие 60 лет вокодеры стали вполне пригодными для коммерческой телефонии (рис. 11.12).

Анализатор А – анализатор спектра Т-Ш – выделитель сигнала тон-шум ВОТ – выделитель основного тона УО – устройство объединения сигналов

Синтезатор УР – устройство разъединения сигналов С – синтезатор спектра П – переключатель вида спектра ГОТ – генератор основного тона ГШ – генератор шума

Рис. 11.12. Схема вокодера

Bокодеры можно разделить на два класса: речеэлементные и параметрические. В первых при передаче распознаются произнесенные элементы речи (например, фонемы) и передаются только их номера. На приеме эти элементы создаются по правилам речеобразования или берутся из памяти устройства. Область применения фонемных вокодеров – линии командной связи, речевое управление и говорящие автоматы информационно-справочной службы. В таких вокодерах происходит скорее автоматическое распознавание слуховых образов нежели определение параметров речи.

В параметрических вокодерах из речевого сигнала выделяют два типа параметров и по ним на приеме синтезируют речь: параметры, характеризующие огибающую спектра речевого сигнала (фильтровую функцию); параметры, характеризующие источник речевых колебаний (генераторную функцию) – частота основного тона, ее изменение во времени, моменты появления и исчезновения основного тона, шумового сигнала.

Все методы анализа речи предполагают достаточно медленное изменение свойств речевого сигнала во времени. Характеристики голосового тракта можно считать неизменными на интервале 10-20 мс, то есть параметры надо измерять с частотой порядка 1/20 мс = 50 Гц.

Передающая часть вокодера называется анализатором, приемная – синтезатором. B вокодеры обязательно входят два типа блоков: фильтровой и генераторный. Обычно для создания генераторной функции в синтезаторе используются генераторы основного тона (ГОТ) и шумового сигнала (ГШ) с переключателем тон-шум (П). В анализаторе, соответственно, есть выделители основного тона (ВОТ) и сигнала смены вида спектра (ТШ). Для выделения и воссоздания фильтровой функции нужны устройства анализа и синтеза спектра речевых сигналов. При вводе в канал сигнал-параметры должны быть объединены в один сигнал. При выводе этого сигнала его надо разделить на отдельные сигнал-параметры, что и выполняют соответствующие устройства.

При разработке первых вокодеров использовались аналоговые сигналы на всем протяжении тракта – от микрофона до телефона. В последние годы вокодеры стали создавать целиком на цифровой основе. Из речевого сигнала после его преобразования в цифровую форму (то есть дискретизации, квантования и кодирования) выделяются сигнал-параметры (также в цифровой форме) и вводятся в канал связи. На приеме по сигнал-параметрам синтезируется дискретный речевой сигнал, превращаемый затем в непрерывный.

По принципу определения параметров фильтровой функции речи различают вокодеры: полосные (канальные, channel); формантные; ортогональные; липредеры (с линейным предсказанием речи); гомоморфные.

В полосных вокодерах спектр речи делится на 7 – 20 полос (каналов) аналоговыми или цифровыми полосовыми фильтрами. Большее число каналов в вокодере дает большую натуральность и разборчивость. С каждого полосового фильтра сигнал поступает на детектор и фильтр низких частот с частотой среза 25 Гц. Таким образом, сигналы на выходе каждого канала изменяются с частотой менее 25 Гц. Их передача возможна в аналоговом или цифровом виде.

В формантных вокодерах огибающая спектра речи описывается комбинацией формант (резонансных частот голосового тракта). Основные параметры формант – центральная частота, амплитуда и ширина.

В ортогональных вокодерах огибающая мгновенного спектра раскладывается в ряд по выбранной системе ортогональных базисных функций. Вычисленные коэффициенты этого разложения передаются на приемную сторону. Распространение получили гармонические вокодеры, использующие разложение в ряд Фурье.

Вокодеры c линейным предсказанием (Linear Prediction Coding, LPC) или липредеры основаны на оригинальном математическом аппарате. Гомоморфная обработка позволяет разделить генераторную и фильтровую функции, образующие речевой сигнал.

Из-за сложности определения параметров генераторной функции появились полувокодеры (Voice Excited Vocoder, VEV), в которых вместо сигналов основного тона и тон-шума используется полоса речевого сигнала. Полоса частот до 800 – 1000 Гц кодируется АДИКМ, АДМ или с помощью линейного предсказания малого порядка, а в некоторых моделях передается в аналоговом виде. Есть разные типы полувокодеров-липредеров: вокодеры VELP (Voice Excited Linear Prediction); вокодеры RELP (Residual Excited Linear Prediction).

В последнее время все шире используются липредеры с кодовым возбуждением (Code Excited Linear Prediction, CELP). Такие вокодеры имеют на приемном и передающем концах кодовую книгу (codebook). Кодовая книга – это матрица, строки которой являются последовательностями чисел (отсчетов сигналов генераторных функций, то есть это сигналы возбуждения).

В таблице 11.1 приведены основные виды вокодеров и требуемая пропускная способность канала связи. Сегодня вокодеры применяют для кодирования телефонных сигналов в военных и коммерческих цифровых системах связи. Перспективно применение вокодеров для организации служебной телефонной связи со скоростью передачи данных 1200 – 2400 бит/с. Формантные и полосные вокодеры находят применение также при цифровой передаче телефонных сигналов по КВ-каналам радиосвязи.

Таблица 11.1. Основные виды вокодеров

Вид вокодера

Полоса пропускания канала связи в режиме передачи

аналоговом, Гц

цифровом, бит/с

Фонемный

75

Формантный

140

1200

Полосный, ортогональный, липредер

400

2400

Полувокодер

900

9600

Современные вокодеры обеспечивают хорошее качество речи при скорости передачи 2400–4800 бит/с и качество речи, пригодное для ведения служебных переговоров, при скорости передачи 1200 бит/с.