Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
реферат Дубровин ПС-91.doc
Скачиваний:
3
Добавлен:
01.03.2025
Размер:
337.41 Кб
Скачать

Кодирование речи коэффициентами линейного предсказания (клп)

Кодирование речи коэффициентами линейного предсказания опирается на теорию статистического анализа временных рядов. Временной ряд - это последовательность наблюдений (отсчетов), упорядоченная во времени.

Суть метода заключается в следующем. Пусть имеется последовательность отсчетов (выборки) речевого сигнала: , ,... . Для этой выборки вычисляется «взвешенное среднее» значение. Для интервала 1020 мс считают неизменными статистические свойства речевого сигнала. Этот интервал кодируют набором коэффициентов , который минимизирует среднеквадратическую ошибку предсказания, т.е. сводит к минимуму ошибку предсказания между исходным и сглаженным рядом. Вычисление коэффициентов представляет весьма трудоемкий процесс (решаются разностные уравнения методом наименьших квадратов).

Практически интервал квантования обычно составляет 50100 мкс, число отсчетов 100200, число коэффициентов в пределах 4-14.

Принцип КЛП-анализа и кодирования поясняет структурная схема, приведенная на рис. 8.14.

В итоге КЛП-анализа ИКМ-представление речи, составленное из отсчетов, следующих с частотой 1020 кГц, преобразуется в последовательность векторов параметров, следующих с частотой 50100 Гц. Это дает сжатие описания речи в 50-100 раз при хорошем качестве речи.

Данный метод синтеза речи объединяет в себе достоинства метода ИКМ и формантного синтеза. При КЛП-синтезе происходит реализация модели речеобразования. В качестве речевого тракта используют линейные рекурсивные фильтры. Связь отдельных разрядов кадра управляющих параметров с элементами структуры КЛП-синтезатора показана на рис. 8.15.

Рис. 8.14 - Структурная схема кодирования речи КЛП

Рисунок 8.15 - Структурная схема КЛП-синтезатора речи

Десять последних элементов кадра КЛП соответствуют коэффициентам, которые используются в цифровом многозвенном фильтре для генерации речи. Для практической реализации используют специальные вычислительные или программируемые процессоры сигналов, так как быстродействия обычных процессоров недостаточно.

Этот метод сложен в реализации, так как требует высокоскоростной элементной базы. Однако метод считается наиболее перспективным, поскольку он опирается на хорошее понимание процессов речеобразования. Возможность управлять параметрами модели позволяет осуществлять согласование звуков и слов по уровню энергии, по темпу, по тональному рисунку. Это делает возможным синтез сложных высказываний из набора элементов с помощью правил.

В заключение приведем сравнительные данные основных методов синтеза речи по затратам информации (табл. 8.2).

Наименьшую скорость передачи данных, управляющих речевым синтезом речи, имеет фонемный метод. Другое, не менее важное преимущество, это возможность формировать речевые сообщения по правилам (неограниченный словарь синтезируемых слов).

Наряду с широким применением синтезаторов речи в мультимедиа, методы и средства речевого общения применяются в телефонных автоответчиках, в читающих устройствах для слепых и говорящих устройствах для немых людей, а также в современной военной технике, например, в самолетах, космических системах и т.п.

Разработанные за последние 20 лет методы кодирования обеспечивают хорошее качество (разборчивость, натуральность звучания, повышенную возможность опознавания говорящего) при передаче речи в цифровой форме по узкополосным каналам связи. На практике широкое применение нашли кодеры с линейным предсказанием при многоимпульсном возбуждении и при возбуждении от кода.

Рисунок 3.1 – Структурная схема кодирования

Речевой сигнал S разделяется на кадры длительностью в 20 мс. В каждом кадре с использованием алгоритма линейного предсказания (LPC) определяются параметры синтезирующего фильтра 1/А(z), после чего методом анализа через синтез находятся параметры сигнала возбуждения, минимизирующие взвешенный сигнал ошибки. Сигнал возбуждения представляется наборами индексов векторов извлекаемых из стохастической и адаптивной кодовых книг а также наборами соответствующих им коэффициентов усиления. При кодировании сигнала возбуждения кадр разбивается на 4 подкадра по 5 миллисекунд. В каждом подкадре кодируются и передаются индексы (9 бит на индекс), коэффициенты усиления. В целом кадр кодируется 144 битами из которых 40 бит отводятся на кодирование коэффициентов усиления с использованием скалярного квантования.

При использовании векторного квантования для каждого из двух коэффициентов усиления производилось объединение четырех значений, полученных для подкадров одного кадра, в один четырехмерный вектор. В результате этого для каждого кадра формировались два вектора коэффициентов усиления для квантования которых использовались различные кодовые книги. Формирование кодовых книг выполнялось на основе обучающей выборки размером 16 000 векторов, с использованием которой для каждого из векторов были построены по две кодовые книги размером 64 и 128 эталонных векторов (длина кодового слова 6 и 7 бит соответственно). При таких размерах кодовых книг количество бит, отводимых на кодирование коэффициентов усиления, сокращается соответственно на 28 и 26 бит на кадр.

Обучающая выборка формировалась в результате обработки речевого материала от двенадцати дикторов (5 женщин и 7 мужчин) общей продолжительностью 8 минут. Для построения кодовых книг использовался алгоритм К средних с начальными условиями, полученными использованием Диагностической Меры Приемлемости путем прослушивания 12 фонетически сбалансированных 6-слоговых предложений, произносимых дикторами, не участвовавшими в формировании обучающей выборки.

Качество звучания оценивалось бригадой из 10 слушателей. По результатам оценки вычислялась средняя оценка мнений (процент предпочтений).

Таким образом, использование векторного квантования коэффициента усиления позволяет без ущерба качества звучания понизить скорость до 2,4 Кбит/сек.

Рисунок Кодирование речевого сигнала в GSM (полная скорость).