Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Поволжский государственный технологический университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

СТАРИКОВ_ ДИПЛОМ_ПЕЧАТЬ.docx

Скачиваний:

Добавлен:

01.07.2025

Размер:

3.42 Mб

Скачать

☆

<<< < Предыдущая 1 2 34 / 194 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 > Следующая >>>

2.4 Извлечение признаков

Целью обработки сигнала в подобных приложениях является выделение в речевом сигнале информации, которая релевантная для распознавания по голосу. Такая информация представляет индивидуальные особенности голоса каждого человека, или признаки. Эти признаки выделяются с целью формирования шаблона или для того, чтобы сравнить их с уже зарегистрированными шаблонами. Изначально более подходящие признаки для распознавания определить невозможно. Для этого нужна экспериментальная оценка с предварительным перебором всех возможных признаков.

Можно разбить признаки на два вида:

низкоуровневые (анатомическое строение речевого аппарата);
высокоуровневые (манера произношения).

Чтобы обработать речевой сигнал, нужно использовать кратковременный анализ. Сам сигнал следует разбить на временные окна определенного размера. Предполагается, что в этих окнах не меняются параметры сигнала. Работая с речевым сигналом, размер такого окна должен составлять 10-30 мс. Для наибольшей точности между окнами следует делать перекрытия, которые равны половине длины окна. Чтобы извлечь признаки из каждого окна, к ним применяются специальные алгоритмы. Ниже будут рассмотрены два основных метода извлечения признаков из речевого сигнала.

2.4.1 Мел-частотные кепстральные коэффициенты

Мел

В переводе с др.греческого "мэлос" - это звук. На практике мел - это психофизическая единица высоты звука, в основании которой лежит восприятие этого звука человечискими слуховыми анализаторами.

Амплитудно-частотные характеристики человеческого органа слуха даже близко не похожи на прямую, а амплитуда не является точной мерой измерения громкости (рисунок 2.3). В связи с этим и были введены эмпирические единицы громкости звука.

Рисунок 2.3 АЧХ человеческого органа слуха

Точно так же и высота звука, которая воспринимается органами слуха человека, не является линейно зависимой от его частоты (рисунок 2.4)

Рисунок 2.4 Зависимость высоты звука от его частоты

Единицы измерения мел часто используются в системах, задачей которых является распознавание. С их помощью можно близко изучить устройство человеческого восприятия.

Кепстр

Слово "cepstrum" появилось с помощью перестановки букв в слове "spectrum" [5]. То есть он был создан после перестановки букв в слове "спектр". Оно было введено в 1963 году Богертом. Кепстр является эмпирически измеряемой величиной - результатом взятия преобразования Фурье логарифма спектра сигнала. Кепстр разделяют на три вида:

энергетический кепстр;
комплексный кепстр;
реальный кепстр;
фазовый кепстр.

Дата определения энергетического кепстра - 1963 год. Это была работа целой группы людей: Bogert, Healy, Tukey. Их работа называлась "The Quefrency Alanysis of Time Series for Echoes: Cepstrum, Pseudo Autocovariance, Cross-Cepstrum and Saphe Cracking". Энергетический кепстр может быть определен двумя способами:

устно: энергетический кепстр сигнала - это величина Фурье-спектра логарифма квадратичной величины Фурье-спектра сигнала;
с помощью алгоритма:

Комплексный кепстр предложил Оппенгейм. Это была его работа по теории гомоморфных систем. Алгоритмическое представление комплексного кепстра:

Реальный кепстр (РК) использует логарифм функции, которая определена для реальных значений. Данный кепстр имеет взаимосвязь с энергетическим кепстром (ЭК):

А так же с комплексным спектром (КК):

где - обращенный по времени комплексный кепстр.

В основе комплексного кепстра лежит комплексный логарифм функции, которая определена для комплексных значений.

Взаимосвязь комплексного кепстра и фазового:

Различием между комплексным и реальным кепстрами является то, что кроме информации об амплитуде спектра, комплексный кепстр содержит еще и данные о фазе исходного спектра. Это добавляет возможность реконструкции сигнала.

В целом кепстр можно рассматривать как информацию о скорости изменения в различных диапазонах спектра. В первое время его использовали для измерения сейсмических отголосков после землетрясений и сильных взрывов. В настоящее время его применение нашли в системах распознавания речи.

Алгоритм метода

В системах распознавания по голосу данный метод считается одним из самых популярных. Суть метода заключается в следующем [4]:

1. Подача последовательности отсчетов определенной части сигнала, которая исследуется на итерации x₀,....,x_N_-1.

2. Применение весовой функции для уменьшения искажений. Чаще всего в качестве весовой функции используют окно Хэмминга:

где - размер окна в отсчетах.

3. Дискретное преобразование Фурье:

где соответствует частотам

где является частотой дискретизация.

Так же можно использовать быстрое преобразование Фурье:

Основная идея быстрого преобразования Фурье заключается в том, что каждую вторую выборку можно использовать для получения половинного спектра. Формально это означает, что формула дискретного преобразования Фурье может быть представлена в виде двух сумм.

4. Далее с помощью треугольных фильтров идет разбиение на диапазоны. Границы этих фильтров рассчитываются в шкале мел. Мел - единица высоты звука, основанная на восприятии этого звука нашими ушами. Формула для перевода в мел-частотную область:

Формула обратного преобразования:

Чаще всего используют 24 фильтра. Количество фильтров обозначим как _.Фильтры применяются к квадратам модулей коэффициентов преобразования Фурье, а затем высчитывается логарифм:

где - весовые коэффициенты фильтров, которые были получены.

5. Дискретное косинусное преобразование является последним этапом данного метода. На этой стадии происходит вычисление мел-частотных кепстральных коэффициентов (MFCC):

Коэффициент - энергия сигнала, поэтому он не используется. Количество мел-частотных кепстральных коэффициентов на практике равняется порядка 12.

<<< < Предыдущая 1 2 34 / 194 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
25.11.201962.37 Кб40СС пр-ва энергии - ЛЕКЦИЯ.docx
#
01.05.20251.3 Mб11ССУ.docx
#
01.07.2025237.19 Кб6Стандарты 2.docx
#
10.07.201936.83 Кб20Становление государственности у восточных славя....docx
#
15.11.201921.32 Mб136Станок Beaver-24A Новый.doc
#
01.07.20253.42 Mб4СТАРИКОВ_ ДИПЛОМ_ПЕЧАТЬ.docx
#
03.05.2015222.29 Кб34стата 4 сем.docx
#
03.05.2015201.93 Кб70статистика 3 курс.docx
#
03.05.2015198.82 Кб17Статистика 3 курс.docx
#
19.08.2019508.42 Кб19Статистика-3 (7Р).doc
#
24.04.2019229.89 Кб8Статистич.doc