- •Назначение и условия применения 53
- •Введение
- •1 Постановка задачи
- •2 Аналитическая часть
- •2.1Факторы, влияющие на уникальность речи
- •2.2 Система распознавания личности
- •2.3 Образец и его предобработка
- •2.3.1 Обрабатываемый образец
- •2.3.2 Предварительная обработка
- •2.4 Извлечение признаков
- •2.4.2. Кепстральные коэффициенты, основанные на линейного предсказания
- •2.5 Обработка извлеченных признаков
- •2.6 Способы классификации моделей
- •2.6.1 Вычисление расстояний
- •2.6.2. Метод опорных векторов
- •2.6.3 Модель гауссовых смесей
- •2.6.4 Метод ближайшего соседа
- •2.7 Аналогичные программы
- •VoiceKey
- •VoiceNet
- •2.8 Недостатки большинства системы идентификации по голосу
- •2.9 Действующие национальные стандарты
- •3 Конструкторская часть
- •3.1. Функциональная схема аппаратных средств
- •3.2 Функциональная схема программного средства
- •3.3 Информационная схема программного средства
- •3.4 Алгоритм программного средства
- •7. Вычисление расстояний.
- •3.5. Язык программирования и среда разработки
- •4 Документация программного средства
- •4.1 Техническое задание
- •4.1.1 Основания для разработки
- •4.1.2 Назначение разработки
- •4.1.3 Требования к программному средству
- •4.1.4 Требования к программной документации
- •4.2 Руководство системного программиста
- •4.2.1 Общие сведения о программном средстве
- •4.2.2 Структура программного средства
- •4.3 Руководство администратора
- •4.3.1 Назначение и условия применения
- •4.4 Руководство оператора
- •4.4.1 Назначение и условия применения
- •4.4.2 Выполнение программного средства
- •5. Экспериментальная часть
- •6 Организационно - экономическая часть
- •6.1 Описание эффектов от внедрения разработки
- •6.2 Планирование процесса разработки программного средства
- •Техническое задание – 15%;
- •6.3 Смета затрат на разработку
- •6.3.1 Материальные затраты
- •6.3.2 Расходы на оплату труда
- •6.3.3 Отчисления на социальные страхования от заработной платы
- •6.3.4 Амортизационные отчисления
- •6.3.5. Прочие прямые расходы
- •6.3.6 Накладные расходы
- •7 Безопасность жизнедеятельности
- •7.1 Введение
- •7.2 Анализ опасных и вредных факторов
- •7.3 Мероприятия по нормализации и защите от вредных и опасных воздействий.
- •7.4 Возможные чрезвычайные ситуации
- •7.5 Оценка напряженности трудового процесса
- •7.6. Выводы
- •Список используемой литературы
- •Приложения
2.4 Извлечение признаков
Целью обработки сигнала в подобных приложениях является выделение в речевом сигнале информации, которая релевантная для распознавания по голосу. Такая информация представляет индивидуальные особенности голоса каждого человека, или признаки. Эти признаки выделяются с целью формирования шаблона или для того, чтобы сравнить их с уже зарегистрированными шаблонами. Изначально более подходящие признаки для распознавания определить невозможно. Для этого нужна экспериментальная оценка с предварительным перебором всех возможных признаков.
Можно разбить признаки на два вида:
низкоуровневые (анатомическое строение речевого аппарата);
высокоуровневые (манера произношения).
Чтобы обработать речевой сигнал, нужно использовать кратковременный анализ. Сам сигнал следует разбить на временные окна определенного размера. Предполагается, что в этих окнах не меняются параметры сигнала. Работая с речевым сигналом, размер такого окна должен составлять 10-30 мс. Для наибольшей точности между окнами следует делать перекрытия, которые равны половине длины окна. Чтобы извлечь признаки из каждого окна, к ним применяются специальные алгоритмы. Ниже будут рассмотрены два основных метода извлечения признаков из речевого сигнала.
2.4.1 Мел-частотные кепстральные коэффициенты
Мел
В переводе с др.греческого "мэлос" - это звук. На практике мел - это психофизическая единица высоты звука, в основании которой лежит восприятие этого звука человечискими слуховыми анализаторами.
Амплитудно-частотные характеристики человеческого органа слуха даже близко не похожи на прямую, а амплитуда не является точной мерой измерения громкости (рисунок 2.3). В связи с этим и были введены эмпирические единицы громкости звука.
Рисунок 2.3 АЧХ человеческого органа слуха
Точно так же и высота звука, которая воспринимается органами слуха человека, не является линейно зависимой от его частоты (рисунок 2.4)
Рисунок 2.4 Зависимость высоты звука от его частоты
Единицы измерения мел часто используются в системах, задачей которых является распознавание. С их помощью можно близко изучить устройство человеческого восприятия.
Кепстр
Слово "cepstrum" появилось с помощью перестановки букв в слове "spectrum" [5]. То есть он был создан после перестановки букв в слове "спектр". Оно было введено в 1963 году Богертом. Кепстр является эмпирически измеряемой величиной - результатом взятия преобразования Фурье логарифма спектра сигнала. Кепстр разделяют на три вида:
энергетический кепстр;
комплексный кепстр;
реальный кепстр;
фазовый кепстр.
Дата определения энергетического кепстра - 1963 год. Это была работа целой группы людей: Bogert, Healy, Tukey. Их работа называлась "The Quefrency Alanysis of Time Series for Echoes: Cepstrum, Pseudo Autocovariance, Cross-Cepstrum and Saphe Cracking". Энергетический кепстр может быть определен двумя способами:
устно: энергетический кепстр сигнала - это величина Фурье-спектра логарифма квадратичной величины Фурье-спектра сигнала;
с помощью алгоритма:
Комплексный кепстр предложил Оппенгейм. Это была его работа по теории гомоморфных систем. Алгоритмическое представление комплексного кепстра:
Реальный кепстр (РК) использует логарифм функции, которая определена для реальных значений. Данный кепстр имеет взаимосвязь с энергетическим кепстром (ЭК):
А так же с комплексным спектром (КК):
,
где
- обращенный по времени комплексный
кепстр.
В основе комплексного кепстра лежит комплексный логарифм функции, которая определена для комплексных значений.
Взаимосвязь комплексного кепстра и фазового:
Различием между комплексным и реальным кепстрами является то, что кроме информации об амплитуде спектра, комплексный кепстр содержит еще и данные о фазе исходного спектра. Это добавляет возможность реконструкции сигнала.
В целом кепстр можно рассматривать как информацию о скорости изменения в различных диапазонах спектра. В первое время его использовали для измерения сейсмических отголосков после землетрясений и сильных взрывов. В настоящее время его применение нашли в системах распознавания речи.
Алгоритм метода
В системах распознавания по голосу данный метод считается одним из самых популярных. Суть метода заключается в следующем [4]:
1. Подача последовательности отсчетов определенной части сигнала, которая исследуется на итерации x0,....,xN-1.
2. Применение весовой функции для уменьшения искажений. Чаще всего в качестве весовой функции используют окно Хэмминга:
где
- размер окна в отсчетах.
3. Дискретное преобразование Фурье:
где
соответствует частотам
,
где
является частотой дискретизация.
Так же можно использовать быстрое преобразование Фурье:
Основная идея быстрого преобразования Фурье заключается в том, что каждую вторую выборку можно использовать для получения половинного спектра. Формально это означает, что формула дискретного преобразования Фурье может быть представлена в виде двух сумм.
4. Далее с помощью треугольных фильтров идет разбиение на диапазоны. Границы этих фильтров рассчитываются в шкале мел. Мел - единица высоты звука, основанная на восприятии этого звука нашими ушами. Формула для перевода в мел-частотную область:
.
Формула обратного преобразования:
.
Чаще
всего используют 24 фильтра. Количество
фильтров обозначим как
. Фильтры
применяются к квадратам модулей
коэффициентов преобразования Фурье, а
затем высчитывается логарифм:
где
- весовые коэффициенты фильтров, которые
были получены.
5. Дискретное косинусное преобразование является последним этапом данного метода. На этой стадии происходит вычисление мел-частотных кепстральных коэффициентов (MFCC):
Коэффициент
- энергия сигнала, поэтому он не
используется. Количество мел-частотных
кепстральных коэффициентов на практике
равняется порядка 12.
