Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ДИПЛОМНА "Ефективність застосування ПММ для поб...docx
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
690.8 Кб
Скачать

2.2 Приховані марківські моделі

В якості математичного апарату, який застосовується для розпізнавання голосових команд, пропонується використати приховані марківскі моделі (ПММ) які являють собою універсальний інструмент опису стохастичних процесів. Для роботи з ними не існує точних математичних моделей, а їх властивості міняються з плином часу відповідно до деяких статистичних законів [24].

Достоїнствами методу прихованих моделей Маркова є:

  • швидкий спосіб обчислення значень функцій відстані (ймовірності);

  • істотно менший обсяг пам'яті, в порівнянні з методом «динамічної деформації часу», необхідний для зберігання еталонів команд.

Основними недоліками:

  • велика складність його реалізації;

  • необхідність використання великих фонетично збалансованих мовних корпусів для навчання параметрів.

При практичній роботі з прихованими марківськими моделями доводиться вирішувати ряд ключових завдань:

1) вибір системи параметричних векторів, наприклад, для розпізнавання мовлення використовуються кепстральні коефіцієнти (MFCC), коефіцієнти лінійного передбачення (LPC​​) і ряд інших;

2) розробка алгоритму нормалізації параметричних векторів;

3) вибір кількості станів моделі N і числа компонент гаусом суміші M;

4) первісна сегментація навчальних векторів для знаходження наближених значень математичних очікувань гаусівських сумішей на початковому кроці навчання і т.д.

Необхідно зауважити, що немає універсального алгоритму визначення вищеперелічених параметрів і в кожному конкретному випадку, в залежності від розв'язуваної задачі, може знадобитися проведеня величезної кількості експериментів, перш ніж будуть досягнуті необхідні результати точності розпізнавання [26].

В основі прихованої марківської моделі лежить кінцевий автомат, що складається з N-станів, які називаються прихованими. Переходи між станами в кожен дискретний момент часу t не являються детермінованими, а відбуваються у відповідності з ймовірнісним законом і описуються матрицею ймовірностей переходів.

Схематичне зображення діаграми переходів між станами ПММ приведено на рис. 2.2.

3

3

а23

а13

Рисунок 2.2 – Діаграма переходів між станами прихованої марківської моделі

Знаходження моделі в деякому стані i відповідність певній стаціонарності сигналу спостерігається на обмеженому часовому інтервалі. З'являється проста фізична інтерпретація ПММ: розглядається процес, який іноді стрибкоподібно змінює свої характеристики.

При здійсненні чергового переходу в стан i в момент часу t відбувається генерація вихідного вектора xt, який називають параметричним вектором, відповідно до багатомірної функції розподілу ймовірностей fj (x).

Результатом роботи прихованої марківської моделі є послідовність векторів (спостережень) {x1, x2, ..., xT} довжиною T. Перевагою ПММ є можливість обробки послідовностей і сигналів різної довжини, що утруднено при роботі з штучними нейронними мережами, зокрема.

Функція щільності ймовірностей fj (x) для стану j описується, як правило, виваженою гаусівською сумішшю:

(2.6)

де M – кількість компонент суміші;

wi – вага компонента суміші;

pi (x) – нормальний розподіл для D-мірного випадку. Функція pi (x) описується наступним вираженням:

(2.7)

де D – розмірність вектора;

μi – вектор математичного очікування;

σi – матриця коваріації [24].

Робота з прихованими марковскими моделями, як і з будь-якою іншою адаптивною експертною системою, здійснюється в два етапи:

1) навчання – визначення параметрів моделі – алгоритм Баума-Велч

2) визначення – яка ймовірність того, що спостережувана послідовність векторів {x1, x2, ..., xT} була згенерована даною моделлю – алгоритм максимуму правдоподібності (Вітербі). Далі наводиться короткий опис вищеперелічених чисельних алгоритмів.

Навчання прихованої марківської моделі. Процес навчання прихованої марківської моделі полягає у визначенні за допомогою набору навчаємих зразків наступних параметрів:

- матриці ймовірностей переходів між станами;

- параметрів гаусівських сумішей (математичне очікування, матриця коваріації і ваги) для кожного стану[26].

Для вирішення цих задач спільно застосовуються два ітераційних алгоритми: forward-backward і Baum-Welch re-estemation.

В алгоритмі forward-backward вводяться дві функції: прямого поширення ймовірності aj (t) і зворотнього βj (t). Значення величини aj (t) являє собою ймовірність спостереження послідовності векторів {x1, x2, ..., xt} і знаходження ПММ в стані j в момент часу t:

(2.8)

Величини aj (t) і aj (t -1) пов'язані ітераційним виразом:

(2.9)

де Aij – ймовірність переходу зі стану i в стані j;

fj (xt) – ймовірність спостереження вектора xt в стані j.

Зворотня функція βj (t) являє собою ймовірність знаходження ПММ в стані j в момент часу t з подальшим спостереженням послідовності {x t+1, xt +2, ..., xT}:

(2.10)

Величини βj (t) і βj (t + 1) пов'язані аналогічним чином:

(2.11)

Величини aj (t) і βj (t) дозволяють визначити ймовірність знаходження ПММ в стані j в момент часу t при спостереженні послідовності {x1, x2, ..., xt}:

(2.12)

де P = aN (T) – загальна ймовірність спостереження послідовності {x1, x2, ..., xt} даної ПММ.

Алгоритм Баума-Велч на черговому кроці навчання дозволяє, використовуючи вищенаведені вирази, зробити переоцінку параметрів моделі[24].

Нехай є R навчальних зразків, тоді ймовірність переходу зі стану i в стан j визначається як:

(2.13)

Д ля кожного стану j і для кожної компоненти гаусовської суміші m математичне сподівання, матриця коваріації і вага визначаються наступними виразами:

(2.14)

(2.15)

(2.16)

Для якісного навчання прихованої марківської моделі потрібно множину зразків сигналу: від декількох десятків до декількох сотень екземплярів. Також необхідно дотримуватися умова лінійної незалежності навчальних зразків, в іншому випадку, в процесі навчання відбувається виродження матриці коваріації, наслідком чого є повна непрацездатність моделі [26].

У процесі навчання може виникнути ситуація, коли значення ймовірностей в знаменнику вищенаведених виразів матимуть дуже маленькі значення (близькі до нуля), що призведе до переповнення регістрів процесора і виключно ситуацій. Тому в практичній роботі застосовується логарифмічна арифметика (використовуються логарифми ймовірностей, а не їх безпосередні значення) [24].