
- •Н аціональний технічний університет України «Київський політехнічний інститут»
- •Завдання на дипломний проект (роботу) студенту
- •Р еферат
- •Перелік прийнятих скорочень
- •Постановка задачі
- •Розділ 1 аналіз шляхів налагодження інтерфейсу користувача з програмними додатками
- •1.1 Існуючі технології інтерфейсів, критерії та оцінка їх ефективності
- •1.2 Голосовий інтерфейс та його практичне застосування
- •1.3 Системи розпізнавання мови
- •1.4 Огляд продуктів, які використовують технології голосового інтерфейсу
- •1.5 Реалізація голосового інтерфейсу в AutoCad
- •Розділ 2 методика побудови та оцінювання ефективності голосового інтерфейсу
- •2.1 Попередній аналіз сигналу
- •2.2 Приховані марківські моделі
- •2.3 Алгоритм Вітербі
- •2.3 Методика goms
- •Розділ 3 розробка програм з голосовим інтерфейсом
- •3.1 Вибір інструментальної платформи
- •3.2 Вимоги до програм та інструкція користувача
- •3.3 Опис розроблених програм з голосовим інтерфейсом
- •Розділ 4 експериментальні дослідження ефективності голосового інтерфейсу у програмах
- •4.1 Програма «Голосовий калькулятор – 1»
- •4.2 Програма «Голосовий калькулятор-2»
- •4.3 Програма «Голосовий блокнот»
- •4.4 Програма «Голосовий знімок екрану»
- •Розділ 5 охорона праці
- •5.1 Загальні положення
- •5.2 Гігієна праці і санітарія
- •Висновки і перспективи подальших досліджень
- •Перелік посилань
2.2 Приховані марківські моделі
В якості математичного апарату, який застосовується для розпізнавання голосових команд, пропонується використати приховані марківскі моделі (ПММ) які являють собою універсальний інструмент опису стохастичних процесів. Для роботи з ними не існує точних математичних моделей, а їх властивості міняються з плином часу відповідно до деяких статистичних законів [24].
Достоїнствами методу прихованих моделей Маркова є:
швидкий спосіб обчислення значень функцій відстані (ймовірності);
істотно менший обсяг пам'яті, в порівнянні з методом «динамічної деформації часу», необхідний для зберігання еталонів команд.
Основними недоліками:
велика складність його реалізації;
необхідність використання великих фонетично збалансованих мовних корпусів для навчання параметрів.
При практичній роботі з прихованими марківськими моделями доводиться вирішувати ряд ключових завдань:
1) вибір системи параметричних векторів, наприклад, для розпізнавання мовлення використовуються кепстральні коефіцієнти (MFCC), коефіцієнти лінійного передбачення (LPC) і ряд інших;
2) розробка алгоритму нормалізації параметричних векторів;
3) вибір кількості станів моделі N і числа компонент гаусом суміші M;
4) первісна сегментація навчальних векторів для знаходження наближених значень математичних очікувань гаусівських сумішей на початковому кроці навчання і т.д.
Необхідно зауважити, що немає універсального алгоритму визначення вищеперелічених параметрів і в кожному конкретному випадку, в залежності від розв'язуваної задачі, може знадобитися проведеня величезної кількості експериментів, перш ніж будуть досягнуті необхідні результати точності розпізнавання [26].
В основі прихованої марківської моделі лежить кінцевий автомат, що складається з N-станів, які називаються прихованими. Переходи між станами в кожен дискретний момент часу t не являються детермінованими, а відбуваються у відповідності з ймовірнісним законом і описуються матрицею ймовірностей переходів.
Схематичне зображення діаграми переходів між станами ПММ приведено на рис. 2.2.
3
3
а23
а13
Рисунок 2.2 – Діаграма переходів між станами прихованої марківської моделі
Знаходження моделі в деякому стані i відповідність певній стаціонарності сигналу спостерігається на обмеженому часовому інтервалі. З'являється проста фізична інтерпретація ПММ: розглядається процес, який іноді стрибкоподібно змінює свої характеристики.
При здійсненні чергового переходу в стан i в момент часу t відбувається генерація вихідного вектора xt, який називають параметричним вектором, відповідно до багатомірної функції розподілу ймовірностей fj (x).
Результатом роботи прихованої марківської моделі є послідовність векторів (спостережень) {x1, x2, ..., xT} довжиною T. Перевагою ПММ є можливість обробки послідовностей і сигналів різної довжини, що утруднено при роботі з штучними нейронними мережами, зокрема.
Функція щільності ймовірностей fj (x) для стану j описується, як правило, виваженою гаусівською сумішшю:
(2.6)
де M – кількість компонент суміші;
wi – вага компонента суміші;
pi (x) – нормальний розподіл для D-мірного випадку. Функція pi (x) описується наступним вираженням:
(2.7)
де D – розмірність вектора;
μi – вектор математичного очікування;
σi – матриця коваріації [24].
Робота з прихованими марковскими моделями, як і з будь-якою іншою адаптивною експертною системою, здійснюється в два етапи:
1) навчання – визначення параметрів моделі – алгоритм Баума-Велч
2) визначення – яка ймовірність того, що спостережувана послідовність векторів {x1, x2, ..., xT} була згенерована даною моделлю – алгоритм максимуму правдоподібності (Вітербі). Далі наводиться короткий опис вищеперелічених чисельних алгоритмів.
Навчання прихованої марківської моделі. Процес навчання прихованої марківської моделі полягає у визначенні за допомогою набору навчаємих зразків наступних параметрів:
- матриці ймовірностей переходів між станами;
- параметрів гаусівських сумішей (математичне очікування, матриця коваріації і ваги) для кожного стану[26].
Для вирішення цих задач спільно застосовуються два ітераційних алгоритми: forward-backward і Baum-Welch re-estemation.
В алгоритмі forward-backward вводяться дві функції: прямого поширення ймовірності aj (t) і зворотнього βj (t). Значення величини aj (t) являє собою ймовірність спостереження послідовності векторів {x1, x2, ..., xt} і знаходження ПММ в стані j в момент часу t:
(2.8)
Величини aj (t) і aj (t -1) пов'язані ітераційним виразом:
(2.9)
де Aij – ймовірність переходу зі стану i в стані j;
fj (xt) – ймовірність спостереження вектора xt в стані j.
Зворотня функція βj (t) являє собою ймовірність знаходження ПММ в стані j в момент часу t з подальшим спостереженням послідовності {x t+1, xt +2, ..., xT}:
(2.10)
Величини βj (t) і βj (t + 1) пов'язані аналогічним чином:
(2.11)
Величини aj (t) і βj (t) дозволяють визначити ймовірність знаходження ПММ в стані j в момент часу t при спостереженні послідовності {x1, x2, ..., xt}:
(2.12)
де P = aN (T) – загальна ймовірність спостереження послідовності {x1, x2, ..., xt} даної ПММ.
Алгоритм Баума-Велч на черговому кроці навчання дозволяє, використовуючи вищенаведені вирази, зробити переоцінку параметрів моделі[24].
Нехай є R навчальних зразків, тоді ймовірність переходу зі стану i в стан j визначається як:
(2.13)
Д
ля
кожного стану j і для кожної компоненти
гаусовської суміші m математичне
сподівання, матриця коваріації і вага
визначаються наступними виразами:
(2.14)
(2.15)
(2.16)

Для якісного навчання прихованої марківської моделі потрібно множину зразків сигналу: від декількох десятків до декількох сотень екземплярів. Також необхідно дотримуватися умова лінійної незалежності навчальних зразків, в іншому випадку, в процесі навчання відбувається виродження матриці коваріації, наслідком чого є повна непрацездатність моделі [26].
У процесі навчання може виникнути ситуація, коли значення ймовірностей в знаменнику вищенаведених виразів матимуть дуже маленькі значення (близькі до нуля), що призведе до переповнення регістрів процесора і виключно ситуацій. Тому в практичній роботі застосовується логарифмічна арифметика (використовуються логарифми ймовірностей, а не їх безпосередні значення) [24].