
- •Н аціональний технічний університет України «Київський політехнічний інститут»
- •Завдання на дипломний проект (роботу) студенту
- •Р еферат
- •Перелік прийнятих скорочень
- •Постановка задачі
- •Розділ 1 аналіз шляхів налагодження інтерфейсу користувача з програмними додатками
- •1.1 Існуючі технології інтерфейсів, критерії та оцінка їх ефективності
- •1.2 Голосовий інтерфейс та його практичне застосування
- •1.3 Системи розпізнавання мови
- •1.4 Огляд продуктів, які використовують технології голосового інтерфейсу
- •1.5 Реалізація голосового інтерфейсу в AutoCad
- •Розділ 2 методика побудови та оцінювання ефективності голосового інтерфейсу
- •2.1 Попередній аналіз сигналу
- •2.2 Приховані марківські моделі
- •2.3 Алгоритм Вітербі
- •2.3 Методика goms
- •Розділ 3 розробка програм з голосовим інтерфейсом
- •3.1 Вибір інструментальної платформи
- •3.2 Вимоги до програм та інструкція користувача
- •3.3 Опис розроблених програм з голосовим інтерфейсом
- •Розділ 4 експериментальні дослідження ефективності голосового інтерфейсу у програмах
- •4.1 Програма «Голосовий калькулятор – 1»
- •4.2 Програма «Голосовий калькулятор-2»
- •4.3 Програма «Голосовий блокнот»
- •4.4 Програма «Голосовий знімок екрану»
- •Розділ 5 охорона праці
- •5.1 Загальні положення
- •5.2 Гігієна праці і санітарія
- •Висновки і перспективи подальших досліджень
- •Перелік посилань
Розділ 2 методика побудови та оцінювання ефективності голосового інтерфейсу
2.1 Попередній аналіз сигналу
Голосовий сигнал, що надійшов з мікрофона, оцифровується і являє собою набір безлічі значень, число яких, як правило, коливається від 8000 до 22050 в секунду в залежності від частоти дискретизації сигналу. Отриманий масив даних із-за високої розмірності не придатний для подальшого використання в незмінному вигляді, і тому необхідно провести параметричне представлення цих даних. Параметричне перетворення повинне задовольняти не тільки вимогам щодо скорочення розмірності даних, а й зберігати при цьому істотну для розпізнавання інформацію про мови. Крім того, обчислювані на основі аудіоданих параметри повинні бути максимально інваріантні до особливостей вимови дикторів, гучності мови і наявності шумів. Це дозволить подальшим етапам аналізу промови працювати з даними, які є компактними, що містять ключові особливості мови і властивості яких залишаються незмінними при зміні диктора або акустичної обстановки.
Ключовим у багатьох системах розпізнавання мови є підхід до обчислення параметрів голосового сигналу, заснований на кепстральному аналізі. Кепстральний аналіз можна розглядати як спосіб розділення вихідної акустичної хвилі, утвореної в голосовій щілині, і дії голосового тракту, який за своїми властивостями являє собою фільтр. Найбільш корисною є інформація саме про фільтр, тобто про форму голосового тракту в даний момент. Передбачається, що за цією формою можна визначити те, який звук був вимовлений. Отже, саме цю частину даних і слід використовувати в якості складових вектора ознак.
Мел-частотні кепстральні коефіцієнти MFCC (Mel-frequency cepstral coefficients) - це своєрідне уявлення енергії спектра сигналу. Плюси його використання полягають у наступному:
використовується спектр сигналу (тобто розкладання по базису ортогональних синусоїдальних функцій), що дозволяє враховувати хвильову "природу" сигналу при подальшому аналізі;
спектр проектується на спеціальну mel-шкалу, дозволяючи виділити найбільш значущі для сприйняття людиною частоти;
кількість обчислюваних коефіцієнтів може бути обмежене будь-яким значенням, що дозволяє "стиснути" фрейм і, як наслідок, кількість оброблюваної інформації.
Спосіб обчислення кепстральних коефіцієнтів являє собою послідовність з кількох етапів, представлених на рис.2.1.
Рисунок 2.1 – Процес обчислення Мел-частотних кепстральних коефіцієнтів
В якості першого кроку обчислення кепстра розглядається процедура збільшення енергії в високочастотних сегментах. Необхідність цього кроку продиктована тим, що вокалізовані сегменти, такі як, наприклад, голосні, мають меншу частоту і містять більше енергії, ніж високочастотні сегменти. Така нерівномірність у розподілі енергії по різним частотам пояснюється будовою мовного апарату людини. Подолання цього "Спектрального нахилу" (spectral tilt) за допомогою збільшення енергії не вокалізірованних сегментів дозволяє збільшити їх вагу при розпізнаванні.
Збільшення енергії в цих сегментах досягається шляхом застосування фільтра, який відсікає постійну складову сигналу:
(2.1)
y[n] = x[n]−αx[n −1]
де α ∈ [0,9; 1], вектори x і y представляють значення сигналу до і після застосування фільтра.
Наступним етапом обчислення є розбиття сигналу на фрагменти довжиною N відліків і з кроком K відліків. В якості віконної функції використовується вікна Хеммінга. Результатом такого перетворення на i-ой ітерації буде добуток значень сигналу y [n] і значень функції вікна Хемминга w[n]:
(2.2)
y [n] = y [n] w [n],
в іншому випадку.
(2.3)
До отриманих фрагментів сигналу застосовується швидке перетворення Фур'є:
(2.4)
Далі формується набір фільтрів, які перекриваються, розташованих згідно Mel-шкалі, перетворення частот який описується наступним рівнянням:
(2.5)
Відліки, включені в кожен фільтр, перераховуються з урахуванням трикутного вікна, визначається енергія на виході кожного фільтра S(n) і робиться логарифмуванння виходу кожного фільтра.
Зрештою, описані вище перетворення можна записати в наступному вигляді:
(2.6)
Поряд з коефіцієнтами даного вектора прийнято використовувати значення «Дельт», що відбивають швидкість і прискорення, з якими змінюються значення даних векторів MFCC при переході від одного сегмента промови до іншого [34, 936c.].