
- •Н аціональний технічний університет України «Київський політехнічний інститут»
- •Завдання на дипломний проект (роботу) студенту
- •Р еферат
- •Перелік прийнятих скорочень
- •Постановка задачі
- •Розділ 1 аналіз шляхів налагодження інтерфейсу користувача з програмними додатками
- •1.1 Існуючі технології інтерфейсів, критерії та оцінка їх ефективності
- •1.2 Голосовий інтерфейс та його практичне застосування
- •1.3 Системи розпізнавання мови
- •1.4 Огляд продуктів, які використовують технології голосового інтерфейсу
- •1.5 Реалізація голосового інтерфейсу в AutoCad
- •Розділ 2 методика побудови та оцінювання ефективності голосового інтерфейсу
- •2.1 Попередній аналіз сигналу
- •2.2 Приховані марківські моделі
- •2.3 Алгоритм Вітербі
- •2.3 Методика goms
- •Розділ 3 розробка програм з голосовим інтерфейсом
- •3.1 Вибір інструментальної платформи
- •3.2 Вимоги до програм та інструкція користувача
- •3.3 Опис розроблених програм з голосовим інтерфейсом
- •Розділ 4 експериментальні дослідження ефективності голосового інтерфейсу у програмах
- •4.1 Програма «Голосовий калькулятор – 1»
- •4.2 Програма «Голосовий калькулятор-2»
- •4.3 Програма «Голосовий блокнот»
- •4.4 Програма «Голосовий знімок екрану»
- •Розділ 5 охорона праці
- •5.1 Загальні положення
- •5.2 Гігієна праці і санітарія
- •Висновки і перспективи подальших досліджень
- •Перелік посилань
1.5 Реалізація голосового інтерфейсу в AutoCad
Було проведено тестування впровадження голосового інтерфейсу в системі автоматичного проектування фірми Autodesk AutoCAD. Ця програма оснащена розвиненим графічним Windows інтерфейсом і програмним інтерфейсом для розробки різних додаткових модулів, за допомогою яких можна повністю управляти процесом в система автоматичного проектування. Знання принципів роботи проектувальника в AutoCAD дало можливість виявити недоліки розглянутої система автоматичного проектування, які можна поліпшити, застосувавши голосовий інтерфейс. Такі функції, як включення прив'язок, виклик і робота з видами, робота з шарами, відміна команд, не мають прямого відношення до проектування, і при їх викликах традиційними методами відбувається уповільнення процесу проектування, так як порушується семантичний зв'язок дій людини через певний інтерфейс управління комп'ютером і оптимальним є перенесення виклику цих дій на інший інформаційний канал. Дуже зручною буде організація відповідності між звуковим і візуальним символом (іконки з панелі інструментів). А найголовніше ці поліпшення можуть бути потрібні людям, які працюють з цією системою автоматичного проектування. Чому «можуть бути»? Та тому що голосовий інтерфейс розглядається як додатковий, і людина буде вибирати, чим користуватися.
В AutoCAD існує рядок введення команд. Він є центральною ланкою в схемі управління системи автоматичного проектування. Через нього проходять на обробку усі команди фахівців, що надходять в AutoCAD, незалежно від того були вони введені з клавіатури, миші або через діалогове вікно. У цьому рядку також зберігається поточний стан системи (поточна команда). Якщо голосовий інтерфейс буде використовувати для спілкування з системою автоматичного проектування цей рядок, то він не буде створювати перешкоди в роботі іншим інтерфейсам. Таким чином, ми отримали багатомодульний інтерфейс. За попередніми результатами досліджень запропонована концепція використання голосового інтерфейсу в системі автоматичного проектування AutoCAD повністю себе виправдала, ведуться роботи з подальшого вдосконалення програмного забезпечення та принципів застосування голосового інтерфейсу[8, C. 209].
Висновок до розділу 1
Таким чином, існуючі технології інтерфейсів дуже різноманітні. Основними відмінностями в них є способи введення та виведення інформації. Найбільш поширеним засобом взаємодії користувача з комп’ютером на сьогоднішній день є використання клавіатури та миші.
Розглянувши усі сучасні інтерфейси, особливу увагу слід приділити голосовому інтерфейсу. Взаємодія користувача з програмою відбувається за допомогою голосових команд. Цей інтерфейс передбачає найбільш природне для людини спілкування з комп’ютером.
Розглянено системи розпізнавання мови, їх класифікацію та структуру. Визначено основні аспекти розпізнавання мови: споживчі якості, розмір словника, тип мови, призначення, тип структурної одиниці, виділення структурної одиниці, алгоритм розпізнавання. Слід відзначити, що системи розпізнавання мови складаються з двох частин – акустичної та лінгвістичної. Структура стандартної системи розпізнавання мови включає: необроблену мову, аналіз сигналу, мовні кадри, акустичний аналіз, корекція часу, послідовність слів. Значущим є те, що створення надійної системи розпізнавання мови, стійкої до шумів, з низькою частотою появи помилок, є однією з актуальних задач на сьогоднішній день.
Огляд продуктів, що використовують технологію голосового інтерфейсу, показав, що багато компаній займається розробкою програм з впровадженим в них голосовим інтерфейсом. Характеристики програм відрізняються за наступними показниками: дикторозалежністю, залежністю від мови, на якій подаються команди, точністю розпізнавання, стійкістю до оточуючих шумів, розміром словників, необхідністю навчання користувачів і т.п.
Особливу увагу приділено Sphinx-4, яка включає в себе безліч модулів, які реалізовують сучасні методи розпізнавання мови. Структура Sphinx-4 була розроблена з високим ступенем гнучкості та модульності. Існують три основних модулі структури Sphinx-4: модуль попереднього аналізу (Frontend), декодер (Decoder) і модуль лінгвістичного аналізу (Linguist). Кожен модуль може бути легко замінений, що дозволяє дослідникам експериментувати з різними реалізаціями модуля без необхідності зміни інших частин системи.
Наведені результати реалізації голосового інтерфейсу в AutoCAD показують, що голосовий інтерфейс має потенціал для використання в комп’ютерних програмах і суттєво підвищить ефективність їх використання. При цьому може бути отримано перевагу не тільки за часом, але і по зручності роботи. Застосування голосового інтерфейсу дозволить оптимізувати робочу область екрану, прибравши з неї деякі елементи.
Таким чином, аналіз шляхів налагодження інтерфейсу користувача з програмними додатками показав, що питання ефективності застосування прихованих марківських моделей, для побудови голосової складової інтерфейсу користувача з програмними додатками, залишається відкритим та підлягає дослідженню.
Буде доцільно провести дослідження ефективності використання прихованих марківських моделей для побудови голосового інтерфейсу, використовуючи різні методи та засоби взаємодії користувача з програмними додатками, в результаті чого буде зроблено обґрунтований висновок щодо ефективності голосового інтерфейсу.
Для дослідження необхідно:
дослідити процес розпізнавання голосових команд в основі якого застосовуються приховані марківські моделі;
модифікувати методику оцінювання ефективності інтерфейсу з метою її використання у інтерфейсах з голосовою складовою;
розробити програмні додатки з голосовим інтерфейсом;
провести експериментальні дослідження у програмах з голосовим інтерфейсом.