
- •Н аціональний технічний університет України «Київський політехнічний інститут»
- •Завдання на дипломний проект (роботу) студенту
- •Р еферат
- •Перелік прийнятих скорочень
- •Постановка задачі
- •Розділ 1 аналіз шляхів налагодження інтерфейсу користувача з програмними додатками
- •1.1 Існуючі технології інтерфейсів, критерії та оцінка їх ефективності
- •1.2 Голосовий інтерфейс та його практичне застосування
- •1.3 Системи розпізнавання мови
- •1.4 Огляд продуктів, які використовують технології голосового інтерфейсу
- •1.5 Реалізація голосового інтерфейсу в AutoCad
- •Розділ 2 методика побудови та оцінювання ефективності голосового інтерфейсу
- •2.1 Попередній аналіз сигналу
- •2.2 Приховані марківські моделі
- •2.3 Алгоритм Вітербі
- •2.3 Методика goms
- •Розділ 3 розробка програм з голосовим інтерфейсом
- •3.1 Вибір інструментальної платформи
- •3.2 Вимоги до програм та інструкція користувача
- •3.3 Опис розроблених програм з голосовим інтерфейсом
- •Розділ 4 експериментальні дослідження ефективності голосового інтерфейсу у програмах
- •4.1 Програма «Голосовий калькулятор – 1»
- •4.2 Програма «Голосовий калькулятор-2»
- •4.3 Програма «Голосовий блокнот»
- •4.4 Програма «Голосовий знімок екрану»
- •Розділ 5 охорона праці
- •5.1 Загальні положення
- •5.2 Гігієна праці і санітарія
- •Висновки і перспективи подальших досліджень
- •Перелік посилань
2.3 Методика goms
При взаємодії людини з системою виникає необхідність оцінки ефективності такої взаємодії з метою подальшого його поліпшення. Для практичних потреб оцінку ефективності такої взаємодії можна ототожнити з оцінкою ефективності його інтерфейсу.
Ефективність відноситься до основних критеріїв якості інтерфейсу людини з системою. Цей критерій цілком піддається кількісній оцінці, що дозволяє дати рекомендації щодо поліпшення інтерфейсу.
Ефективність – це вплив інтерфейсу на швидкість, повноту і точність досягнення користувачем цільових результатів.
Для оцінки ефективності інтерфейсу людини з системою, що реалізований у вигляді комп'ютерної програми можна виділити два показники:
Час виконання операцій для досягнення цілей користувача;
Символьна ефективність інтерфейсу.
Отримання значень цих показників і розрахунок цих значень для деяких ідеальних інтерфейсів дозволяє визначити можливість і шляхи подальшого поліпшення існуючого інтерфейсу.
У методиці GOMS (модель цілей, об’єктів, методів і правил відбору) розрахунок ефективності інтерфейсу ґрунтується на понятті ментальних операцій та їх послідовній розстановці.
Goals (мета або завдання) - те, чого хоче досягти користувач. Вони можуть бути визначені на різних рівнях абстракції, від цілей високого рівня (наприклад, написати наукову статтю) до цілей низького рівня (наприклад, видалити слово). Мети вищого рівня можна розкласти на підцілі і розташувати ієрархічно.
Operators (оператори) - елементарні моторні, пізнавальні дії, які використовуються для досягнення цілей (наприклад, «клікнути» маніпулятором «Миша», натиснути клавішу Insert). Оператори не розкладені. Передбачається, що користувачеві потрібно певну кількість часу, щоб виконати кожен оператор.
Methods (методи) - це опис процедури для досягнення цілей. По суті, метод є алгоритмом, щоб користувач запам'ятав послідовність під цілей і операторів, необхідних для досягнення бажаної мети. Наприклад, один із способів досягнення мети «Видалити слово» це поставити курсор в початок слова за допомогою миші і натиснути комбінацію клавіш Ctrl + Delete. Інший спосіб досягти тієї ж мети - за допомогою клавіш зі стрілками поставити курсор в початок слово і натиснути комбінацію клавіш.
Selection Rules (правила вибору) - визначають, які методи повинні бути використані для досягнення даної мети, в залежності від контексту. Правила вибору звичайно приймають форму умовного оператора, наприклад, «якщо слово буде розташовано менш ніж на три лінії від поточного положення курсору, тоді використовуємо метод« видалення слова-використання клавіш зі стрілками », інакше використовуємо метод« видалення слова - використання миші».
Розробники методики GOMS під час її створення помітили, що час, потрібний для виконання якоїсь задачі системою «користувач - комп'ютер», є сумою всіх тимчасових інтервалів, які потрібні були системі на виконання послідовності елементарних жестів, що складають дану задачу. Хоча для різних користувачів час виконання того чи іншого жесту може сильно відрізнятися, дослідники виявили, що для більшої частини порівняльного аналізу задач, що включають використання клавіатури і графічного пристрою введення, замість проведення вимірювань для кожного окремого користувача можна застосувати набір стандартних інтервалів. За допомогою ретельних лабораторних досліджень був отриманий набір тимчасових інтервалів, необхідних для виконання різних жестів. Нижче, у табл..2.1, наводиться оригінальна номенклатура, в якій кожен інтервал позначений однією буквою (Card, Moran і Newell, 1983).
Таблиця 2.1 – Набір тимчасових інтервалів, необхідних для виконання різних жестів
Жест |
Опис |
К=0,28с |
Натискання клавіші.Час необхідний, щоб нажати на клавішу. |
Р=1,1с |
Вказівка. Час, необхідний користувачу, щоб вказати на якусь позицію на екрані монітору. |
Н=0,4с |
Переміщення. Час, необхідний користувачу, щоб перемістити руку з клавіатури на мишу, або навпаки. |
М=1,35с |
Ментальна підготовка, тобто це час, який необхідний користувачу, щоб психологічно підготовитись до наступної дії. |
R |
Відгук комп'ютера. Час очікування користувача відгуку від комп’ютера. |
На практиці вказані значення можуть варіюватися в широких межах. Для досвідченого користувача, здатного друкувати зі швидкістю 135 слів / хв., Значення K може становити 0.08 с, для звичайного користувача, що має швидкість 55 слів / хв., - 0.2 с, для середнього недосвідченого користувача, що має швидкість 40 слів / хв., - 0.28 с, а для початківця - 1.2 с. Не можна сказати, що швидкість набору не залежить від того, що саме набирається. Для того щоб набрати одну букву з групи випадково взятих букв, більшості людей потрібно близько 0,5с. Якщо ж це якийсь заплутаний код (наприклад, адреса електронної пошти), то у більшості людей швидкість набору складе близько 0.75 символів в секунду. Значення K включає в себе і той час, який необхідно користувачеві для виправлення відразу помічених помилок. Клавіша <Shift> вважається за окреме натискання.
За допомогою типових значень ми можемо зробити правильну порівняльну оцінку між якимись двома інтерфейсами за рівнем ефективності їх використання.
Обчислення часу, необхідного на виконання тієї чи іншої дії (наприклад, «перемістити руку з графічного пристрою введення на клавіатуру і набрати букву»), за допомогою моделі GOMS починаються з перерахування операцій зі списку жестів моделі GOMS (табл. 2.1) , які складають цю дію. Перерахування рухів (K, P і H) - це досить проста частина моделі GOMS. Складнішим, в моделі швидкості друку GOMS, є визначення точок, в яких користувач зупиниться, щоб виконати несвідому ментальну операцію, - інтервали ментальної підготовки, які позначаються символом M. Основні правила, що дозволяють визначити, в які моменти будуть проходити ментальні операції, представлені в табл. 2.2
Правила розстановки ментальних операцій представлена далі у табл.2.2.
Таблиця 2.2 – Правила розстановки ментальних операцій
Правило |
Опис |
1 |
2 |
Правило 0. Початкова розстановка операторів М |
Оператори M слід встановлювати перед усіма операторами K (натискання клавіші), а також перед усіма операторами P (вказівка за допомогою ГУВ), призначеними для вибору команд; але перед операторами P, призначеними для вказівки на аргументи цих команд, ставити оператор M не слід. |
Правило 1. Видалення очікуваних операторів М |
Якщо оператор, наступний за оператором М, є повністю очікуваним з точки зору оператора, що передує М, то цей оператор М може бути видалений.
|
Правило 2. Видалення операторів M всередині когнітивних одиниць |
Якщо рядок виду MKMKM К. .. належить когнітивної одиниці, то слід видалити всі оператори М, крім першого. Когнітивної одиницею є безперервна послідовність символів, що вводять, які можуть утворювати назва команди або аргумент. |
П равило 3. Видалення операторів M перед послідовними роздільниками |
Якщо оператор K означає зайвий роздільник, що стоїть в кінці когнітивної одиниці (наприклад, роздільник команди, наступний відразу за роздільником аргументу цієї команди), то слід видалити оператор M, що стоїть перед ним. |
Продовження таблиці 2.2 |
|
1 |
2 |
Правило 4. Видалення операторів М, які є переривниками команд |
Якщо оператор K є роздільником, вартим після постійної рядка), то слід видалити оператор M, що стоїть перед ним. (Додавання роздільника стане звичним дією, і тому роздільник стане частиною рядка і не вимагатиме спеціального оператора М.) Але якщо оператор K є роздільником для рядка аргументів чи будь-який інший змінною рядка, то оператор М слід зберегти перед ним. |
Правило 5. Видалення перекривають операторів М |
Будь-яку частину оператора М, яка перекриває оператор R, що означає затримку, пов'язану з очікуванням відповіді комп'ютера враховувати не слід. |
Крім того, відзначимо, що в цих правилах під рядком буде розумітися деяка послідовність символів. Роздільником вважатиметься символ, яким позначено початок або кінець значимого фрагмента тексту, такого як, наприклад, слово природної мови або телефонний номер. Наприклад, прогалини є роздільниками для більшості слів. Точка є найбільш поширеним роздільником, який використовується в кінці речень. Дужки використовуються для обмеження пояснень і зауважень і т.д. Операторами є K, P і H. Якщо для виконання команди потрібна додаткова інформація (як, наприклад, у випадку коли для установки будильника користувачеві потрібно вказати час його включення), ця інформація називається аргументом даної команди.
Щоб зробити правильну оцінку часу, необхідного на виконання завдання за допомогою конкретного інтерфейсу, перш за все слід визначити мінімальну кількість інформації, яку користувач повинен ввести. Ця мінімальна кількість не залежить від виду інтерфейсу [5, 272c.].
Висновок до розділу 2
У другому розділі дипломної роботи представлено методику побудови та оцінювання ефективності застосування прихованих марківських моделей для побудови голосової складової інтерфейсу користувача з програмними додатками.
Для попереднього аналізу сигналу використовується метод, який заснований на кепстральному аналізі. Кепстральний аналіз можна розглядати як спосіб розділення вихідної акустичної хвилі, утвореної в голосовій щілині, і дії голосового тракту, який за своїми властивостями являє собою фільтр. Найбільш корисною є інформація саме про фільтр, тобто про форму голосового тракту в даний момент. Передбачається, що за цією формою можна визначити те, який звук був вимовлений.
Математичним апаратом для розпізнавання голосових команд пропонується застосувати приховані марківскі моделі. Слід відзначити, що використання прихованих марковських моделей для розпізнавання мови засноване на двох наближеннях: мова може бути розбита на фрагменти, відповідати станам в ПММ, параметри мовлення в межах кожного фрагмента вважаються постійними; ймовірність кожного фрагмента залежить тільки від поточного стану системи і не залежить від попередніх станів.
Алгоритм Вітербі використовується як алгоритм пошуку найбільш відповідного списку, який в контексті ланцюгів Маркова отримує найбільш ймовірну послідовність подій, що відбулися.
Для оцінки ефективності інтерфейсу було виділено два показники:
Час виконання операцій для досягнення цілей користувача;
Символьна ефективність інтерфейсу.
Для розрахунку цих показників пропонується використання методики GOMS (модель цілей, об’єктів, методів і правил відбору), що ґрунтується на понятті ментальних операцій та їх послідовній розстановці.