
- •Н аціональний технічний університет України «Київський політехнічний інститут»
- •Завдання на дипломний проект (роботу) студенту
- •Р еферат
- •Перелік прийнятих скорочень
- •Постановка задачі
- •Розділ 1 аналіз шляхів налагодження інтерфейсу користувача з програмними додатками
- •1.1 Існуючі технології інтерфейсів, критерії та оцінка їх ефективності
- •1.2 Голосовий інтерфейс та його практичне застосування
- •1.3 Системи розпізнавання мови
- •1.4 Огляд продуктів, які використовують технології голосового інтерфейсу
- •1.5 Реалізація голосового інтерфейсу в AutoCad
- •Розділ 2 методика побудови та оцінювання ефективності голосового інтерфейсу
- •2.1 Попередній аналіз сигналу
- •2.2 Приховані марківські моделі
- •2.3 Алгоритм Вітербі
- •2.3 Методика goms
- •Розділ 3 розробка програм з голосовим інтерфейсом
- •3.1 Вибір інструментальної платформи
- •3.2 Вимоги до програм та інструкція користувача
- •3.3 Опис розроблених програм з голосовим інтерфейсом
- •Розділ 4 експериментальні дослідження ефективності голосового інтерфейсу у програмах
- •4.1 Програма «Голосовий калькулятор – 1»
- •4.2 Програма «Голосовий калькулятор-2»
- •4.3 Програма «Голосовий блокнот»
- •4.4 Програма «Голосовий знімок екрану»
- •Розділ 5 охорона праці
- •5.1 Загальні положення
- •5.2 Гігієна праці і санітарія
- •Висновки і перспективи подальших досліджень
- •Перелік посилань
1.4 Огляд продуктів, які використовують технології голосового інтерфейсу
Sphinx-4 – найвідоміший і найбільш працездатний з відкритих програмних продуктів для розпізнавання мови на сьогоднішній день. Розробка ведеться в університеті Карнегі-Меллона, поширюється на умовах ліцензії Berkley Software Distribution (BSD) і доступний як для комерційного, так і для некомерційного використання.
Характеристики:
Дикторонезалежність;
Розпізнавання злитого мовлення;
Навчання;
Наявність версії для вбудованих систем[28].
Існують три основних модулі структури Sphinx-4: модуль попереднього аналізу (Frontend), декодер (Decoder) і модуль лінгвістичного аналізу (Linguist). Модуль попереднього аналізу приймає один або більше вхідних сигналів і перетворює їх в послідовність ознак. Модуль лінгвістичного аналізу переводить будь-який тип стандартної моделі мови, разом з транскрипціями зі словника та інформацією про структуру однієї або декількох акустичних моделей, в граф пошуку. Модуль пошуку в декодері використовує ознаки з модуля попереднього аналізу та графа пошуку з модуля лінгвістичного аналізу для виконання фактичного декодування, генеруючи результати. В будь-який момент до або під час процесу розпізнавання, додаток може передавати управління кожному з модулів, які можуть допомогти процесу розпізнавання.
На малюнку показана загальна архітектура системи. Кожен позначений елемент на малюнку являє собою модуль, який може бути легко замінений.
Рисунок 1.4 – Структура Sphinx-4
Кожен позначений елемент на рис. 1.4 являє собою модуль, який може бути легко замінений, що дозволяє дослідникам експериментувати з різними реалізаціями модуля без необхідності зміни інших частин системи.
Система Sphinx-4, як і більшість систем розпізнавання мови, має велику кількість параметрів, що настроюються, такі як розмір променя пошуку для поліпшення продуктивності системи. Для настройки таких параметрів в Sphinx-4 використовується модуль управління конфігурацією. На відміну від інших систем управління конфігурацією в Sphinx-4 дозволяє динамічно завантажувати і налаштовувати модулі під час виконання, що робить систему гнучкою і легко підключається. Наприклад, Sphinx-4, як правило, налаштований на попередній аналіз, який виділяє Мел-кепстральні коефіцієнти (MFCC). Використовуючи управління конфігурацією можна переналаштувати Sphinx-4 на побудову іншого аналізу, який виділяє перцептуальние коефіцієнти лінійного передбачення без необхідності змінювати вихідний код або перекомпілювати систему.
Щоб дати розробникам додатків можливість відслідковувати статистику декодера, таку як частота помилок слово , швидкість виконання, і використання пам'яті, Sphinx-4 надає ряд інструментів. Як і в решті частини системи, інструменти є налаштованим, що дозволяє користувачам виконувати широкий спектр системного аналізу. Крім того, інструменти також забезпечують інтерактивну середу виконання, що дозволяє користувачам змінювати параметри системи під час її роботи, роблячи доступним швидке експериментування з різними параметрами налаштування.
Sphinx-4 також підтримує утиліти, які обробляють результати розпізнавання на рівні додатків. Наприклад, ці утиліти отримують результати решітки, коефіцієнти впевненості, і ступінь розуміння природної мови[32]..
Google Voice Search (компанія «Google»). Раніше пошук застосовувався виключно в мобільних пристроях. З недавнього часу голосовий пошук від Google вбудований в браузер Google Chrome, що дозволяє використовувати цей сервіс на різних платформах.
Характеристики:
Підтримка російської мови;
Можливість вбудовувати розпізнавання мови на веб-ресурси;
Голосові команди, словосполучення;
Для роботи необхідно постійне підключення до мережі Інтернет.
Горинич ПРОФ 3.0 – перша російськомовна система автоматичного розпізнавання мови для диктування і голосового управління комп'ютером з підтримкою російської мови для операційної системи Windows XP.
Характеристики:
Дикторозалежність;
Мовна залежність (російська мова та англійська мова);
Точність розпізнавання залежить від ядра системи американської програми "Дракон диктат";
Надає засоби голосового управління окремими функціями операційної системи, текстових редакторів і прикладних програм;
Вимагає навчання.
VoiceNavigator (компанія «Центр мовних технологій») високотехнологічне рішення для контакт-центрів, призначене для побудови систем голосового самообслуговування. VoiceNavigator дозволяє автоматично обробляти виклики за допомогою технологій синтезу і розпізнавання мови. VoiceNavigator – це веб-навігація по веб-ресурсам за допомогою голосу. Розробка дозволяє управляти навігацією сайту за допомогою мовних команд.
Характеристики:
Дикторонезалежність;
Стійкість до оточуючих шумів і перешкод в телефонному каналі;
Розпізнавання російської мови працює з надійністю 97% (словник 100 слів).
Speereo розпізнавання мови (російська ІТ компанія «Speereo Software»). Програмний продукт для розробки додатків в індустрії мобільних пристроїв і персональних комп'ютерів. Розпізнавання мови відбувається безпосередньо на пристрої, а не на сервері, що є ключовою перевагою, на думку розробників.
Характеристики:
Розпізнавання російської мови працює з надійністю близько 95%;
Дикторонезалежність;
Словниковий запас близько 150 тис. слів;
Одночасна підтримка декількох мов;
Компактний розмір двигуна.
Sakrament ASR Engine (розробка компанії «Сакрамент») – технологія розпізнавання мови використовується при створенні засобів голосового управління – програм, керуючих діями комп'ютера або іншого електронного пристрою за допомогою голосових команд, а також при організації телефонних, довідкових та інформаційних служб.
Характеристики:
Дикторонезалежність;
Мовна незалежність;
Точність розпізнавання досягає 95-98%;
Розпізнавання мови у вигляді виразів і невеликих пропозицій;
Немає можливості навчання.
Dragon NaturallySpeaking (компанія «Nuance») – світовий лідер у програмному забезпеченні по розпізнаванню людської мови. Можливість створювати нові документи, відправляти електронну пошту, управляти популярними браузерами та різноманітними додатками за допомогою голосових команд.
Характеристики:
Відсутня підтримка російської мови;
Точність розпізнавання до 99%.
ViaVoice (компанія «IBM») являє собою програмний продукт для апаратних реалізацій. Компанія Provox технології на основі цього ядра створила систему для диктування звітів лікарів-радіологів VoxReports.
Характеристики:
Точність розпізнавання досягає 95-98%;
Дикторонезалежність;
Словник системи обмежений набором специфічних термінів.