Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ДИПЛОМНА "Ефективність застосування ПММ для поб...docx
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
690.8 Кб
Скачать

1.4 Огляд продуктів, які використовують технології голосового інтерфейсу

  1. Sphinx-4 – найвідоміший і найбільш працездатний з відкритих програмних продуктів для розпізнавання мови на сьогоднішній день. Розробка ведеться в університеті Карнегі-Меллона, поширюється на умовах ліцензії Berkley Software Distribution (BSD) і доступний як для комерційного, так і для некомерційного використання.

Характеристики:

  • Дикторонезалежність;

  • Розпізнавання злитого мовлення;

  • Навчання;

  • Наявність версії для вбудованих систем[28].

Існують три основних модулі структури Sphinx-4: модуль попереднього аналізу (Frontend), декодер (Decoder) і модуль лінгвістичного аналізу (Linguist). Модуль попереднього аналізу приймає один або більше вхідних сигналів і перетворює їх в послідовність ознак. Модуль лінгвістичного аналізу переводить будь-який тип стандартної моделі мови, разом з транскрипціями зі словника та інформацією про структуру однієї або декількох акустичних моделей, в граф пошуку. Модуль пошуку в декодері використовує ознаки з модуля попереднього аналізу та графа пошуку з модуля лінгвістичного аналізу для виконання фактичного декодування, генеруючи результати. В будь-який момент до або під час процесу розпізнавання, додаток може передавати управління кожному з модулів, які можуть допомогти процесу розпізнавання.

На малюнку показана загальна архітектура системи. Кожен позначений елемент на малюнку являє собою модуль, який може бути легко замінений.

Рисунок 1.4 – Структура Sphinx-4

Кожен позначений елемент на рис. 1.4 являє собою модуль, який може бути легко замінений, що дозволяє дослідникам експериментувати з різними реалізаціями модуля без необхідності зміни інших частин системи.

Система Sphinx-4, як і більшість систем розпізнавання мови, має велику кількість параметрів, що настроюються, такі як розмір променя пошуку для поліпшення продуктивності системи. Для настройки таких параметрів в Sphinx-4 використовується модуль управління конфігурацією. На відміну від інших систем управління конфігурацією в Sphinx-4 дозволяє динамічно завантажувати і налаштовувати модулі під час виконання, що робить систему гнучкою і легко підключається. Наприклад, Sphinx-4, як правило, налаштований на попередній аналіз, який виділяє Мел-кепстральні коефіцієнти (MFCC). Використовуючи управління конфігурацією можна переналаштувати Sphinx-4 на побудову іншого аналізу, який виділяє перцептуальние коефіцієнти лінійного передбачення без необхідності змінювати вихідний код або перекомпілювати систему.

Щоб дати розробникам додатків можливість відслідковувати статистику декодера, таку як частота помилок слово , швидкість виконання, і використання пам'яті, Sphinx-4 надає ряд інструментів. Як і в решті частини системи, інструменти є налаштованим, що дозволяє користувачам виконувати широкий спектр системного аналізу. Крім того, інструменти також забезпечують інтерактивну середу виконання, що дозволяє користувачам змінювати параметри системи під час її роботи, роблячи доступним швидке експериментування з різними параметрами налаштування.

Sphinx-4 також підтримує утиліти, які обробляють результати розпізнавання на рівні додатків. Наприклад, ці утиліти отримують результати решітки, коефіцієнти впевненості, і ступінь розуміння природної мови[32]..

  1.  Google Voice Search (компанія «Google»). Раніше пошук застосовувався виключно в мобільних пристроях. З недавнього часу голосовий пошук від Google вбудований в браузер Google Chrome, що дозволяє використовувати цей сервіс на різних платформах.

Характеристики:

  • Підтримка російської мови;

  • Можливість вбудовувати розпізнавання мови на веб-ресурси;

  • Голосові команди, словосполучення;

  • Для роботи необхідно постійне підключення до мережі Інтернет.

  1. Горинич ПРОФ 3.0 – перша російськомовна система автоматичного розпізнавання мови для диктування і голосового управління комп'ютером з підтримкою російської мови для операційної системи Windows XP.

Характеристики:

  • Дикторозалежність;

  • Мовна залежність (російська мова та англійська мова);

  • Точність розпізнавання залежить від ядра системи американської програми "Дракон диктат";

  • Надає засоби голосового управління окремими функціями операційної системи, текстових редакторів і прикладних програм;

  • Вимагає навчання.

  1. VoiceNavigator (компанія «Центр мовних технологій») високотехнологічне рішення для контакт-центрів, призначене для побудови систем голосового самообслуговування. VoiceNavigator дозволяє автоматично обробляти виклики за допомогою технологій синтезу і розпізнавання мови. VoiceNavigator – це веб-навігація по веб-ресурсам за допомогою голосу. Розробка дозволяє управляти навігацією сайту за допомогою мовних команд.

Характеристики:

  • Дикторонезалежність;

  • Стійкість до оточуючих шумів і перешкод в телефонному каналі;

  • Розпізнавання російської мови працює з надійністю 97% (словник 100 слів).

  1. Speereo розпізнавання мови (російська ІТ компанія «Speereo Software»). Програмний продукт для розробки додатків в індустрії мобільних пристроїв і персональних комп'ютерів. Розпізнавання мови відбувається безпосередньо на пристрої, а не на сервері, що є ключовою перевагою, на думку розробників.

Характеристики:

  • Розпізнавання російської мови працює з надійністю близько 95%;

  • Дикторонезалежність;

  • Словниковий запас близько 150 тис. слів;

  • Одночасна підтримка декількох мов;

  • Компактний розмір двигуна.

  1. Sakrament ASR Engine (розробка компанії «Сакрамент») – технологія розпізнавання мови використовується при створенні засобів голосового управління – програм, керуючих діями комп'ютера або іншого електронного пристрою за допомогою голосових команд, а також при організації телефонних, довідкових та інформаційних служб.

Характеристики:

  • Дикторонезалежність;

  • Мовна незалежність;

  • Точність розпізнавання досягає 95-98%;

  • Розпізнавання мови у вигляді виразів і невеликих пропозицій;

  • Немає можливості навчання.

  1. Dragon NaturallySpeaking (компанія «Nuance») – світовий лідер у програмному забезпеченні по розпізнаванню людської мови. Можливість створювати нові документи, відправляти електронну пошту, управляти популярними браузерами та різноманітними додатками за допомогою голосових команд.

Характеристики:

  • Відсутня підтримка російської мови;

  • Точність розпізнавання до 99%.

  1. ViaVoice (компанія «IBM») являє собою програмний продукт для апаратних реалізацій. Компанія Provox технології на основі цього ядра створила систему для диктування звітів лікарів-радіологів VoxReports.

Характеристики:

  • Точність розпізнавання досягає 95-98%;

  • Дикторонезалежність;

  • Словник системи обмежений набором специфічних термінів.