1.4 Огляд продуктів, які використовують технології голосового інтерфейсу

Sphinx-4 – найвідоміший і найбільш працездатний з відкритих програмних продуктів для розпізнавання мови на сьогоднішній день. Розробка ведеться в університеті Карнегі-Меллона, поширюється на умовах ліцензії Berkley Software Distribution (BSD) і доступний як для комерційного, так і для некомерційного використання.

Характеристики:

Дикторонезалежність;
Розпізнавання злитого мовлення;
Навчання;
Наявність версії для вбудованих систем[28].

Існують три основних модулі структури Sphinx-4: модуль попереднього аналізу (Frontend), декодер (Decoder) і модуль лінгвістичного аналізу (Linguist). Модуль попереднього аналізу приймає один або більше вхідних сигналів і перетворює їх в послідовність ознак. Модуль лінгвістичного аналізу переводить будь-який тип стандартної моделі мови, разом з транскрипціями зі словника та інформацією про структуру однієї або декількох акустичних моделей, в граф пошуку. Модуль пошуку в декодері використовує ознаки з модуля попереднього аналізу та графа пошуку з модуля лінгвістичного аналізу для виконання фактичного декодування, генеруючи результати. В будь-який момент до або під час процесу розпізнавання, додаток може передавати управління кожному з модулів, які можуть допомогти процесу розпізнавання.

На малюнку показана загальна архітектура системи. Кожен позначений елемент на малюнку являє собою модуль, який може бути легко замінений.

Рисунок 1.4 – Структура Sphinx-4

Кожен позначений елемент на рис. 1.4 являє собою модуль, який може бути легко замінений, що дозволяє дослідникам експериментувати з різними реалізаціями модуля без необхідності зміни інших частин системи.

Система Sphinx-4, як і більшість систем розпізнавання мови, має велику кількість параметрів, що настроюються, такі як розмір променя пошуку для поліпшення продуктивності системи. Для настройки таких параметрів в Sphinx-4 використовується модуль управління конфігурацією. На відміну від інших систем управління конфігурацією в Sphinx-4 дозволяє динамічно завантажувати і налаштовувати модулі під час виконання, що робить систему гнучкою і легко підключається. Наприклад, Sphinx-4, як правило, налаштований на попередній аналіз, який виділяє Мел-кепстральні коефіцієнти (MFCC). Використовуючи управління конфігурацією можна переналаштувати Sphinx-4 на побудову іншого аналізу, який виділяє перцептуальние коефіцієнти лінійного передбачення без необхідності змінювати вихідний код або перекомпілювати систему.

Щоб дати розробникам додатків можливість відслідковувати статистику декодера, таку як частота помилок слово , швидкість виконання, і використання пам'яті, Sphinx-4 надає ряд інструментів. Як і в решті частини системи, інструменти є налаштованим, що дозволяє користувачам виконувати широкий спектр системного аналізу. Крім того, інструменти також забезпечують інтерактивну середу виконання, що дозволяє користувачам змінювати параметри системи під час її роботи, роблячи доступним швидке експериментування з різними параметрами налаштування.

Sphinx-4 також підтримує утиліти, які обробляють результати розпізнавання на рівні додатків. Наприклад, ці утиліти отримують результати решітки, коефіцієнти впевненості, і ступінь розуміння природної мови[32]..

Google Voice Search (компанія «Google»). Раніше пошук застосовувався виключно в мобільних пристроях. З недавнього часу голосовий пошук від Google вбудований в браузер Google Chrome, що дозволяє використовувати цей сервіс на різних платформах.

Характеристики:

Підтримка російської мови;
Можливість вбудовувати розпізнавання мови на веб-ресурси;
Голосові команди, словосполучення;
Для роботи необхідно постійне підключення до мережі Інтернет.

Горинич ПРОФ 3.0 – перша російськомовна система автоматичного розпізнавання мови для диктування і голосового управління комп'ютером з підтримкою російської мови для операційної системи Windows XP.

Характеристики:

Дикторозалежність;
Мовна залежність (російська мова та англійська мова);
Точність розпізнавання залежить від ядра системи американської програми "Дракон диктат";
Надає засоби голосового управління окремими функціями операційної системи, текстових редакторів і прикладних програм;
Вимагає навчання.

VoiceNavigator (компанія «Центр мовних технологій») високотехнологічне рішення для контакт-центрів, призначене для побудови систем голосового самообслуговування. VoiceNavigator дозволяє автоматично обробляти виклики за допомогою технологій синтезу і розпізнавання мови. VoiceNavigator – це веб-навігація по веб-ресурсам за допомогою голосу. Розробка дозволяє управляти навігацією сайту за допомогою мовних команд.

Характеристики:

Дикторонезалежність;
Стійкість до оточуючих шумів і перешкод в телефонному каналі;
Розпізнавання російської мови працює з надійністю 97% (словник 100 слів).

Speereo розпізнавання мови (російська ІТ компанія «Speereo Software»). Програмний продукт для розробки додатків в індустрії мобільних пристроїв і персональних комп'ютерів. Розпізнавання мови відбувається безпосередньо на пристрої, а не на сервері, що є ключовою перевагою, на думку розробників.

Характеристики:

Розпізнавання російської мови працює з надійністю близько 95%;
Дикторонезалежність;
Словниковий запас близько 150 тис. слів;
Одночасна підтримка декількох мов;
Компактний розмір двигуна.

Sakrament ASR Engine (розробка компанії «Сакрамент») – технологія розпізнавання мови використовується при створенні засобів голосового управління – програм, керуючих діями комп'ютера або іншого електронного пристрою за допомогою голосових команд, а також при організації телефонних, довідкових та інформаційних служб.

Характеристики:

Дикторонезалежність;
Мовна незалежність;
Точність розпізнавання досягає 95-98%;
Розпізнавання мови у вигляді виразів і невеликих пропозицій;
Немає можливості навчання.

Dragon NaturallySpeaking (компанія «Nuance») – світовий лідер у програмному забезпеченні по розпізнаванню людської мови. Можливість створювати нові документи, відправляти електронну пошту, управляти популярними браузерами та різноманітними додатками за допомогою голосових команд.

Характеристики:

Відсутня підтримка російської мови;
Точність розпізнавання до 99%.

ViaVoice (компанія «IBM») являє собою програмний продукт для апаратних реалізацій. Компанія Provox технології на основі цього ядра створила систему для диктування звітів лікарів-радіологів VoxReports.

Характеристики:

Точність розпізнавання досягає 95-98%;
Дикторонезалежність;
Словник системи обмежений набором специфічних термінів.

<<< < Предыдущая 1 2 3 4 5 67 / 207 8 9 10 11 12 13 14 15 16 17 18 19 20 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.07.20253.3 Mб0Диплом П.doc
#
01.05.20251.38 Mб0ДИПЛОМ ПОДШИВ..doc
#
01.07.20253.34 Mб0Диплом Присняк 1.doc
#
17.03.20162.75 Mб43Диплом.doc
#
22.08.2019241.6 Кб9ДИПЛОМ.docx
#
01.07.2025690.8 Кб0ДИПЛОМНА "Ефективність застосування ПММ для поб...docx
#
01.07.2025248.38 Кб0Дипломна повна не перевірена.docx
#
01.07.2025449.53 Кб0Дипломна робота Дослідження емоційного вигорання в сфері професійного типу людина-людина.docx
#
01.07.20258.7 Mб0Дипломна робота Підгорна.docx
#
01.04.20257.98 Mб2дипломна робота_18_30_30_01_13.doc
#
12.05.20151.9 Mб131дипломна.docx