Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ДИПЛОМНА "Ефективність застосування ПММ для поб...docx
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
690.8 Кб
Скачать

3.2 Вимоги до програм та інструкція користувача

Розроблені програми відповідають наступним вимогам:

  • відповідність призначенню та структурі інтерфейсу;

  • мінімізація витрат ресурсів користувача;

  • гнучкість;

  • максимальна концентрація користувача на задачі;

  • врахування професійних навичок користувача;

  • легкість користування і простота навчання;

  • надійність.

Для коректної роботи програми «Голосовий калькулятор» необхідно:

  1. якщо на комп’ютері користувача не встановлено програмне забезпечення Java, необхідно завантажити та виконати інсталяцію поточної версії Java з сайту Oracle ;

  2. необхідно підключити мікрофон, та впевнитись, що він працює;

  3. після запуску програми зачекати 10-15с. розпочати введення даних за допомогою голосових команд, клавіатури та мишки.

3.3 Опис розроблених програм з голосовим інтерфейсом

Для дослідження та визначення ефективності голосового інтерфейсу, було розроблено 4 програми з впровадженим в них голосовим інтерфейсом:

  1. «Голосовий калькулятор», який включає в себе, окрім стандартних методів вводу та редагування інформації, аналогічні голосові команди;

  2. «Голосовий калькулятор – 2», який включає в себе, окрім стандартних методів вводу та редагування інформації, службові голосові команди;

  3. «Голосовий блокнот», який включає в себе, окрім стандартних методів редагування інформації, службові голосові команди;

  4. «Голосовий знімок екрану», який включає в себе, окрім стандартних методів управління програмою, службові голосові команди.

В якості математичного апарату, що застосовується для розпізнавання голосових команд в Sphinx-4, застосовуються приховані марківскі моделі та алгоритм Вітербі. 

Далі більш детально розглянемо розроблені програми з впровадженим в них голосовим інтерфейсом:

  1. Програма «Голосовий калькулятор-1» включає в себе, окрім стандартних методів вводу та редагування інформації, 27 голосових команд: plus, minus, clear, a back, b back, a clear, b clear, a One, a Two, a Three, a Four, a Five, Six, a Seven, a Eight, a Nine, a Zero, b One, b Two, b Three, b Four, b Five, b Six, b Seven, b Eight, b Nine, b Zero. Зовнішній вигляд програми зображено на рис.3.1.

Рисунок 3.1 – Зовнішній вигляд програми «Голосовий калькулятор»

В процесі роботи програми «Голосовий калькулятор» будуть одержані наступні результати:

  1. за допомогою голосових команд та клавіатури вводяться дані;

  2. команда «Plus» або «Minus» проводить розрахунки та на екран виводиться результат.

Код програми представлений у додатку К.

Архітектуру та функціональну структуру програми «Голосовий калькулятор» зображено на рис.3.2 та рис.3.3.

Центральна координаційна система

Обчислювальний блок

Система організації діалогу

Рисунок 3.2 – Архітектура програми «Голосовий калькулятор»

Рисунок 3.3 – Функціональна структура програми «Голосовий калькулятор»

  1. Програма «Голосовий калькулятор – 2» включає в себе, окрім стандартних методів вводу та редагування інформації, 9 голосових команд: one, two, one back, two back, plus, minus, clear, one clear, two clear. Зовнішній вигляд програми зображено на рис. 3.4.

Рисунок 3.4 – Зовнішній вигляд програми «Голосовий калькулятор – 2»

В процесі роботи програми «Голосовий калькулятор» будуть одержані наступні результати:

  1. за допомогою голосових команд та клавіатури вводяться дані;

  2. команда «Plus» або «Minus» проводить розрахунки та на екран виводиться результат.

Код програми представлений у додатку Л.

Архітектуру та функціональну структуру програми «Голосовий калькулятор - 2» зображено на рис.3.5 та рис.3.6.

Рисунок 3.5 – Архітектура програми «Голосовий калькулятор - 2»

Потік звукових даних з дискретизацією 20 КГц (з мікрофона)

Модуль розпізнавання

Приймає один або більше вхідних сигналів і перетворює їх в послідовність ознак за допомогою кепстрального аналізу.

Результатом аналізу сигналу є послідовність голосових кадрів. Кожен голосовий кадр - це результат аналізу сигналу на невеликому відрізку часу (порядку 10 мс.), що містить інформацію про цю ділянку.

Ознаки голосового сигналу

Переводить будь-який тип стандартної моделі мови, разом з транскрипціями зі словника та інформацією про структуру однієї або декількох акустичних моделей, в граф пошуку.

Модуль лінгвістичного аналізу

Граф пошуку

Декодер

Акустична модель

Модуль пошуку

Список лексем

Словник

Мовна модель

Блок виділення голосових слів із звукового сигналу

Блок сегментації слів на фонетичні елементи

Використовує ознаки з модуля попереднього аналізу та графа пошуку з модуля лінгвістичного аналізу для виконання фактичного декодування, генеруючи результати. Математичним аппаратом розпізнавання голосового сигналу є приховані марківські моделі.

Обробка інформації в обчислювальному блоці

Проведення обчислень та формування повідомлення з результатом обчислень

Вивід повідомлення на екран монітору

Рисунок 3.6 – Функціональна структура програми «Голосовий калькулятор-2»

  1. Програма «Голосовий блокнот» включає в себе, окрім стандартних методів редагування інформації, 5 голосових команд: select, copy, past, cut, time. Ці голосові команди є службовими і призначені для більш ефективної роботи з програмою. Зовнішній вигляд програми зображено на рис.3.7.

Рисунок 3.7 – Зовнішній вигляд програми «Голосовий блокнот»

В процесі роботи програми «Голосовий блокнот», використовуючи голосові команди, клавіатуру та мишку, будуть одержані наступні результати:

  1. виділяється текст;

  2. копіюється або вирізається текст;

  3. вставляється текст.

Код програми представлений у додатку М.

Архітектуру та функціональну структуру програми «Голосовий блокнот» зображено на рис.3.8 та рис.3.9.

Центральна координаційна система

Блок редагування

Система організації діалогу

Рисунок 3.8 – Архітектура програми «Голосовий блокнот»

Потік звукових даних з дискретизацією 20 КГц (з мікрофона)

Модуль розпізнавання

Приймає один або більше вхідних сигналів і перетворює їх в послідовність ознак за допомогою кепстрального аналізу.

Результатом аналізу сигналу є послідовність голосових кадрів. Кожен голосовий кадр - це результат аналізу сигналу на невеликому відрізку часу (порядку 10 мс.), що містить інформацію про цю ділянку.

Ознаки голосового сигналу

Переводить будь-який тип стандартної моделі мови, разом з транскрипціями зі словника та інформацією про структуру однієї або декількох акустичних моделей, в граф пошуку.

Модуль лінгвістичного аналізу

Граф пошуку

Декодер

Акустична модель

Модуль пошуку

Список лексем

Словник

Мовна модель

Блок виділення голосових слів із звукового сигналу

Блок сегментації слів на фонетичні елементи

Використовує ознаки з модуля попереднього аналізу та графа пошуку з модуля лінгвістичного аналізу для виконання фактичного декодування, генеруючи результати. Математичним аппаратом розпізнавання голосового сигналу є приховані марківські моделі.

Редагування даних

Проведення редагування та формування нових даних

Вивід нових даних на екран монітору

Рисунок 3.9 – Функціональна структура програми «Голосовий блокнот»

  1. Програма «Голосовий знімок екрану» включає в себе, окрім стандартних методів управління, 2 голосові команди: save, clip. Зовнішній вигляд програми зображено на рис.3.10.

Рисунок 3.10 – Зовнішній вигляд програми «Голосовий знімок екрану»

В процесі роботи програми «Голосовий знімок екрану», використовуючи голосові команди та мишку, будуть одержані наступні результати:

    1. зроблено знімок екрану;

    2. зберігання зображення.

Код програми представлений у додатку Н.

Архітектуру та функціональну структуру програми «Голосовий знімок екрану» зображено на рис.3.11 та рис.3.12.

Центральна координаційна система

Блок управління програмою

Система організації діалогу

Рисунок 3.11 – Архітектура програми «Голосовий знімок екрану»

Потік звукових даних з дискретизацією 20 КГц (з мікрофона)

Модуль розпізнавання

Приймає один або більше вхідних сигналів і перетворює їх в послідовність ознак за допомогою кепстрального аналізу.

Результатом аналізу сигналу є послідовність голосових кадрів. Кожен голосовий кадр - це результат аналізу сигналу на невеликому відрізку часу (порядку 10 мс.), що містить інформацію про цю ділянку.

Ознаки голосового сигналу

Переводить будь-який тип стандартної моделі мови, разом з транскрипціями зі словника та інформацією про структуру однієї або декількох акустичних моделей, в граф пошуку.

Модуль лінгвістичного аналізу

Граф пошуку

Декодер

Акустична модель

Модуль пошуку

Список лексем

Словник

Мовна модель

Блок виділення голосових слів із звукового сигналу

Блок сегментації слів на фонетичні елементи

Використовує ознаки з модуля попереднього аналізу та графа пошуку з модуля лінгвістичного аналізу для виконання фактичного декодування, генеруючи результати. Математичним аппаратом розпізнавання голосового сигналу є приховані марківські моделі.

Управління програмою

Здійснення відповідної команди, для управління програмою

Вивід нових даних на екран монітору

Рисунок 3.12 – Функціональна структура програми «Голосовий знімок екрану»

Висновок до розділу 3

Для програмної реалізації голосового інтерфейсу пропонується використати наступні програми:

  1. JDK ( J2SE );

  2. Eclipse;

  3. Sphinx-4;

  4. JSAPI ( Included in Sphinx);

  5. Apache Ant.

Було описано процес розробки 4 програм з впровадженим в них голосовим інтерфейсом:

    1. голосовий калькулятор-1, в якому впроваджено 27 голосових команд. У цьому голосовому калькуляторі можливе виключно голосове управління для введення чисел та проведення розрахунків;

    2. голосовий калькулятор-2, в якому впроваджено 9 голосових команд.У цьому голосовому калькуляторі лише службові команди є голосовими, а введення інформації здійснюється за допомогою клавіатури;

    3. голосовий блокнот, в якому впроваджено 5 голосових команд. Ці команди є службовими, за їх допомогою можна редагувати текст;

    4. голосовий знімок екрану, в якому впроваджено дві голосові програми. За допомогою цих голосових команд, здійснюється управління програмою – робиться знімок екрану та зберігається зображення.

Програмні додатки реалізовані на мові програмування Java та бібліотекою Sphinx-4.

Попередній аналіз голосового сигналу проводиться з використанням кепстрального аналізу. В якості математичного апарату, застосовується прихована марківска модель.

Усі розроблені програми відповідають наступним вимогам:

  • відповідність призначенню та структурі інтерфейсу;

  • мінімізація витрат ресурсів користувача;

  • гнучкість;

  • максимальна концентрація користувача на задачі;

  • врахування професійних навичок користувача;

  • легкість користування і простота навчання;

  • надійність.

Також представлені архітектури та функціональні структури усіх 4 розроблених програм, описані їх результати роботи та представлені інструкції користувача.