
- •Н аціональний технічний університет України «Київський політехнічний інститут»
- •Завдання на дипломний проект (роботу) студенту
- •Р еферат
- •Перелік прийнятих скорочень
- •Постановка задачі
- •Розділ 1 аналіз шляхів налагодження інтерфейсу користувача з програмними додатками
- •1.1 Існуючі технології інтерфейсів, критерії та оцінка їх ефективності
- •1.2 Голосовий інтерфейс та його практичне застосування
- •1.3 Системи розпізнавання мови
- •1.4 Огляд продуктів, які використовують технології голосового інтерфейсу
- •1.5 Реалізація голосового інтерфейсу в AutoCad
- •Розділ 2 методика побудови та оцінювання ефективності голосового інтерфейсу
- •2.1 Попередній аналіз сигналу
- •2.2 Приховані марківські моделі
- •2.3 Алгоритм Вітербі
- •2.3 Методика goms
- •Розділ 3 розробка програм з голосовим інтерфейсом
- •3.1 Вибір інструментальної платформи
- •3.2 Вимоги до програм та інструкція користувача
- •3.3 Опис розроблених програм з голосовим інтерфейсом
- •Розділ 4 експериментальні дослідження ефективності голосового інтерфейсу у програмах
- •4.1 Програма «Голосовий калькулятор – 1»
- •4.2 Програма «Голосовий калькулятор-2»
- •4.3 Програма «Голосовий блокнот»
- •4.4 Програма «Голосовий знімок екрану»
- •Розділ 5 охорона праці
- •5.1 Загальні положення
- •5.2 Гігієна праці і санітарія
- •Висновки і перспективи подальших досліджень
- •Перелік посилань
1.2 Голосовий інтерфейс та його практичне застосування
Використання голосового інтерфейсу є найбільш природною і зручною формою взаємодії людини з технічною системою. В даний час вже існує ряд систем, які використовують голосовий інтерфейс, забезпечуючи тим самим більш ефективне рішення деяких задач. Перш ніж перейти до розгляду прикладів практичного використання голосового інтерфейсу, порівняємо його з найбільш поширеними в даний час засобами взаємодії користувача з комп'ютером: клавіатурою і дисплеєм. Слід зазначити принаймні три принципові відмінності голосового інтерфейсу:
1) явний недолік клавіатури і дисплея полягає в тому, що для спілкування з комп'ютером людині потрібно пройти спеціальну підготовку. У той же час мова – це природний інтерфейс для будь-якої, навіть непідготовленої людини. Мова знижує в різкій ступені психологічну відстань між людиною і комп'ютером. Якщо з'являється голосовий інтерфейс, то коло користувачів комп'ютером може стати необмеженим;
2) голос сам по собі ніяк механічно не прив'язаний до комп'ютера і може бути пов'язаний з ним через системи комунікації, наприклад, телефон. Голосовий інтерфейс скорочує фізичну відстань між людиною і комп'ютером. Це додатково розширює коло потенційних користувачів комп'ютерів і робить голосовий інтерфейс ідеальним засобом для створення систем масового інформаційного обслуговування;
3) можна спілкуватися з комп'ютером в повній темряві, з закритими очима, в умовах зайнятості рук важелями управління, з зав'язаними руками і в іншій екстремальній обстановці. Ця властивість дає оперативність і мобільність спілкування, звільнення рук і розвантаження зорового каналу сприйняття при отриманні інформації. Це винятково важливо, наприклад, для диспетчера великий енергетичної системи або пілота літака і водія автомобіля. Крім того, комп'ютерні системи стають більш доступними людям з порушенням зору. В даний час голосові комп'ютерні технології вже досить широко поширені і розвиваються в декількох напрямках[2].
Це, однак, не означає, що голосовий спосіб людино-машинного спілкування цілком замінить традиційні способи введення-виведення інформації. Поряд з іншими засобами він активно сприяє подальшій інтелектуалізації людино-машинних систем. Результати, отримані в галузі розробки голосового інтерфейсу, стають доступні широким верстам населення. В даний час нам уже відомі приклади широкого використання голосового інтерфейсу, наприклад, в області телефонії, побутової техніки та ін[8, 210c.].
Голосовий інтерфейс розглядається, як додатковий, що розширює можливості існуючих інтерфейсів. Таким чином, разом повинні будуть співіснувати миша, клавіатура і мікрофон. Вони повинні працювати в одній зв'язці, не створюючи перешкод один одному (біда багатьох програм для управління комп'ютером по голосу). Людина повинна мати можливість вибору найбільш зручного інтерфейсу в кожен конкретний момент часу. Наприклад, почати команду, використовуючи мишу, продовжити голосовим вводом і підтвердити натисканням кнопки на клавіатурі. У сучасних операційних системах вже закладалися можливості використання голосового інтерфейсу (нові ОС фірми Microsoft)[8, C. 209].
Практичне використання голосового інтерфейсу:
телекомунікації
Голосові технології надають можливість цілодобового доступу для користувачів call центрів до послуг:
отримання довідкової інформації;
доступу до персональних даних та управління сервісами;
замовлення по телефону продуктів або послуг;
автоматичної переадресації дзвінка на потрібного абонента.
мобільні пристрої
Дозволяє організувати можливість голосового управління будь-якими додатками мобільної платформи, а також реалізувати можливість введення числової і / або текстової інформації за допомогою голосу.
побутові пристрої
За допомогою інтелектуального пульта дистанційного можна реалізувати голосове управління будь-якими побутовими та промисловими пристроями.
Наприклад, при управлінні телевізором, це:
голосове керування перемиканням каналів;
голосове управління настройками та програмування телевізора і засобів відтворення відео;
голосове формування запитів для інтелектуального пошуку необхідних відеосюжетів.
Голосові технології можуть знайти найширше застосування в інтелектуальних телевізійних системах нового покоління: за рахунок їх використання значно розшириться пакет сервісів для споживачів ТВ послуг. Наприклад, інтелектуальна приставка з можливостями індексації відеофрагментів дозволить:
Записувати і оцифровувати телевізійні програми;
Індексувати вироблені записи по категоріям (фільми, спортивні програми, новинні сюжети);
Знаходити ключові фрази і вирази в аудіопотоках (для формування вибірки новин з цікавої теми);
Знаходити музичні фрагменти, що відповідають певним критеріям пошуку;
Знаходити конкретних особистостей по голосовим фрагментам (для формування вибірки програм, в яких брали участь дані люди);
Очищати записи від небажаних фрагментів (реклами, заставки).
В свою чергу інформаційні сервери ТВ мереж дозволять організувати сервіси:
«Відео за заявкою» (відео на замовлення), коли абонент має можливість дивитися будь-яку передачу або картину в зручний для себе час.
Вибір сюжетів для перегляду, наприклад, у випуску новин можна подивитися звичайний сюжет або більш докладну розповідь, повторити спортивний блок ще раз;
Індексація та інтелектуальний пошук у базі даних відео фрагментів;
Інтерактивні розваги, що передбачають участь глядачів у вікторинах, конкурсах, іграх, спортивних змаганнях і т.д.;
Різноманітні сервісно-комерційні служби для абонентів, наприклад, можливість робити покупки не виходячи з дому.
автомобілі
Аудіосистеми не тільки контролю, а й управління вже застосовуються в деяких марках автомобілів. Наприклад, водій називає вулицю, до якої йому потрібно дістатися, і система надає маршрут до місця призначення. Крім того, механізм розпізнавання голосових команд дозволить водію зв'язуватися з абонентами по телефону або отримувати доступ до своєї персоніфікованої інформації під час руху. Плюси такої системи в тому, що вона не знижує увагу водія за кермом, адже йому не потрібно відводити погляд від дороги і руки від керма, для того, щоб ввести інформацію з клавіатури. Використання звичайного (тактильного) способу набору за кермом не тільки незручно, але й небезпечно. Головною проблемою в такій ситуації є високий рівень шуму (шум вулиці, шум двигуна та ін.). Проте і ця проблема вже має варіанти вирішення.
освіта
Завдяки голосовим технологіям можливе вивчення іноземних мов з постановкою правильної вимови.Також вони допоможуть школам і університетам підтримувати своїх споживачів на більш високому рівні, забезпечити новими напрямками для навчання, і покращити інформаційну доступність.
комп'ютерні системи
В інформаційно-довідкових терміналах для управління меню використовують голосові команди (для введення цифр, окремих слів і фраз).
Системи голосової технології можуть використовуватися в системі інтеллектуальної автоматизації «розумний дім» для:
голосового управління сервером (технологія розпізнавання мови);
системи контролю доступу (технологія ідентифікації голосу диктора по пральний фразі);
автоінформатор (система синтезу мови).
інтернет
В сервісах голосових порталів і пошукових системах реалізована можливість використання «природного інтерфейсу» спілкування користувачів при роботі з додатками. Також система розпізнавання мови використовується для голосової навігації і голосового управління додатками.
системи доступу
Системи ідентифікації диктора по голосовому фрагменту знаходять широке застосування у складі комплексних систем обмеження доступу.
аерокосмос
Передача розмов екіпажу в реальному часі у вигляді текстової інформації в «чорний ящик», або «на землю» в диспетчерські служби.
Система ідентифікації дикторів по голосовому фрагменту може застосовуватись в складі комплексних систем безпеки для ідентифікації співробітників, що мають доступ в закриті зони аеропорту, а також в системах забезпечення безпеки доступу в кабіни пілотів.
військовий комплекс
Голосове управління дасть можливість зупинки бойової техніки при її пошкодженні або пораненні оператора.
Системи ідентифікації дикторів по звуковим фрагментам може застосовуватись для ідентифікації персоналу, що має доступ в закриті зони охороняємого об'єкта.
ігри
Системи розпізнавання мови можуть використовуватися в абсолютно будь-яких комп'ютерних іграх і додатках, будь-яких жанрів і напрямів: від невеликих логічних ігор до онлайнових рольових проектів[27].