
- •Н аціональний технічний університет України «Київський політехнічний інститут»
- •Завдання на дипломний проект (роботу) студенту
- •Р еферат
- •Перелік прийнятих скорочень
- •Постановка задачі
- •Розділ 1 аналіз шляхів налагодження інтерфейсу користувача з програмними додатками
- •1.1 Існуючі технології інтерфейсів, критерії та оцінка їх ефективності
- •1.2 Голосовий інтерфейс та його практичне застосування
- •1.3 Системи розпізнавання мови
- •1.4 Огляд продуктів, які використовують технології голосового інтерфейсу
- •1.5 Реалізація голосового інтерфейсу в AutoCad
- •Розділ 2 методика побудови та оцінювання ефективності голосового інтерфейсу
- •2.1 Попередній аналіз сигналу
- •2.2 Приховані марківські моделі
- •2.3 Алгоритм Вітербі
- •2.3 Методика goms
- •Розділ 3 розробка програм з голосовим інтерфейсом
- •3.1 Вибір інструментальної платформи
- •3.2 Вимоги до програм та інструкція користувача
- •3.3 Опис розроблених програм з голосовим інтерфейсом
- •Розділ 4 експериментальні дослідження ефективності голосового інтерфейсу у програмах
- •4.1 Програма «Голосовий калькулятор – 1»
- •4.2 Програма «Голосовий калькулятор-2»
- •4.3 Програма «Голосовий блокнот»
- •4.4 Програма «Голосовий знімок екрану»
- •Розділ 5 охорона праці
- •5.1 Загальні положення
- •5.2 Гігієна праці і санітарія
- •Висновки і перспективи подальших досліджень
- •Перелік посилань
Висновки і перспективи подальших досліджень
Робота присвячена актуальній темі дослідження ефективності застосування марківських прихованих моделей для побудови голосових компонент інтерфейсу користувача з програмними додатками.
Ефективність розраховано з використанням модифікованої методики GOMS на прикладах 4 програмних додатків, розроблених для данної дипломної роботи, в яких для розпізнавання голосових команд використовуються приховані марківські моделі.
В результаті досліджень були отримані наступні наукові результати:
виявлено, що межі ефективності інтерфейсу користувача з програмними додатками залежать від засобів взаємодії користувача з програмою. У дослідженні розглядались наступні засоби:
клавіатура;
маніпулятор «миша»;
голосові команди;
змішані варіанти вищеперерахованих засобів.
визначено, що використання голосової складової з кількістю команд більше ніж 9 не підвищує ефективність використання інтерфейсу користувача з операційною системою;
використання голосової складової з кількістю команд менше за 9 підвищує ефективність використання традиційного інтерфейсу на 4%;
приховані марківські моделі можуть бути використані для побудови голосової складової інтерфейсу людини з програмними додатками.
В подальших дослідженнях на обрану тему важливо було б зробити порівняльний аналіз ефективності ПММ для побудови голосового інтерфейсу користувача з програмними додатками.
Перелік посилань
Беллман Р. Э. Динамическое программирование и уравнения в частных производных / Р. Беллман, Э. Энджел. — М. : ИЛ, 1960. — 400с.
Бідюк П.І. Проектування комп’ютерних інформаційних систем: Навчальний посібник / П.І. Бідюк, Л.О. Коршевнюк . — К. : НТУУ „КПІ”, 2011. — 340 с.
Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов / Т.К. Винцюк. — К. : Наукова думка, 1987. — 264с.
Джелинек Ф. Распознавание непрерывной речи с помощью статистических методов / Джелинек Ф. // Статистическая теория распознования речи. — 1976. — Т. 64, № 4. — С. 131–160.
Раскин Д. Интерфейс: новые направления в проектировании компьютерных систем / Д. Раскин. — СПб: Символ-Плюс, 2004. — 272 с.
Сидорова Е.В. Используем сервисы Google: электронный кабинет преподавателя / Е.В. Сидорова. — БХВ-Петербург : Росийская академия образования. Институт педагогического образования. Лаборатория информатизации непрерывного педагогического образования, 2010. — 288с.
Федотова Е.Л. Интерактивный голосовой интерфейс. Технологии и системы: учеб. пособие / Е.Л.Федотова. — М.: ИНФРА-М, 2009. — 352 с.
Фролов К.Ф. Основные тенденции развития речевого интерфейса / К.Ф. Фролов.— СПб.: СПИИРАН, 2004. — 210с.
Baker J.K. Stochastic modeling for automatic speech understanding/ J.K. Baker. — New York: Academic Press, 1975. — P. 521–542.
Hinton G. Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups. Signal Processing Magazine / [Hinton G., Deng, L., Yu D. et al.]. — USA : IEEE, 2012. — P. 82-97.
Itakura F. Minimum prediction residual principle applied to speechrecognition / F. Itakura. —USA : IEEE, 1975. — P. 67–72.
Mohri M., Pereira F., Riley, M. (2008). Speech recognition with weighted finite-state transducers / Mohri M., Pereira F., Riley M.. — Springer Berlin Heidelberg : Springer Handbook of Speech Processing, 2008. — P. 559-584.
Reidhammer K. Revisiting Semi-continuous Hidden Markov Models / Reidhammer K., Bocklet T., Ghoshal A., Povey D.. — USA : Proc. IEEE Int'l Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2012. — P. 4721–4724.
Vaseghi Saeed Advanced digital signal processing and noise reduction / Vaseghi Saeed. — Chichester: IEEE Transactions on Audio, 2006. — P. 1556-1572.
Виды и типы пользовательского интерфейса [Електронний ресурс]. — Режим доступу : http://interfyeis.blogspot.com/2012/03/blog-post_07.html.
Интерфейс и его виды [Електронний ресурс]. — Режим доступу : http://fim.mdpu.org.ua.
Класификация систем распознования речи [Електронний ресурс]. — Режим доступу : http://fetmag.mrsu.ru/2010-2/pdf/SpeechRecognition.pdf
Лекции по интерфейсам пользователя. [Електронний ресурс]. — Режим доступу : http://www.studfiles.ru/dir/cat32/subj1173/file9485/view99700.html.
Методи і критерії оцінки ІК [Електронний ресурс]. — Режим доступу : http://www.simulation.kiev.ua/dbis/lection17.html#05.
Основные задачи и ключевые понятия речового интерфейса [Електронний ресурс]. — Режим доступу : http://www.bsu.by/Cache/pdf/180353.pdf.
Офіційний сайт Eclipse [Електронний ресурс]. — Режим доступу : http://eclipse.org.
Офіційний сайт Oracle [Електронний ресурс]. — Режим доступу : http://www.oracle.com.
Понятие пользовательского интерфейса. Типы пользовательских интерфейсов [Електронний ресурс]. — Режим доступу : http://bricks.narod.ru/tp/31_pon.htm.
Применение скрытых марковских моделей для распознавания звуковых последовательностей [Електронний ресурс]. — Режим доступу : http://izvestia.asu.ru/2012/1-2/info-comp/TheNewsOfASU-2012-1-2-info-comp-03.pdf.
Разработка и программная реализация модульной интегрируемой системы предоставления средств голосового интерфейса для разработки программного обеспечения [Електронний ресурс]. — Режим доступу : http://www.hse.ru/data/2013/06/02/1285462387/MS_Ilskiy_Andrey.doc.
Распознавание речи от Яндекса [Електронний ресурс]. — Режим доступу : http://habrahabr.ru/company/yandex/blog/198556.
Речевые технологии [Електронний ресурс]. — Режим доступу : http://speech2b.ru/rus/applications.
Центр речевых технологии [Електронний ресурс]. — Режим доступу : http://www.speechpro.ru.
Юзабилити. Кратко о фактах. [Електронний ресурс]. — Режим доступу : http://ru.scribd.com/doc/28794871.
ANT [Електронний ресурс]. — Режим доступу : http://www.bsu.by/sm.aspx?guid=87873.
CMU Sphinx. Open Source Toolkit For Speech Recognition [Електронний ресурс]. — Режим доступу : http://cmusphinx.sourceforge.net.
Sphinx-4 – гибкая система с открытым кодом для распознавания речи [Електронний ресурс]. — Режим доступу : http://masters.donntu.edu.ua/2013/fknt/savkova/library/translation.htm.
Пофонемнерозпізнаваннямовленнєв их сигналівна мікропроцесорах ЦОС сімейства BlackFin [Електронний ресурс]. — Режим доступу : http://uasoiro.kibermova.com/files/Zbirnyk/2010/3/p_67.pdf.