- •1. Коммуникационный акт.
- •1.1. Структура коммуникационного акта.
- •1.2. Правило Байеса.
- •1.3. Структура коммуникационной системы человека
- •Структура приемника информации – слухового анализатора человека
- •Структура приемника информации – машины
- •5. Подходы к решению задач обработки речевого сигнала в системах распознавания речи
- •5.1. Первичная обработка
- •5.2. Процедура принятия решения
- •6. Системы распознавания речи
- •6.1. Стандартный дп-распознаватель
- •6.2. Стандартный смм-распознаватель
- •6.3. Промышленные системы распознавания речи
- •Ibm Voice Type Dictation – фонетическая пишущая машинка фирмы ibm
6.3. Промышленные системы распознавания речи
Ibm Voice Type Dictation – фонетическая пишущая машинка фирмы ibm
32000 слов + 2000 слов личного словаря (английский язык).
70 – 100 слов/мин.
Статистические языковые модели.
Стандартные фразы.
В любую среду: OS/2, Windows, DOS.
Спец. словарь: радиология и модели языков.
PCMCIA для мобильных работ.
изолированно произносимые команды;
с подстройкой под диктора;
плата ввода;
синтез введенного текста;
95%;
подстраивается к языковой модели;
речь – текст в звуковом окне – текст в речевом редакторе;
управление оборудованием и меню;
45 – 60 минут – обучение системы; 150 предложений;
английский UK и USA, французский, немецкий, итальянский, испанский, арабские языки.
Система распознавания речи фирмы Speereo Software United Kingdom Limited
До 150000 слов английского языка.
В темпе с процессом.
Статистические языковые модели.
600 командных фраз.
В любую среду: MS Windows 95, 98, Millenium, NT4.0, 2000, XP.
Спец. словарь: радиология и модели языков.
PCMCIA для мобильных работ.
изолированно произносимые команды;
без подстройки под диктора;
99,9% в офисном помещении;
97% в автомобиле, идущем со скоростью 120 км/час;
подстраивается к языковой модели;
управление оборудованием и меню;
английский UK.
Рис. 7.12. Архитектура Speech Engine фирмы Speereo.
ЛИТЕРАТУРА
1. Minsky M., Papert S. Perseptrons. - Cambridge, MA: MIT Press, 1969.
2. Тутубалин В.Н. Теория вероятности. - М.: Издательство Московского университета, 1972г. 232 стр.
3. Bourlard H., Wellekens C.J. Speech Pattern Discrimination and Multilayer Perceptrons. Computer Speech and Language, vol. 3, 1989. Pp. 1 - 19.
4. Kharlamov A.A. Attention Mechanism Usage to Form Framework-structures on a Semantic Net. In Neurocomputers and Attention. Volume II: Connectionism and neurocomputers. (A.V.Holden, V.I.Kryukov eds). - Manchester, New York: Manchester University Press, 1991. Pp. 747 - 756.
5. Кемени Дж.Дж., Снелл Дж.Л. Конечные цепи Маркова. - М.: "Наука", 1970г. 272 стр.
6. Juang B. -H. On the Hidden Markov Model and Dynamic Time Warping for Speech Recognition - A Unified View. AT&T Bell Laboratories Journal. Vol. 63, No. 7, September 1984. Pp 1213 - 1243.
7. Baum L.E. et al. A Maximization Technique Occuring in the Statistical Analysis of Probabilistic Functions of Markov Chains. Ann. Math. Statist., v. 41, 1970. Pp. 164 - 171.
8. Sakoe H., Chiba S. A Dynamic Programming Approach to Continuous Speech Recognition. Proc. Int. Congress on Acoustics, Budapest, Hungary, Paper 20 C-13, 1971.
9. Харламов А.А. Нейроподобные элементы с временной суммацией входного сигнала и блоки ассоциативной памяти на основе этих элементов. В сб.: "Вопросы кибернетики. Устройства и системы" под ред. Н.Н.Евтихиева. -М.: МИРЭА, 1983. Стр. 57 - 68.
10. Фомин С.В., Беркинблит М.Б. Математические проблемы в биологии. - М.: Наука, 1973. 200 стр.
11. Widrow B. Generalization and Information Storage in Networks of Adaline 'Neurons'. In: Selforeganizing Systems 1962, M.C.Yovitz, G.T.Jacoby, G.D.Goldstein eds. - Washington, DC: Spartan Books, 1962. Pp. 435 - 461.
12. Widrow B., Hoff M.E. Adaptive switching circuits. In: IRE WESCON Conv. Rec., pt. 4, 1960. Pp. 96 - 104.
13. Widrow B., Stearns S.D. Adaptive Signal Processing. - Englewood Cliffs, NJ: Prentice-Hall, 1985.
14. Lewis II P.M., Cjates C.L. Threshold logic. - New York: John Wiley and Sons, 1967.
15. Rumelhart D.E., McCleland J.L. Parallel Distributed Processing. - Cambridge, Massachusetts: MIT Press, Volumes I and II, 1986.
Parker D.B. Learning-Logic. Center for Computational Research in Economics and Management Science, Mass. Inst. of Tech., Rep. TR-47, April 1985.
Величко В.М., Загоруйко Н.Г. Математическое распознавание ограниченного набора устных команд // Вычислительные системы. Новосибирск: 1969. Вып. 36. -С. 101 - 110.
Винцюк Т.К. Распознавание слов устной речи методами динамического программирования. //Кибернетика. 1968, № 1. -С. 81 - 88.
Слуцкер Г.С. Нелинейный метод анализа речевых сигналов //Тр. НИИР, 1968. Вып. 2.
Shannon C., Weaver W. The Mathematical Theory of Communication // Urbana: University of Illinois Press, 1969.
Якобсон Р.О. Речевая коммуникация; Язык в отношении к другим системам коммуникации // Избранные работы. М.: Прогресс, 1985.
Л.В. Бондарко. Звуковой строй современного русского языка. М.: Просвещение, 1997.
Лекции по языкознанию (http://www.tula.net/tgpu/resources/yazykozn/index.htm). Составитель Г.Н. Мерцалова. Тульский государственный педагогический университет им Л.Н. Толстого.
В. Ф. Ундриц, К. Л. Хилов, Н. Н. Лозанов, В. К. Супрунов. Болезни уха, горла и носа (руководство для врачей). Медицина, 1969.