6-2-воротников
.pdfПринципы речевого общения
Речь — исторически сложившаяся форма общения людей посредством языковых конструкций.
Язык же — это система знаков, включающая слова с их значениями плюс синтаксис — набор правил, по которым строятся предложения. Наука о естественном человеческом языке называется
лингвистикой (рис. 80).
Речь является нестационарным во времени сигналом. Она информационно избыточна. то
а |
б |
|
Рис. 80. Пример языкового общения (а), схема процесса речевого взаимодействия у человека (б)
Классификация систем распознавания речи
|
по размеру |
|
по отношению к |
по типу |
по о используемому |
||||||||
|
словаря |
|
диктору |
речи |
|
алгоритму |
|||||||
|
|
|
ограниченные |
|
|
зависимые |
|
|
|
|
|
динамическое |
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
большие |
|
|
|
независимые |
|
|
|
|
|
программирование |
|
|
|
|
|
|
|
|
|
|
|
скрытые Марковские |
||
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
модели |
|
|
|
|
|
|
|
|
|
|
|
слитная |
|
нейронные сети |
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
раздельная |
|||
|
|
|
|
|
|
|
|
|
|
Локационные системы роботов |
Способы записи и анализа звука |
Исторические вехи
Основные этапы:
первой системой распознавания речи была разработка Bell Lab 1952 г. «Audrey» (англ.
Automatic Digit Recognizer)) распознающая цифры;
через 10 лет IBM продемонстрировала свое детище — систему «Shoebox», которая понимала 16 английских слов (рис. 81, а);
в 70-х годах по заказу министерства обороны США агентством Darpa была создана система
«Harpy» с программой DARPA Speech Understanding Research (SUR). Словарный запас превышал 1000 слов (рис. 81, б);
в 80-х годах стали применять скрытые Марковские модели, а в 90-х появились первые специализированные процессоры;
в 1990 г. появилась первая общедоступная программа Dragon Dictate c ценой 9000 $;
в 2001 г. за дело взялся Google, разработавший приложение Voice Search для iPhone;
в 2010 г. появилась адаптивная система «Siri» (англ. Speech Interpretation and Recognition Interface, рис. 81, в).
б |
в |
|
а
Рис. 81. Системы распознавания речи: а – Shoebox , IBM, б, в – логотипы разработчиков Harpy и Siri
Локационные системы роботов |
Способы записи и анализа звука |
Синтезаторы речи
Первый электронный синтезатор речи, VODER (от англ. – Voice Operating DEmonstratoR), был разработан в Bell Labs Гомером Дадли (рис. 82). В 1939 году на Международной ярмарке в Нью Йорке синтезатор произнес трудноразличимую фразу: «Good evening, radio audience».
Г. Дадли также изобрел VOCODER (от англ. voice — голос, coder — кодировщик), устройство синтеза речи, которое изначально было разработано в целях экономии частотных ресурсов телефонных линий (некое подобие кодека Skype, рис.
83).
Рис. 82. Изобретатель синтезатора и первая фраза
б
а
Рис. 83. Конструкция (а) и схема (б) VOCODER’а
Одним из мировых лидеров в области технологий распознавания речи является компания Nuance, США, использующая «облачные технологий», т.е. базу голосовых данных, расположенных на серверах Nuance.
Локационные системы роботов |
Способы записи и анализа звука |
Первый речевой синтезатор, 1939 г.
Локационные системы роботов |
Способы записи и анализа звука |
Структура системы распознавания речи
Традиционно речевая информация рассматривается как имеющая многоуровневую иерархическую структуру, включающая акустический, акустико-фонетический, морфологический, лексический и синтаксический уровни обработки. Общая структура системы распознавания речи, содержащей шесть основных функциональных блоков представлена на рис. 84, а.
На разных уровнях представления речевая информация имеет специфические особенности:
на нижних – акустическом и акустико-
фонетическом – большую роль играет ее
пространственная структура, на более высоких уровнях – временная.
а
б
Рис. 84. Общая схема (а), и структура (б) системы распознавания речи
Локационные системы роботов |
Способы записи и анализа звука |
Дикторозависимая система распознавания речи
Обработка сигнала (параметризация) включает пять основных этапов (рис. 85). Как только детектируется окончание слова запускается алгоритм распознавания. Такие алгоритмы обычно строят на основе сравнения с эталоном. Мерой распознавания обычно служит соответствии векторов признаков реализации и эталона. Известны алгоритмы на основе скрытой Марковской
модели, алгоритм поиска и алгоритм Витерби.
а
б
Рис. 85. Принцип параметризации (а) и ее иллюстрация (б)
Локационные системы роботов |
Способы записи и анализа звука |
Пример реализации. А. Жонин, 2006 г.
Локационные системы роботов |
Способы записи и анализа звука |
Синтез визем. П. Дзюба, 2011 г.
Локационные системы роботов |
Способы записи и анализа звука |
Следящий модуль. А. Горин, 2012 г.
Локационные системы роботов |
Способы записи и анализа звука |
Синтез речи. Робот Алиса, 2012 г.
Локационные системы роботов |
Способы записи и анализа звука |