Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

6-2-воротников

.pdf
Скачиваний:
57
Добавлен:
23.03.2016
Размер:
6.45 Mб
Скачать

Принципы речевого общения

Речь — исторически сложившаяся форма общения людей посредством языковых конструкций.

Язык же — это система знаков, включающая слова с их значениями плюс синтаксис — набор правил, по которым строятся предложения. Наука о естественном человеческом языке называется

лингвистикой (рис. 80).

Речь является нестационарным во времени сигналом. Она информационно избыточна. то

а

б

 

Рис. 80. Пример языкового общения (а), схема процесса речевого взаимодействия у человека (б)

Классификация систем распознавания речи

по размеру

по отношению к

по типу

по о используемому

 

словаря

 

диктору

речи

 

алгоритму

 

 

 

ограниченные

 

 

зависимые

 

 

 

 

 

динамическое

 

 

 

 

 

 

 

 

 

 

 

 

 

большие

 

 

 

независимые

 

 

 

 

 

программирование

 

 

 

 

 

 

 

 

 

 

 

скрытые Марковские

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

модели

 

 

 

 

 

 

 

 

 

 

слитная

 

нейронные сети

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

раздельная

 

 

 

 

 

 

 

 

 

 

Локационные системы роботов

Способы записи и анализа звука

Исторические вехи

Основные этапы:

первой системой распознавания речи была разработка Bell Lab 1952 г. «Audrey» (англ.

Automatic Digit Recognizer)) распознающая цифры;

через 10 лет IBM продемонстрировала свое детище — систему «Shoebox», которая понимала 16 английских слов (рис. 81, а);

в 70-х годах по заказу министерства обороны США агентством Darpa была создана система

«Harpy» с программой DARPA Speech Understanding Research (SUR). Словарный запас превышал 1000 слов (рис. 81, б);

в 80-х годах стали применять скрытые Марковские модели, а в 90-х появились первые специализированные процессоры;

в 1990 г. появилась первая общедоступная программа Dragon Dictate c ценой 9000 $;

в 2001 г. за дело взялся Google, разработавший приложение Voice Search для iPhone;

в 2010 г. появилась адаптивная система «Siri» (англ. Speech Interpretation and Recognition Interface, рис. 81, в).

б

в

 

а

Рис. 81. Системы распознавания речи: а – Shoebox , IBM, б, в – логотипы разработчиков Harpy и Siri

Локационные системы роботов

Способы записи и анализа звука

Синтезаторы речи

Первый электронный синтезатор речи, VODER (от англ. – Voice Operating DEmonstratoR), был разработан в Bell Labs Гомером Дадли (рис. 82). В 1939 году на Международной ярмарке в Нью Йорке синтезатор произнес трудноразличимую фразу: «Good evening, radio audience».

Г. Дадли также изобрел VOCODER (от англ. voice — голос, coder — кодировщик), устройство синтеза речи, которое изначально было разработано в целях экономии частотных ресурсов телефонных линий (некое подобие кодека Skype, рис.

83).

Рис. 82. Изобретатель синтезатора и первая фраза

б

а

Рис. 83. Конструкция (а) и схема (б) VOCODER’а

Одним из мировых лидеров в области технологий распознавания речи является компания Nuance, США, использующая «облачные технологий», т.е. базу голосовых данных, расположенных на серверах Nuance.

Локационные системы роботов

Способы записи и анализа звука

Первый речевой синтезатор, 1939 г.

Локационные системы роботов

Способы записи и анализа звука

Структура системы распознавания речи

Традиционно речевая информация рассматривается как имеющая многоуровневую иерархическую структуру, включающая акустический, акустико-фонетический, морфологический, лексический и синтаксический уровни обработки. Общая структура системы распознавания речи, содержащей шесть основных функциональных блоков представлена на рис. 84, а.

На разных уровнях представления речевая информация имеет специфические особенности:

на нижних – акустическом и акустико-

фонетическом – большую роль играет ее

пространственная структура, на более высоких уровнях – временная.

а

б

Рис. 84. Общая схема (а), и структура (б) системы распознавания речи

Локационные системы роботов

Способы записи и анализа звука

Дикторозависимая система распознавания речи

Обработка сигнала (параметризация) включает пять основных этапов (рис. 85). Как только детектируется окончание слова запускается алгоритм распознавания. Такие алгоритмы обычно строят на основе сравнения с эталоном. Мерой распознавания обычно служит соответствии векторов признаков реализации и эталона. Известны алгоритмы на основе скрытой Марковской

модели, алгоритм поиска и алгоритм Витерби.

а

б

Рис. 85. Принцип параметризации (а) и ее иллюстрация (б)

Локационные системы роботов

Способы записи и анализа звука

Пример реализации. А. Жонин, 2006 г.

Локационные системы роботов

Способы записи и анализа звука

Синтез визем. П. Дзюба, 2011 г.

Локационные системы роботов

Способы записи и анализа звука

Следящий модуль. А. Горин, 2012 г.

Локационные системы роботов

Способы записи и анализа звука

Синтез речи. Робот Алиса, 2012 г.

Локационные системы роботов

Способы записи и анализа звука

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]