Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Московский государственный технический университет им. H.Э.Баумана

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

6-2-воротников

.pdf

Скачиваний:

Добавлен:

23.03.2016

Размер:

6.45 Mб

Скачать

☆

<<< < Предыдущая 1 2 34 / 124 5 6 7 8 9 10 11 12 > Следующая >>>

Принципы речевого общения

Речь — исторически сложившаяся форма общения людей посредством языковых конструкций.

Язык же — это система знаков, включающая слова с их значениями плюс синтаксис — набор правил, по которым строятся предложения. Наука о естественном человеческом языке называется

лингвистикой (рис. 80).

Речь является нестационарным во времени сигналом. Она информационно избыточна. то

а	б

Рис. 80. Пример языкового общения (а), схема процесса речевого взаимодействия у человека (б)

Классификация систем распознавания речи



по размеру



по отношению к 

по типу

 по о используемому

словаря

диктору

речи

алгоритму

 ограниченные

 зависимые

 динамическое

 большие

 независимые

программирование

 скрытые Марковские

модели



слитная

 нейронные сети

 раздельная

Локационные системы роботов

Способы записи и анализа звука

Исторические вехи

Основные этапы:

первой системой распознавания речи была разработка Bell Lab 1952 г. «Audrey» (англ.

Automatic Digit Recognizer)) распознающая цифры;

через 10 лет IBM продемонстрировала свое детище — систему «Shoebox», которая понимала 16 английских слов (рис. 81, а);

в 70-х годах по заказу министерства обороны США агентством Darpa была создана система

«Harpy» с программой DARPA Speech Understanding Research (SUR). Словарный запас превышал 1000 слов (рис. 81, б);

в 80-х годах стали применять скрытые Марковские модели, а в 90-х появились первые специализированные процессоры;

в 1990 г. появилась первая общедоступная программа Dragon Dictate c ценой 9000 $;

в 2001 г. за дело взялся Google, разработавший приложение Voice Search для iPhone;

в 2010 г. появилась адаптивная система «Siri» (англ. Speech Interpretation and Recognition Interface, рис. 81, в).

б	в

Рис. 81. Системы распознавания речи: а – Shoebox , IBM, б, в – логотипы разработчиков Harpy и Siri

Локационные системы роботов

Способы записи и анализа звука

Синтезаторы речи

Первый электронный синтезатор речи, VODER (от англ. – Voice Operating DEmonstratoR), был разработан в Bell Labs Гомером Дадли (рис. 82). В 1939 году на Международной ярмарке в Нью Йорке синтезатор произнес трудноразличимую фразу: «Good evening, radio audience».

Г. Дадли также изобрел VOCODER (от англ. voice — голос, coder — кодировщик), устройство синтеза речи, которое изначально было разработано в целях экономии частотных ресурсов телефонных линий (некое подобие кодека Skype, рис.

83).

Рис. 82. Изобретатель синтезатора и первая фраза

Рис. 83. Конструкция (а) и схема (б) VOCODER’а

Одним из мировых лидеров в области технологий распознавания речи является компания Nuance, США, использующая «облачные технологий», т.е. базу голосовых данных, расположенных на серверах Nuance.

Локационные системы роботов

Способы записи и анализа звука

Первый речевой синтезатор, 1939 г.

Локационные системы роботов

Способы записи и анализа звука

Структура системы распознавания речи

Традиционно речевая информация рассматривается как имеющая многоуровневую иерархическую структуру, включающая акустический, акустико-фонетический, морфологический, лексический и синтаксический уровни обработки. Общая структура системы распознавания речи, содержащей шесть основных функциональных блоков представлена на рис. 84, а.

На разных уровнях представления речевая информация имеет специфические особенности:

на нижних – акустическом и акустико-

фонетическом – большую роль играет ее

пространственная структура, на более высоких уровнях – временная.

Рис. 84. Общая схема (а), и структура (б) системы распознавания речи

Локационные системы роботов

Способы записи и анализа звука

Дикторозависимая система распознавания речи

Обработка сигнала (параметризация) включает пять основных этапов (рис. 85). Как только детектируется окончание слова запускается алгоритм распознавания. Такие алгоритмы обычно строят на основе сравнения с эталоном. Мерой распознавания обычно служит соответствии векторов признаков реализации и эталона. Известны алгоритмы на основе скрытой Марковской

модели, алгоритм поиска и алгоритм Витерби.

Рис. 85. Принцип параметризации (а) и ее иллюстрация (б)

Локационные системы роботов

Способы записи и анализа звука