
- •67. Системы распознавания речи
- •Реферат
- •1 История создания и разработки сср 7
- •2 Классификация систем распознавания речи 9
- •3 Методы распознавания речи 11
- •1 История создания и разработки сср 7
- •4 Проблемы в области распознавания речи 18
- •5 Перспективы использования срр 20
- •Список обозначений
- •Введение
- •1 История создания и разработки сср
- •2 Классификация систем распознавания речи
- •3 Методы распознавания речи
- •3.1 Распознавание по образцу
- •3.2 Выделение лексических элементов
- •3.3 Предварительная обработка звуковых сигналов
- •3.4 Выделение информативных признаков речевого сигнала
- •3.4.1 Спектральное представление речи
- •3.4.2 Учет динамики речи
- •3.5 Выделение фонем и аллофонов
- •3.6 Распознавание слитной речи
- •3.7 Применение нейронных сетей для распознавания речи
- •3.7.1 Представление речи в виде набора числовых параметров
- •3.7.2 Нейронные ансамбли
- •3.7.3 Генетические алгоритмы
- •3.8 Реализация уровней ввода и вывода в срр
- •4 Проблемы в области распознавания речи
- •5 Перспективы использования срр
- •Заключение
- •Список использованных источников
1 История создания и разработки сср
В Соединенных Штатах Америки, в конеце 60-х годов XX века, на одном из телешоу Вальтер Кронкит (Walter Cronkite) — ведущий научно-популярной программы «XXI век» во время демонстрации новейших разработок в области распознавания речи сказал: «Три». Компьютер распознал это слово как «четыре». «Идиот» - пробормотал Вальтер. «Этого слова нет в словаре» — ответил компьютер.
Хотя первые разработки в области систем распознавания речи (СРР) относятся еще к 1920-м годам, первая система была создана только в 1952 году компанией Bell Laboratories (сегодня она входит в состав Lucent Technologies). А первая коммерческая СРР была создана еще позже: в 1960 году IBM объявила о разработке такой системы, но на рынок программа так и не вышла.
Затем, в 1970-х годах, авиакомпания Eastern Airlines в США установила дикторозависимую систему отправки багажа: оператор называл пункт назначения — багаж отправлялся в путь. Однако из-за большого количества допущенных ошибок система так и не прошла испытательный срок.
После этого разработки в данной области если и велись, то достаточно вяло. Даже в 1980-х годах реальных коммерческих приложений с использованием систем распознавания речи было довольно мало.
В дорогих автомобилях типа Infinity и Jaguar уже несколько лет используется устный контроль за панелью управления: радио, температурный режим и навигационная система понимают голос владельца машины и беспрекословно слушаются хозяина. Но сейчас технология распознавания голоса начинает применяться и в машинах среднего класса. Так, с 2003 года Honda Accord имеет встроенный голосовой определитель от IBM. Он называется ViaVoice и является частью навигационной системы за 2000 долл. По сообщению компании-поставщика, одна пятая часть покупателей Honda Accord сделала выбор в пользу модели с голосовой системой навигации [1].
В 2009 году компания Google анонсировала возможность мультиязычного голосового поиска информации в мобильной ОС Android 1.6. Со своей задачей СРР справляется на 84 - 91%. Диктовать можно как предложения, так и отдельные слова. В качестве положительного момента следует отметить поддержку русского языка. Однако для использования требуется наличие доступа в интернет, т.к. происходит обмен данными с серверами Google, что, на мой взгляд, является недостатком (в версиях до 4.0 включительно). Но в ОС Android 4.1 голосовой ввод может работать без доступа к сети, т.к. в устройстве имеется небольшой кэш.
В 2011 году компания Apple в своем новом мобильном устройстве реализовала систему голосового поиска под названием Siri. Особенность в том, что она способна не только принимать команды, но и давать речевые ответы на заданные вопросы, напоминая диалог двух собеседников. Система поддерживает только английский язык, её эффективность ниже, чем в ОС Android и требует английский/американский акцент, а так же работает не во всех странах мира. Аналогично, Siri требует подключение к интернету.
2 Классификация систем распознавания речи
Каждая такая система имеет конкретные задачи, которые она призвана решать и комплекс подходов, которые применяются для решения поставленных задач. Рассмотрим основные признаки, по которым можно классифицировать системы распознавания человеческой речи и то, как этот признак может влиять на работу системы (см. рисунок 1).
Рисунок 1 – Классификация СРР
Размер словаря. Очевидно, что чем больше размер словаря, который заложен в систему распознавания, тем больше частота ошибок при распознавании слов системой. Например, словарь из 10 цифр может быть распознан практически безошибочно, тогда как частота ошибок при распознавании словаря в 100000 слов может достигать 45%. С другой стороны: даже распознавание небольшого словаря может давать большое количество ошибок распознавания, если слова в нем очень похожи
Дикторозависимость или дикторонезависимость системы. Дикторозависимая система предназначена для использования одним пользователем, в то время как дикторонезависимая система предназначена для работы с любым диктором. Дикторонезависимость – труднодостижимая цель, так как при обучении системы, она настраивается на параметры конкретного человека, на примере которого обучается. Частота ошибок распознавания таких систем обычно в 3-5 раз больше, чем частота ошибок дикторозависимых систем.
Раздельная или слитная речь. Если в речи каждое слово разделяется от другого участком тишины, то говорят, что эта речь – раздельная. Слитная речь – это естественно произнесенные предложения. Распознавание слитной речи намного труднее в связи с тем, что границы отдельных слов не четко определены и их произношение сильно искажено смазыванием произносимых звуков.
Назначение. Назначение системы определяет требуемый уровень абстракции, на котором будет происходить распознавание произнесенной речи. В командной системе (например, голосовой набор в сотовом телефоне) скорее всего, распознавание слова или фразы будет происходить как распознавание единого речевого элемента. А система диктовки текста потребует большей точности распознавания и, скорее всего, при интерпретации произнесенной фразы будет полагаться не только на то, что было произнесено в текущий момент, но и на то, как оно соотносится с тем, что было произнесено до этого. Также, в системе должен быть встроен набор грамматических правил, которым должен удовлетворять произносимый и распознаваемый текст. Чем строже эти правила, тем проще реализовать систему распознавания и тем ограниченней будет набор предложений, которые она сможет распознать [2].