- •67. Системы распознавания речи
- •Реферат
- •1 История создания и разработки 7
- •2 Классификация систем распознавания речи 8
- •3 Методы распознавания речи 10
- •1 История создания и разработки 7
- •4 Проблемы в области распознавания речи 20
- •5 Перспективы использования 23
- •Определения, обозначения, сокращения
- •Введение
- •1 История создания и разработки
- •2 Классификация систем распознавания речи
- •3 Методы распознавания речи
- •3.1 Распознавание по образцу
- •3.2 Выделение лексических элементов
- •3.3 Предварительная обработка звуковых сигналов
- •3.4 Выделение информативных признаков речевого сигнала
- •3.4.1 Спектральное представление речи
- •3.4.2 Учет динамики речи
- •3.5 Выделение фонем и аллофонов
- •3.6 Уровни распознавания слитной речи
- •3.7 Применение нейронных сетей для распознавания речи
- •3.7.1 Представление речи в виде набора числовых параметров
- •3.7.2 Нейронные ансамбли
- •3.7.3 Генетические алгоритмы
- •3.8 Реализация уровня ввода и вывода в системе sas
- •4 Проблемы в области распознавания речи
- •5 Перспективы использования
- •Заключение
- •Список использованных источников
Введение
С момента появления первых ЭВМ одним из наиболее важных вопросов развития компьютерной техники был процесс взаимодействия человека с машиной. Долгое время это было доступно только узким специалистам – технологи «общались» с машиной через посредника-программиста. Такая ситуация просуществовала вплоть до появления диалогового интерфейса, когда пользователь смог лично вводить с клавиатуры адресованную машине команду и получить осмысленный ответ. Дальнейшее появление графического интерфейса, в котором отпала необходимость в знании человеком каких-либо команд, привела к повсеместному распространению персональных компьютеров.
Однако человек всегда стремился к более универсальному и естественному способу взаимодействия с ЭВМ. Еще в эпоху перфокарт в научно-фантастических романах человек с компьютером разговаривал, как с равным себе.
Мы живем в веке цифровых и информационных технологий, где СРР можно найти самое различное применение: начиная с ЭВМ и портативных мобильных устройств (к примеру, ввод текста или выполнение различных команд), заканчивая управлением общественным и личным транспортом.
1 История создания и разработки
Соединенные Штаты Америки, конец 60-х годов XX века: «Три», — сказал Вальтер Кронкит (Walter Cronkite), ведущий научно-популярной программы «XXI век», во время демонстрации новейших разработок в области распознавания речи. Компьютер распознал это слово как «четыре». «Идиот», - пробормотал Вальтер. «Этого слова нет в словаре», — ответил компьютер.
Хотя первые разработки в области распознавания речи относятся еще к 1920-м годам, первая система была создана только в 1952 году компанией Bell Laboratories (сегодня она входит в состав Lucent Technologies). А первая коммерческая система была создана еще позже: в 1960 году IBM объявила о разработке такой системы, но на рынок программа так и не вышла.
Затем, в 1970-х годах, авиакомпания Eastern Airlines в США установила дикторозависимую систему отправки багажа: оператор называл пункт назначения — багаж отправлялся в путь. Однако из-за количества допущенных ошибок система так и не прошла испытательный срок.
После этого разработки в данной области если и велись, то достаточно вяло. Даже в 1980-х годах реальных коммерческих приложений с использованием систем распознавания речи было довольно мало.
В дорогих автомобилях типа Infinity и Jaguar уже несколько лет используется устный контроль за панелью управления: радио, температурный режим и навигационная система понимают голос владельца машины и беспрекословно слушаются хозяина. Но сейчас технология распознавания голоса начинает применяться и в машинах среднего класса. Так, с 2003 года Honda Accord имеет встроенный голосовой определитель от IBM. Он называется ViaVoice и является частью навигационной системы за 2000 долл. По сообщению компании-поставщика, одна пятая часть покупателей Honda Accord сделала выбор в пользу модели с голосовой системой навигации.[1]
В 2009 году компания Google анонсировала возможность мультиязычного голосового поиска информации в мобильной ОС Android 1.6. Со своей задачей СРР справляется на 84 - 91%. Диктовать можно как предложения, так и отдельные слова. В качестве положительного момента следует отметить поддержку русского языка. Однако для использования требуется наличие доступа в интернет, т.к. происходит обмен данными с серверами Google, что, на мой взгляд, является недостатком (в версиях до 4.0 включительно). Но в ОС Android 4.1 голосовой ввод может работать без доступа к сети, т.к. в устройстве имеется небольшой кэш.
В 2011 году компания Apple в своем новом мобильном устройстве реализовала систему голосового поиска под названием Siri. Особенность в том, что она способна не только принимать команды, но и давать речевые ответы на заданные вопросы, напоминая диалог двух собеседников. Система поддерживает только английский язык, её эффективность ниже, чем в ОС Android и требует английский/американский акцент, а так же работает не во всех странах мира. Аналогично, Siri требует подключение к интернету.
