Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Ан обзор вар 2.docx
Скачиваний:
0
Добавлен:
01.03.2025
Размер:
294.94 Кб
Скачать

Введение

С момента появления первых ЭВМ одним из наиболее важных вопросов развития компьютерной техники был процесс взаимодействия человека с машиной. Долгое время это было доступно только узким специалистам – технологи «общались» с машиной через посредника-программиста. Такая ситуация просуществовала вплоть до появления диалогового интерфейса, когда пользователь смог лично вводить с клавиатуры адресованную машине команду и получить осмысленный ответ. Дальнейшее появление графического интерфейса, в котором отпала необходимость в знании человеком каких-либо команд, привела к повсеместному распространению персональных компьютеров.

Однако человек всегда стремился к более универсальному и естественному способу взаимодействия с ЭВМ. Еще в эпоху перфокарт в научно-фантастических романах человек с компьютером разговаривал, как с равным себе.

Задача распознавания речи состоит в восстановлении по звуковому сигналу слова естественного языка (из ограниченного словаря), произнесением которого является этот звуковой сигнал. Она обычно решается путем задания эталонов слов словаря и последующего сравнения звуковых сигналов с этими эталонами. Звуковой сигнал представляет из себя целочисленный вектор значений звукового давления, измеренного в равностоящие друг от друга моменты времени. Мощность пространства звуковых сигналов огромна. Для решения задачи распознавания обычно сначала равномерно разбивают сигнал на окна одинаковой длины. Окна преобразуют из временной области в частотную (например, с помощью преобразования Фурье), чтобы близость окон относительно простых метрик соответствовала близости участков сигналов «на слух». Затем решается задача нахождения соответствия между окнами звукового сигнала и окнами эталонов слов словаря. Сложность последней задачи заключается в том, что различные участки звукового сигнала в различных произношениях одного и того же слова отличаются разной степенью сжатия или растяжения.

Предельные возможности ЭВМ по распознаванию речи связаны прежде всего с тем, что человек, которого можно взять за эталон распознающей системы, распознает осмысленную речь, а компьютеру в полной мере это не дано. Компьютер пока что принципиально не может с требуемой надежностью исправлять ошибки и неоднозначности распознавания, используя синтаксическую и семантическую связь слов предложения.

Слуховой аппарат человека позволяет ему с точностью до полупространства определить направление на источник полезного сигнала и отделить его от остальных звуковых источников.

Фонетические модели, используемые в программировании алгоритмов на ЭВМ, не точны, так как не используют всего многообразия факторов. Для задания фонетических эталонов обычно используют статистические методы, предполагающие, что акустические параметры фонем распределены по нормальному закону. В реальности картина намного сложнее, что приводит к тому, что точная модель эталонов звуков и слов должна включать в себя множество элементов (по одному на каждый вариант произнесения).

Дополнительно картина осложняется тем, что многие известные алгоритмы распознавания речи являются дикторазависимыми. После настройки на голос одного диктора распознающие системы дают удовлетворительные результаты распознавания для этого типа голоса, но хуже работают на других голосах. Надежность распознавания речи человеком, напротив, не зависит от типа голоса диктора.

Из всего вышеизложенного следует, что распознавание речи ЭВМ обладает ограниченной надежностью, которую вероятно существенно повысить в ближайшем будущем путем совершенствования алгоритмов распознавания.

Мы живем в веке цифровых и информационных технологий, где СРР можно найти самое различное применение: начиная с ЭВМ и портативных мобильных устройств (к примеру, ввод текста или выполнение различных команд: смена режима, включение радиомодулей и др.), заканчивая управлением общественным и личным транспортом.