Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции Максимова.doc
Скачиваний:
11
Добавлен:
01.04.2025
Размер:
20.86 Mб
Скачать

12.1. Проблемы, возникающие при распознавании речи

12.2. Обзор алгоритмов распознавания речи

Ввод речи и цифровая обработка

Предварительная обработка и выделение первичных признаков

Выделение примитивов речи

Распознавание сложных звуков, слов, фраз

12.3. Синтез речи

12.4. Проблемы создания многоуровневой системы распознавании речи

12.5. Классификация речевых систем

Первое направление - распознавание речи

Второе направление - определение индивидуальности говорящего

Третье направление - синтез речи

Четвертое направление - компрессия речи

12.6. Речевые технологии

Развитие речевых технологий в России

Положение в России

Будущее систем распознавания речи

12.7. Ссылки и литература для дальнейшего изучения

12.8. Задание

Задачу распознавания речи считают средоточием всех задач искусственного интеллекта. При построении систем распознавания речи охватывается очень широкий круг вопросов: от построения датчиков, позволяющих вводить речь в компьютер, до сложнейших баз данных, позволяющих использовать смысловую нагрузку речи и распознавать слова в контексте целых предложений и фраз. При этом отдельные задачи в этой области далеко не тривиальны.

Существующие системы распознавания речи можно классифицировать по разным признакам.

По назначению:

  • командные системы,

  • системы диктовки текста.

По потребительским качествам:

  • диктороориентированные (тренируемые на конкретного диктора),

  • дикторонезависимые,

  • распознающие отдельные слова,

  • распознающие слитную речь.

По механизмам функционирования:

  • простейшие (корреляционные) детекторы,

  • экспертные системы с различным способом формирования и обработки базы знаний,

  • вероятностно-сетевые модели принятия решения, в том числе нейронные сети.

12.1. Проблемы, возникающие при распознавании речи

Во-первых, звуки речи различаются по длительности. Один и тот же звук, но произнесенный в разных словах, значительно варьируется по длительности. Например, длительность звука а в слове сад составляет 250-300 мс, а в слове садовод около 60 мс. Опытным путем установлена постоянная времени человеческого слуха, т.е. минимальная длительность звука, при которой ухо может проанализировать, узнать это звук. Эта величина равняется приблизительно 30-50 мс.

Во-вторых, желательно, чтобы система распознавания речи была независима от диктора. Но голоса отдельных людей очень сильно отличаются друг от друга, так что решение этой проблемы является непростой задачей.

В-третьих, речь даже одного человека подвержена сильным изменениям в результате разного эмоционального состояния говорящего. При этом может меняться темп речи, высота, ширина динамического диапазона (вариации по частоте и громкости).

В-четвертых, при распространении звука в пространстве он подвергается довольно сильным искажениям. Такие эффекты, как эхо, реверберация, изменение спектрального состава в результате неоднородного поглощения звука в среде, и т.д., очень сильно искажают звук.

Очевидно, что о простой записи слов в базу данных и последующем распознавании речи путем сравнения с записанными образцами не может быть и речи. Два временных представление звука речи даже для одного и того же человека, записанные в один и тот же момент времени, не будут совпадать. Необходимо искать такие параметры речевого сигнала, которые полностью описывали бы его (т.е. позволяли бы отличить один сигнал от другого), но были бы инвариантны относительно описанных выше вариаций речи. Полученные таким образом параметры должны затем сравниваться с образцами, причем это должно быть не простое сравнение на совпадение, а поиск наибольшего соответствия. Это вынуждает искать нужную форму расстояния в найденном параметрическом пространстве.

При определении объема хранимых системой данных также возникают определенные трудности. Как записать практически бесконечное число вариаций звуков речи в отведенный размер памяти? Очевидно, что здесь не обойтись без какой-либо формы статистического усреднения. Ещё одна проблема – уменьшение быстродействия системы при обработке большого количества данных, а ведь распознавание речи в большинстве случаев должно происходить в реальном времени!

Использование нейросетевых алгоритмов позволяет решить большинство перечисленных проблем.