Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Ан обзор вар 2.docx
Скачиваний:
0
Добавлен:
01.03.2025
Размер:
294.94 Кб
Скачать

3.7.1 Представление речи в виде набора числовых параметров

После выделения информативных признаков речевого сигнала можно представить эти признаки в виде некоторого набора числовых параметров (т.е. в виде вектора в некотором числовом пространстве). Далее задача распознавания примитивов речи (фонем и аллофонов) сводится к их классификации при помощи обучаемой нейронной сети. Нейронные сети можно использовать и более высоких уровнях распознавания слитной речи для выделения слогов, морфем и слов.

3.7.2 Нейронные ансамбли

В качестве модели нейронной сети, пригодной для распознавания речи и обучаемой без учителя можно выбрать самоорганизующуюся карту признаков Кохонена. В ней для множества входных сигналов формируется нейронные ансамбли, представляющие эти сигналы. Этот алгоритм обладает способностью к статистическому усреднению, что позволяет решить проблему изменчивости речи.

По сравнению с классическим программированием, когда алгоритм решения той или иной задачи задан жестко, нейронные сети позволяют динамически изменять алгоритм простым изменением архитектуры сети.

3.7.3 Генетические алгоритмы

Возможность изменения алгоритма работы нейронной сети простым изменением ее архитектуры позволяют решать задачи совершенно новым способом, с помощью так называемых генетических алгоритмов.

При использовании генетических алгоритмов создаются правила отбора, позволяющие определить, лучше или хуже справляется новая нейронная сеть с решением задачи. Кроме того, определяются правила модификации нейронной сети. Изменяя достаточно долго архитектуру нейронной сети и отбирая те архитектуры, которые позволяют решить задачу наилучшим образом, рано или поздно можно получить верное решение задачи.

Генетические алгоритмы обязаны своим появлением эволюционной теории (отсюда и характерные термины: популяция, гены, родители-потомки, скрещивание, мутация). Таким образом, существует возможность создания таких нейронных сетей, которые ранее не изучались исследователями (или не поддаются аналитическому изучению), но, тем не менее, успешно решают задачу.

3.8 Реализация уровней ввода и вывода в срр

Пример СРР, выполненной с использованием технологии нейронных сетей и предназначенной не только для распознавания, но и для её синтеза речи.

Блок-схема такой системы (SAS), с соответствующими уровнями ввода/вывода, показана на рисунке 3.

Рисунок 3 - Блок-схема уровня ввода/вывода в СРР

При распознавании речи система SAS осуществляет ввод звуковой информации, предварительную обработку, получение энергетического спектра и выделение примитивов речи.

При синтезе речи осуществляется выделение из нейронной сети запомненного примитива, синтез спектра (частотный параметрический синтез) и преобразование спектра в звуковой сигнал. При обучении последовательным повторением двух вышеописанных процедур осуществляется запоминание примитивов речи в нейронной сети [3].

4 Проблемы в области распознавания речи

Если рассматривать классическую схему «наука-технологии-практические системы», то, прежде всего, надо определить те условия, в которых будет работать практическая система автоматического распознавания или понимания речи. Наиболее серьезные проблемы возникают при условиях:

  1. произвольный, наивный пользователь;

  2. спонтанная речь, сопровождаемая аграмматизмами и речевым «мусором»;

  3. наличие акустических помех и искажений, в том числе меняющихся;

  4. наличие речевых помех.

Остановимся на возможностях и недостатках соответствующих систем автоматического распознавания речи (анонсируемые сегодня возможностью распознавания сотен и даже тысяч слов с надежностью до 98%; как это проверялось, и как это вообще возможно сделать – не ясно).

  1. От пользователя требуется предварительная настройка системы на его голос от нескольких десятков минут до нескольких часов предварительного наговаривания текстов.

  2. Некоторые проверки не дают результатов лучших, чем 5% ошибок.

  3. Так как слова, включенные даже в хорошо и аккуратно произносимый текст, оказываются как бы плавающими в океане омонимии, то количество ошибок (словесных) возрастает приблизительно в 5 раз. Беглое отслеживание таких ошибок, кроме случаев возникновения нелепых текстов, уже затруднительно. Аппарат коррекции ошибок в большинстве демонстрационных систем слабо отлажен.

  4. Были упоминания, что даже для хорошо организованных спонтанно произнесенных текстов вероятность правильного распознавания слов не превышает одной трети.

  5. Наконец, время обработки введенного отрезка речи в таких системах может занимать минуты.

Все сказанное говорит о том, что в качестве конечной цели предлагаемые демонстрационные системы «речь-текст» вряд ли представляют интерес.

Естественным представляется использование для построения систем автоматического распознавания моделей восприятия речи. В научном обиходе в настоящее время их реализовано довольно много. Рассмотрение этих моделей обнаруживает еще проблему - каков принцип выбора первичного описания речевого сигнала?

Можно выделить три варианта подхода. Первый из них практически совпадает с принятым в большинстве систем автоматического распознавания и основан на статистическом анализе различных речевых акустических параметров. Второй подход предполагает, что для распознавания речи необходим переход от акустических параметров к артикуляциям, которые лежали в основе порождения данного акустического сигнала. Это моторная теория и теория прямого реализма. Очевидно, что такая задача при нынешних уровнях нашего понимания механизмов речеобразования вряд ли разрешима. Третий подход, так называемая квантовая теория, представляется весьма перспективной. В этой теории акустические признаки делятся на 2 категории. Первый тип акустических признаков соответствует резкому изменению акустического сигнала при небольшом изменении артикуляционного тракта, второй тип синхронно плавному изменению сигнала с изменением артикуляции.

Еще одна проблема связана с тем, что если откзаться от простой линейной модели речевого сигнала, то становится не ясно, как должны взаимодействовать первичные признаки с другими речевыми уровнями: вербальным, семантическим, прагматическим, вероятностным и др.

Здесь мы подходим к еще одной совершенно темной области в системах распознавания речи, т.е. к верхним уровням распознавания – семантике и прагматике.

В современных системах распознавания речи задача понимания смыла чаще всего решается методом «снизу-вверх», т.е. сначала происходит распознавание речевых сегментов, а затем все распознанное поступает на семантический модуль.

Особыми проблемами при таком подходе является омонимия и так называемый «мусор» – слова, которых нет в словаре распознавания, а так же различного рода помехи как речевого, так и неречевого типа. Если степень омонимии можно уменьшить, выявляя и запоминая контекст сообщения, то проблема «мусора» не имеет простого решения, поскольку здесь помимо внешних помех необходимо выявлять и учитывать индивидуальные характеристики говорящего.

И, наконец, еще одна нерешенная проблема – анализ акустических сцен. Этот эффект основан на способности слушающего сосредоточить внимание на выделенном источнике звука в условиях сильной зашумленности. В настоящий момент в автоматическом распознавании речи разрабатываются в основном методы подавления сравнительно гладких помех и искажений. Хотя помехоустойчивость систем распознавания считается одним из основных направлений в области создания систем практического направления, заметных прорывов в этой области не наблюдается [4].