Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ИС ответы.doc
Скачиваний:
15
Добавлен:
04.08.2019
Размер:
564.74 Кб
Скачать

32. Основные принципы систем распознавания речи

Системы распознавания речи обычно состоят из двух компо­нент, которые могут быть выделены в блоки или в подпрограм­мы — акустической и л и н г в и с т и ч е с к о й. Л ингвистиче- ская часть может включать в себя фонетическую, фоно­логическую, морфологическую, синтаксическую и семантическую модели языка. Акустическая модель отвечает за представление речевого сигнала. Лингвистическая модель интерпретирует информацию, получаемую от акустиче­ской модели, и отвечает за представление результата распознава­ния потребителю.

Акустическая модель. Существуют два подхода к построению акустической модели: изобретательский и бионический. Оба подхода имеют свои достоинства и недостатки. Первый базиру­ется на результатах поиска механизма функционирования аку­стической модели. При втором подходе разработчик пытается понять и смоделировать работу естественных систем.

Лингвистическая модель. Лингвистический блок подразделя­ется на следующие слои (уровни); фонетический, фонологиче­ский, морфологический, лексический, синтаксический, семан­тический. Все уровни содержат априорную информацию о структуре естественного языка, а, как известно, любая априор­ная информация об интересующем предмете увеличивает шансы принятия верного решения. Поскольку естественный язык несет весьма сильно структурированную информацию, для каждого естественного языка может потребоваться своя уникальная лин­гвистическая модель (отсюда трудности русификации сложных систем распознавания речи зарубежной разработки).

В соответствии с данной моделью на первом (фонетическом) уровне производится преобразование входного (для лингвисти­ческого блока) представления речи в последовательность фонем, как наименьших единиц языка. Считается, что в реальном рече­вом сигнале можно обнаружить лишь аллофоны — варианты фо­нем, зависящие от звукового окружения.

На следующем (фонологическом) уровне накладываются ог­раничения на комбинаторику фонем (аллофонов) — не все соче­тания фонем (аллофонов) встречаются, а те, что встречаются, имеют различную вероятность появления, зависящую еще и от окружения. Для описания этой ситуации используется математи­ческий аппарат цепей Маркова.

Далее, на морфологическом уровне оперируют со слогопо­добными единицами речи более высокого уровня, чем фонема. Иногда они называются морфемами. Они накладывают ограни­чение уже на структуру слова, подчиняясь закономерностям мо­делируемого естественного языка.

Лексический уровень охватывает слова и словоформы того или иного естественного языка, т. е. словарь языка, также внося важную априорную информацию о том, какие слова возможны для данного естественного языка. Семантика устанавливает со­отношения между объектами действительности и словами, их обозначающими. Она является высшим уровнем языка. При по­мощи семантических отношений интеллект человека производит как бы сжатие речевого сообщения в систему образов, понятий, представляющих суть речевого сообщения.

Российская компания «ИстраСофт» известна пакетом для обучения английскому языку с визуальным контролем произно­шения «Профессор Хиггинс». Развивая «Хиггинса», сотрудники «ИстраСофт» совершили технологический прорыв, значение ко­торого трудно переоценить: они научились членить слова на эле­ментарные сегменты, соответствующие звукам речи, независимо от диктора и от языка (Существующие системы распознавания речи не производят сегментации, наименьшей единицей для них является слово.) Демонстрация новой технологии выглядит пока не очень эффектно: это всего-навсего упаковка и распаковка звуковых файлов с записью речи — правда, с высокими коэффи­циентами сжатия. Если файл был сжат сильно, то после распа­ковки в нем появляются отчетливо слышные границы между сегментами; использованию программы по прямому назначению они, конечно, мешают, но специалисту позволяют убедиться в правильности членения.

В соответствии с этим решение задачи речевых технологий можно представить в виде схемы рис. 4.10.

В основе алгоритма лежит выделение фонем из потока слит­ной речи в режиме реального времени, их кодирование и после­дующее восстановление, однако у разработчиков нет единого мнения о том, что считать фонемой при машинной обработке речи. Способ, предложенный фирмой «ИстраСофт», допускает сжатие речи в 200 раз, причем при сжатии менее чем в 40 раз ка­чество сигнала практически не падает.

Чтобы создать основанную на новой технологии систему распознавания, необходимо «привязать» сегментацию к кон­кретному языку с помощью двух словарей — «звукового», сопос­тавляющего реальным звукам речи определенные фонемы, т. е. смыслоразличительные единицы (на слух мы, как правило, вос­принимаем именно фонемы родного языка, не замечая различий между их вариантами, обусловленными, например, позицией), и «фонетико-орфографического», который будет переводить фо­немную запись в письменную. Принципиально ничего сложного здесь нет: это вполне рутинная, умеренно трудоемкая техниче­ская задача.

Интеллектуальная обработка речи на уровне фонем перспек­тивна не только как способ сжатия, но и как шаг на пути к соз­данию нового поколения систем распознавания речи.