- •1.2. Соотношение понятий «информация», «данные», «знания» 20
- •Информация
- •Приведите классификацию и охарактеризуйте основные компоненты ис.
- •Определите основные функции и назначение субд
- •Перечислите основные требования, предъявляемые к базам данных.
- •Прямая и инвертированная форма представления информации
- •16. Технологии информирования. Основные схемы видов информирования: трансинформирование,
- •17. Обобщенная схема абстрактного технологического процесса. Классы ит.
- •18. Технологии распределенной обработки данных. Типовые схемы организации хранения данных и доступа по технологии «клиент-сервер».
- •Синтаксис xml
- •Пример описания книги:
- •Пример описания главы:
- •25. Поисковые системы в Internet. Назначение, область применения.
- •26. Назначение и архитектура протокола z39.50. Понятие абстрактной базы данных.
- •32. Основные принципы систем распознавания речи
- •Классификация систем распознавания речи.
- •33. Основные принципы систем генерации речи
- •34. Основные принципы систем автоматизированного перевода
32. Основные принципы систем распознавания речи
Системы распознавания речи обычно состоят из двух компонент, которые могут быть выделены в блоки или в подпрограммы — акустической и л и н г в и с т и ч е с к о й. Л ингвистиче- ская часть может включать в себя фонетическую, фонологическую, морфологическую, синтаксическую и семантическую модели языка. Акустическая модель отвечает за представление речевого сигнала. Лингвистическая модель интерпретирует информацию, получаемую от акустической модели, и отвечает за представление результата распознавания потребителю.
Акустическая модель. Существуют два подхода к построению акустической модели: изобретательский и бионический. Оба подхода имеют свои достоинства и недостатки. Первый базируется на результатах поиска механизма функционирования акустической модели. При втором подходе разработчик пытается понять и смоделировать работу естественных систем.
Лингвистическая модель. Лингвистический блок подразделяется на следующие слои (уровни); фонетический, фонологический, морфологический, лексический, синтаксический, семантический. Все уровни содержат априорную информацию о структуре естественного языка, а, как известно, любая априорная информация об интересующем предмете увеличивает шансы принятия верного решения. Поскольку естественный язык несет весьма сильно структурированную информацию, для каждого естественного языка может потребоваться своя уникальная лингвистическая модель (отсюда трудности русификации сложных систем распознавания речи зарубежной разработки).
В соответствии с данной моделью на первом (фонетическом) уровне производится преобразование входного (для лингвистического блока) представления речи в последовательность фонем, как наименьших единиц языка. Считается, что в реальном речевом сигнале можно обнаружить лишь аллофоны — варианты фонем, зависящие от звукового окружения.
На следующем (фонологическом) уровне накладываются ограничения на комбинаторику фонем (аллофонов) — не все сочетания фонем (аллофонов) встречаются, а те, что встречаются, имеют различную вероятность появления, зависящую еще и от окружения. Для описания этой ситуации используется математический аппарат цепей Маркова.
Далее, на морфологическом уровне оперируют со слогоподобными единицами речи более высокого уровня, чем фонема. Иногда они называются морфемами. Они накладывают ограничение уже на структуру слова, подчиняясь закономерностям моделируемого естественного языка.
Лексический уровень охватывает слова и словоформы того или иного естественного языка, т. е. словарь языка, также внося важную априорную информацию о том, какие слова возможны для данного естественного языка. Семантика устанавливает соотношения между объектами действительности и словами, их обозначающими. Она является высшим уровнем языка. При помощи семантических отношений интеллект человека производит как бы сжатие речевого сообщения в систему образов, понятий, представляющих суть речевого сообщения.
Российская компания «ИстраСофт» известна пакетом для обучения английскому языку с визуальным контролем произношения «Профессор Хиггинс». Развивая «Хиггинса», сотрудники «ИстраСофт» совершили технологический прорыв, значение которого трудно переоценить: они научились членить слова на элементарные сегменты, соответствующие звукам речи, независимо от диктора и от языка (Существующие системы распознавания речи не производят сегментации, наименьшей единицей для них является слово.) Демонстрация новой технологии выглядит пока не очень эффектно: это всего-навсего упаковка и распаковка звуковых файлов с записью речи — правда, с высокими коэффициентами сжатия. Если файл был сжат сильно, то после распаковки в нем появляются отчетливо слышные границы между сегментами; использованию программы по прямому назначению они, конечно, мешают, но специалисту позволяют убедиться в правильности членения.
В соответствии с этим решение задачи речевых технологий можно представить в виде схемы рис. 4.10.
В основе алгоритма лежит выделение фонем из потока слитной речи в режиме реального времени, их кодирование и последующее восстановление, однако у разработчиков нет единого мнения о том, что считать фонемой при машинной обработке речи. Способ, предложенный фирмой «ИстраСофт», допускает сжатие речи в 200 раз, причем при сжатии менее чем в 40 раз качество сигнала практически не падает.
Чтобы создать основанную на новой технологии систему распознавания, необходимо «привязать» сегментацию к конкретному языку с помощью двух словарей — «звукового», сопоставляющего реальным звукам речи определенные фонемы, т. е. смыслоразличительные единицы (на слух мы, как правило, воспринимаем именно фонемы родного языка, не замечая различий между их вариантами, обусловленными, например, позицией), и «фонетико-орфографического», который будет переводить фонемную запись в письменную. Принципиально ничего сложного здесь нет: это вполне рутинная, умеренно трудоемкая техническая задача.
Интеллектуальная обработка речи на уровне фонем перспективна не только как способ сжатия, но и как шаг на пути к созданию нового поколения систем распознавания речи.