Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
прикладная.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
176.64 Кб
Скачать

Раздел II. Автоматическая обработка текста (аот)

Фонетика и графика

Уровни языка и речи: классические представления

Уровни автоматической обработки текста (АОТ)

Генеральные проблемы АОТ

сегментация речи

снятие омонимии (разрешение многозначности)

Компьютерный интерфейс: ввод данных

Анализ и синтез устной речи

понять и среагировать (анализ)

первичная акустическая сегментация

смысловая интерпретация

преобразовать и выдать (синтез)

смысловой синтез

акустический синтез

Спектрограммы (сонограммы) речи

Трудности первичной сегментации речи

плавность речевого потока

огромное количество звуковых нюансов, специфическая сочетаемость звуков

отсутствие пауз между словами, несоответствие пауз и синтаксических единиц

наличие интонации, мелодическая изменчивость

индивидуальные особенности речи

… …

Трудности первичной сегментации речи

Системы распознавания речи

По назначению:

командные системы

системы диктовки текста

Системы распознавания речи

По потребительским качествам:

диктороориентированные

дикторонезависимые

распознающие отдельные слова

распознающие слитную речь

Примеры сфер функционирования

информационно-справочные службы

интерфейс минимизированных электронных устройств

голосовое меню

диктовка рукописного текста

устное задание вычислений

управление поведением роботов

криминалистика

… …

Требования к системам

Распознавание слитной речи

Устойчивость:

к изменениям голоса

к физическому состоянию говорящего

к стилю говорения

к помехам и фоновому шуму

к характеристикам компьютеров

к характеристикам телефонной сети,

микрофонов и т. п.

Отсутствие ограничений

Синтез речи-1

Моделирование речевого аппарата:

артикуляторный синтез

Синтез речи-2

Моделирование звукового сигнала (акустический синтез):

а) формантный синтез (по правилам),

б) компилятивный синтез

Схема Гуннара Фанта

Формантный синтез

Генерация сигнала источником (синтезатором)

Фильтрация исходного сигнала, моделирование параметров голосового тракта.

Компилятивный синтез

«Склейка» речи из имеющихся единиц

(пример с сайта каф. фонетики СПбГУ)

Принцип конструктора

Модель компилятивного синтеза речи

Модель волнового («табличного») синтеза в музыке

Системы типа Text To Speech (TTS)

Пример:

SVOX Automotive Text-To-Speech is available in 29 languages and 40 different voices.

Интеграция в операционные системы, мобильные телефоны, электронные книги, GPS-навигаторы

Общая схема систем TTS

Front-end и Back-end фрагменты TTS

TTS Voices (Microsoft Anna, english voice):

Пример русского голоса (комп. Acapela):

http://www.acapela-group.com/russian-130-text-to-voice.html

Распознавание письменного текста

Проблемы интерпретации символов

разные начертания букв

«шум»

неровность строк

опечатки, в том числе правдоподобные

Важные параметры рисунка

Яркость

Контрастность

Разрешение

Методы распознавания текста

шаблонные

признаковые

структурные

структурно-пятенные

Сложные графические системы (вербальные и невербальные)

Словообразование и Морфология

Словообразование (дериватология)

Главные проблемы АОТ

Сегментация и снятие омонимии

(на морфемном уровне)

лист-в-енн-иц-а

? лист-в-ен-ниц-а

? лист-в-е-нн-ица

? лист-венниц-а

… …

Проблема описания значений морфем

Определение инвентаря морфем

Принципы формализация подачи информации в словарях морфем и грамматиках

Проблема идиоматичности слова

Подснежник = предмет (-ник), находящийся ниже (под-) [снега].

Снег – мин. непроизводная единица.

Вопрос применимости для извлечения информации о лексическом значении

Проблема неуниверсальности СО-моделей

тигр + -иц- = тигрица

тигр + -енок = тигренок

Аналогично:

лев – левица – левенок (?)

бык – бычица – бычонок (?)

Проблема морфемного варьирования

ДРУГ

дру[г]а, дру[к], о дру[г’]е

ДРУЖОК

дру[ж]ок, дру[ш]ка

ДРУЗЬЯ

дру[з’]ья

музей – музея – музеи:

музе(j)-0 – музе(j)-а – музе(0)-и

СО-синтез. Частный пример лингвистической формализации

красный – краснота

гладкий – гладкость

синий – синева

желтый – желтизна

… …

Разветвленная модель, позволяющая на основании формальных и семантических (!) признаков определить, образуется или не образуется слово.

Преобладание форманта -ость

верный – верность краткий - краткость

Специфика активных словообразовательных моделей

Модели, позволяющие на основании формальных и семантических признаков определить, образуется или не образуется слово.

Разветвленность и громоздкость алгоритмов. Включенность неавтоматизированных элементов.

Сложность русского словообразования.

Выводы:

Словообразовательные структуры проще давать списком, гнездами, тем более что сегодня можно позволить себе затратность в плане компьютерных ресурсов.

С другой стороны, описание аффиксов может быть полезно в процедуре морфологического и семантического анализа слов, отсутствующих в БД:

* компьютерность (мышления) 

компьютерн-ый + -ость.

Применимость СО-анализа

в практике обучения РКИ

в системах машинного перевода

как дополнение разных видов АОТ

Но!

Ограниченность использования из-за перечисленных проблем.