Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
OIT_gotovye_shpory.docx
Скачиваний:
1
Добавлен:
01.03.2025
Размер:
145.51 Кб
Скачать

31. Статистическая обработка текста

Статистические методы в языкознании - методы использования счета и измерений для изучения языка и речи. Объектом применения статистических методов обычно является письменный текст (в первую очередь его лексический состав).

Статистическая обработка текста используется для:

- Математически точного различения стилей и жанров (статистическая стилистика)

- Проведения атрибуции текстов (установление авторства анонимных текстов в историческом языкознании и т.д.) на основании неповторимого сочетания статистических параметров авторского текста;

- Описания поведения языковых единиц (букв, морфем, слов) в тексте (их распределение, сочетаемость, частота употребления);

- Измерения информативности текстов (количества информации содержащейся в тексте и его составных частях)

- Восстановления текстов и языков по их фрагментам (описания структуры текста и языка на основании очень ограниченной исходной информации (в сочетании с дистрибутивным анализом, изучающим окружение отдельных единиц текста без использования сведений о его полном лексическом составе);

- Определения уровня родства, скорости языковых изменений и времени разделения различных языков;

- Определения типологии языков (их сравнительное соотношение и изучение независимо от характера генетических отношений) и т.д.

Текстовый процессор MS Word анализирует свойства создаваемых в нем документов (название, автор, тема, ключевые слова, дата последнего изменения), которые служат для упрощения поиска документов. MS Word регистрирует и автоматически обновляет статистические данные документа:

- количество символов,

- количество символов и пробелов,

- количество слов,

- количество строк,

- количество абзацев

- количество страниц.

Частотный словарь - пронумерованный список слов (словоформ, словосочетаний) текста (множества текстов) с указанием абсолютной частоты употребления этого слова в тексте. Частотные словари приводят числовые характеристики употребительности слов какого-либо языка. Частотные словари дают возможность сравнить численные закономерности в структуре словаря и текста.

32. Технологии речевого интерфейса

Звуковая речь - генерируемое человеком звуковое сообщение. Речь может быть объективно зарегистрирована, измерена, сохранена, обработана, воспроизведена при помощи приборов и алгоритмов, представлена в виде некоторого речевого сигнала.

Задачи компьютерной обработки текста:

- Синтез речи (компьютер преобразует информацию, с которой он оперирует, в речевое сообщение, понятное человеку);

- Распознавание речи (компьютер извлекает из речи человека полезную информацию)

- Понимание речи (компьютер должен воспринимать не просто прямое значение, но смысл сказанного)

Все системы распознавания речи можно разделить на два класса:

- Системы, зависимые от диктора - настраиваются на речь диктора в процессе обучения. Для работы с другим диктором такие системы требуют полной перенастройки.

- Системы, не зависимые от диктора - работа которых не зависит от диктора. Такие системы не требуют предварительного обучения и способны распознавать речь любого диктора.

В существующих системах распознавания речи используются два принципиально разных подхода:

- Распознавание голосовых меток - распознавание фрагментов речи по заранее записанному образцу. Этот подход широко используется в относительно простых системах, предназначенных для исполнения заранее записанных речевых команд.

- Распознавание лексических элементов - предполагает распознавание фрагментов речи по заранее записанному образцу. Этот подход широко используется в относительно простых системах, предназначенных для исполнения заранее записанных речевых команд.

Достоинства и ограничения речевого интерфейса:

- Речевой интерфейс естественен для человека.

- Взаимодействие с компьютером посредством речевого интерфейса требует определенного уровня звукоизоляции рабочего места пользователя;

- Речевой интерфейс может привести к заболеванию голосовых связок (следствие напряженности и монотонности речи).

- Современные системы речевого интерфейса чувствительны к четкости произношения человека и часто требуют специальной подготовки.