
- •29. Прикладное программное обеспечение
- •30. Файловая система
- •31. Статистическая обработка текста
- •32. Технологии речевого интерфейса
- •33. Технологии эффективного чтения
- •35. Технологии компьютерной лексикографии
- •34. Технологии оптического распознавания
- •36. Технологии компьютерного перевода
- •1.Rule - based Machine Translation (rbmt, Машинный перевод, основанный на правилах)
- •2.Statistical Machine Translation (smt, Статистический машинный перевод)
- •3.Hybrid Machine Translation (hmt, Гибридный машинный перевод)
- •4.Translation Memory (tm, Память переводов)
31. Статистическая обработка текста
Статистические методы в языкознании - методы использования счета и измерений для изучения языка и речи. Объектом применения статистических методов обычно является письменный текст (в первую очередь его лексический состав).
Статистическая обработка текста используется для:
- Математически точного различения стилей и жанров (статистическая стилистика)
- Проведения атрибуции текстов (установление авторства анонимных текстов в историческом языкознании и т.д.) на основании неповторимого сочетания статистических параметров авторского текста;
- Описания поведения языковых единиц (букв, морфем, слов) в тексте (их распределение, сочетаемость, частота употребления);
- Измерения информативности текстов (количества информации содержащейся в тексте и его составных частях)
- Восстановления текстов и языков по их фрагментам (описания структуры текста и языка на основании очень ограниченной исходной информации (в сочетании с дистрибутивным анализом, изучающим окружение отдельных единиц текста без использования сведений о его полном лексическом составе);
- Определения уровня родства, скорости языковых изменений и времени разделения различных языков;
- Определения типологии языков (их сравнительное соотношение и изучение независимо от характера генетических отношений) и т.д.
Текстовый процессор MS Word анализирует свойства создаваемых в нем документов (название, автор, тема, ключевые слова, дата последнего изменения), которые служат для упрощения поиска документов. MS Word регистрирует и автоматически обновляет статистические данные документа:
- количество символов,
- количество символов и пробелов,
- количество слов,
- количество строк,
- количество абзацев
- количество страниц.
Частотный словарь - пронумерованный список слов (словоформ, словосочетаний) текста (множества текстов) с указанием абсолютной частоты употребления этого слова в тексте. Частотные словари приводят числовые характеристики употребительности слов какого-либо языка. Частотные словари дают возможность сравнить численные закономерности в структуре словаря и текста.
32. Технологии речевого интерфейса
Звуковая речь - генерируемое человеком звуковое сообщение. Речь может быть объективно зарегистрирована, измерена, сохранена, обработана, воспроизведена при помощи приборов и алгоритмов, представлена в виде некоторого речевого сигнала.
Задачи компьютерной обработки текста:
- Синтез речи (компьютер преобразует информацию, с которой он оперирует, в речевое сообщение, понятное человеку);
- Распознавание речи (компьютер извлекает из речи человека полезную информацию)
- Понимание речи (компьютер должен воспринимать не просто прямое значение, но смысл сказанного)
Все системы распознавания речи можно разделить на два класса:
- Системы, зависимые от диктора - настраиваются на речь диктора в процессе обучения. Для работы с другим диктором такие системы требуют полной перенастройки.
- Системы, не зависимые от диктора - работа которых не зависит от диктора. Такие системы не требуют предварительного обучения и способны распознавать речь любого диктора.
В существующих системах распознавания речи используются два принципиально разных подхода:
- Распознавание голосовых меток - распознавание фрагментов речи по заранее записанному образцу. Этот подход широко используется в относительно простых системах, предназначенных для исполнения заранее записанных речевых команд.
- Распознавание лексических элементов - предполагает распознавание фрагментов речи по заранее записанному образцу. Этот подход широко используется в относительно простых системах, предназначенных для исполнения заранее записанных речевых команд.
Достоинства и ограничения речевого интерфейса:
- Речевой интерфейс естественен для человека.
- Взаимодействие с компьютером посредством речевого интерфейса требует определенного уровня звукоизоляции рабочего места пользователя;
- Речевой интерфейс может привести к заболеванию голосовых связок (следствие напряженности и монотонности речи).
- Современные системы речевого интерфейса чувствительны к четкости произношения человека и часто требуют специальной подготовки.