Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ОПЛ_ответы.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
1.07 Mб
Скачать

24. Дешифровка текста и диагностика искажений в словах.

Лингвистическая дешифровка – это:

•прикладная дисциплина, которая должна использовать знания о языке, накапливаемые в других областях языкознания (Б.В.Сухоткин).

•деятельность, направленная на создание методов распознавания явлений языка в текстах на языках, предполагаемых неизвестными. Главный интерес ЛД состоит в поисках наиболее общих закономерностей строения языка (Б.В.Сухоткин).

Дешифровка состоит из следующих шагов:

  • Вычленение символов (всех)

  • Установление алфавитных символов

  • Установление частоты повторения символов

  • Установление границ между символами

Отсюда следует, что проблему представляет собой язык с неалфавитной письменностью.

Графематический уровень дешифровки строится в соответствии с вероятностными закономерностями: речь рассматривается с позиции комбинаторики (сочетаемости) и алгоритмов.

Лингвистическая комбинаторика – это отрасль языкознания, изучающая в рамках лингвистического времени качественные и количественные характеристики как языковых континуумов, так и входящих в них языковых элементов с целью определения возможности/невозможности и результатов различных видов их взаимодействия.

Речь идет об анализе совместимостей или несовместимостей различных конфигураций данной системы. С точки зрения комбинаторики комбинации полиграмм и других формальных графических элементов в составе словоформы определяются сложными законами плана выражения и плана содержания.

Речь как комбинация знаков на графемном уровне позволяет строить алгоритмы, распознающие слова, выделяющие новое слово и отождествляющие искажения в отличие от новых слов. Статистико- и теоретико-информационные свойства слов как совокупности графем позволяют применять дешифровочные методы, позволяющие, в частности, отличать текст на естественном языке от нетекста.

Таким образом, графематический уровень служит основой для применения целой отрасли науки – дешифровочной лингвистики. Значение этой науки в настоящее время возрастает, так как получают все большее распространение методы защиты информации от несанкционированного доступа, а криптография (наука о методах обеспечения конфиденциальности и аутентичности информации) и криптология (наука, занимающаяся методами шифрования и дешифрования) существенно связаны с лингвистическими знаниями и представлениями.

Диагностика искажений в словах

Основана на предположении, что среди полиграмм, входящих в искаженное слово, найдется такая, которая не вложится в стохастическое дерево (дерево вероятности), или ее частота будет весьма низка.

Алгоритм диагностики:

  • Слово разбивается на полиграммы, и каждая из них вкладывается в дерево

  • Одновременно с этим, полиграмма получает оценку на основании частот, записанных в дугах

  • Если такой полиграммы в дереве нет, или ее частота ниже заданного порога, в слове фиксируется искажение

Численная оценка правильности слова складывается из оценок составляющих ее полиграмм.

Параметры ограничения вероятностного дерева (Л.Ю.Коростелев):

  • Длина корректирующей цепочки (буквенного сочетания). Не может существенно отличаться от длины заменяемой цепочки

  • Вероятность очередной графемы в цепочке. Каждый раз выбирается максимальная вероятность

  • Правильность порождаемого прообраза. Проверяется на каждом шаге.

Коррекция искажений: в начале работы с каждым словом автомат пытается найти варианты прообраза, минимально отличающиеся от искаженного слова и имеющие максимальное значение правильности. Если диагностирующий автомат обнаруживает в слове несколько искажений, обрабатывается наиболее «грубая» ошибка. В случае неудачи (не нашлось прообразов), значения параметров начинают плавно меняться, становиться «мягче» - постепенно увеличивается максимально допустимое количество искажений, снижается порог правильности, позволяется обработка менее грубых ошибок.

Проверка описанных автоматов показала удовлетворительную работу.

Таким образом, при надежной статистике комбинаций из определенного числа знаков письменного текста можно автоматически проводить достаточно эффективную коррекцию искажений в тексте, которые неизбежно встречаются практически в любой лингвистической задаче прикладного характера.