- •Модели дешифровки
- •Общие черты всех алгоритмов
- •Во всех алгоритмах лежат устойчивые, простые и общие представления о языке, подтверждающиеся определенными универсальными закономерностями:
- •Во всех алгоритмах используется информация о дистрибуции элементов и их числовых параметрах
- •Методика: - определяется множество допустимых решений –в данном множестве с помощью функции выгодности находится лучшее.
- •Сочетания букв отражаются в таблице 1.
- •Предложение в окна брезжил синеватый холодный свет утра. Перекодировано:
- •Брезжил
- •V брезжил
- •Правильные фразы
- •Наречие
- •Формы морфологически членимы
- •Формы морфологически не членимы
- •Морфология
- •Принцип субституции.
- •Адекватная грамматическая классификация существительных в русском языке
- •Трансформационное моделирование Трансформации
- •Морфологическая, синтаксическая производность
- •Трансформационный метод з. Харрис, н. Хомский.
- •Недостатки методов нс
ЛИНГВИСТИЧЕСКИЕ МОДЕЛИ |
|
Модели исследования Объект – процедуры, ведущие к обнаружению того или иного языкового явления. Имитируют исследовательскую деятельность лингвиста. Цель – объективно обосновать понятия. |
Модели речевой деят-ти Объект – конкретные языковые процессы, явления. Имитируют речевую деятельность.
|
исходная информация – текст |
|
|
|
исходная информация – множество правильных фраз |
Модели дешифровки
Исходная информация – текст.
Дешифровка текста – автоматически полученные сведения о:
-
единицах текста,
-
классах единиц,
-
з
Исходно о тексте ничего неизвестно. Машина умеет отличать черные точки от белых.
Нужна последовательность алгоритмов для получения сведений о единицах текста:
-
буквах,
-
звуках,
-
гласных и согласных,
-
морфемах,
-
словах,
-
частях речи,
-
предложениях и т.д.
-
Общие черты всех алгоритмов
-
Во всех алгоритмах лежат устойчивые, простые и общие представления о языке, подтверждающиеся определенными универсальными закономерностями:
-
Буква – есть устойчивое сочетание точек,
-
Морфема – есть устойчивое сочетание фонем,
-
Словоформа – есть устойчивое сочетание морфем,
-
В каждом языке есть два уровня:
- уровень значащих единиц (морфем);
- уровень не значащих единиц (фонем).
-
В любом языке имеются лексические морфемы.
-
Во всех алгоритмах используется информация о дистрибуции элементов и их числовых параметрах
-
Методика: - определяется множество допустимых решений –в данном множестве с помощью функции выгодности находится лучшее.
АЛГОРИТМ ВЫДЕЛЕНИЯ ГЛАСНЫХ И СОГЛАСНЫХ Б.В.Сухотина
Входная информация:
сведения о белых и черных точках.
На выходе:
об алфавите символов (букв)
Задача:
разбиение букв (алфавит букв уже выделен) на два класса: класс гласных и класс согласных.
Гипотеза:
чередования преобладают над скоплениями.
Сочетания букв отражаются в таблице 1.
Частоты двухбуквенных сочетаний
Таблица 1.
а5 а1 а2 а3 а4
а1 |
. |
. |
…. |
… |
.. |
11 |
а2 |
.. |
. |
… |
…. |
.. |
12 |
а3 |
… |
…. |
. |
.. |
… |
13 |
а4 |
…. |
… |
.. |
. |
…. |
14 |
а5 |
. |
. |
…. |
… |
. |
10 |
-
В каждой клетке число сочетаний буквы
аi с буквой aj
-
Каждое сочетание обозначено точкой.
Результаты обработки алгоритмом. Алгоритм:
а3 и а4 входят в класс гласных, а1, а2 , а5 – класс согласных.
Частоты буквенных сочетаний.
Таблица 2
|
гласные |
согласные |
глас-ные |
1 |
2 |
согласные |
4 |
3 |
Таблица обрабатывается алгоритмом:
1) Найди сумму отметок для каждой строки.
2) Проверь, имеются ли строки с положительными суммами. Нет – выдай результат. Да – делай (3).
3) Найди строку с максимальной суммой отметок и занеси букву, которая озаглавливает эту строку, в класс гласных.
4) Найди столбец, озаглавленный выделенной в (3) буквой, и вычти из суммы отметок для каждой строки, за исключением уже выделенных, удвоенное число, стоящее на пересечении данной строки и столбца, озаглавленного выделенной в (3) буквой.
5) Сотри предыдущие суммы отметок в строках и делай (2).
Апробация в машинных экспериментах на материале разных языков показала:
-
немецкий язык – 3 ошибки s, h, k попали в число гласных. Не определены sch, ch, ck.
-
английский и русский – 1 незначительная ошибка.
-
Испанский-безошибочно
Морфологический алгоритм Харриса
Устанавливает не столько морфы как таковые, сколько границы между ними.
h |
i |
y |
z |
k |
l |
e |
v |
ə |
r |
9 |
14 |
29 |
29 |
11 |
7 |
… |
… |
… |
… |
-
В тексте, записанном фонологической транскрипцией, выбирается некоторое предложение, например англ. [hiyzklevqr] – «он умен».
-
Отыскиваются все предложения, начинающиеся с той же фонемы [h], и подсчитывается число различных фонем, которые следуют за [h] в этих предложениях. Эти фонемы называются “преемниками” (successors) [h]. Число «преемников» для [h] равно 9.
-
Затем отыскиваются все предложения, которые начинаются с тех же двух фонем, что и данное, т.е. с [hi], и подсчитывается число «преемников» для пары фонем (оно равно 14) и т.д.
-
В разных местах предложения число «преемников» изменяется: то возрастает, образуя пики, то падает. Если верно предположение, что фонологическое разнообразие на стыке морфов больше, чем внутри морфов, то пики должны приходиться на границы между морфами, ср.
В данном предложении имеются два пика – после фонемы [y] (29) и после фонемы [z] (29); в этих местах и следует провести морфологические границы. Полученная сегментация (he/’s/clever) отражает действительное положение вещей.
Алгоритм установления синтаксических связей словоформ в предложении.
Алгоритм работает над текстом, словоформы которого заменены (перекодированы) символами классов словоформ:
1) Nn, Ng, Nd, Na, Ni, Np
-
Аn ,Аg, Аd
-
V
-
Р
-
С