Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
4.Модели исследования.doc
Скачиваний:
3
Добавлен:
07.12.2018
Размер:
152.06 Кб
Скачать

ЛИНГВИСТИЧЕСКИЕ МОДЕЛИ

Модели исследования

Объектпроцедуры, ведущие к обнаружению того или иного языкового явления. Имитируют исследовательскую деятельность лингвиста.

Цель – объективно обосновать понятия.

Модели речевой деят-ти

Объект – конкретные языковые процессы, явления. Имитируют речевую деятельность.

  • Семантические

  • Несемантические

  • Анализа, - Синтеза

  • Порождающие

  • Исчисления

  • Алгоритмы

  • Вероятностные

  • Статистические

  • Дешифровочные

исходная информация – текст

  • Экспериментальные

исходная информация –

множество правильных фраз

Модели дешифровки

Исходная информация – текст.

Дешифровка текста – автоматически полученные сведения о:

  • единицах текста,

  • классах единиц,

  • з

    Исходно о тексте ничего неизвестно. Машина умеет отличать черные точки от белых.

    Нужна последовательность алгоритмов для получения сведений о единицах текста:

    • буквах,

    • звуках,

    • гласных и согласных,

    • морфемах,

    • словах,

    • частях речи,

    • предложениях и т.д.

    аконах сочетания единиц и классов.

Общие черты всех алгоритмов

  1. Во всех алгоритмах лежат устойчивые, простые и общие представления о языке, подтверждающиеся определенными универсальными закономерностями:

  • Буква – есть устойчивое сочетание точек,

  • Морфема – есть устойчивое сочетание фонем,

  • Словоформа – есть устойчивое сочетание морфем,

  • В каждом языке есть два уровня:

- уровень значащих единиц (морфем);

- уровень не значащих единиц (фонем).

  • В любом языке имеются лексические морфемы.

  1. Во всех алгоритмах используется информация о дистрибуции элементов и их числовых параметрах

  1. Методика: - определяется множество допустимых решений –в данном множестве с помощью функции выгодности находится лучшее.

АЛГОРИТМ ВЫДЕЛЕНИЯ ГЛАСНЫХ И СОГЛАСНЫХ Б.В.Сухотина

Входная информация:

сведения о белых и черных точках.

На выходе:

об алфавите символов (букв)

Задача:

разбиение букв (алфавит букв уже выделен) на два класса: класс гласных и класс согласных.

Гипотеза:

чередования преобладают над скоплениями.

Сочетания букв отражаются в таблице 1.

Частоты двухбуквенных сочетаний

Таблица 1.

а5 а1 а2 а3 а4

а1

.

.

….

..

11

а2

..

.

….

..

12

а3

….

.

..

13

а4

….

..

.

….

14

а5

.

.

….

.

10

  1. В каждой клетке число сочетаний буквы

аi с буквой aj

  1. Каждое сочетание обозначено точкой.

Результаты обработки алгоритмом. Алгоритм:

а3 и а4 входят в класс гласных, а1, а2 , а5класс согласных.

Частоты буквенных сочетаний.

Таблица 2

гласные

согласные

глас-ные

1

2

согласные

4

3

Таблица обрабатывается алгоритмом:

1) Найди сумму отметок для каждой строки.

2) Проверь, имеются ли строки с положительными суммами. Нет – выдай результат. Да – делай (3).

3) Найди строку с максимальной суммой отметок и занеси букву, которая озаглавливает эту строку, в класс гласных.

4) Найди столбец, озаглавленный выделенной в (3) буквой, и вычти из суммы отметок для каждой строки, за исключением уже выделенных, удвоенное число, стоящее на пересечении данной строки и столбца, озаглавленного выделенной в (3) буквой.

5) Сотри предыдущие суммы отметок в строках и делай (2).

Апробация в машинных экспериментах на материале разных языков показала:

  • немецкий язык – 3 ошибки s, h, k попали в число гласных. Не определены sch, ch, ck.

  • английский и русский – 1 незначительная ошибка.

  • Испанский-безошибочно

Морфологический алгоритм Харриса

Устанавливает не столько морфы как таковые, сколько границы между ними.

h

i

y

z

k

l

e

v

ə

r

9

14

29

29

11

7

  1. В тексте, записанном фонологической транскрипцией, выбирается некоторое предложение, например англ. [hiyzklevqr] – «он умен».

  2. Отыскиваются все предложения, начинающиеся с той же фонемы [h], и подсчитывается число различных фонем, которые следуют за [h] в этих предложениях. Эти фонемы называются “преемниками” (successors) [h]. Число «преемников» для [h] равно 9.

  3. Затем отыскиваются все предложения, которые начинаются с тех же двух фонем, что и данное, т.е. с [hi], и подсчитывается число «преемников» для пары фонем (оно равно 14) и т.д.

  4. В разных местах предложения число «преемников» изменяется: то возрастает, образуя пики, то падает. Если верно предположение, что фонологическое разнообразие на стыке морфов больше, чем внутри морфов, то пики должны приходиться на границы между морфами, ср.

В данном предложении имеются два пика – после фонемы [y] (29) и после фонемы [z] (29); в этих местах и следует провести морфологические границы. Полученная сегментация (he/’s/clever) отражает действительное положение вещей.

Алгоритм установления синтаксических связей словоформ в предложении.

Алгоритм работает над текстом, словоформы которого заменены (перекодированы) символами классов словоформ:

1) Nn, Ng, Nd, Na, Ni, Np

  1. Аng, Аd

  2. V

  3. Р

  4. С