Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Тюменский Государственный Нефтегазовый Университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

4.Модели исследования.doc

Скачиваний:

Добавлен:

07.12.2018

Размер:

152 Кб

Скачать

☆

1 / 51 2 3 4 5 > Следующая >>>

ЛИНГВИСТИЧЕСКИЕ МОДЕЛИ

Модели исследования

Объект – процедуры, ведущие к обнаружению того или иного языкового явления. Имитируют исследовательскую деятельность лингвиста.

Цель – объективно обосновать понятия.

Модели речевой деят-ти

Объект – конкретные языковые процессы, явления. Имитируют речевую деятельность.

Семантические

Несемантические

Анализа, - Синтеза

Порождающие

Исчисления

Алгоритмы

Вероятностные
Статистические

Дешифровочные

исходная информация – текст

Экспериментальные

исходная информация –

множество правильных фраз

Модели дешифровки

Исходная информация – текст.

Дешифровка текста – автоматически полученные сведения о:

единицах текста,
классах единиц,
з
Исходно о тексте ничего неизвестно. Машина умеет отличать черные точки от белых.

Нужна последовательность алгоритмов для получения сведений о единицах текста:

буквах,

звуках,

гласных и согласных,

морфемах,

словах,

частях речи,

предложениях и т.д.

аконах сочетания единиц и классов.

Общие черты всех алгоритмов

Во всех алгоритмах лежат устойчивые, простые и общие представления о языке, подтверждающиеся определенными универсальными закономерностями:

Буква – есть устойчивое сочетание точек,
Морфема – есть устойчивое сочетание фонем,
Словоформа – есть устойчивое сочетание морфем,
В каждом языке есть два уровня:

- уровень значащих единиц (морфем);

- уровень не значащих единиц (фонем).

В любом языке имеются лексические морфемы.

Во всех алгоритмах используется информация о дистрибуции элементов и их числовых параметрах

Методика: - определяется множество допустимых решений –в данном множестве с помощью функции выгодности находится лучшее.

АЛГОРИТМ ВЫДЕЛЕНИЯ ГЛАСНЫХ И СОГЛАСНЫХ Б.В.Сухотина

Входная информация:

сведения о белых и черных точках.

На выходе:

об алфавите символов (букв)

Задача:

разбиение букв (алфавит букв уже выделен) на два класса: класс гласных и класс согласных.

Гипотеза:

чередования преобладают над скоплениями.

Сочетания букв отражаются в таблице 1.

Частоты двухбуквенных сочетаний

Таблица 1.

а₅ а1 а2 а3 а4

а1	.	.	….	…	..	11
а2	..	.	…	….	..	12
а3	…	….	.	..	…	13
а4	….	…	..	.	….	14
а5	.	.	….	…	.	10

В каждой клетке число сочетаний буквы

а_iс буквой a_j

Каждое сочетание обозначено точкой.

Результаты обработки алгоритмом. Алгоритм:

а3 и а4 входят в класс гласных, а1, а2 , а₅_–класс согласных.

Частоты буквенных сочетаний.

Таблица 2

	гласные	согласные
глас-ные	1	2
согласные	4	3

Таблица обрабатывается алгоритмом:

1) Найди сумму отметок для каждой строки.

2) Проверь, имеются ли строки с положительными суммами. Нет – выдай результат. Да – делай (3).

3) Найди строку с максимальной суммой отметок и занеси букву, которая озаглавливает эту строку, в класс гласных.

4) Найди столбец, озаглавленный выделенной в (3) буквой, и вычти из суммы отметок для каждой строки, за исключением уже выделенных, удвоенное число, стоящее на пересечении данной строки и столбца, озаглавленного выделенной в (3) буквой.

5) Сотри предыдущие суммы отметок в строках и делай (2).

Апробация в машинных экспериментах на материале разных языков показала:

немецкий язык – 3 ошибки s, h, k попали в число гласных. Не определены sch, ch, ck.
английский и русский – 1 незначительная ошибка.
Испанский-безошибочно

Морфологический алгоритм Харриса

Устанавливает не столько морфы как таковые, сколько границы между ними.

h	i	y	z	k	l	e	v	ə	r
9	14	29	29	11	7	…	…	…	…

В тексте, записанном фонологической транскрипцией, выбирается некоторое предложение, например англ. [hiyzklevqr] – «он умен».
Отыскиваются все предложения, начинающиеся с той же фонемы [h], и подсчитывается число различных фонем, которые следуют за [h] в этих предложениях. Эти фонемы называются “преемниками” (successors) [h]. Число «преемников» для [h] равно 9.
Затем отыскиваются все предложения, которые начинаются с тех же двух фонем, что и данное, т.е. с [hi], и подсчитывается число «преемников» для пары фонем (оно равно 14) и т.д.
В разных местах предложения число «преемников» изменяется: то возрастает, образуя пики, то падает. Если верно предположение, что фонологическое разнообразие на стыке морфов больше, чем внутри морфов, то пики должны приходиться на границы между морфами, ср.

В данном предложении имеются два пика – после фонемы [y] (29) и после фонемы [z] (29); в этих местах и следует провести морфологические границы. Полученная сегментация (he/’s/clever) отражает действительное положение вещей.

Алгоритм установления синтаксических связей словоформ в предложении.

Алгоритм работает над текстом, словоформы которого заменены (перекодированы) символами классов словоформ:

1) N_n, N_g, N_d, N_a, N_i, N_p

А_n ,А_g, А_d
V
Р
С

1 / 51 2 3 4 5 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
17.02.2016266 Кб214. XML.doc
#
05.09.2019210 Кб124. ДП LLIAPAIIOB Эконом часть.doc
#
17.02.201639 Кб2634. ОТ и ТБ при работе с ручным инструментом.doc
#
01.05.2025152 Кб24. Преддипломная практика.doc
#
17.02.2016414 Кб284. Уравнения в частных производных I степени.doc
#
07.12.2018152 Кб84.Модели исследования.doc
#
01.04.202555 Кб24.Основы теории надежности ТС.doc
#
06.05.20193 Мб144.Термический анализ.doc
#
01.04.202524 Кб141 билет.docx
#
17.02.2016779 Кб1841243003843.doc
#
29.04.2019299 Кб842-48.doc

Модели дешифровки

Общие черты всех алгоритмов

Во всех алгоритмах лежат устойчивые, простые и общие представления о языке, подтверждающиеся определенными универсальными закономерностями:

Во всех алгоритмах используется информация о дистрибуции элементов и их числовых параметрах

Методика: - определяется множество допустимых решений –в данном множестве с помощью функции выгодности находится лучшее.

Сочетания букв отражаются в таблице 1.