Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Новосибирский государственный университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

4 Анализ документа

.pdf

Скачиваний:

Добавлен:

28.03.2016

Размер:

394.58 Кб

Скачать

☆

<<< < Предыдущая 12 / 22

Электронный журнал «ИССЛЕДОВАНО В РОССИИ» 976

http://zhurnal.ape.relarn.ru/articles/2002/088.pdf

Полученные значения вектора PR описывают элементы логико-фактологической структуры текста, выступающие в качестве поискового запроса при автоматизированном формировании массива правовых актов по содержательному критерию. В таблице 4 представлены элементы логико-фактологической структуры для Текста.

		Таблица 4
	Элементы логико-фактологической структуры Текста

l		N(l)	PR(l)
130.010.040	Образовательные учреждения и иные образовательные организации		26,543
080.060.000	Бюджеты субъектов Российской Федерации		21,927
070.080.010	Социальное обслуживание. Общие положения		17,815
020.030.020	Государственные программы. Концепции		14,955
090.000.000	Хозяйственная деятельность		14,955
030.090.080	Право собственности и другие вещные права на землю и		14,097
	иные природные ресурсы
010.140.030	Порядок опубликования и вступления в силу нормативных правовых		10,353
	актов
		σпор =	21,659

Подбор документов по содержательному критерию

Основным обстоятельством, определяющим процедуру подбора правовых актов (массива документов), является тот факт, что действия осуществляются над множествами элементов: множеством ассоциативно связанных содержательных компонентов тематического образа документа, с одной стороны, и множеством документов правового пространства с другой, и характеризуются следующими факторами:

1.Массив документов статичен в том смысле, что будет существовать точно определенное дополнение для любого множества документов внутри массива. Массив может изменяться во времени, тем самым, влияя на результат осуществляемых над ним операций.

2.Область полученного фрагмента определяется содержательной структурой анализируемого документа и тождественна смысловому пространству правовых актов, так что смысловые структуры документов правового пространства формируются такими же темообразующими понятиями, какими представлена смысловая структура анализируемого документа. Возможна и обратная ситуация.

3.Темообразующие понятия содержательных структур исходного документа и сформированного массива могут быть взаимно связаны определенными отношениями или, наоборот, взаимно независимы.

Очевидно, что процедура автоматизированного формирования массива правовых

актов, содержательно ориентированного относительно анализируемого документа, есть функция отображения его смысловой структуры на документационное правовое пространство, представленное конечным множеством элементов: D’=F(P) (рис.4). Она определяет собой набор правил (P→D), ставящих объекту класса P в соответствие некоторые объекты класса D.

Электронный журнал «ИССЛЕДОВАНО В РОССИИ»	977	http://zhurnal.ape.relarn.ru/articles/2002/088.pdf
		PR1… PRn
		PR2
	PRmax
		P
D1
D2		D’=F(P)
		D’=F(P)
	Dn	Dk
	Dn
Рис.4 Отображение смысловой структуры законопроекта
на документационное правовое пространство

Степень релевантности документов по отношению к информационному запросу устанавливает критерий смыслового соответствия. Он, как известно, определяется человеком и зависит от его индивидуальных особенностей. Формализованным средством, согласно которому в информационно-поисковой системе осуществляется отбор и выдача документов, является критерий формального соответствия или критерий выдачи. Существует три класса критериев формального соответствия: функции, базирующиеся на весах терминов запроса; функции, базирующиеся на весах всех тех терминов, которые встречаются либо в запросе, либо в документе, либо в одном и другом; функции, использующие дополнительно веса терминов, не встречающихся ни в запросе, ни в документе [13].

Для определения критерия соответствия смысловых структур, вернемся к выражению (9), которое описывает смысловой вектор документа в пространстве целевых программ со свойствами ξ . Очевидно, что для двух идентичных векторов пространства размерности n угол равен 0° и косинус его равен 1, тогда как угол 90° и косинус, равный 0, соответствуют векторам, не имеющим общих свойств.

Расчет коэффициента подобия для данного случая производится по следующей формуле [13]:

			T
rpd	=		∑( pi di )	где
			i=1
		T	T
		∑	( pi )2 ∑( di )2
		i=1	i=1

pi , di – i-е компоненты логико-фактологических структур проекта и документа;

∑ pi – сумма весов свойств документа, включенного в логико-фактологическую

i=1

структуру (d – для проекта соответственно);

∑( pi di ) – сумма покомпонентных произведений векторов ([PR], выражение 10,

i=1

рис.3);

∑(di )2 – длина вектора d ([PR]) размерности T.

i=1

Процедура формирования фрагмента законодательства сводится на первом этапе к вычислению коэффициента подобия rpd. Следующим шагом является упорядочение массива документов по их классификационным признакам в следующей последовательности: по

Электронный журнал «ИССЛЕДОВАНО В РОССИИ» 978

http://zhurnal.ape.relarn.ru/articles/2002/088.pdf

видам документов (конституции, уставы, законы, постановления и т.д.), по типам органов государственной власти, принимающих правовые акты (Федеральное Собрание, региональные органы власти и т.д.), по правовому статусу документов (действует с изменениями, отменен).

В заключение отметим, что в автоматизированных системах, выполняющих лингвистическую обработку текстов возможны и другие применения предложенной модели – автоматическое реферирование текстов, создание электронных шаблонов различных видов правовых актов и т.д.

Литература

1.Леонтьев А. А. Язык и речевая деятельность в общей и педагогической психологии: Избранные психологические труды. –М.: Моск.психолог.-социал.инс-т, 2001.

2.А.Ахо, Дж.Ульман. Теория синтаксического анализа, перевода и компиляции. Т.1. Синтаксический анализ. –М.: Мир, 1978.

3.D.M.Magerman. Natural Language Parsing as Statistical Pattern Recognition. // A dissertation submitted to the department of computer science at the committee on graduate studies of Stanford University, 1994. // Опубликовано на сервере www.xxx.lang.gov/cmp.lg.

4.R.M.Losee An Introduction to Genetic Algorithms // Information Processing & Management, 33 (3) 1997, –pp. 407-417.

5.R.M.Losee Natural lanquage processing in supportof desision-making: phrases and part of speech tagging // Information Processing & Management, 37(6). 2001 –pp.769-787.

6.Харламов А.А., Ермаков А.Е., Кузнецов Д.М. Технология обработки текстовой информации с опорой на семантическое представление на основе иерархических структур из динамических нейронных сетей, управляемых механизмом внимания // Информационные технологии. – 1998.

–№2. –с.26-32.

7.Мячина Е.В. Использование новых информационных технологий для повышения качества регионального законотворчества. //Судебная защита прав и законных интересов граждан и юридических лиц: Доклады и сообщения II Всерос. межвуз. науч.-практич. конф. –М.: РГГУ, 2001.

–с.406-410.

8.Леонтьев А.Н. Деятельность. Сознание. Личность. Изд. 2-е. –М.: Политиздат, 1997.

9.Леонтьев А.Н. Образ мира //Избранные псих. произведения. т.II – М., 1983.

10.Климов Г.П. Теория вероятностей и математическая статистика. – М.: Изд-во Моск. Ун-та, 1983.

11.Колмогоров А.Н. Теория вероятностей и математическая статистика: [Сб. статей]. – М.: Наука, 1986.

12.Указ Президента РФ от 15 марта 2000 года № 511 «О классификаторе правовых актов» // Собрание законодательства Российской Федерации, 2000, № 12, ст.1260.

13.Шемакин Ю.И. Основы информатики и вычислительной лингвистики. Учебное пособие. –М.: Изд-е МИНХ им. Г.В.Плеханова, 1983.

<<< < Предыдущая 12 / 22

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
17.09.2019132.27 Кб1028-36.docx
#
22.09.201948.13 Кб529 Agafonov.doc
#
06.06.201555.7 Кб112_16.docx
#
14.07.201942.13 Кб633 элементы родео.docx
#
28.03.2016562.36 Кб163_Моделирование.pdf
#
28.03.2016394.58 Кб94 Анализ документа.pdf
#
08.05.20193.07 Mб264 ИК.doc
#
26.09.2019416.77 Кб34 тема.doc
#
26.09.201982.27 Кб441-78 МП.docx
#
23.09.20191.19 Mб145-49 информатика ответы.docx
#
18.11.201969.63 Кб24LEKTsIYa_BZhD.doc