Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

4 Анализ документа

.pdf
Скачиваний:
9
Добавлен:
28.03.2016
Размер:
394.58 Кб
Скачать

Электронный журнал «ИССЛЕДОВАНО В РОССИИ» 976

http://zhurnal.ape.relarn.ru/articles/2002/088.pdf

Полученные значения вектора PR описывают элементы логико-фактологической структуры текста, выступающие в качестве поискового запроса при автоматизированном формировании массива правовых актов по содержательному критерию. В таблице 4 представлены элементы логико-фактологической структуры для Текста.

 

 

 

Таблица 4

 

 

Элементы логико-фактологической структуры Текста

 

 

 

 

 

 

 

l

 

N(l)

PR(l)

 

130.010.040

Образовательные учреждения и иные образовательные организации

26,543

 

080.060.000

Бюджеты субъектов Российской Федерации

21,927

 

070.080.010

Социальное обслуживание. Общие положения

17,815

 

020.030.020

Государственные программы. Концепции

14,955

 

090.000.000

Хозяйственная деятельность

14,955

 

030.090.080

Право собственности и другие вещные права на землю и

14,097

 

 

иные природные ресурсы

 

 

010.140.030

Порядок опубликования и вступления в силу нормативных правовых

10,353

 

 

актов

 

 

 

 

σпор =

21,659

Подбор документов по содержательному критерию

Основным обстоятельством, определяющим процедуру подбора правовых актов (массива документов), является тот факт, что действия осуществляются над множествами элементов: множеством ассоциативно связанных содержательных компонентов тематического образа документа, с одной стороны, и множеством документов правового пространства с другой, и характеризуются следующими факторами:

1.Массив документов статичен в том смысле, что будет существовать точно определенное дополнение для любого множества документов внутри массива. Массив может изменяться во времени, тем самым, влияя на результат осуществляемых над ним операций.

2.Область полученного фрагмента определяется содержательной структурой анализируемого документа и тождественна смысловому пространству правовых актов, так что смысловые структуры документов правового пространства формируются такими же темообразующими понятиями, какими представлена смысловая структура анализируемого документа. Возможна и обратная ситуация.

3.Темообразующие понятия содержательных структур исходного документа и сформированного массива могут быть взаимно связаны определенными отношениями или, наоборот, взаимно независимы.

Очевидно, что процедура автоматизированного формирования массива правовых

актов, содержательно ориентированного относительно анализируемого документа, есть функция отображения его смысловой структуры на документационное правовое пространство, представленное конечным множеством элементов: D’=F(P) (рис.4). Она определяет собой набор правил (PD), ставящих объекту класса P в соответствие некоторые объекты класса D.

Электронный журнал «ИССЛЕДОВАНО В РОССИИ»

977

http://zhurnal.ape.relarn.ru/articles/2002/088.pdf

 

 

PR1PRn

 

 

PR2

 

PRmax

 

 

P

D1

 

 

D2

 

D’=F(P)

 

 

 

Dn

Dk

 

 

Рис.4 Отображение смысловой структуры законопроекта

на документационное правовое пространство

Степень релевантности документов по отношению к информационному запросу устанавливает критерий смыслового соответствия. Он, как известно, определяется человеком и зависит от его индивидуальных особенностей. Формализованным средством, согласно которому в информационно-поисковой системе осуществляется отбор и выдача документов, является критерий формального соответствия или критерий выдачи. Существует три класса критериев формального соответствия: функции, базирующиеся на весах терминов запроса; функции, базирующиеся на весах всех тех терминов, которые встречаются либо в запросе, либо в документе, либо в одном и другом; функции, использующие дополнительно веса терминов, не встречающихся ни в запросе, ни в документе [13].

Для определения критерия соответствия смысловых структур, вернемся к выражению (9), которое описывает смысловой вектор документа в пространстве целевых программ со свойствами ξ . Очевидно, что для двух идентичных векторов пространства размерности n угол равен 0° и косинус его равен 1, тогда как угол 90° и косинус, равный 0, соответствуют векторам, не имеющим общих свойств.

Расчет коэффициента подобия для данного случая производится по следующей формуле [13]:

 

 

 

T

 

rpd

=

 

( pi di )

где

 

i=1

T

T

 

 

( pi )2 ( di )2

 

 

 

i=1

i=1

 

pi , di i-е компоненты логико-фактологических структур проекта и документа;

T

pi – сумма весов свойств документа, включенного в логико-фактологическую

i=1

структуру (d – для проекта соответственно);

T

( pi di ) – сумма покомпонентных произведений векторов ([PR], выражение 10,

i=1

рис.3);

T

(di )2 – длина вектора d ([PR]) размерности T.

i=1

Процедура формирования фрагмента законодательства сводится на первом этапе к вычислению коэффициента подобия rpd. Следующим шагом является упорядочение массива документов по их классификационным признакам в следующей последовательности: по

Электронный журнал «ИССЛЕДОВАНО В РОССИИ» 978

http://zhurnal.ape.relarn.ru/articles/2002/088.pdf

видам документов (конституции, уставы, законы, постановления и т.д.), по типам органов государственной власти, принимающих правовые акты (Федеральное Собрание, региональные органы власти и т.д.), по правовому статусу документов (действует с изменениями, отменен).

В заключение отметим, что в автоматизированных системах, выполняющих лингвистическую обработку текстов возможны и другие применения предложенной модели – автоматическое реферирование текстов, создание электронных шаблонов различных видов правовых актов и т.д.

Литература

1.Леонтьев А. А. Язык и речевая деятельность в общей и педагогической психологии: Избранные психологические труды. –М.: Моск.психолог.-социал.инс-т, 2001.

2.А.Ахо, Дж.Ульман. Теория синтаксического анализа, перевода и компиляции. Т.1. Синтаксический анализ. –М.: Мир, 1978.

3.D.M.Magerman. Natural Language Parsing as Statistical Pattern Recognition. // A dissertation submitted to the department of computer science at the committee on graduate studies of Stanford University, 1994. // Опубликовано на сервере www.xxx.lang.gov/cmp.lg.

4.R.M.Losee An Introduction to Genetic Algorithms // Information Processing & Management, 33 (3) 1997, –pp. 407-417.

5.R.M.Losee Natural lanquage processing in supportof desision-making: phrases and part of speech tagging // Information Processing & Management, 37(6). 2001 –pp.769-787.

6.Харламов А.А., Ермаков А.Е., Кузнецов Д.М. Технология обработки текстовой информации с опорой на семантическое представление на основе иерархических структур из динамических нейронных сетей, управляемых механизмом внимания // Информационные технологии. – 1998.

–№2. –с.26-32.

7.Мячина Е.В. Использование новых информационных технологий для повышения качества регионального законотворчества. //Судебная защита прав и законных интересов граждан и юридических лиц: Доклады и сообщения II Всерос. межвуз. науч.-практич. конф. –М.: РГГУ, 2001.

–с.406-410.

8.Леонтьев А.Н. Деятельность. Сознание. Личность. Изд. 2-е. –М.: Политиздат, 1997.

9.Леонтьев А.Н. Образ мира //Избранные псих. произведения. т.II – М., 1983.

10.Климов Г.П. Теория вероятностей и математическая статистика. – М.: Изд-во Моск. Ун-та, 1983.

11.Колмогоров А.Н. Теория вероятностей и математическая статистика: [Сб. статей]. – М.: Наука, 1986.

12.Указ Президента РФ от 15 марта 2000 года № 511 «О классификаторе правовых актов» // Собрание законодательства Российской Федерации, 2000, № 12, ст.1260.

13.Шемакин Ю.И. Основы информатики и вычислительной лингвистики. Учебное пособие. –М.: Изд-е МИНХ им. Г.В.Плеханова, 1983.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]