4 Анализ документа
.pdfЭлектронный журнал «ИССЛЕДОВАНО В РОССИИ» 976 |
http://zhurnal.ape.relarn.ru/articles/2002/088.pdf |
Полученные значения вектора PR описывают элементы логико-фактологической структуры текста, выступающие в качестве поискового запроса при автоматизированном формировании массива правовых актов по содержательному критерию. В таблице 4 представлены элементы логико-фактологической структуры для Текста.
|
|
|
Таблица 4 |
|
|
|
Элементы логико-фактологической структуры Текста |
|
|
|
|
|
|
|
|
l |
|
N(l) |
PR(l) |
|
130.010.040 |
Образовательные учреждения и иные образовательные организации |
26,543 |
|
|
080.060.000 |
Бюджеты субъектов Российской Федерации |
21,927 |
|
|
070.080.010 |
Социальное обслуживание. Общие положения |
17,815 |
|
|
020.030.020 |
Государственные программы. Концепции |
14,955 |
|
|
090.000.000 |
Хозяйственная деятельность |
14,955 |
|
|
030.090.080 |
Право собственности и другие вещные права на землю и |
14,097 |
|
|
|
иные природные ресурсы |
|
|
|
010.140.030 |
Порядок опубликования и вступления в силу нормативных правовых |
10,353 |
|
|
|
актов |
|
|
|
|
|
σпор = |
21,659 |
Подбор документов по содержательному критерию
Основным обстоятельством, определяющим процедуру подбора правовых актов (массива документов), является тот факт, что действия осуществляются над множествами элементов: множеством ассоциативно связанных содержательных компонентов тематического образа документа, с одной стороны, и множеством документов правового пространства с другой, и характеризуются следующими факторами:
1.Массив документов статичен в том смысле, что будет существовать точно определенное дополнение для любого множества документов внутри массива. Массив может изменяться во времени, тем самым, влияя на результат осуществляемых над ним операций.
2.Область полученного фрагмента определяется содержательной структурой анализируемого документа и тождественна смысловому пространству правовых актов, так что смысловые структуры документов правового пространства формируются такими же темообразующими понятиями, какими представлена смысловая структура анализируемого документа. Возможна и обратная ситуация.
3.Темообразующие понятия содержательных структур исходного документа и сформированного массива могут быть взаимно связаны определенными отношениями или, наоборот, взаимно независимы.
Очевидно, что процедура автоматизированного формирования массива правовых
актов, содержательно ориентированного относительно анализируемого документа, есть функция отображения его смысловой структуры на документационное правовое пространство, представленное конечным множеством элементов: D’=F(P) (рис.4). Она определяет собой набор правил (P→D), ставящих объекту класса P в соответствие некоторые объекты класса D.
Электронный журнал «ИССЛЕДОВАНО В РОССИИ» |
977 |
http://zhurnal.ape.relarn.ru/articles/2002/088.pdf |
|
|
PR1… PRn |
|
|
PR2 |
|
PRmax |
|
|
|
P |
D1 |
|
|
D2 |
|
D’=F(P) |
|
|
|
|
Dn |
Dk |
|
|
|
Рис.4 Отображение смысловой структуры законопроекта |
||
на документационное правовое пространство |
Степень релевантности документов по отношению к информационному запросу устанавливает критерий смыслового соответствия. Он, как известно, определяется человеком и зависит от его индивидуальных особенностей. Формализованным средством, согласно которому в информационно-поисковой системе осуществляется отбор и выдача документов, является критерий формального соответствия или критерий выдачи. Существует три класса критериев формального соответствия: функции, базирующиеся на весах терминов запроса; функции, базирующиеся на весах всех тех терминов, которые встречаются либо в запросе, либо в документе, либо в одном и другом; функции, использующие дополнительно веса терминов, не встречающихся ни в запросе, ни в документе [13].
Для определения критерия соответствия смысловых структур, вернемся к выражению (9), которое описывает смысловой вектор документа в пространстве целевых программ со свойствами ξ . Очевидно, что для двух идентичных векторов пространства размерности n угол равен 0° и косинус его равен 1, тогда как угол 90° и косинус, равный 0, соответствуют векторам, не имеющим общих свойств.
Расчет коэффициента подобия для данного случая производится по следующей формуле [13]:
|
|
|
T |
|
rpd |
= |
|
∑( pi di ) |
где |
|
i=1 |
|||
T |
T |
|||
|
|
∑ |
( pi )2 ∑( di )2 |
|
|
|
i=1 |
i=1 |
|
pi , di – i-е компоненты логико-фактологических структур проекта и документа;
T
∑ pi – сумма весов свойств документа, включенного в логико-фактологическую
i=1
структуру (d – для проекта соответственно);
T
∑( pi di ) – сумма покомпонентных произведений векторов ([PR], выражение 10,
i=1
рис.3);
T
∑(di )2 – длина вектора d ([PR]) размерности T.
i=1
Процедура формирования фрагмента законодательства сводится на первом этапе к вычислению коэффициента подобия rpd. Следующим шагом является упорядочение массива документов по их классификационным признакам в следующей последовательности: по
Электронный журнал «ИССЛЕДОВАНО В РОССИИ» 978 |
http://zhurnal.ape.relarn.ru/articles/2002/088.pdf |
видам документов (конституции, уставы, законы, постановления и т.д.), по типам органов государственной власти, принимающих правовые акты (Федеральное Собрание, региональные органы власти и т.д.), по правовому статусу документов (действует с изменениями, отменен).
В заключение отметим, что в автоматизированных системах, выполняющих лингвистическую обработку текстов возможны и другие применения предложенной модели – автоматическое реферирование текстов, создание электронных шаблонов различных видов правовых актов и т.д.
Литература
1.Леонтьев А. А. Язык и речевая деятельность в общей и педагогической психологии: Избранные психологические труды. –М.: Моск.психолог.-социал.инс-т, 2001.
2.А.Ахо, Дж.Ульман. Теория синтаксического анализа, перевода и компиляции. Т.1. Синтаксический анализ. –М.: Мир, 1978.
3.D.M.Magerman. Natural Language Parsing as Statistical Pattern Recognition. // A dissertation submitted to the department of computer science at the committee on graduate studies of Stanford University, 1994. // Опубликовано на сервере www.xxx.lang.gov/cmp.lg.
4.R.M.Losee An Introduction to Genetic Algorithms // Information Processing & Management, 33 (3) 1997, –pp. 407-417.
5.R.M.Losee Natural lanquage processing in supportof desision-making: phrases and part of speech tagging // Information Processing & Management, 37(6). 2001 –pp.769-787.
6.Харламов А.А., Ермаков А.Е., Кузнецов Д.М. Технология обработки текстовой информации с опорой на семантическое представление на основе иерархических структур из динамических нейронных сетей, управляемых механизмом внимания // Информационные технологии. – 1998.
–№2. –с.26-32.
7.Мячина Е.В. Использование новых информационных технологий для повышения качества регионального законотворчества. //Судебная защита прав и законных интересов граждан и юридических лиц: Доклады и сообщения II Всерос. межвуз. науч.-практич. конф. –М.: РГГУ, 2001.
–с.406-410.
8.Леонтьев А.Н. Деятельность. Сознание. Личность. Изд. 2-е. –М.: Политиздат, 1997.
9.Леонтьев А.Н. Образ мира //Избранные псих. произведения. т.II – М., 1983.
10.Климов Г.П. Теория вероятностей и математическая статистика. – М.: Изд-во Моск. Ун-та, 1983.
11.Колмогоров А.Н. Теория вероятностей и математическая статистика: [Сб. статей]. – М.: Наука, 1986.
12.Указ Президента РФ от 15 марта 2000 года № 511 «О классификаторе правовых актов» // Собрание законодательства Российской Федерации, 2000, № 12, ст.1260.
13.Шемакин Ю.И. Основы информатики и вычислительной лингвистики. Учебное пособие. –М.: Изд-е МИНХ им. Г.В.Плеханова, 1983.