Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Учебное пособие_2010.docx
Скачиваний:
235
Добавлен:
03.06.2015
Размер:
4.23 Mб
Скачать

5.2. Справочные правовые системы

Справочные правовые системы служат для хранения в электронном виде, поиска и анализа нормативной правовой информации. Потребность в такой информации возникает не только у юристов, но и у бухгалтеров, налоговиков, предпринимателей в ходе их профессиональной деятельности, а также у отдельных граждан.

При разработке поисково-справочных систем по законодательству самой важной становится проблема индексации текстов. Способ индексации определяет качество и скорость поиска, способ построения запросов.

Вторая задача, стоящая перед создателем – удобство просмотров списков, передвижения по тексту найденных документов. НПА существуют во взаимосвязи друг с другом, образуя систему. Важно, чтобы в СПС обрабатывались связи документов. Не менее важной для профессионального пользователя является возможность сохранять, обновлять, комментировать найденные документы.

Индексация текстов нпа

Индексация текста – обработка текста документа для осуществления полнотекстового поиска.

Информационно-поисковый язык – это формализованный искусственный язык, предназначенный для индексирования документов, информационных запросов и описания фактов с целью их последующего хранения и поиска.

Индексация означает создание общего глоссария по всему массиву для увеличения скорости поиска. Естественно, что не все слова документа несут информационную нагрузку. Поэтому разрабатывается информационно-поисковый язык (ИПЯ), который содержит только слова, значимые для данной предметной области. Для всей текстовой базы составляется список встречающихся в ней слов ИПЯ, и каждому из них ставится в соответствие некоторый индекс (координаты в текстовой базе); чаще всего это номер документа и номер слова в документе. При поступлении запроса слово сначала ищется в этом списке, и по найденным координатам выдаются нужные документы.

Информационный поисковый язык по законодательству должен обеспечивать:

  • эффективную формализацию правовых норм и нормативных правовых актов;

  • высокую скорость поиска на компьютере информации, необходимой для решения конкретных задач правотворчества;

  • оптимальный (адекватный) перевод нормативного текста с юридического языка на язык, доступный ЭВМ;

  • минимальный «шум» (т. е. сведение к минимуму выдачи компьютером излишней информации);

  • полноту информационного поиска, т. е. получение всей необходимой информации для решения конкретных задач правотворчества.

Для количественной характеристики возможностей поисковой системы используют понятие релевантности поиска.

Релевантность – соответствие результатов поиска запрашиваемой информации (relevant – по-английски относящийся к делу).

Например, если при запросе на поиск документов о правах граждан на информацию, будет представлен список, содержащий только Конституцию РФ, то эта информация релевантная – в Конституции действительно говорится о праве на информацию. С другой стороны, ряд не попавших в список документов (не выбранных системой) также содержат сведения о правах граждан на информацию. Поэтому выбор документов, не включенных в список, оказался нерелевантным.

Обозначим

Рв – количество релевантных выбранных документов, т.е. количество отобранных системой документов, в которых содержится запрашиваемая информация.

Рн – количество релевантных невыбранных документов, т.е. количество не отобранных системой документов, в которых не содержится запрашиваемая информация.

Соответственно,

Нв – количество нерелевантных выбранных документов, т.е. количество отобранных системой документов, в которых не содержится запрашиваемая информация.

Нн – количество нерелевантных невыбранных документов, т.е. не отобранных системой документов, в которых содержится запрашиваемая информация.

Тогда

Шум = Нв/(Рв+Нв) ·100%;

Точность = Рв/(Рв+Нв) ·100%;

Величины этих коэффициентов зависят от целого ряда факторов: как внутренних свойств собственно поисковой системы (объема и характеристик информационного массива, информационно-поискового языка, критерия выдачи), так и от многих «внешних» условий. Большую роль играет способность пользователя правильно сформулировать свои информационные потребности на языке запросов, правильности построения конкретного запроса, а также от субъективного представления пользователя о том, что такое нужная ему информация. Из-за ошибок и неточностей, возникающих на каждом из этапов работы как пользователя, так и системы, результаты могут сильно отличаться от того, что хотел получить пользователь, обращаясь к поисковой справочной системе.