Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
учебное пособие - информационные системы11.doc
Скачиваний:
55
Добавлен:
18.11.2019
Размер:
11.21 Mб
Скачать
    1. Поиск информации

Основы современной теории информационного поиска были разработаны в 50 - первой половине 60-х гг.

Виды поиска, используемые в информационно-поисковых системах:

  • по иерархическому классификатору;

  • по реквизитам документов;

  • по ключевым словам;

  • по контексту;

и иные виды.

В основе различных видов поиска лежит, как правило, использование информационно-поискового языка. Информационно-поисковый язык – это формализованный искусственный язык, предназначенный для индексирования документов, информационных запросов и описания фактов для их последующего хранения и поиска.

Теория информационного поиска различает следующие типы информационно-поисковых языков.

Языки предметного типа – алфавитно-предметные указатели к сборникам и отдельным нормативным актам и широко распространенные алфавитно-предметные рубрикаторы. При использовании языка этого типа основная тема (предмет) документа выражается одним или несколькими типовыми словами – рубриками.

Язык классификационного типа представляет собой иерархический классификатор отраслей законодательства. Классификатор – это систематизированный свод наименований кодов классификационных групп. При классификации желательно соблюдать следующие требования: полнота охвата объекта, возможность включения новых объектов, многоуровневая структура.

Язык дескрипторного типа – язык, характеризующийся способностью передавать смысл нормативно-правового акта, выражать комбинацией дескрипторов любое понятие. Данные языки, в свою очередь, можно подразделить на два вида: языки, в которых различаются логико-смысловые отношения между ключевыми словами, и языки, которые не содержат в своем составе логико-смысловых отношений. Важнейшее место среди языков дескрипторного типа занимает правовой тезаурус. Правовой тезаурус – это собрание ключевых слов и понятий, применяемых в качестве лингвистического обеспечения правовой АИПС.

Тезаурус включает ряд основных понятий:

  • ключевые слова – наиболее полно описывают содержание правовых норм (актов), их существенные черты. В качестве ключевого слова используется слово или словосочетание естественного языка, выбираемое из текста документа. Не относятся к ключевым слова, не имеющие смысловой нагрузки, например общеупотребительные слова, которые можно опустить без ущерба для смысла правовой нормы и информационного поиска;

  • дескриптор – выбранное ключевое слово, представляющее группу ключевых слов. Дескрипторы могут отражать взаимосвязь ключевых слов по признакам: подчиненности, ассоциативности понятий, эквивалентности.

Процедура составления поискового образа правовой нормы или нормативно-правового акта называется индексированием. Индексирование преобразует содержание и текст правовой нормы в набор соответствующих ключевых слов и дескрипторов. Индексирование – процесс описания содержания документов и запросов в терминах информационно-поискового языка, а также сопоставление документу набора ключевых слов, отражающих его содержание.

Поиск информации с помощью ЭВМ основан в конечном итоге на информационно-познавательном отождествлении терминов запроса и терминов документа.

Реквизит – логически неделимый элемент документа, описывающий определенное свойство отображаемого объекта.

Контекстпоследовательность символов, являющихся частью слова, словом, словосочетанием.

Ссылка- указатель на какой-либо объект.

В информационно-поисковых системах отслеживаются информационно-логические связи между документами (редакции документа, бланкетные и отсылочные нормы и т.д.). В том числе для каждого документа формируются списки респондентов и корреспондентов.

Корреспонденты – это документы, ссылающиеся на текущий документ.

Респонденты – это документы, упоминаемые в текущем документе.

В последнее время особое значение приобретает гипертекстовая технология – механизм мгновенного перехода между частями текста как в пределах одного документа, так и между различными документами.