Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекция 1 Введение.doc
Скачиваний:
42
Добавлен:
02.05.2015
Размер:
372.74 Кб
Скачать
    1. Документальные информационно - поисковые системы

Документальные системы служат для работы с документами, в которых информация хранится в виде текстовых документов (статьи, книги, рефераты, тексты законов) и графических объектов, снабженная тем или иным формализованным аппаратом поиска. Цель системы, как правило, – выдать в ответ на запрос пользователя список документов или объектов, в какой-то мере удовлетворяющих сформулированным в запросе условиям.

Документальный поиск – информационный поиск, цель которого нахождение в хранилище ИПС документов, соответствующих полученному запросу. В реальных условиях документальный поиск осуществляется в два этапа: в хранилище вторичных документов, в хранилище первичных документов. Соответственно выделяют два вида документального поиска: библиографический и библиотечный.

Библиографический поиск – документальный поиск, осуществляемый с целью нахождения данных о первичных документах и их адресах. ИПС, обеспечивающая хранение вторичных документов и библиографический поиск называется библиографической информационно – поисковой системой.

Библиотечный поиск – документальный поиск, осуществляемый с целью нахождения первичных документов в их собрании. Соответствующая ИПС называется

библиотечной.

При документальном поиске потребитель сам извлекает из документа интересующие его факты и идеи.

Автоматизация процесса информационного поиска потребовала формализации представления основного смыслового содержания документов в виде поискового предписания (ПП) и поисковых образов документов (ПОД). В процессе информационного поиска определяется степень соответствия содержания документов и запроса пользователя путем сопоставления ПОД и ПП. Решение о выдаче или не выдаче документа в ответ на запрос принимается на основе некоторого набора правил, по которому данная ИПС определяет степень смысловой близости между ПОД и ПП. Такой набор правил получил название критерия смыслового соответствия (КСС). Критерий может быть задан явно или неявно и базируется на понятии формальной релевантности ПОД и ПП.

Релевантность – соответствие содержания документа информационному запросу в том виде, в котором он сформулирован.

Фактическая релевантность, понимаемая как смысловое соответствие содержания выданного документа информационному запросу, может быть установлена человеком в процессе осмысления содержания документа и запроса.

Элементами ИПС являются:

Массивы документов, выступающие в качестве объекта поиска

Информационно – поисковый язык (ИПЯ). Это искусственный язык предназначенный для описания содержания и формы документов и запросов для осуществления поиска.

Правила индексирования, следуя которым осуществляется описание средствами ИПЯ документов и запросов. В результате индексирования документа получается поисковый образ документа (ПОД), а, в результате индексирования запроса – поисковое предписание (ПП).

Правила поиска документов, соответствующих запросов, которые задаются в виде критерия соответствия.

Технические средства, с помощью которых реализуется ИПС, т.е. осуществляется

хранение и поиск информации.

Обслуживающий персонал – индексаторы и технические работники, обеспечивающие обработку и ввод в систему документов.

В состав ИПС входят четыре подсистемы: ввода и регистрации, обработки, хранения, поиска. Структура ИПС представлена на рис. 1.2.

Рис. 1.2 Структура ИПС

Текстовые документы поступают на вход. Все поступающие документы без каких либо изменений направляются в систему хранения. Система хранения представляет собой или совокупностью файлов, или специализированные средства управления базой данных. Система хранения в виде файлов имеет ряд недостатков, а именно хранимые документы неэффективно используют дисковое пространство и имеют низкую скорость доступа при большом количестве файлов. Специализированные средства представляют собой совокупность стандартных или специализированных средств архивации и СУБД, обеспечивающих возможность доступа к данным по предъявляемому идентификатору.

Далее документы поступают на вход подсистемы обработки, задачей которой является формирование для каждого документа поисковых образов документа, в который заносится информация, необходимая для последующего поиска документа.

Поисковые образы всех документов сохраняются в индексе. Он представляет собой таблицу, строки которой соответствуют документам, а столбцы – информационным признакам, на основе которых строится ПОД. В ячейках таблицы хранятся единицы и нули в зависимости от наличия или отсутствия данного признака в данном документе.

Очевидно, что такая таблица сильно разряжена, и хранить в ней все ее значения не имеет смысла, поэтому используют свертку таких таблиц. Форма хранения таблицы без свертки называется прямой, со сверткой – инверсной. При свертке таблицы структура индекса значительно усложняется, для его поддержания используются средства СУБД.

Запрос пользователя преобразуется в код поискового предписания и передается в подсистему поиска, которая осуществляет выдачу пользователю документов. Найденные документы признаются системой формально релевантными.

Принципиальной особенностью документальной системы является ее способность, с одной стороны, выдавать ненужные пользователю документы (например, где “энтропия” употреблена в ином смысле, чем предполагалось), а с другой – не выдавать нужные (например, если автор употребил какой-то синоним или ошибся в написании).