Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
281
Добавлен:
16.05.2015
Размер:
1.97 Mб
Скачать

3.6.2. Структра поисковой системы

  • Подсистема ввода и регистрации

  • Подсистема обработки

  • Подсистема хранения

  • Подсистема поиска

Текстовые документы, поступающие на вход системы, могут быть представлены, как в бумажном, так и в электронном виде (в одном из многочисленных форматов). Поэтому подсистема ввода и регистрации решает следующие основные задачи:

  • создание электронных копий бумажных документов (например, ска­нирование с последующим распознаванием текста или ввод с кла­виатуры);

  • обеспечение подключения к каналам доставки электронных доку­ментов;

  • распознавание, а при необходимости и преобразование формата электронных документов;

  • присвоение электронным документам уникальных идентификато­ров (регистрация), а также ведение таблицы синхронизации имей (при необходимости сохранения прежних имен).

Все поступающие документы без внесения в них каких-либо изменений направляются в подсистему хранения для сохранения в базе документов. База документов может представлять собой простую совокупность файлов, распределенную по каталогам жесткого диска. Однако такой тип представления базы документов характеризуется двумя недостатками:

  • неэффективным использованием дискового пространства;

  • низкой скоростью доступа при большом количестве файлов.

Поэтому для хранения документов применяют средства сжатия и быстрого поиска информации. В этом случае подсистема хранения представляет собой совокупность стандартных или специализированных средств архивации, СУБД и т. п., обеспечивающих возможность доступа к данным по предъявляемому идентификатору.

Далее документы поступают на вход подсистемы обработки, задачей которой является формирование для каждого документа его ПОД (поисковый образец документа), в который заносится информация, необходимая для последующего noиска документа.

ПОД сохраняются в индексе. Логически индекс представляет собой таблицу, строки которой соответствуют документам, а столбцы информационным признакам, на основе которых строится ПОД. В ячейках таблицы могут храниться либо 1, либо 0 в зависимости от наличия или отсутствия данного признака в данном документе. Например, в качестве набора признаков может использоваться набор слов. В этом случае в индексе в строке, соответствующей тексту, единицы будут в столбцах, соответствующих словам, встречающимся в этом тексте.

Такая таблица будет сильно разреженной, и хранить все значения не имеет смысла. Поэтому на практике используют свертку таблицы по строкам или столбцам.

В первом случае хранят номера строк, в которых рассматриваемый столбец имеет значение 1. Это инверсная форма хранения .

Во втором случае хранятся номера столбцов, содержащих 1, такую форму хранения называют прямой.

Поскольку при свертке таблицы структура индекса усложняется, то для его поддержания могут ис­пользоваться средства СУБД.

При поступлении на вход системы запроса пользователя, запрос пре­образуется в поисковое предписание (ПП) и передается в подсистему поиска, задачей которой яв­ляется отыскание в индексе ПОД, удовлетворяющих ПП с точки зрения критерия смыслового соответствия. Идентификаторы релевантных до­кументов подаются с выхода подсистемы поиска на вход подсистемы хра­нения, которая осуществляет выдачу пользователю самих релевантных документов.

Соседние файлы в папке Dop