Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции БД, ИС, ИТ (Беликова).doc
Скачиваний:
38
Добавлен:
21.04.2014
Размер:
528.38 Кб
Скачать

Основные показатели эффективности функционирования дис

Полнота информационного поиска Rопределяется отношением числа найденных пертинентных документовAк общему числу пертинентных документовC, имеющихся в системе или в исследуемой совокупности документов:R=A/C.

Точность информационного поиска Pопределяется отношением числа найденных пертинентных документовAк общему числу документовL, выданных на запрос пользователя:P=A/L.

Наличие среди отобранных на запрос пользователя нерелевантных документов называется информационным шумом системы. Коэффициент информационного шума K, соответственно, определяется отношением числа нерелевантных документов (L-A), выданных в ответе пользователю к общему числу документовL, выданных на запрос пользователя:K= (L-A)/L.

Полнотекстовые ИПСстроятся на основеинформационно- поисковых языков дескрипторного типа.Их информационно-технологическая структура включает следующие элементы:

  • хранилище документов;

  • глобальный словарь;

  • индекс документов;

  • интерфейс ввода документов в систему,

  • механизм индексирования;

  • интерфейс запросов пользователя;

  • механизм поиска документов (поисковую машину);

  • механизм извлечения найденных документов.

Хранилище документовможет быть организовано как единаялокально сосредоточенная информационная структура в видеспециального файла (файлов) с текстами документов. Организация такого файла предусматривает указательную конструкцию на основе массива адресов размещения документов.

Другой вариант не предусматривает создания локально сосредоточенного хранилища документов, а ограничивается лишь массивом адресов расположения документов в соответствующей компьютерной информационной инфраструктуре (структура дисков и каталогов отдельного компьютера или локальной информационной сети, информационная инфраструктура глобальной информационной сети). Файлы учтеныв полнотекстовой ИПС (т. е. проиндексированы по содержанию и зафиксированы по месторас­положению) для эффективного поиска и доступа. Такой подход более логичен с точки зрения технологий документо­оборота или распределенного характера систем (например, си­стемаWWWсети Интернет), но его недостатком является необходимость постоянного отслеживания и учета переме­щений документов.

Одним из наиболее характерных элементов полнотекстовых ИПС является глобальный словарь системы.Статические словарине зависят от содержания документов, вошедших в хранилище, а определены изначально в систе­ме.Динамические словариопределяются набором словоформ, имеющихся в накапливаемых в хранилище документах. Изначально такой словарь пуст, но с каждым новым документом в него помещаются новые словоформы, которых еще не было в ранее накопленных документах.

Элементы глобального словаря выступают в качестве дескрипторовИПЯ системы. Поступающие через интерфейс ввода/выводадокументы подвергаются операциииндексирования поглобальному словарю. Механизм индексированияв полнотекстовых ИПС полностью автоматизируется и заключается в создании специального двоичного вектора, компоненты которого показывают наличие или отсутствие в данном документе слова с соответствующим номером (позицией) из глобального словаря. В результате на «учет» в системе ставятся все слова текста документа.

В результате индексирования поисковый образ каждого нового доку­мента представляется набором словоформ из глобального сло­варя, присутствующих в тексте документа, и поступает в виде соответствующего двоичного вектора для дополнения индекса системы.Индекс отражает весь (полный) текст учтенных или накоп­ленных документов. При удалении документа из системы соответственно уда­ляется и поисковый образ документа, т. е. соответствующий столбец индекса.

Пользователь языком запросов ИПЯчерез соответствующий интерфейс запросоввыражает свои информационные потребности по поиску документов, которые в общем плане, так же как и документы, индексируются и в виде двоичных векторов поисковых образов запросов поступа­ют на поисковую машину.

Механизм поискаосновывается на тех или иных алгоритмах и критериях сравнения поискового образа запроса с поисковыми образами документов, образую­щими индекс системы. Результатом поиска является определе­ние номеров документов, поисковые образы которых соответ­ствуют или близки поисковому образу запроса. Далее специ­альная подсистема на основе установленных в хранилище документов указательных конструкцийизвлекаетидоставляетсоответствующие документы пользователю.

Таким образом, программное обеспечение полнотекстовых ИПС обеспечивает полный технологический цикл ввода, обработки, поиска и получения документов. В практическом плане ИПС могут поставляться как готовый информационный продукт, т. е. с уже сформированной базой документов и интерфейсом поиска и доступа к ним. В других случаях поставляется программная среда, позволяющая такую базу создать и сформировать тем самым документальную информационно-поисковую систему. Такие программные средства иногда называют полнотекстовыми СУБД.