Основные показатели эффективности функционирования дис

Полнота информационного поиска Rопределяется отношением числа найденных пертинентных документовAк общему числу пертинентных документовC, имеющихся в системе или в исследуемой совокупности документов:R=A/C.

Точность информационного поиска Pопределяется отношением числа найденных пертинентных документовAк общему числу документовL, выданных на запрос пользователя:P=A/L.

Наличие среди отобранных на запрос пользователя нерелевантных документов называется информационным шумом системы. Коэффициент информационного шума K, соответственно, определяется отношением числа нерелевантных документов (L-A), выданных в ответе пользователю к общему числу документовL, выданных на запрос пользователя:K= (L-A)/L.

Полнотекстовые ИПСстроятся на основеинформационно- поисковых языков дескрипторного типа.Их информационно-технологическая структура включает следующие элементы:

хранилище документов;

глобальный словарь;
индекс документов;
интерфейс ввода документов в систему,
механизм индексирования;
интерфейс запросов пользователя;
механизм поиска документов (поисковую машину);
механизм извлечения найденных документов.

Хранилище документовможет быть организовано как единаялокально сосредоточенная информационная структура в видеспециального файла (файлов) с текстами документов. Организация такого файла предусматривает указательную конструкцию на основе массива адресов размещения документов.

Другой вариант не предусматривает создания локально сосредоточенного хранилища документов, а ограничивается лишь массивом адресов расположения документов в соответствующей компьютерной информационной инфраструктуре (структура дисков и каталогов отдельного компьютера или локальной информационной сети, информационная инфраструктура глобальной информационной сети). Файлы учтеныв полнотекстовой ИПС (т. е. проиндексированы по содержанию и зафиксированы по месторасположению) для эффективного поиска и доступа. Такой подход более логичен с точки зрения технологий документооборота или распределенного характера систем (например, системаWWWсети Интернет), но его недостатком является необходимость постоянного отслеживания и учета перемещений документов.

Одним из наиболее характерных элементов полнотекстовых ИПС является глобальный словарь системы.Статические словарине зависят от содержания документов, вошедших в хранилище, а определены изначально в системе.Динамические словариопределяются набором словоформ, имеющихся в накапливаемых в хранилище документах. Изначально такой словарь пуст, но с каждым новым документом в него помещаются новые словоформы, которых еще не было в ранее накопленных документах.

Элементы глобального словаря выступают в качестве дескрипторовИПЯ системы. Поступающие через интерфейс ввода/выводадокументы подвергаются операциииндексирования поглобальному словарю. Механизм индексированияв полнотекстовых ИПС полностью автоматизируется и заключается в создании специального двоичного вектора, компоненты которого показывают наличие или отсутствие в данном документе слова с соответствующим номером (позицией) из глобального словаря. В результате на «учет» в системе ставятся все слова текста документа.

В результате индексирования поисковый образ каждого нового документа представляется набором словоформ из глобального словаря, присутствующих в тексте документа, и поступает в виде соответствующего двоичного вектора для дополнения индекса системы.Индекс отражает весь (полный) текст учтенных или накопленных документов. При удалении документа из системы соответственно удаляется и поисковый образ документа, т. е. соответствующий столбец индекса.

Пользователь языком запросов ИПЯчерез соответствующий интерфейс запросоввыражает свои информационные потребности по поиску документов, которые в общем плане, так же как и документы, индексируются и в виде двоичных векторов поисковых образов запросов поступают на поисковую машину.

Механизм поискаосновывается на тех или иных алгоритмах и критериях сравнения поискового образа запроса с поисковыми образами документов, образующими индекс системы. Результатом поиска является определение номеров документов, поисковые образы которых соответствуют или близки поисковому образу запроса. Далее специальная подсистема на основе установленных в хранилище документов указательных конструкцийизвлекаетидоставляетсоответствующие документы пользователю.

Таким образом, программное обеспечение полнотекстовых ИПС обеспечивает полный технологический цикл ввода, обработки, поиска и получения документов. В практическом плане ИПС могут поставляться как готовый информационный продукт, т. е. с уже сформированной базой документов и интерфейсом поиска и доступа к ним. В других случаях поставляется программная среда, позволяющая такую базу создать и сформировать тем самым документальную информационно-поисковую систему. Такие программные средства иногда называют полнотекстовыми СУБД.

<<< < Предыдущая 1 2 3 4 5 6 7 89 / 209 10 11 12 13 14 15 16 17 18 19 20 > Следующая >>>