
- •Документальные информационные системы Основные понятия
- •Информационно-поисковый язык
- •Поисковый аппарат документальных информационно-поисковых систем
- •Критерии оценки документальных систем
- •Информационно-поисковые языки Internet
- •Программные средства реализации документальных ис. Современное состояние ипс
Поисковый аппарат документальных информационно-поисковых систем
Модель поиска текстовой информации характеризуется четырьмя параметрами:
представлением документов и запросов;
критерием смыслового соответствия;
методами ранжирования результатов запроса;
механизмами обратной связи, обеспечивающими оценку релевантности пользователем.
Булева модель представляет документы с помощью набора терминов, присутствующих в индексе, каждый из которых рассматривается как булева переменная. При наличии термина в документе соответствующая переменная принимает значение True. Запросы формулируются как произвольные булевы выражения, связывающие термины с помощью логических операций. Например, он может выглядеть следующим образом: ((информационная and система) or ИПС) not СУБД и означать найди все документы, которые содержат одновременно слова "информационная" и "система", либо слово "ИПС", но не содержат слова "СУБД".
Мерой соответствия запроса документу служит значение статуса выборки (RSV, retrival status value). В булевой модели RSV равно либо 1, если для данного документа вычисление выражения запроса дает True, либо 0 в противном случае. Все документы с RSV = 1 считаются релевантными запросу.
Эта модель проста и часто используется во многих коммерческих системах. Она позволяет пользователю вводить довольно сложные запросы. Однако эффективность поиска в таких моделях невысока, так как терминам нельзя присвоить весовые коэффициенты и ранжировать результаты поиска невозможно. Для повышения эффективности в таких моделях применяют обратную связь с пользователем. Именно пользователь выбирает из предложенного системой списка релевантные документы.
Модель нечетких множеств основывается на теории нечетких множеств, допускающей (в отличие от классической теории множеств) частичную принадлежность элемента тому или иному множеству. Здесь логические операции переопределены таким образом, чтобы учесть возможность неполной принадлежности множеству, а обработка запросов пользователя выполняется аналогично булевой модели. Однако и эта модель также мало эффективна и требует вмешательства пользователя.
Оба описанных выше метода не сложны алгоритмически и не предъявляют жестких требования к машинным ресурсам (объем дисковой памяти для хранения представления документов и время процессора для вычислений.
Пространственно-векторная модель основана на предположении, что совокупность документов можно представить набором векторов в пространстве, определяемом базисом из n нормализованных векторов-терминов. Значение первого компонента вектора, представляющего документ, отражает вес термина в нем. Запрос пользователя также представляется n-мерным вектором. Показатель RSV, определяющий соответствие документа запросу, задается скалярным произведением векторов запроса и документа. Чем больше RSV, тем выше релевантность документа запросу.
Эта модель позволяет реализовать обратную связь пользователя и системы, однако она не обладает простотой общения системы и пользователя, присущей булевой модели. Пользователю достаточно сложно сформулировать запрос.
Вероятностные модели. Пространственно-векторная модель не учитывает взаимосвязи между терминами. Вероятностная модель позволяет учесть все взаимосвязи и определить такие основные параметры, как веса терминов запросов и форма соответствия “запрос-документ”.
Данная модель базируется на двух главных параметрах: Pr(rel) и Pr(nonrel), то есть на вероятности релевантности и не релевантности документа запросу пользователя, которые вычисляются на основе вероятностных весовых коэффициентов терминов и фактического присутствия терминов в документе. Подразумевается, что релевантность является бинарным свойством, и поэтому Pr(rel) = 1 - Pr(nonrel). Кроме того, в этой модели применяются два стоимостных параметра: a1 и a2. Они характеризуют соответственно потери, связанные с включением в результат нерелевантного документа и пропуском релевантного документа.
Эта модель требует определения вероятности вхождения термина в релевантные и нерелевантные части совокупности документов, оценить которые сложно. Однако она предлагает теоретическое обоснование методов, которые ранее применялись на эмпирическом уровне.
Каждая из предложенных выше моделей так или иначе связаны обратной связью с пользователем. Реально поиск документов представляет собой итерационный процесс. Обычно пользователи начинают с неточного запроса и низкой эффективности поиска, затем они постепенно уточняют его методом итераций.
Для ведения обратной связи с пользователем существуют два основных подхода: модификация запроса и модификация представления документа. Методы, модифицирующие представления запроса влияют только на текущий сеанс поиска и никак не влияют на обработку других запросов. Методы, основанные на модификации документов, оказывают влияние на эффективность поиска в последующих запросах.