Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Расписанные ответы на вопросы (новые).doc
Скачиваний:
58
Добавлен:
04.06.2015
Размер:
5.48 Mб
Скачать
  1. Назначение и организация инвертированной формы представления документальной информации. Примерная организация поисковых массивов документальной ипс дескрипторного типа.

Технология поиска основывается на 2 типах организации массивов объектов – прямой и инвертированной.

Прямая организация - когда документы размещаются последовательно (не алфавит и не классификация), например, в порядке их поступления.

Инвертированная технология - документы разбиваются на подмножества, которые могут быть классифицированы и имеют индексы, в которых отображается содержание документов. Упорядоченные документы составляют инвертированный справочник. Проводится поиск в инвертированном справочнике. Запрос сравнивается с классом, потом с содержанием документов этого класса. Благодаря этому уходит меньше времени на поиск, т.к. легче просмотреть индекс документа, чем весь документ.

Запрос обычно представляется как набор атрибутов. Атрибуты могут быть представлены в ключевой или позиционной форме.

Позиционная форма - табличный способ: каждому атрибуту соответствует колонка, каждая ячейка которой содержит значение атрибута.

Ключевая форма – имя атрибута = значение. В документальных системах, в которых поисковые образы представлены набором дескрипторов, атрибут задается предикатом «поисковый образ имеет в составе дескриптор». Сам дескриптор является значением атрибута.

Дескрипторы – это ключевые слова, которые по определенным правилам отобраны из основного словарного состава языка и у которых искусственно устранены синонимия, полисемия и омонимия.

  1. Типы обратной связи в технологии информационного поиска.

Обратная связь по релевантности на уровне отдельных терминов должна обеспечить пользователю возможность целенаправленно изменять поисковой запрос путём повышения роли одних и повышения роли других терминов, не вникая в тонкости составления запроса, определяемые особенностями документального массива и ИПС.

В рамках модели (в соответствии с которой определяется обратная связь) существуют различные стратегии изменения весовых коэффициентов терминов, предлагаемых системой для расширения запроса, на основании информации о релевантности/нерелевантности выданных документов.

Диалоговая модель поиска «по обратной связи» с ИПС IRBIS отличается от модели эвристического поиска тем, что после выполнения системой очередного шага пользователю предоставляется возможность управлять дальнейшим процессом формирования результата, т.е. последовательность шагов в диалоговой модели дискретна и реализуется в зависимости от предпочтений пользователя.

Шаг 1. Построение и ранжирование словника релевантных документов.

W=(wi,i=(l,k)), где k – количество терминов релевантных документов, а wi – значение весового коэффициента для i-го термина, удовлетворяющее неравенству wi≥wi+1. пользователь в данном случае получает оценку всех терминов релевантных документов, которые находятся в частотном словаре, т.е. в ПОТ (поисковой образ темы) попадают все термины без исключения. По завершении первого шага пользователь самостоятельно отмечает термины, способные улучшить поисковой запрос. Отмеченные термины он далее может самостоятельно добавить в поисковой запрос для реализации моделей поиска по совпадению терминов или по логическому выражению или инициировать второй шал поиска по обратной связи.

Шаг 2. Формирование матрицы поисковых результатов. Термины, отобранные пользователем на предыдущем шаге, рассматриваются как исходные для проведения поиска по совпадению терминов. Модель этого механизма поиска реализуется в данном случае построением подматрицы запроса Lq, в которой отдельные строки могут быть нулевыми.

b – термин.

Для каждого ненулевого столбца матрицы построим вектор Qi – результат поиска аналогов с максимальным порогом близости. Полученные векторы рассмотрим как строки матрицы поисковых результатов:

Q Theme=(qij, i=l,n, j=l,n0), где n – количество ненулевых столбцов матрицы.

Каждая строка сформированной таким образом матрицы снабжается контекстом – перечислением конкретных терминов, присутствующих в документах конкретного результата. Удалив из матрицы строки с одинаковым контекстом, получим кластеризованное пространство документов, где каждый кластер задаётся не только количеством терминов запроса, но и составом самих терминов. Матрица поисковых результатов Q Theme даёт возможность обеспечить доступ к каждому отдельному результату для его просмотра и последовательного формирования нового множества релевантных документов.