Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Голицына Информационные системы 2004.pdf
Скачиваний:
323
Добавлен:
16.08.2013
Размер:
5.01 Mб
Скачать

8.1.4. Использование формулировок ранее сохраненных запросов

Механизм сохранения/чтения запросов позволяет многократно использовать поисковые запросы. Запросы могут храниться либо в отдельных файлах (один из файлов с зафиксированным системным идентификатором выделен для общей Папки Запросов), либо в БД в структуре частотных словарей. В случае сохранения запроса в отдельном файле могут быть сохранены только тексты предложений запросов или предложения запросов вместе с поисковыми результатами.

Использовать ранее сохраненный запрос в дальнейшем можно как единое целое (весь набор поисковых предложений) или по отдельным предложениям.

Для работы с ранее сохраненными запросами служит интерфейсная форма «Запрос для БД» (рис. 8.6). Семантика формы следующая:

-Выделить - выделение одного и более предложений запроса для дальнейшего использования;

-Редактировать - редактирование выделенных предложений

запроса;

-Читать Запрос – перенести выделенные предложения запроса вместе с их поисковыми результатами в текущий запрос;

-Поиск по Запросу – инициировать автоматическое выполнение поисковой процедуры для выделенных предложений запроса.

Рис. 8.7. Использование ранее сохраненных запросов

Общая «Папка запросов» – это средство, которое позволяет накапливать и в дальнейшем использовать поисковые (логические) выражения запросов, независимо от того, для какой базы данных они были подготовлены. При этом в папку заносятся только тексты предложений запросов, а не результат - список идентификаторов документов, найденных по ним.

Использовать предложения запросов, помещенные в папку, можно по общей технологии работы с сохраненными запросами, за исключением возможности «Читать запрос» (рис. 8.8).

Рис. 8.8. Работа с папкой запросов

8.2. Средстваитехнологиипоискадокументовпосходству

Стратегия творческого поиска в больших массивах документов обычно нацелена на выявление нового знания или новых логических связей, порождаемых непосредственно в процессе просмотра, т. е. прямого взаимодействия пользователя с документами. Просмотровая функция рассматривается в данном контексте как эвристическая модель, ориентированная на изменение у пользователя существующих границ субъективного знания путем отыскания документов, не являющихся формально релевантными, а также путем динамического управления информационной средой.

Как было показано при анализе информационной модели воспроизводства знаний, требование «адекватного информирования» в автоматизированных информационно-поисковых системах может быть реализовано двойной реформулировкой запроса по технологии обратной

связи по релевантности: построением на основе лексики истинно релевантных документов словников, термины которых в свою очередь размечаются с точки зрения их способности смысловыражения темы и, далее, используются в качестве выражения запроса для следующей итерации поиска.

Существенно то, что здесь мы имеем два типа обратной связи. Для построения словников на основе лексики документов, определяемых пользователем как истинно релевантные, используется «внешняя» обратная связь. Для построения реформулированного запроса используется уже «внутренняя» обратная связь, позволяющая выделить значимые термины (ранжированием или кластеризацией по статистическим показателям). Соответственно, для построения словников могут использоваться разные методы, что позволяет, в свою очередь, иметь разные «стратегии» реформулирования, реализуемые разными технологическими (интерфейсными) средствами. Возможность совместного использования нескольких стратегий поиска позволяет реализовать процесс итерационного повышения эффективности поиска путем генерации новых ПОЗов, учитывающих как «ситуационную» (проблемную) ориентацию запроса, так и «тематические» свойства массива документов.

Для класса документальных систем, где основными (базовыми) объектами являются документ и термин, может быть построено конечное множество механизмов поиска, основанных на технологии реформулирования запроса по обратной связи.

Технологическая схема поиска, иллюстрирующая использование различных механизмов поиска, приведена на рис. 8.14.

8.2.1. Поиск аналогов

Функция поиска аналогов позволяет осуществить поиск документов по сходству с содержимым заданных полей текущего документа, который в текущее время доступен в окне просмотра документов. Условие отбора задается в виде:

<Имя поля >:<число>

где <число > - количество терминов, совпадающих с терминами указанного поля. Допускается логическая комбинация условий (рис. 8.9).

Рис. 8.9. Поиск документов-аналогов по логическому выражению

При поиске аналогов «по умолчанию» будут взяты поисковые поля, объявленные в схеме используемыми «по умолчанию», и пороговые значения, дающие не пустой результат.

8.2.2. Эвристический поиск

Эвристический поиск – это поиск документов по динамически формируемому критерию, использующему статистически значимые слова, выбираемые из текстов документов, отмеченных пользователем при просмотре как релевантные.

Найденные документы упорядочиваются в соответствии со значимостью, определяемой статистически в контексте релевантности документов - результатов поиска по текущему (выделенному в запросе) предложению. Количество документов в выдаче ограничивается соответствующим системным параметром.

Для проведения эвристического поиска необходимо при просмотре документов отметить как релевантные те документы, которые действительно соответствуют теме (а не только содержат термины поискового условия) – т.е. сформировать множество документов для эвристического поиска.

Эвристический поиск можно проводить по любому предложению запроса.