Уч_пособия / ИС_МФЮА
.pdfПараметр «Тип поиска» может принимать одно из трех значений:
-Стандартный поиск – означает, что проводится поиск по сформулированному в окне формирования запроса логическому выражению (реализуется модель механизма поиска по логическому выражению).
-Нечеткий поиск – означает, что скобки в предложении запроса игнорируются, а логические или контекстные операторы заменяются оператором OR (ИЛИ) (т.е. будут отобраны документы, содержащие хотя бы один из терминов предложения запроса в заданной области поиска). При этом множество документов результата делится на кластеры в зависимости от количества содержащихся в них терминов, соответствующих дескрипторам запроса, а результирующая выдача сортируется в порядке убывания номера кластера (реализуется модель механизма поиска по совпадению терминов).
-Только термины запроса – означает, что в результате поиска по булевоподобному выражению будут отобраны документы, содержащие
вуказанных полях только термины, заданные в предложении запроса.
Параметр «Доопределение выражения» позволяет:
-Установить (или отменить) режим поиска с автомаскированием, т.е. с применением при поиске встроенных процедур нормализации дескрипторов запроса. В главе 5 представлены правила применения нормализации при формулировке поискового запроса.
-Задать логическое выражение (или одно имя поля) для области поиска по умолчанию. Область поиска по умолчанию применяется в предложении запроса к терминам, для которых не задано выражение для области поиска.
Параметр «Ограничение выдачи» позволяет установить (или отменить) режим поиска, при котором по предложению запроса отбираются только новые документы, т.е. документы, которые не были включены либо ни в одну выдачу в рамках текущего запроса, либо в выдачу по последнему предложению запроса.
8.1.4. Использование формулировок ранее сохраненных запросов
Механизм сохранения/чтения запросов позволяет многократно использовать поисковые запросы. Запросы могут храниться либо в отдельных файлах (один из файлов с зафиксированным системным идентификатором выделен для общей Папки Запросов), либо в БД в структуре частотных словарей. В случае сохранения запроса в отдельном файле могут быть сохранены только тексты предложений запросов или предложения запросов вместе с поисковыми результатами.
Использовать ранее сохраненный запрос в дальнейшем можно как единое целое (весь набор поисковых предложений) или по отдельным предложениям.
Для работы с ранее сохраненными запросами служит интерфейсная форма «Запрос для БД» (рис. 8.6). Семантика формы следующая:
-Выделить - выделение одного и более предложений запроса для дальнейшего использования;
-Редактировать - редактирование выделенных предложений
запроса;
-Читать Запрос – перенести выделенные предложения запроса вместе с их поисковыми результатами в текущий запрос;
-Поиск по Запросу – инициировать автоматическое выполнение поисковой процедуры для выделенных предложений запроса.
Рис. 8.7. Использование ранее сохраненных запросов
Общая «Папка запросов» – это средство, которое позволяет накапливать и в дальнейшем использовать поисковые (логические) выражения
запросов, независимо от того, для какой базы данных они были подготовлены. При этом в папку заносятся только тексты предложений запросов, а не результат - список идентификаторов документов, найденных по ним.
Использовать предложения запросов, помещенные в папку, можно по общей технологии работы с сохраненными запросами, за исключением возможности «Читать запрос» (рис. 8.8).
Рис. 8.8. Работа с папкой запросов
8.2. Средстваитехнологиипоискадокументовпосходству
Стратегия творческого поиска в больших массивах документов обычно нацелена на выявление нового знания или новых логических связей, порождаемых непосредственно в процессе просмотра, т. е. прямого взаимодействия пользователя с документами. Просмотровая функция рассматривается в данном контексте как эвристическая модель, ориентированная на изменение у пользователя существующих границ субъективного знания путем отыскания документов, не являющихся формально релевантными, а также путем динамического управления информационной средой.
Как было показано при анализе информационной модели воспроизводства знаний, требование «адекватного информирования» в автоматизированных информационно-поисковых системах может быть реализовано двойной реформулировкой запроса по технологии обратной связи по релевантности: построением на основе лексики истинно релевантных документов словников, термины которых в свою очередь размеча-
ются с точки зрения их способности смысловыражения темы и, далее, используются в качестве выражения запроса для следующей итерации поиска.
Существенно то, что здесь мы имеем два типа обратной связи. Для построения словников на основе лексики документов, определяемых пользователем как истинно релевантные, используется «внешняя» обратная связь. Для построения реформулированного запроса используется уже «внутренняя» обратная связь, позволяющая выделить значимые термины (ранжированием или кластеризацией по статистическим показателям). Соответственно, для построения словников могут использоваться разные методы, что позволяет, в свою очередь, иметь разные «стратегии» реформулирования, реализуемые разными технологическими (интерфейсными) средствами. Возможность совместного использования нескольких стратегий поиска позволяет реализовать процесс итерационного повышения эффективности поиска путем генерации новых ПОЗов, учитывающих как «ситуационную» (проблемную) ориентацию запроса, так и «тематические» свойства массива документов.
Для класса документальных систем, где основными (базовыми) объектами являются документ и термин, может быть построено конечное множество механизмов поиска, основанных на технологии реформулирования запроса по обратной связи.
Технологическая схема поиска, иллюстрирующая использование различных механизмов поиска, приведена на рис. 8.14.
8.2.1. Поиск аналогов
Функция поиска аналогов позволяет осуществить поиск документов по сходству с содержимым заданных полей текущего документа, который в текущее время доступен в окне просмотра документов. Условие отбора задается в виде:
<Имя поля >:<число>
где <число > - количество терминов, совпадающих с терминами указанного поля. Допускается логическая комбинация условий (рис. 8.9).
Рис. 8.9. Поиск документов-аналогов по логическому выражению
При поиске аналогов «по умолчанию» будут взяты поисковые поля, объявленные в схеме используемыми «по умолчанию», и пороговые значения, дающие не пустой результат.
8.2.2. Эвристический поиск
Эвристический поиск – это поиск документов по динамически формируемому критерию, использующему статистически значимые слова, выбираемые из текстов документов, отмеченных пользователем при просмотре как релевантные.
Найденные документы упорядочиваются в соответствии со значимостью, определяемой статистически в контексте релевантности документов - результатов поиска по текущему (выделенному в запросе) предложению. Количество документов в выдаче ограничивается соответствующим системным параметром.
Для проведения эвристического поиска необходимо при просмотре документов отметить как релевантные те документы, которые действительно соответствуют теме (а не только содержат термины поискового условия) – т.е. сформировать множество документов для эвристического поиска.
Эвристический поиск можно проводить по любому предложению запроса.
8.2.3. Поиск по обратной связи
Поиск по обратной связи реализуется, например, через последовательность взаимосвязанных этапов:
-отбор и выделение множества релевантных документов;
-построение ранжированного словника релевантных документов
ипредоставление словника пользователю;
-выбор терминов словника для формирования информационного пространства;
-разбиение построенного информационного пространства на кластеры и предоставление пользователю возможности для просмотра документов каждого отдельного кластера.
Особенностью реализации является возможность использования результатов, полученных на каждом этапе, для дальнейшего изменения стратегии поиска (так, например, термины, отобранные при просмотре словника релевантных документов, могут быть просто использованы для расширения запроса и проведения поиска по логическому выражению).
Рассмотрим порядок выполнения этапов на следующем примере. Пусть исходное предложение запроса на поиск по логическому
выражению в БД «Информатика» было следующим:
KW : ‘Поисковые стратегии’
При просмотре текстов документов-результатов поиска все из них были отмечены пользователем как релевантные. Тогда будет построен и выведен пользователю в ранжированном представлении следующий словник (для ранжирования использован интегральный коэффициент62):
2 |
ВЕКТОРНЫЕ МОДЕЛИ |
1,037520473 |
5 |
ИНФОРМАЦИЯ О РАБОЧИХ МЕСТАХ |
0,626009986 |
5 |
ПРЕДСТАВЛЕНИЕ ДОКУМЕНТОВ |
0,602280990 |
7 |
РЕШЕНИЕ ПРОБЛЕМ |
0,492237706 |
8 |
АССОЦИАТИВНЫЙ ПОИСК |
0,454205158 |
23 |
РАЗРАБОТКА |
0,440147604 |
12 |
КЛАСТЕРИЗАЦИЯ |
0,329185167 |
15 |
ПОИСК ИНФОРМАЦИИ |
0,310164008 |
18 |
ЗАВИСИМОСТЬ |
0,256065252 |
24 |
ПОИСКОВЫЕ СРЕДСТВА |
0,232370300 |
23 |
ПРОИЗВОДИТЕЛЬНОСТЬ |
0,219695378 |
59 |
ОПРЕДЕЛЕНИЯ |
0,120537948 |
59 |
ЭКСПЛУАТАЦИЯ |
0,120537948 |
102 |
ОБЕСПЕЧЕНИЕ ДОСТУПА |
0,092969592 |
88 |
СРЕДСТВА |
0,092775247 |
90 |
ПОНЯТИЯ |
0,091405883 |
255 |
АИПС |
0,091326155 |
134 |
СВОДНЫЕ КАТАЛОГИ |
0,077708893 |
169 |
ТИПЫ |
0,059747985 |
241 |
ТЕНДЕНЦИИ РАЗВИТИЯ |
0,052260958 |
261 |
ИНТЕРАКТИВНЫЙ ДОСТУП |
0,049447866 |
231 |
РЕЗУЛЬТАТЫ |
0,048036882 |
285 |
ИНФОРМАЦИОННЫЕ ЗАПРОСЫ |
0,046496765 |
62 Голицына О.Л. Моделирование и разработка средств и технологий поиска документальной информации - диссертация на соискание ученой степени кандидата технических наук. – М.: РГГУ, 2004
282 |
АИС |
0,041655815 |
371 |
ИНТЕРАКТИВНЫЕ КАТАЛОГИ 0, |
038532128 |
1973 |
ИНФОРМАЦИОННЫЙ ПОИСК |
0,034875966 |
388 |
ИПС |
0,032947558 |
423 |
ЭКСПЕРИМЕНТЫ |
0,030870876 |
1309 |
ПОЛЬЗОВАТЕЛИ |
0,026564388 |
591 |
МОДЕЛИ |
0,023797976 |
805 |
ИНТЕРФЕЙСЫ |
0,018443519 |
960 |
АНАЛИЗ |
0,015820678 |
1252 |
ИНФОРМАЦИОННЫЕ СЕТИ |
0,014472937 |
1241 |
ИНФОРМАТИКА |
0,012474870 |
4886 |
ОБЗОРЫ |
0,006685146 |
4153 |
БАЗЫ ДАННЫХ |
0,002837892 |
В первой колонке словника – частота термина в БД, во второй колонке – сам термин, а в третьей колонке – значение весового коэффициента.
Далее пользователь отмечает некоторые термины словника (в списке они выделены курсивом) и либо добавляет их в исходный запрос самостоятельно, либо запускает процедуру построения информационного пространства и кластеризации. После этого пользователь получает доступ к просмотру через протокол ненулевых результатов следующих предложений запроса (идентифицируемых отдельными терминами или сочетаниями терминов, выделенных в словнике курсивом):
KW : (‘ВЕКТОРНЫЕ МОДЕЛИ’ and ‘КЛАСТЕРИЗАЦИЯ’) |
{1} |
KW : (‘АССОЦИАТИВНЫЙ ПОИСК’ and ‘ПОИСКОВЫЕ СРЕДСТВА’) |
{1} |
KW : (‘ВЕКТОРНЫЕ МОДЕЛИ’) |
{2} |
KW : (‘АССОЦИАТИВНЫЙ ПОИСК’) |
{8} |
KW : (‘КЛАСТЕРИЗАЦИЯ’) |
{12} |
KW : (‘ПОИСК ИНФОРМАЦИИ’) |
{15} |
KW : (‘ПОИСКОВЫЕ СРЕДСТВА’) |
{24} |
После просмотра документов отдельных предложений запроса и выделения нового множества релевантных документов процедуры построения словника и кластеризации могут быть заново инициированы, и так до тех пор, пока полученный совокупный результат (а все полученные пользователем результаты хранятся системой и в любой момент могут быть объединены в общее множество) не удовлетворит пользователя.
8.3. Технологические объекты построения предложения запроса
Для задания дескрипторов предложения запроса могут использоваться следующие технологические объекты:
-частотный словарь;
-тематический рубрикатор;
-тезаурус;
-иерархический словник.
Как показывают многочисленные исследования, наибольший эффект достигается при совместном использовании словарных и рубрика- ционно-классификационных систем.
Функциональные (интерфейсные) решения, обеспечивающие гибкое использование внешних по отношению к БД объектов, представлены в ИПС IRBIS в виде отдельной функционально-интерфейсной формы, позволяющей унифицировать отображение иерархических словарных структур и имеющей средства построения поисковых запросов (рис. 8.10).
Рис. 8.10. Отображение и использование тематического рубрикатора
8.3.1. Частотный словарь
Словарь включает термины (слова и словосочетания) из документов базы данных с частотой их встречаемости.
Использование словаря как средства построения предложения запроса особенно эффективно для начинающих пользователей (для ознакомления с терминологией базы данных и контроля правильности написания поисковых терминов). Словарь доступен для просмотра (и редактирования термина перед включением его в предложение запроса) при переходе к одному из основных режимов формирования запроса (см.
рис.8.1, 8.5).
Наличие при термине такого параметра, как частота встречаемости позволяет оценить размер предполагаемой выдачи, если данный термин будет включаться в предложение запроса.
8.3.2. Тематический рубрикатор
Тематический рубрикатор представляет собой иерархический тематический указатель, подготовленный в специальном формате для одной или нескольких баз данных и проведения тематического поиска. Поиск можно проводить как по отдельной рубрике, так и набору рубрик.
Физически тематический рубрикатор представляет собой текстовый файл операционной системы, подготовленный с использованием символов табуляции для идентификации уровней иерархии. Такой рубрикатор может быть создан пользователем самостоятельно (см. рис. 8.10).
8.3.3. Тезаурус
Напомним, что тезаурус представляет собой контролируемый иерархический словарь терминов, называемых дескрипторами. Значение тезауруса, как одного из главных компонентов документальной инфор- мационно-поисковой системы, весьма велико. Во-первых, тезаурусы используются для индексирования и поиска информации, улучшая качество поиска, во-вторых - для снятия неоднозначности и задания различных отношений между терминами в естественном языке. Тезаурус также может быть использован как одно из основных средств организации диалога между пользователем и информационным ресурсом в ИПС.
В ИПС IRBIS Тезаурус реализован в виде двухуровневого дерева, на верхнем уровне которого находятся дескрипторы, а на нижнем – их связи. Пример фрагмента Тезауруса по информатике представлен ниже:
ВЫДАЧА ЛИТЕРАТУРЫ SN выдача книг
CM выдача документов
BT БИБЛИОТЕЧНОЕ ОБСЛУЖИВАНИЕ
RT АБОНЕМЕНТ
RT БИБЛИОТЕКИ
RT КНИГОВЫДАЧА ВЫСОКАЯ ПЕЧАТЬ
BT ОПЕРАТИВНАЯ ПОЛИГРАФИЯ BT ПЕЧАТЬ
ВЫСТАВКИ
SN экспозиции
NT ВДНХ СССР
NT МЕЖДУНАРОДНЫЕ ВЫСТАВКИ
NT ТЕМАТИЧЕСКИЕ ВЫСТАВКИ
RT НАУЧНО-ТЕХНИЧЕСКАЯ ПРОПАГАНДА ВЫСШЕЕ ОБРАЗОВАНИЕ
BT НАРОДНОЕ ОБРАЗОВАНИЕ RT ВУЗЫ
ВЫХОДНЫЕ ДАННЫЕ
BT БИБЛИОГРАФИЧЕСКИЕ ОПИСАНИЯ
Для повышения эффективности поиска информации используются связи дескрипторов Тезауруса, позволяющие автоматически включать, например, вышестоящие, нижестоящие, ассоциативные дескрипторы вместе с основным дескриптором в запрос рис. 8.11).
Рис. 8.11. Отображение и использование тезауруса
