Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
23
Добавлен:
23.05.2017
Размер:
2.53 Mб
Скачать

Для оценки динамики эффективности процесса поиска дистрибу- тивно-статистическими методами необходимо, чтобы все этапы технологии относились к одному (семантическому однородному) пространству объектов (т.е., задача не должна быть многокритериальной). Иначе говоря, результаты, получаемые на разных этапах и, соответственно, по разным поисковым образам, должны относиться к одному исходному (семантически замкнутому) запросу, который как предмет поиска представляет тематически отдельную реальную информационную потребность пользователя. То есть, в этом случае оценивается эффективность уже поискового образа запроса, а повышение эффективности поискового процесса основывается на последовательном повышении эффективности ПОЗа по отношению к предшествующему варианту (которая может определяться на основе, например, корреляционного анализа подмножеств

{T1, T2, … Tn} и { D1, D2, … Dn }, введенных в гл. 4).

Для реальных запросов, которые практически являются многоаспектными и включают несколько подтем, общий результат будет получен последовательностью фактически самостоятельных (завершенных с точки зрения получения и оценки результатов) вышеописанных многоэтапных процессов поиска, каждый из которых должен быть выполнен для каждой подтемы и аспекта. То есть, как это представлено на рис. 7.5, каждому отдельному элементу тематически-аспектной декомпозиции запроса, представляющей информационную потребность как семантически значимый объект поиска на логическом уровне, соответствует отдельный физический процесс поиска и результат. При этом в реальных ИПС результаты поиска по отдельным этапам последовательно фиксируются в протоколе, позволяющем отобразить ход процесса и, возможно, на следующих этапах обратиться к ранее полученным результатам.

Однако изолированность объекта поиска и, соответственно, результатов, предопределенная требованием оцениваемости, на практике трудно достижима: множество документов, выданных при поиске по одному аспекту, обычно содержит документы, относящиеся и к другим аспектам. И, кроме того, в многоэтапном процессе развития запроса пользователь, получая значимый или просто интересный документ, но относящийся к другому аспекту, обычно переключает внимание именно на него и, соответственно, выходит за пределы тематически замкнутого пространства, что нарушает требование однородности и снижает эффективность поиска.

Это означает, что представление процесса поиска на физическом уровне (последовательность получения результата, зафиксированная в протоколе в виде интерфейсных объектов) не будет соответствовать последовательности на логическом уровне. Для обеспечения соответствия вводится промежуточный интерфейсный уровень представления процесса поиска. Объекты этого уровня (и характер их представления, например, упорядочение) структурно будут соответствовать логическому уровню, и каждый из них будет представлять (объединять) элементы

(ПОЗы, словники, результаты поиска), относящиеся к соответствующему предмету поиска, но физически полученные, возможно, на разных этапах.

Логический уровень

Интерфейсный уровень

------------ -

------------ -

------------ -

------------ -

------------ -

------------ -

Физический уровень

 

 

Процесс

Процесс

Процесс

поиска по

поиска по

поиска по

аспекту 1

аспекту 2

аспекту i

Рис. 7.5. Уровневая модель поискового процесса

Тем самым, на передний план выдвигается проблема организации взаимодействия пользователя с системой в процессе поиска.

И если для процесса в целом (с точки зрения конечного пользовате-

ля) мы имеем всего два типа основных операционных объектов – запрос

(как пользовательское представление ИПП) и документ (как семантически целостный ответ или его часть, сформированный системой – отображение запроса в пространство документов), то с точки зрения организации процесса взаимодействия интерфейс системы должен иметь разнообразные объекты. При этом разнообразие типов объектов пользовательского интерфейса определяется «развитостью» технологических и процедурных возможностей системы. Для случая обобщенной схемы, технологически обеспечивающей снятие информационной неопределенности всех типов, такими объектами являются:

-тезаурусы, обеспечивающие ориентацию пользователя в предметной области;

-словари поисковой системы, используемые для формирования поискового выражения;

-тематические словники, представляющие информативную лексику предметной области.

Эти объекты, являясь технологически вспомогательными, используются на разных этапах поиска и обеспечивают возможность более или менее адекватного выражения информационной потребности пользователя. При этом для отражения индивидуальных особенностей ИПП, они, как интерфейсные объекты, не могут быть эффективно использованы, поскольку, в следствие усредненной природы, представляют ПрО в целом.

Для этого на промежуточном интерфейсном уровне можно использовать иерархически организованные структуры, отражающие пользовательское видение системы понятий предметной области. Причем, каждый такой объект представляет как общепринятое, так и индивидуальное видение ПрО. Интегральность такого представления достигается за счет того, что оно реализуется объектами как уровня ресурсов (подборками документов, ссылками на ассоциированные ресурсы и т.д.), так и уровня терминологии (тезаурусами, рубрикаторами, словниками)

При таком подходе информационная система может помимо стандартных и расширенных поисковых возможностей иметь средства систематизации информационных массивов, формирования и развития компонентов лингвистического обеспечения, а также оценки и анализа результатов поиска. Такими средствами, ориентирующими пользователя в предметной области в части терминологии, могут быть:

-автоматическое формирование наборов терминов для расширения

запроса;

-терминологические таблицы, организованные в виде семантических сетей, каждому узлу в которых сопоставлен некоторый набор документов;

-средства автоматизированного ведения пользовательских минитезаурусов и тематических рубрикаторов и др.

7.5.3.2. Роль системы в процессе взаимодействия

Сложность разработки представления интерфейсных инструментов в целом заключается в том, что неизвестно, каким образом пользователи будут воспринимать объекты, систематизированные и сгруппированные разработчиком в соответствии с его, разработчиком, пониманием. Основой для прогнозирования возможных реакций и действий пользователя является выявление типичности поведения пользователей.

Процесс взаимодействия можно рассматривать на трех уровнях: глобальном, тематическом и отдельного шага58.

Глобальная структура процесса взаимодействия зависит от цели ОД, состояния предметной области и будет определять стратегию поиска. Тематическая структура зависит от характера отдельных задач, их проработанности, политематичности и будет определять характер навигации – последовательности выполнения отдельных поисков информации по различным направлениям. Структура шага соответствует отдель-

58 В контексте ОД этому соответствуют следующие этапы: определение цели, выделение задач и подзадач, решение задач.

ной технологии нахождения документов по отдельному запросу и будет определяться набором средств, доступных пользователю (их наличием в интерфейсе, а также готовностью пользователя к их применению) .

Развитые АИС могут иметь несколько интерфейсных решений. Применительно к случаю категорий пользователей можно рассматривать:

1)интерфейс конечного пользователя, обеспечивающий выбор объектов и методов из предлагаемого (чаще всего фиксированного) набора;

2)интерфейс системного администратора, обеспечивающий не только расширенный набор средств, но и позволяющий изменять или создавать новые интерфейсные объекты или сценарии.

По типу диалога (в зависимости от степени активности сторон) можно выделить три уровня системной активности:

1)диалог в режиме “запрос-ответ”, когда в ответ на запрос (объект единственного типа) система формирует ответ, включающий объекты, возможно, другого, но также единственного типа;

2)режим информационно-советующих систем, когда помимо прямого ответа на запрос система формирует или обеспечивает доступ к справочной или оценочной информации;

3)режим симметричного (равноправного) диалога, т.е. с активной ролью системы.

При этом активность системы по отношению к пользователю может реализовываться различными путями:

непосредственным вмешательством в процесс через изменение параметров процедур, например, изменением порога выдачи или сценария поиска;

построением прямых или косвенных оценок параметров выдачи (показателей эффективности поиска);

генерацией технологических объектов, являющихся дополнительными или альтернативными по отношению к тем, которые получены пользователем (например, построение словников при реформулировании запроса по обратной связи).

Это позволяет компенсировать односторонность представления пользователя о способе выражения (обозначения) предмета поиска и таким образом уйти от ситуации конкурирования (за “наилучший” запрос) различных способов выражения запроса к состоянию целенаправленного сочетания альтернатив.

Особенностью поисковых моделей человеко-машинного взаимодействия является различие принципов (основания) «системности». АИПС – кибернетическая система, целенаправленно созданная и имеющая детерминированную структуру, причем ее поведение (динамика)

оценивается с точки зрения устойчивости. Субъект поиска (система потребления информации) - саморазвивающаяся, синергетическая система, самоорганизация которой основана на противоречии, и часто приводит к структурной реорганизации, а целостность определяется свойствами, не сводящимися к сумме свойств составляющих ее элементов. Эта особенность определяет различие в уровне требований к адаптивным возможностям взаимодействующих систем и организации диалога. Профессиональному пользователю система должна предоставить набор средств, обеспечивающий адаптацию через настройку (целенаправленный выбор конфигурации и параметров самим пользователем). В других случаях система должна предлагать набор типовых стратегий и технологий поиска, выбор которых может производиться как пользователем, так и системой на основании диагностики поведения пользователя.

Таким образом, интерфейсные решения определяются:

размерностью пространства отображения (одномерного - строка, двумерного - рабочий стол экрана, многомерного, использующего псевдотрехмерные изображения, цветовые и фоновые выделения);

реактивностью системы, зависящей от средств обмена между терминалом пользователя и процессором, реализующим функции системы (режим удаленного терминала, полный диалог в режиме реального времени, режим пакетного обмена).

Роль системы на основных этапах поиска представлены в таблице

7.3.

 

 

 

 

 

Таблица 7.3.

 

 

 

 

Этап поиска

 

Роль

 

 

 

 

системы

 

Определение (локализация и формали-

Обеспечение

метаинформи-

зация) темы запроса и идентификация

рования о тематике, наполне-

ресурса

 

нии, структуре и методах дос-

 

 

тупа к выбранному ресурсу

Формирование, а также структурное и

Предоставление

вспомога-

лексическое адаптирование выраже-

тельных

информационных

ния запроса

 

объектов (словарей, тезауру-

 

 

сов, шаблонов и т.д.)

 

Отбор документов по критерию, по

Предоставление

выбора

ме-

возможности адекватному степени не-

ханизма поиска или, напри-

определенности

информационной по-

мер, автоматическое расши-

требности

 

рение лексики запроса

 

Формирование и управление выдачей

Обеспечение

масштабирова-

найденных документов

ния (форматирования) про-

 

 

странства

представления

вы-

 

 

данных документов, а также

 

 

сортировки и, возможно,

 

 

ранжирования по некоторому

 

 

формальному критерию соот-

 

 

ветствия

 

 

 

 

Оценка результатов поиска с точки

Количественная оценка дина-

зрения полноты удовлетворения ин-

мики выдач

и

обеспечение

формационной потребности (т.е. за-

возможности

 

выборочного

вершение поискового процесса) или их

обращения к результатам от-

соответствия цели поиска и степени ос-

дельных этапов процесса по-

воения информационного ресурса по

иска

 

 

 

 

теме запроса

 

 

 

 

 

 

Развитие запроса по технологии «ре-

Адекватное

информирование

формулирования по обратной связи по

о возможностях развития за-

релевантности»

или использование

проса и средствах оценки ре-

других ресурсов, например, ассоцииро-

зультата

 

 

 

 

ванных баз данных вторичной или

 

 

 

 

 

справочной информации

 

 

 

 

 

Интерфейс системы, являясь той операционной средой, которая может обеспечить решение двойственной задачи (получение результата и нахождение средств его получения), должен удовлетворять следующим требованиям:

1)Организация пространства по принципу однородности;

2)Предоставление информации для оценки результата;

3) Возможность отслеживания и изменения "траектории движе-

ния";

4)Возможность планирования «навигации» (подсказки к дальнейшим действиям);

5)Наличие информации для оценки степени завершенности про-

цесса;

Соответственно, оптимизационная задача процесса поиска – при временных ограничениях максимизировать показатели выдачи и получить максимальную (субъективную) уверенность в качестве поиска, предоставляя пользователю в процессе диалога альтернативные направления, а также количественные и качественные оценки их соответствия запросу.

Обобщенная схема поиска, приведенная на рис. 7.6, представлена на примере АИПС IRBIS, которая имеет следующие основные интерфейсные блоки59:

-интерфейс формирования запроса,

-интерфейс поискового модуля,

-интерфейс обработки результата и развития поиска.

59 Примеры реализации интерфейсов подготовки и развития запроса приведены в гл. 8.

 

Диалоговые средства подготовки запроса

 

 

 

 

 

Запрос по

Запрос по

Запрос с редакти-

 

 

 

Запрос

образцу

шагам

рованием

 

 

 

 

 

 

 

 

 

 

 

 

Статистически–значимые словосочетания

 

 

 

Просмотр

 

Статистически–значимые термины

 

 

 

 

словаря

 

 

 

 

 

 

Контекстно–значимые термины

 

 

 

Словарь

 

 

 

 

 

 

 

 

 

 

 

 

Словарь

 

Поиск по статистически – значимым терминам

 

 

Модификация выражения

 

 

 

 

 

 

Поиск по статистически – значимым терминам и словосочетаниям

 

 

 

 

Поиск по контекстно – значимым терминам

 

Корзина

 

Логическое выражение

Поиск

Реформулирование запроса по

 

 

запроса

 

 

 

 

 

 

 

 

 

 

обратной связи

 

 

 

 

Идентиф-ры

 

Просмотр

Документ

Индексы

 

 

результата

 

документов

 

Док-ты

 

 

 

 

маркирование

Поиск

 

 

 

 

 

аналогов

 

 

 

 

 

 

Темы

 

 

 

Построение

 

Эвристиче-

 

 

 

Просмотр

ский

Запросы

 

 

 

словника

 

 

Просмотр

поиск

 

 

 

 

словника

 

 

 

протокола

 

 

 

 

 

Протокол

 

 

маркирование

Контекстный

 

 

маркирование

Выделенные

поиск

 

 

 

 

 

 

 

 

 

результаты

 

 

Протокол

 

 

Рис. 7.6. Обобщенная технологическая схема поиска

Кластеры

 

 

 

терминов

Интерфейсы формирования запроса, особенно значимые при на-

чальном входе в информационное пространство базы, подразделяются на «вербальные» и «кластерные».

Первые являются процедурно ориентированными средствами, обеспечивающими формирование на ИПЯ логического выражения той или иной сложности, что предполагает предварительную60 структуризацию на семантическом уровне и лексическую адаптацию запроса. Представленные в системе процедурные интерфейсы – конструкторы запроса «по образцу», «по шагам» и редактор запроса, являются типовыми решениями с различным уровнем дружественности61. Эта группа является практически полной с точки зрения степеней свободы выбора операционных объектов для случая спецификации запроса в виде обобщенного логического выражения. Характер ограничений на уровне компонентов составного выражения отбора (логической связки выражений для отдельных областей поиска) отражен в таблице 7.4.

Таблица 7.4

 

 

 

 

 

 

 

Конструктор

Конструктор

Редактор

Компоненты выражения

«по образцу»

«по шагам»

запроса

 

 

 

 

 

 

 

Фиксировано

шаб-

Линейное

выра-

Скобочное

выра-

Ограничения на условие

лоном.

Оператор

жение без вложен-

жение

любой

 

поиска

 

фиксирован

(обыч-

ности

 

сложности

 

 

 

 

 

 

 

 

но И)

 

 

 

 

 

 

 

 

 

 

 

 

 

Фиксировано

 

Выбор из списка

Скобочное

выра-

Область

 

Имя поля

или ограниченный

 

 

жение

любой

 

 

 

 

выбор

 

 

 

 

сложности

 

поиска

 

 

 

 

 

 

 

 

 

 

Оператор

Нет или фиксирован

Выбор из списка

Любой

 

 

 

 

 

 

 

 

 

 

 

 

 

(обычно ИЛИ)

 

 

 

 

Оператор отбора

 

 

 

Фиксирован

 

Выбор из списка

Любой

 

 

 

 

 

 

 

Вы-

 

 

 

Термин или пред-

Скобочное

выра-

 

 

 

 

 

 

 

Нет

 

шествующее

вы-

жение

любой

 

 

 

 

 

 

раж.

 

 

 

 

 

Опе-

 

 

 

 

ражение

 

сложности

 

Операнд-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Скобочное

выра-

 

 

ранд

 

Тер-

Выбор из списка

 

 

значение

 

 

 

 

 

Выбор из списка

жение

любой

отбора

 

 

 

 

 

мин

или ввод

сложности

с опе-

 

 

 

 

 

 

 

 

 

 

 

 

раторами усечения

 

 

Оператор

 

 

фиксирован

(обыч-

Выбор из списка

Любой

 

 

 

 

 

 

 

 

но ИЛИ) или ввод

 

 

 

 

60Это противоречит практически и «идеологически» значимому требованию не заставлять человека обрабатывать вводимые данные вне системы [Коутс1990] и на практике приводит к низкой эффективности поиска.

61Здесь «дружественность» сводится исключительно к снижению уровня требований к подготовленности пользователя за счет снижения синтаксической сложности выражения.

Интерфейсы формирования запроса, основанные на «кластерных» методах, используют операционные объекты с разным уровнем отражения информационного содержания базы:

на «атомарном» уровне - это в основном инвертированные формы (словари, индексы) или документы БД, представляемые в физической последовательности;

на уровне тематическом - это структуризации с иерархической или линейной упорядоченностью через тематические рубрикации или типовые запросы;

на уровне частных запросов - это коллекции выражений запросов и сохраняемые запросы (выражения и соответствующие результаты поиска).

Интерфейс поискового модуля обеспечивает выбор и управление механизмом отбора документов по сформированному условию поиска, включая:

предобработку выражения: нормализацию или автоматическое усечение терминов, лексическое расширение выражения, связывание с предыдущими или уточняющими условиями;

выбор метода отбора (критерия смыслового соответствия) – булев или нечеткий поиск, определение порога выдачи;

постобработку результата – сортировку, ранжирование или кластеризацию найденных документов по содержанию или вычисляемым показателям.

Интерфейсные средства обработки результата и развития поиска использует два типа операционных объектов – отдельные документы и коллекции документов. Особенностью предложенной схемы является функциональное подобие интерфейсных блоков и то, что помимо функций обработки материала документов (печать, редактирование, сортировка, вывод в файл и т.д.), система предоставляет средства развития процесса поиска либо путем модификации выражения, либо путем реформулирования запроса по обратной связи по релевантности.

Модификация выражения запроса является методически достаточно простой операцией - выражение редактируется переносом в него статистически или контекстно значимых терминов из словников или документов.

Поиск путем реформулирования запроса на основе лексики документов, релевантность которых подтверждена пользователем, реализуется двумя типами поисковых технологий: непосредственным использованием лексики отдельного документа или на основе терминов, статистически взвешенных на множестве документов.

Приведенные кластерные технологии являются эвристическими в том смысле, что в результате процесса поиска формируется одна или не-