Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
157
Добавлен:
22.08.2013
Размер:
358.73 Кб
Скачать

Механизмы отбора документальной информации

Механизмы отбора документов в результат поиска, зачастую отождествляемые с языком поиска, реализуются алгоритмами, в основе которых лежит какая-либо модификация вычисления булева выражения, соотносящего множество терминов запроса и множество терминов документов базы данных. К сожалению, системы редко информируют пользователя о применяемых механизмах и особенностях их использования.

Модификацией булевого поиска является взвешенный булев поиск. Запрос может формулироваться на ИПЯ, описанном выше, но выдача документов при этом будет ранжироваться в зависимости от степени близости запроса и документа.

Поиск «по сходству» (документы-аналоги, «Like this»). Наиболее простой моделью этого типа является линейная модель индексирования и поиска, когда близость документа и запроса рассматривается, например, как угол между векторами запроса и документа в многомерном пространстве терминов индексирования. В соответствии со значением меры близости происходит ранжирование документов при выдаче. В простейшем случае документ считается соответствующим запросу, если он содержит не обязательно все, а только часть терминов запроса в любом сочетании.

Пороговые модели. Перечисленные выше алгоритмы предполагают, что на конечном этапе поиска выборка найденных документов ранжируется. Но совершенно очевидно, что это приводит к ранжированию практически всего массива документов. Ранжировать целиком такие массивы на практике невозможно, поэтому применяются пороговые модели, которые задают пороговые значения для документов, выдаваемых пользователю.

Поиск с коррекцией запроса по релевантности. Такой поиск является уже интерактивным итеративным процессом. После проведения первичного поиска с использованием какого–либо из вышеперечисленных методов пользователь отмечает в списке найденных документов истинно релевантные, т.е. соответствующие его информационной потребности, а не просто содержащие термины запроса. Некоторые системы имеют для этого специальное поле (область при документе), где пользователь может отметить документ как релевантный. При следующей итерации система уже сама расширяет запрос пользователя терминами из релевантных документов и снова выполняет поиск. Так продолжается до тех пор, пока пользователь не сочтет, что лучшего результата, чем он уже имеет, добиться не удастся. Здесь имеем два типа обратной связи. Для построения словников на основе лексики документов, определяемых пользователем как истинно релевантные, используется «внешняя» обратная связь. Для построения реформулированного запроса используется уже «внутренняя» обратная связь, позволяющая пользователю (непосредственно) или системе (ранжированием или кластеризацией по статистическим показателям) выделить семантически-значимые термины.

Этот простой и достаточно эффективный механизм, тем не менее, имеет особенность, требующую от пользователя сосредоточения только на одной цели (предмете) поиска. В том случае, если он при просмотре очередной итерации будет отмечать релевантными документы, которые ему интересны в контексте другой темы, это создаст для системы ситуацию “погони за двумя зайцами”.

Приведенные механизмы можно отнести к эвристическим в том смысле, что в результате процесса поиска формируется одна или несколько документальных областей, в той или иной степени соответствующих потребности пользователя. Принципиальным моментом является то, что система таким образом готовит альтернативы, позволяя не только увеличить полноту поиска, но и выйти на новую лексику предметной области, неизвестную пользователю.

Постобработка поисковой выдачи

Основное назначение постобработки — снижение размерности пространства документов, которое необходимо «обработать» пользователю для получения уверенности в том, что полученная информация адекватна – полно и точно отражает состояние предметной области в аспекте задачи конкретного пользователя. Именно наличие конкретных особенностей содержания, формы представления или будущего использования информации позволяет предположить, что часть найденных формальными методами документов может заранее (до просмотра) считаться малозначимой, т.е. не обладающей существенными признаками. Соответственно, если множество найденных документов будет упорядочено в выдаче по убыванию значения этого признака, то пользователь достаточно просто, но обоснованно, может принять решение о завершении просмотра.

Такое упорядочение (ранжирование) документов достаточно просто реализуется, если в качестве существенного признака выступает, например, «свежесть» публикации: для этого система отсортирует документы по значению поля «Дата публикации». Существенно сложнее процедура в случае ранжирования по степени смыслового соответствия. Сложность предопределяется двумя факторами. В-первых, системе достаточно трудно точно и однозначно установить действительный смысл реальной потребности пользователя по обычно очень короткому выражению запроса. Во-вторых, практически невозможно выбрать адекватную меру соответствия, поскольку она должна вычисляться по формальным количественным признакам, в то время как смысловое соответствие имеет качественный характер.

В технологиях информационного поиска используются две методики упорядочения. Первая – классификация, основана на сведении запроса к общепринятой (по крайней мере, в данной предметной области) системе классификации. Вторая - кластеризация, основана на предположении, что предметная область (и взгляды на нее) обладает свойством структурированности, и выданные документы могут быть разделены в соответствии с аспектами, один или несколько из которых, вероятно, будут соответствовать реальной потребности.

Классификация и кластеризация представляют собой две противоположные технологии: классификация заключается в автоматическом отнесении (определении тематики) документа к одному из классов, определенных на известном множестве признаков, в то время как задачей кластеризации является автоматическое построение классов семантически подобных документов. То есть, в случае классификации на первом этапе задается система признаков, определяющих фиксированное количество классов, а на втором – документы распределяются между этими классами. В случае кластеризации множество документов сразу разбивается на кластеры по степени близости признаков, которыми они обладают сами, т.е. происходит не столько выявление, облает ли документ признаками, заранее объявленными в классификационной системе, столько выявление признаков, которые могут быть объявлены (на втором этапе) в качестве классификационных.

Технологии обработки результатов поиска

Возможности АИПС по обработке результатов поиска можно рассматривать в следующих аспектах:

  • управление формой представления документов и списков документов (оперативное изменение формата и наполнения, фрагментирование);

  • управление последовательностью выдачи (сортировка, ранжирование, оперативные переходы с возвратами, «закладки»);

  • локализация результата на уровне отдельного документа или совокупности (отметка степени соответствия информационной потребности);

  • использование фрагмента документа, ссылки на документ или совокупность документов в последующих запросах, а также для развития процесса поиска;

  • использование результатов поиска для оценки качества поиска.

Развитые средства обработки результатов поиска предопределяют возможность разработки средств и технологий автоматической или автоматизированной реформулировки запроса.

Методы ранжирования документов в выдаче основываются на использовании количественных мер, отражающих либо статистику встречаемости и взаимосвязи терминов в документах, либо статистику взаимосвязи документа с другими документами в выборке или в предметной области.

Технологии управления поиском

Управление процессом поиска для диалоговых АИПС определяется:

  • разнообразием операционных объектов и средств их обработки, определяющих возможные методы получения результата и особенности его представления;

  • интерфейсными решениями (зависящими от архитектуры программно-технического комплекса), определяющими степень гибкости сценария и его управляемость как пользователем, так и системой.

Рассматривая поиск в контексте понятия «стратегия» и представляя его как динамический процесс с изменяющимися состояниями сторон диалога (пользователь – система), можно (хотя и очень условно) выделить три типа поисковых технологий:

  • «запрос-ответ», как реализацию истинно вербальной стратегии;

  • «накопления результата», когда система позволяет не только использовать ссылки на результаты отдельных поисков, но и получать сам результат способом, отличным от запросно-ответного;

  • «распространяющейся активности», позволяющую не только изменять способ получения результата, но и изменять цель – предмет поиска, обеспечивая как дифференцированное использование результатов, так и восстановление поисковой ситуации.

Естественное представление результатов поиска как множества документов также имеет свои особенности, связанные с постобработкой результата в циклическом поисковом процессе.

Во-первых, реализация отдельных механизмов поиска (поиск по совпадению терминов, поиск аналогов, поиск «похожих» документов, поиск с использованием обратной связи по релевантности) требует обязательного ранжирования выдачи (а иногда и усечения), так как применение этих механизмов приводит к выдачам большого объема. В этом случае средства представления и постобработки результата ориентируются на формальные методы ранжирования (в соответствии с конкретным механизмом поиска).

Во-вторых, для инициации новых поисковых циклов могут использоваться документы, полученные на очередном этапе поискового процесса. Использование лексики документа для формирования ПОЗ происходит либо путем альтернативного цветового выделения самих терминов внутри документа, либо путем формирования количественного запроса – требования на поиск документов, имеющих заявленное количество любых общих терминов с текущим. Здесь средства представления результата должны учитывать возможную постобработку, которая носит управляющий характер: материал каждого документа должен быть доступен для составления запроса и запуска поискового механизма.

И, наконец, в-третьих, каждый очередной этап поискового цикла должен в идеале пополнять для пользователя коллекцию документов, формируя тем самым персональную тематическую область. Это означает, что все полученные пользователем результаты должны быть ему доступны, по крайней мере, как множество документов. Эту задачу решает для пользователя такое средство представления результатов, как протокол поиска. Назначение такой метаинформационной структуры в первую очередь в том, чтобы предоставить (через лексику запроса) доступ к каждому из документов любого промежуточного результата (при этом протокол хранит и способ получения отдельного результата). Таким образом, ПОЗ становятся такими же элементами для составления запроса, как и термины частотного словаря, что делает возможным использование при очередном цикле поиска ранее полученных результатов.

Общая характеристика средств, технологий и механизмов поиска приведена на слайде (Слайд 12.14). При этом рассмотренная схема поиска отражает следующие требования к интерфейсным компонентам и организации процесса поиска в целом:

  • подготовка следующего шага поиска выполняется непосредственно при обработке результата предыдущего: для развития поиска в качестве основного интерфейсного объекта в первую очередь используются документы;

  • операционные объекты однородны на каждом шаге;

  • на каждом шаге возможен возврат к ранее полученным результатам или оперативное переключение на другую тему и операцию;

  • оценка степени завершенности (сходимости) процесса поиска возможна по критерию исчерпания как лексики, так и документального пространства темы.

Тем самым, классическая схема выдачи документов «по запросу-выражению» расширена до динамически управляемого процесса построения систематизированного пространства документов и терминов. При этом процесс поиска построен симметрично и реализует двойственную задачу: при подготовке запроса можно формировать коллекцию документов, а при формировании поисковой выдачи – реформулировать запрос и формировать компоненты лингвистического обеспечения.

Соседние файлы в папке Lekcii