Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
27
Добавлен:
21.03.2016
Размер:
408.65 Кб
Скачать

19

заранее неизвестно количество документов, представляющих интерес в данной предметной области. Это особенно характерно для глобальных ИПС сети Интернет. Наиболее трудным как принципиально, так и практически, является определение мер полноты и точности, то есть оценка качества результатов поиска.

3.2. Полнота и точность поиска

Коэффициент полноты – это доля полученных релевантных документов по сравнению с их общим количеством в поисковом массиве. Коэффициент точности – это доля релевантных документов среди выданных.

Введем обозначения []:

a – количество полученных в результате поиска релевантных документов, b – количество нерелевантных документов, выданных ИПС,

c – число релевантных документов в поисковом массиве, не выданных ИПС, d – число невыданных релевантных документов.

Табл. 2 иллюстрирует подобное разделение документов на подмножества.

Таблица 2. Разделение документов в процессе поиска

 

Документы

Релевантные

 

Нерелевантные

 

Всего

 

 

 

 

 

 

 

 

 

Выданные

a

 

 

b

 

a + b

 

 

 

 

 

 

 

 

 

Невыданные

c

 

 

d

 

c + d

 

 

 

 

 

 

 

 

 

Всего

a + c

 

 

b+ d

 

a + c + b+ d

 

 

 

 

 

 

 

 

 

Тогда коэффициент полноты1

R и коэффициент точности2

P можно опреде-

лить по формулам:

 

 

 

 

 

 

 

 

R =

a

,

 

 

(3.7)

 

 

a + c

 

 

 

 

 

 

 

 

 

 

 

P =

a

.

 

 

(3.8)

 

 

a + b

 

 

 

 

 

 

 

 

 

 

Часто используются дополнительные меры оценки – коэффициент выпаде-

ния3 F , характеризующий количество возвращаемых системой нерелевантных до-

кументов, и коэффициент ошибки4

E , описывающий правильность определения по-

исковой системой релевантности документов:

1 Полнота – англ. Recall.

2 Точность – англ. Precision.

3 Выпадение – англ. Fallout.

4 Ошибка – англ. Error.

 

 

 

 

20

 

 

F =

b

,

 

 

b + d

 

 

 

 

 

E =

 

 

b+ c

 

.

 

a + b+ c + d

Если исследовать эффективность поисковой системы с помощью нескольких запросов (обозначим общее число запросов через k ), то для данного запроса i ко-

эффициенты полноты Ri и точности

Pi можно записать в виде:

 

Ri

=

ai

,

(3.9)

ai

+ ci

 

 

 

 

Pi

=

ai

.

(3.10)

ai

+ bi

 

 

 

 

Из уравнений (3.9) и (3.10) можно получить среднюю величину, которая отражает эффективность системы, ожидаемую для случая среднего пользователя. Для этого возьмем среднее арифметическое по k выборочным запросам:

 

1

k

 

 

 

ai

 

 

 

RRL =

k

å

 

 

 

 

 

 

,

1

a

i

+ c

 

 

 

 

i =

 

ai

i

 

1

k

 

 

 

 

 

 

PRL =

k

å

 

 

 

 

.

1

a

i

+ b

 

 

i =

 

 

i

Поскольку значения коэффициентов полноты Ri и точности Pi определяются

однозначно для каждого из запросов пользователей, это позволяет вычислить средние значения для фиксированных интервалов полноты. Кривая, полученная в результате усреднения, называется кривая "полнота-точность" поисковой системы (рис. Рис. 2). Левый край этой кривой соответствует узким, специфичным формулировкам запросов, а правый - определяется широкими, общим запросами.

 

 

 

 

21

 

 

 

 

Узкая формули-

 

 

 

1,0

ровка запроса

 

 

 

 

0,8

 

 

 

 

 

Точность

0,6

 

 

 

 

 

0,4

 

 

 

 

Широкая форму-

 

 

 

 

 

 

 

 

 

 

 

 

0,2

 

 

 

 

лировка запроса

 

 

 

 

 

 

 

0,0

 

 

 

 

 

 

00,0

0,2

0,4

0,6

0,8

1,0

 

 

 

 

Полнота

 

 

 

 

Рис. 2. Кривая "полнота-точность"

Кривые “полнота-точность” могут использоваться для оценки качества работы либо нескольких ИПС, либо одной, работающей в разных условиях. При этом кривые, полученные для двух систем, могут быть наложены на один график, что позволяет определить, какая из систем лучше и в какой степени []. Очевидно, что кривая, расположенная ближе к правому верхнему углу графика (рис. Рис. 2), где полнота и точность максимальны, указывает на лучшее качество работы.

Видеальной ИПС коэффициенты полноты и точности равны единице. В реальных поисковых системах коэффициент полноты поиска может достигать значений 0,7 – 0,9, а коэффициент точности находится в интервале 0,1 – 1,0 [].

Вдополнение к стандартным мерам полноты (3.7) и точности (3.8), значения которых зависят от размера множества выданных документов, можно использовать показатели, не зависящие от выданного множества. В частности, для систем, в которых полученные документы ранжируются в порядке уменьшения сходства между документом и запросом, существуют меры оценки, основанные на рангах релевантных документов. Такие функции, называемые нормализованной полнотой и нормализованной точностью, имеют вид:

 

 

 

 

ån r

- ån i

 

 

 

 

 

 

i

 

,

 

R = 1-

 

i = 1

i = 1

 

 

 

 

 

 

норм

 

 

 

n(N-n)

 

 

 

ån logr

- ån logi

 

 

 

 

 

 

i

 

 

 

 

Pнорм = 1

-

i = 1

i = 1

.

 

N!

 

log

 

 

 

 

 

n!(N-n)!

 

 

22

где n – количество релевантных документов в массиве; N - объем всего массива документов; ri – ранг i -го релевантного документа в случае, когда документы расположены в порядке уменьшения их сходства с запросом [, ].

В идеальной системе все релевантные документы находятся в верхней части списка выданных документов, то есть ri = i при 1≤ i ≤ n. Нормализованные полнота и точность равны в этом случае единице.

3.3. Недостатки основных характеристик

Применение мер полноты и точности для оценки эффективности поиска имеет ряд ограничений. Во-первых, из определений (3.7) и (3.8) ясно, что измерения R и P обычно привязаны к конкретному массиву документов и конкретному множеству запросов. В пределах такой фиксированной среды имеется возможность варьировать методы и язык индексирования, методику поиска, и в результате можно определить, как эти изменения влияют на работоспособность системы с точки зрения полноты и точности. Однако абсолютно неприемлемо сравнивать показатели полноты и точности совершенно различных систем, основанных на разных массивах документов, наборах запросов и группах пользователей.

Например, полнота и точность в той или иной степени зависят от размера информационного массива и среднего количества релевантных документов, находящихся в массиве. Можно предполагать, что по мере роста объема массива полнота и точность будут ухудшаться, если только количество релевантных документов не будет увеличиваться пропорционально размеру массива. То же справедливо для случая, когда при анализе эффективности используется новое множество запросов, для которого среднее количество релевантных документов меньше, чем для первоначального множества запросов [, ].

Во-вторых, коэффициенты полноты и точности несложно вычислить только в том случае, если каждый документ можно однозначно отнести либо к множеству релевантных, либо нерелевантных. Когда размер информационного массива сравнительно невелик (в локальных ИПС или тестовых наборах документов глобальных ИПС), часто имеется возможность получить однозначные оценки релевантности каждого документа по отношению к конкретным запросам.

В более крупных массивах исчерпывающие оценки релевантности обычно невозможны. Здесь для получения достоверных показателей полноты бывает необходимо оценить как общее число релевантных документов в массиве, так и позицию (ранг) релевантных документов в списке выданных. Это можно сделать

23

методами случайных выборок. Список релевантных документов может быть получен на основе оценок релевантности только выданного множества документов.

Кроме того, классификация релевантности на основе бинарной логики не вполне адекватна понятию релевантности. Документ может быть частично релевантен информационной потребности. Возможна ситуация, когда информационную потребность удовлетворяет совокупность из нескольких документов, и при этом релевантность каждого из них можно охарактеризовать некоторым числом. При этом использование формальной релевантности, значение которой рассчитывается для каждого документа в ходе выполнения поискового алгоритма, является неприемлемым для анализа качества работы системы с точки зрения потребителей [].

Специфика сети Интернет также накладывает существенные ограничения на применение показателей полноты и точности для оценки эффективности поиска [].

К факторам, влияющим на расчет этих характеристик, относятся очень большое количество документов, значительная доля релевантных документов, ограниченность возможностей пользователя. Остановимся на них более подробно.

Внастоящее время в сети Интернет находится несколько миллиардов документов, причем их число постоянно увеличивается. В массивах поисковых образов наиболее мощных ИПС содержатся сведения о части этих документов, которая составляет по разным оценкам от трех до восьми миллиардов документов, по состоянию на конец 2002 года.

При определении коэффициента полноты поиска используется количество релевантных документов, не выданных ИПС (3.7). Как отмечалось выше, оценить это количество можно на основе изучения некоторой выборки этих документов. Однако построение такой выборки вызывает существенные затруднения из-за невозможности охвата всех документов. Недостаточная представительность выборки обуславливает появление значительной систематической погрешности при расчете числа невыданных релевантных документов.

Впоследние 5-8 лет происходит интенсивный процесс перевода в электронную форму и размещения в сети Интернет основного массива наиболее значимых из созданных ранее печатных документов. В тоже время многие вновь создаваемые документы практически сразу размещаются в сети. В результате большинству возникающих у пользователя информационных потребностей соответствуют десятки тысяч релевантных документов, размещенных в сети. Вместе с тем релевантная информация во многих документах совпадает, и пользователю достаточно просмотреть лишь несколько из них. Таким образом, высокое значение коэффициента полноты не является актуальным и может приближаться к нулю в случае успешного поиска. Сле-

24

довательно, этот коэффициент в данном случае не является адекватным описанием эффективности информационного поиска [, ].

Ограниченность возможностей пользователя состоит в том, что практически всегда на просмотр и изучение результатов поиска выделяется ограниченное время. Более половины пользователей изучают только первые 10 документов, выдаваемых поисковой системой, а пятая часть – первые 20 документов. Поэтому при оценке качества поиска следует учитывать только ту часть результатов поиска, которая реально может быть изучена, а не весь список выданных системой документов [, ].

Подводя итог, отметим, что в настоящее время не существует универсальной меры эффективности ИПС, которая бы устраняла описанные недостатки. Наличие большого количества характеристик, которые с трудом поддаются формализации приводит к тому, что единой теории оценки ИПС до сих пор нет, а предлагаемые методы оценки носят экспериментальный характер. Тем не менее оценка качества поиска является одним из основных факторов, влияющих на развитие ИПС [, , ].

4. Современные информационно-поисковые системы

Разнообразные технологии и методы, созданные за годы развития теории и практики информационного поиска, находят свое применение в современных ИПС.

Наряду с классическими библиотечными ИПС, которые продолжают совершенствоваться, интенсивное развитие происходит в области глобальных ИПС сети Интернет, которая стала главной движущей силой современных технологий информационного поиска [, ]. Гигантский объем доступных информационных ресурсов требует применения масштабируемых алгоритмов поиска []. Гипертексты позволяют использовать принципиально новые модели поиска, основанные на семантическом анализе коллекций документов. Высокая скорость обновления страниц, их свободное размещение и отсутствие гарантии постоянного доступа приводит к необходимости постоянного переиндексирования актуальных информационных ресурсов.

Наконец, неоднородный состав пользователей, часто не имеющих навыков работы с поисковой системой, заставляет искать эффективные способы формулировки запросов, работающие с минимальной исходной информацией [, ].

4.1. Словарные информационно-поисковые системы

Словарные ИПС на сегодняшний день – самые быстрые и эффективные поисковые системы, получившие наибольшее распространение в сети Интернет. Поиск необходимой информации в словарных ИПС осуществляется по ключевым словам.

25

Результаты поиска формируются в ходе работы того или иного поискового алгоритма со словарем и запросом, составленным пользователем на ИПЯ.

Структура словарной ИПС (рис. Рис. 3) состоит из следующих компонентов: средства просмотра документов, интерфейса пользователя, поисковой машины, базы данных поисковых образов и индексирующего агента [, ].

Средство

просмотра

документов

Документы

Документ

1

Документ

3

Документ

2

Документ N

Информационный

массив

Индексирующий агент

Интерфейс

пользователя

Результат

Запрос

Поисковая

машина

Информация о найденных документах

Запрос поисковой машины

База данных поисковых образов документов

Поисковые образы документов

Рис. 3. Структура словарной информационно-поисковой системы

Информационный массив включает в себя информационные ресурсы, потенциально доступные пользователю. Сюда входят текстовые и графические документы, мультимедийная информация и т. д. Для глобальной ИПС – это вся сеть Интернет, где все документы характеризуются уникальным адресом URL1.

Интерфейс поисковой системы определяет способ взаимодействия пользователя с ИПС. Сюда входят правила формирования запросов, механизм просмотра результатов поиска и т. д. Интерфейс поисковых систем сети Интернет обычно реали-

1 URL – унифицированный указатель информационного ресурса (англ. Uniform Resource Locator).

26

зуется в среде веб-браузера. Для работы со звуковой и видео информацией применяется соответствующее программное обеспечение.

Главная функция поисковой машины – реализация принятой модели поиска. Сначала запрос пользователя, подготовленный на ИПЯ, транслируется согласно установленным правилам в формальный запрос. Затем в ходе выполнения поискового алгоритма запрос сравнивается с поисковыми образами документов из базы данных. По результатам сравнения формируется итоговый список найденных документов. Обычно он содержит название, размер, дату создания и краткую аннотацию документа, ссылку на него, а также значение меры подобия документа и запроса. Список подвергается ранжированию (упорядочению по какому-либо критерию, обычно по значению формальной релевантности).

База данных поисковых образов документов предназначена для хранения описаний индексированных документов. Структура типичной базы данных словарной ИПС подробно описана в части 1 методических указаний.

Индексирующий агент выполняет индексацию доступных документов с целью составления их поисковых образов. В локальных системах эта операция обычно осуществляется один раз: после окончания формирования массива документов вся информация индексируется и поисковые образы вносятся в базу данных. В динамическом децентрализованном информационном массиве сети Интернет применяется другой подход. Специальная программа-робот, которую называют паук (spider) или ползун (crawler), непрерывно обходит сеть. Переходы между различными документами осуществляются с помощью содержащихся в них гиперссылок. Скорость обновления сведений в базе данных поисковой системы напрямую связана со скоростью сканирования сети [, , , ]. Например, мощный индексирующий робот может обойти всю сеть Интернет за несколько недель. При каждом новом цикле обхода база данных обновляется и старые недействительные адреса удаляются.

Часть документов для поисковых машин закрыта. Это информация, доступ к которой авторизован или осуществляется не по ссылке, а по запросу из формы []. В настоящее время разрабатываются интеллектуальные методы сканирования скрытой части Интернет, но широкого распространения они пока не получили [].

Для индексирования гипертекстовых документов программы-агенты используют источники: гипертекстовые ссылки (href), заголовки (title), заглавия (H1, H2 и т. д.), аннотации, списки ключевых слов (keywords), подписи к изображениям. Для индексирования нетекстовой информации (например, файлов, передаваемых по протоколу ftp) используются URL [].

27

Также используются возможности полуавтоматической или ручной индексации. В первом случае администраторы оставляют сообщения о своих документах, которые индексирующий агент обрабатывает спустя некоторое время, во втором, администраторы самостоятельно вносят в базу данных ИПС необходимую информацию.

Все большее число ИПС производят полнотекстовую индексацию. В этом случае для составления поискового образа используется весь текст документа []. Форматирование, ссылки и т. д. становятся в этом случае дополнительным фактором, влияющим на значимость того или иного термина. Термин из заголовка получит больший вес, чем термин из подписи к рисунку [, ].

Современные крупные ИПС должны в течение секунды обрабатывать сотни запросов. Поэтому любая задержка может привести к оттоку пользователей и, как следствие, к непопулярности системы и коммерческим неудачам. С точки зрения архитектуры, такие ИПС реализуются в виде распределенных вычислительных систем, состоящих из сотен компьютеров, расположенных по всему миру. Поисковые алгоритмы и программный код подвергаются крайне тщательной оптимизации.

В ИПС с большим объемом базы документов для ускорения их работы применяются технологии эшелонирования и прюнинга. Эшелонирование заключается в разделении базы данных на заведомо более релевантную и менее релевантную части. Сначала ИПС ищет документы по первой части базы. Если документов не найдено или найдено недостаточно, то поиск выполняется во второй части. При использовании прюнинга1 обработка запроса автоматически прекращается после нахождения достаточного количества релевантных документов [].

Также широко применяются пороговые модели поиска, которые определяют некоторые пороговые значения для характеристик документов, выдаваемых пользователю. Например, релевантность документов обычно ограничивается некоторым зна-

чением релевантности R′ , например, R′ = 0,75 при 0 ≤ R ≤ 1. Вниманию пользователя предлагаются все документы со значением релевантности R ³ R′ .

В случае ранжирования результатов поиска по дате пороговые значения определяют временной интервал даты изменения документов. Например, ИПС может автоматически отсекать документы, не изменявшиеся последние три года [].

Главным достоинством ИПС словарного типа является практически полная ее автоматизация. Система самостоятельно анализирует поисковые ресурсы, составляет и хранит их описания, производит поиск среди этих описаний. Широкий охват ресурсов сети Интернет также относится к плюсам таких систем. Значительные

1 Pruning – англ. сокращение, удаление.

28

объёмы баз данных делают словарные ИПС особенно полезными для исчерпывающего поиска, сложных запросов или для локализации неясной информации.

В то же время огромное количество документов в базе данных системы часто приводит к слишком большому числу найденных документов. Это вызывает затруднения у большинства пользователей при анализе найденной информации и делает невозможным быстрый поиск. Автоматические методы индексации не могут учесть специфики конкретных документов, и количество непертинентных документов среди найденных такой системой часто бывает велико [].

Еще одним недостатком словарной ИПС является необходимость формулировать запросы к системе на специальном языке. Хотя существует тенденция к сближению ИПЯ с естественными языками, на сегодняшний день пользователь должен иметь определенные навыки в формулировании запросов.

4.2. Классификационные информационно-поисковые системы

Принцип действия классификационных ИПС заключается в распределении документов информационного массива по тематическим рубрикам. Скорость поиска в таких системах обычно невелика, однако его точность максимальна. Аналогом классификационной ИПС является любой библиотечный систематический каталог.

Иерархический классификатор поисковой системы, называемый также каталогом, определяет возможные классы, к которым могут относиться документы. Во время процесса классификации документам приписываются идентификаторы соответствующих рубрик. Эти идентификаторы и составляют поисковые образы документов, которые хранятся в базе данных системы.

Стандартные библиотечные системы классификации используются для различных целей. Во-первых, они обеспечивают удобный и предсказуемый порядок размещения документов (книг, журналов и т. п.) на полках и стеллажах, а библиографической информации – в каталогах и указателях. Кроме того, они позволяют обозначить тот или иной класс документов, а затем, в зависимости от того, получает ли пользователь в результате данного поиска слишком много или слишком мало релевантных документов, расширить или сузить этот класс, или перейти к какому-либо другому классу, связанному с этим [].

Пользователь ИПС классификационного типа сначала определяет, к какой предметной области относится интересующая его информация. Затем он выбирает соответствующую рубрику каталога. Двигаясь по иерархии рубрик, от самых общих до самых узких, в конце концов пользователь приходит к конечной рубрике, которая

Соседние файлы в папке Методические указания к практике