Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Учебное пособие 1886

.pdf
Скачиваний:
4
Добавлен:
30.04.2022
Размер:
2.64 Mб
Скачать

«зашиты», после чего отобразит список гиперссылок на документы, в которых встречается указанное слово. Чтобы ознакомиться с документом, достаточно подвести указатель «мыши» к гиперссылке и нажать левую кнопку манипулятора.

Для того чтобы понять, что скрывается за теми действиями, которые Вы выполнили, следует более формально рассмотреть процесс поиска. Итак:

1.У пользователя появляется необходимость найти сведения по какому-либо вопросу. На языке теории информационного поиска это называется информационной потребно-

стью.

2.Для того чтобы «объяснить» поисковой службе, что ему необходимо найти, пользователь вынужден некоторым образом формализовать свою информационную потреб-

ность. Процесс формализации, как правило, сводится к выявлению набора понятий и терминов, характеризующих информационную потребность, и определению отношений между ними. Такие понятия и термины получили название ключевых слов, а выделенное множество ключевых слов с зафиксированными отношениями между ними именуется запросом.

3.На следующем этапе пользователь через интерфейс информационно-поисковой системы вводит запрос. Система на множестве документов, являющемся информационнопоисковым пространством, осуществляет выборку документов, которые по внесенным в систему критериям соответствуют запросу пользователя, и формирует результат. Список документов, отобранных информационно-поисковой системой, обычно называют выдачей или откликом, а меру соответствия отклика запросу или информационной потребности — ре-

левантностью отклика.

4.Анализ результатов поиска. Получив результат, пользователь обнаружит, что выданные документы по содержанию делятся на две группы — соответствующие его информационной потребности, и несоответствующие информационной потребности, но, с точки зрения информационно-поисковой системы, соответствующие запросу. С документами второй груп-

43

пы обычно связывают такое понятие, как информационный шум. В рассмотренном выше примере к шуму могут относиться те документы, в которых «Москва» будет являться названием не города, а, например, реки, корабля, фабрики и т.п.

Подобное деление результатов поиска на «полезные» документы и информационный шум позволяет уточнить и различные способы употребления термина релевантность: меру соответствия отклика информационной потребности пользователя иногда называют смысловой релевантностью, а меру соответствия отклика запросу — формальной релевантностью. Как правило, признаком, по которому информационнопоисковая система определяет формальную релевантность документа, является присутствие ключевых слов запроса в тексте данного документа.

В примере с ключевым словом «Москва» не выданными могут остаться документы, в которых вместо фраз «город Москва», «Москва» употребляются выражения «столица России», «крупнейший город России» и т. п.

Рис. 2.6.

В дальнейшем, во избежание путаницы, документы, которые были выданы информационно-поисковой системой, бу-

44

дем называть выданными, а документы, соответствующие информационной потребности пользователя — релевантными.

2.4.2. Основные характеристики результатов поиска

Итак, после обработки запроса информационнопоисковой системой (ИПС) на ИП пространстве выделяются два множества документов — выданные и релевантные. В общем случае эти множества являются пересекающимися, но не совпадающими (рис. 2.7).

Рис. 2.7.

Такое деление позволяет ввести некоторые характеристики результатов поиска. Первая характеристика, называемая полнотой, отражает, как много документов, соответствующих информационной потребности пользователя, осталось за пределами выдачи. Математически эта характеристика выражается следующей формулой:

45

где P – полнота,

V – число выданных релевантных документов,

R - число релевантных документов в Интернет. Естественно, что в идеале значение этой характеристики

должно быть равным единице. Очевидно также, что такого идеального результата на практике достичь невозможно, да и не всегда необходимо, однако существует ряд факторов, которые влияют на полноту поиска и о которых пользователь должен знать, приступая к поисковым работам.

2.4.3. Факторы, влияющие на полноту поиска Первым фактором является то, как составлен запрос.

Так, в рассмотренном выше примере (рис. 2.6), пользователь при составлении запроса не учел возможное наличие документов, содержащих информацию о городе Москве, но в которых не встречается введенное им ключевое слово «Москва».

Процесс составления запроса сводится к выражению информационной потребности пользователя на языке информа-

ционно-поисковой системы (информационно-поисковом язы-

ке). На «качество» запроса влияют несколько факторов:

·выразительные возможности, предоставляемые ин- формационно-поисковым языком,

·умение человека использовать эти возможности,

·главное — умение формулировать свои информационные потребности в терминах и понятиях, которые могут стать ключевыми словами.

Еще одним фактором является то, как пользователь за-

дает информационно-поисковое пространство. Известно,

что Интернет представляет собой набор различных информационных ресурсов. Взаимодействие пользователя с каким-либо ресурсом реализуется с помощью соответствующей службы (сервиса). Например, доступ к Web-документам осуществляется с помощью сервиса WWW, к почтовым сообщениям — с помощью сервиса электронной почты и т.д. Функционирование каждой службы базируется на определенном протоколе (или наборе протоколов), как правило, отличном от протоко-

46

лов других сервисов. Поэтому производить поиск одновременно по всему множеству доступных в Сети документов и других информационных объектов практически трудно. Следовательно, пользователь, выбирая для работы определенную поисковую систему, вынужден смириться с тем, что информа- ционно-поисковое пространство будет ограничено возможностями сетевых сервисов, в рамках которых функционирует выбранная система. Таким образом, выбор конкретной поисковой системы заведомо ограничивает полноту поиска, т.к. часть интересных для пользователя материалов может оказаться недоступной по чисто техническим причинам. Например, используя какую-нибудь поисковую службу в системе WWW, мы, очевидно, не сможем найти сведения, опубликованные в базах данных Hytelnet.

Рис. 2.8.

Второй важной характеристикой поиска является точность, отражающая количество информационного шума, содержащегося в результатах. На языке математики этот параметр описывается соотношением:

47

где Т – точность,

V – число выданных релевантных документов,

R - число релевантных документов поисковой системой. Как и полнота, точность в идеале должна стремиться к

единице, но на практике добиться такого результата довольно сложно. Несмотря на это, пользователь должен учитывать различные факторы, влияющие тем или иным способом на точность поиска.

К числу таких факторов относится уже упомянутое умение пользователя составлять запросы. В рассмотренном примере поиска по ключевому слову «Москва» в запросе не учтено возможное наличие документов, содержащих указанное название, но не содержащих информацию о городе Москве.

Точность и полнота являются классическими харак-

теристиками, привнесенными в современные Интернеттехнологии из теории информационного поиска, сформировавшейся задолго до того, как сложилась современная инфраструктура Сети. Поэтому, анализируя факторы, влияющие на эти параметры, следует учитывать, что Интернет как «мировое информационное хранилище» имеет ряд существенных отличий от тех моделей и реализации баз данных, с которыми имеет дело классическая теория информационного поиска. Прежде всего, здесь следует понимать, что ресурсы Сети сильно распределены. Это позволяет выделить два важных момента.

Во-первых, доступ к определенному документу осуществляется по каналам связи, обладающим конечной пропускной способностью, зависящей от технических характеристик канала и его текущей загрузки. Следовательно, анализ документа на его соответствие запросу требует определенного времени. Теперь давайте представим гипотетическую ситуацию, что на загрузку и анализ одного документа информационнопоисковая система тратит 1 секунду, в этом случае для анализа

48

20 млн. документов, присутствующих в ресурсе WWW РУНет, потребуется около 8 месяцев. Если же мы вернемся к реальной жизни, то, очевидно, это потребует значительно большего времени,

Во-вторых, ресурсы Сети не имеют единого администрирования. Это означает, что в Сети могут изменяться, появляться новые и исчезать существующие документы и целые сайты, и при этом независимо от других. Скорость изменения информации в документах для разных сайтов различна: для некоторых — это несколько раз в час, для некоторых — раз в сутки, день, месяц и т. д., а некоторые могут оставаться неизменными с момента своего появления практически неограниченное время. Такая динамика изменения информационного наполнения Интернет сводит на нет все попытки провести конечный процесс анализа информационных объектов на соответствие ка- кому-либо запросу.

В связи с этим, все информационно-поисковые системы вынуждены иметь специальную базу данных, в которой содержится описание части документов Сети на определенный момент времени. Поэтому очень важно понимать, что когда мы используем какую-либо информационно-поисковую систему для нахождения информации в Интернет, на самом деле

поиск осуществляется не на реальном пространстве документов Сети, а в некоторой модели, содержание которой может значительно отличаться от действительного содержания Интернет в момент проведения поиска. Таким обра-

зом, каждая информационно-поисковая система имеет в своем составе некоторую базу данных, содержащую информацию о документах.

Технические особенности внутреннего устройства таких баз данных представляет «know-how» владельцев поисковых служб, однако все они соответствуют общим принципам построения подобных систем. На пользовательском уровне важно понимать следующее. С каждым документом, попадающим

вбазу данных, связывается некоторый набор данных, который

вдальнейшем позволяет по предъявленному запросу осущест-

49

вить проверку на соответствие. Это может быть множество потенциально ключевых слов, или классификационная информация, позволяющая определить место документа в иерархическом рубрикаторе — все зависит от типа информационнопоисковой системы. Однако следует подчеркнуть, что при анализе соответствия документа запросу обычно использует-

ся не текст документа, а связанный с ним подобный набор данных. Поэтому, от того, как составлен этот набор, зависит, будет ли выдан документ по запросу или нет. Следовательно, особенности построения базы данных информационнопоисковой системы существенно влияют на полноту и точность поиска.

Пополнение базы данных информационно-поисковой системы о документах может производиться автоматически или в ручную — это зависит от типа системы и определяет скорость ее наполнения, что, в свою очередь, также влияет на полноту поиска.

Как уже отмечалось, представление Сети в базе данных поисковой службы может существенно отличаться от реального состояния. К сожалению, довольно часто возникают ситуации, когда пользователь, пытаясь просмотреть выданный документ, получает в ответ сообщение типа «URL not found» («Искомая страница не найдена»). Или, что гораздо хуже, пользователю в результате выдается документ, не соответствующий запросу. Это происходит потому, что по данному адресу находится документ, отличный от того, который был в свое время проанализирован информационно-поисковой системой. Неприятность этой ситуации состоит в том, что приходится тратить время на просмотр такого документа.

Итак, отличие по составу базы данных информационнопоисковой системы от реального пространства Интернет возможно в двух направлениях:

не все документы поискового пространства могут быть представлены в базе данных;

не все документы, представленные в базе данных, могут реально существовать.

50

Рис. 2.9.

Учитывая это, приходится вводить еще одну характеристику результатов поиска — актуальность, показывающую наличие в отклике информации о несуществующих документах. Эта характеристика может восприниматься пользователем как объективная, поскольку основными факторами, влияющими на нее, являются особенности функционирования поисковой системы (точнее — скорость обновление базы данных системы) и скорость обновления информации в той предметной области, в которой осуществляется поиск.

Помимо рассмотренных характеристик — полноты, точности и актуальности, для поиска информации через службы Интернет может быть введена еще одна характеристика — это

скорость получения результатов. Этот параметр определя-

ется рядом факторов, к числу которых относятся:

характеристики каналов связи между компьютером пользователя и сервером поисковой службы,

временная загруженность этих каналов и сервера,

алгоритмы обработки запроса и формирования выдачи поисковой системой,

то, какой запрос предъявляет пользователь.

51

Итак, подведем промежуточный итог. Для результатов поиска информации в Интернет можно выделить четыре основных характеристики:

полнота;

точность;

актуальность,

скорость получения.

На каждую из этих характеристик влияет ряд факторов, о которых должен знать пользователь, приступая к поиску.

Полноту поиска определяют выбор информационнопоискового пространства, определяемого сервисами Интернет,

врамках которых функционирует информационно-поисковая система, а также особенности информационно-поисковой системы и «качество» построения запроса.

На точность также оказывают влияние функциональные особенности информационно-поисковой системы и «качество» построения запроса.

Актуальность, как отмечалось, определяется особенностями поисковой системы и частотой обновления информации

впредметной области.

Скорость получения информации зависит от технических характеристик и загруженности каналов связи и серверов поисковых служб, а также, опять-таки, особенностями алгоритмов, реализованных в поисковой системе, и «качеством» запроса пользователя.

Часть из перечисленных факторов являются объективными, т.е. пользователь, проводящий поиск, практически не в силах управлять ими с целью повышения эффективности поиска. Однако существуют три основных фактора, учитывать которые пользователь должен при проведении поисковых работ. К ним относятся:

выбор информационно-поискового пространства внутри Сети;

особенности информационно-поисковой системы;

«качество» построения запроса.

52