Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

2934

.pdf
Скачиваний:
0
Добавлен:
15.11.2022
Размер:
2.64 Mб
Скачать

Далее предполагается в отдельности рассмотреть проблемы, связанные с этими факторами.

2.4.4. Основные информационные пространства Интернет

Как уже упоминалось, Интернет представляет собой, с точки зрения информационной составляющей, набор различных служб. Каждая служба определяет технологию хранения, передачи информационных объектов и, соответственно, алгоритмы поиска, причем совместимость между этими алгоритмами существует, как правило, на общеметодологическом, а не на конкретно-практическом, уровне. В связи с этим, набор информационных объектов, доступных с помощью каждого сервиса, может рассматриваться как отдельное информационнопоисковое пространство.

Изучения принципов функционирования различных служб и алгоритмов организации доступа к их ресурсам — вполне самостоятельная и объемная тема, поэтому здесь мы остановимся только на вопросах, связанных с организацией и проведением поиска. Ресурсы Интернет, с точки зрения изучаемой темы, удобно разделить на две группы. Первую группу составляют условно называемые «документальноинформационные» ресурсы. К этой группе относятся такие ресурсы, как документы, представленные в гипермедийной системе WWW, файловые архивы, доступные через FTP, базы данных Hytelnet, а также некоторые другие. Вторая группа включает в себя также условно именуемые «коммуникационные ресурсы», позволяющие пользователям Сети обмениваться информацией. Наиболее известные ресурсы этой группы — система электронной почты, система телеконференций, различные средства онлайновых коммуникаций и т.д. «Коммуникационные» ресурсы также важны при проведении поисковых работ, поскольку человек — это главный носитель информации в той предметной области, в которой он является специалистом. И если не удается найти необходимые документы на «информационных» ресурсах, то всегда можно попытаться ус-

53

тановить контакт со специалистами, используя при этом «коммуникационные» ресурсы Интернет.

Следует еще раз подчеркнуть, что деление ресурсов на указанные группы является достаточно условным, т.к. обычно и те и другие позволяют решать как задачи информационного, так и коммуникационного характера.

Значимость того или иного ресурса, с позиции организации поиска, определяется его мощностью, т.е. объемом представленной на нем информации, а также востребованностью этой информации. Последнее связано со следующей проблемой. Известно, что ресурсы сети появлялись не в одно время. Каждый ресурс с момента своего рождения проходит через стадии своего развития: начального наполнения, «информационного расцвета», когда он пользуется огромной популярностью, «угасания», вызванного появлением более совершенных технологий и, соответственно, формированием нового ресурса. Поэтому каждый ресурс, как правило, хранит в себе материалы, опубликованные на первых двух стадиях его жизни. Со временем, для определенного количества пользователей эта информация перестает быть актуальной и значимость этого ресурса снижается. Тем не менее, пока ресурс существует, его информационное наполнение может быть востребовано при проведении поисковых работ.

В настоящее время наиболее популярной является система WWW, на которой представлена значительная часть материалов, опубликованных в Интернет, причем часть информационных объектов других ресурсов продублирована в виде Web-документов. Помимо этого, сама организация хранения документов в этом ресурсе достаточно удобна для проведения глобального поиска и отсева нерелевантной информации (например, по сравнению с архивами FTP или базами данных Hytelnet). В связи с этим далее мы будем рассматривать особенности проведения поиска именно для WWW, хотя часть изложенного материала, носящего общеметодологический характер, справедлива и для других ресурсов.

54

2.4.5. Информационно-поисковые системы в WWW

Как уже отмечалось выше, информационно-поисковые системы в Интернет и, в частности, на пространстве WWW бывают различных типов, и для систем каждого типа существует свой набор функциональных особенностей, оказывающих влияние на характеристики результатов поиска. Поэтому необходимо рассмотреть существующие классификации поисковых средств.

Первым классификационным признаком поисковых служб является способ организации и пополнения базы данных о документах Сети. По этому признаку системы делятся на каталоги и поисковые машины. В основе каталога лежит иерархически упорядоченная база данных (рубрикатор) документов, информация в которую заносится человеком. В отличие от каталогов, поисковые машины являются активными системами, которые «самостоятельно» исследуют Сеть с целью пополнения своих баз данных документов. В настоящее время наметилась тенденция к созданию так называемых гибридных систем, которые сочетают в себе функции как каталога, так и поисковой машины.

Второй способ классификации поисковых служб — классификация по глубине охвата ресурса. По данному признаку системы делятся на глобальные и локальные.

Глобальные каталоги и поисковые машины действуют на всем пространстве WWW. Это означает, что все документы WWW потенциально могут попасть в базу данных такой ин- формационно-поисковой системы. В качестве примеров глобальных каталогов можно привести Yahoo (www.yahoo.com) и Lycos (www.lycos.com), а в качестве примеров поисковых ма-

шин — Altavista (www.altavista.com), Excite (www.excite.com), HotBot (hotbot.lycos.com), Infoseek, сменившую свое название на Go (www.go.com), и Google (www.google.com). В локальных информационно-поисковых системах поисковое пространство является частью пространства WWW и, следовательно, не все документы этого ресурса могут попасть в базу данных таких систем.

55

Среди локальных каталогов и поисковых машин выделяют региональные системы, информационно-поисковое пространство которых строится по региональному или национальному признаку, и специализированные системы, которые действуют на пространстве документов, соответствующих ка- кой-либо определенной тематике. Примером локальных каталогов служат российские каталоги @Rus (www.atrus.ru), List.Ru (www.list.ru) и City.Ru (www.city.ru). В качестве ло-

кальных поисковых машин, действующих на пространстве РУНет, следует назвать Aport (www.aport.ru). Rambler (www. rambler, ru) и Яndех (www.yandex.ru). Очевидно, что сужение информационно-поискового пространства снижает и полноту результатов поиска.

2.4.6. Особенности каталогов

Основной характеристикой каталогов является объем базы данных, т.е. количество представленных документов. Для глобальных каталогов данная величина составляет примерно 1—2 миллиона документов (на май 2000 г.), что составляет порядка 0,1-0,2% от общего пространства WWW. Поэтому использование каталогов не может дать результатов, обладающих высокой полнотой. По сравнению с поисковыми машинами скорость увеличения баз данных каталогов достаточно мала, поскольку их пополнение происходит вручную. Однако это может рассматриваться и как преимущество поисковых систем данного типа, поскольку ручной отбор позволяет повысить точность поиска.

В качестве второй характеристики следует выделить ко-

личество категорий или рубрик в каталоге. Естественно,

чем выше это значение, тем большей точностью характеризуются результаты поиска. Для глобальных каталогов это значение в настоящее время составляет несколько десятков тысяч.

Принципы работы с каталогами достаточно просты. Как правило, главная страница Web-сайта каталога содержит в себе список категорий, или рубрик, каждая из которых представлена гиперссылкой. По такой гиперссылке пользователь может

56

перейти на страницу, содержащую список подрубрик или документов, соответствующих этой рубрике.

2.4.7. Особенности поисковых машин

Поисковые машины устроены гораздо сложнее каталогов. В структуре поисковой машины выделяют обычно три составляющие — специальную программу, осуществляющую сканирование Сети, именуемую поисковым роботом, базу данных документов, называемую индексом, и интерфейсную часть, предназначенную для взаимодействия с пользователем. Поисковый робот осуществляет просмотр Сети с целью выявления новых документов для включения их в базу данных поисковой машины — индекс. Процесс занесения информации о документе в индекс называется индексированием. Чтобы понять, каким образом робот осуществляет отбор документов для анализа, достаточно вспомнить, что большинство опубликованных Web-страниц содержат гиперссылки на другие объекты. Наличие гиперссылок позволяет роботу автоматически формировать очередь документов. Кроме того, большинство поисковых систем имеют механизм регистрации, что позволяет владельцам сайтов «в ручную» добавить свои страницы в очередь на индексирование.

В процессе занесения документов в индекс поисковая машина составляет список слов документа, которые являются потенциальными ключевыми словами. Каждая поисковая система имеет свои алгоритмы индексирования и форматы индексных файлов, составляющих базу данных. Все это, естественно, составляет коммерческую тайну разработчиков системы. Однако независимо от способов индексирования документов существует ряд характеристик, которые присущи всем поисковым машинам и которые могут тем или иным образом сказываться на результатах поиска. Остановимся подробнее на основных.

57

2.4.8. Объем индекса

Это одна из важных характеристик, позволяющих оценить потенциальные возможности системы с точки зрения полноты поиска. В таблице 1 приведены соответствующие значения для упомянутых выше глобальных поисковых машин по состоянию на октябрь 2000 года.

 

 

Таблица 2.1.

Оценка потенциальных возможностей системы с точки

 

зрения полноты поиска

Поисковая

Независимая оценка

Заявленный объем

 

машина

«Search Engine Show-

млн. страниц

 

 

down», млн. страниц

 

 

 

 

 

 

Fast

498

578

 

 

 

 

 

Google!

470

560

 

 

 

 

 

Northern Light

380

319

 

 

 

 

 

iWon

365

500

 

 

 

 

 

Altavista

294

340

 

 

 

 

 

2.4.9. Период обновления

Этот параметр является достаточно важным с точки зрения актуальности результатов поиска. То, с какой скоростью поисковая машина обновляет информацию о документах уже содержащихся в индексе, зависит от многих параметров, в том числе, и от объема индекса. В Интернет доступны обзоры, позволяющие оценить долю неактуальных ссылок для различных поисковых систем. В частности, для упомянутых глобальных машин эта величина составляет от 2,3% (HotBot) до 13,7% (Altavista).

2.4.10. Представление документа при индексировании

Известно, что документ в формате HTML состоит из различных частей, прежде всего это части <HEAD>... </HEAD> и <BODY>... </BODY>. Кроме того, в основном тексте документа могут присутствовать заголовки, подзаголовки, подписи к

58

рисункам и т.п. В связи с этим, в качестве классификационного признака поисковых роботов можно выделить то, каким образом робот различает (или не различает) эти части документа при индексировании. Это может оказаться важным при формировании выдачи и оказывает влияние на точность отклика.

Глубина индексирования и ограничение на количество страниц одного домена

Эти параметры показывают, как много страниц одного сайта могут оказаться в индексе поисковой машины. Установка ограничений такого рода связана, как правило, с большим объемом индекса и свойственна, прежде всего, глобальным системам. Как показывают различные аналитические обзоры, для российских машин таких ограничений пока нет, однако их появление допускается при существенном увеличении размеров индексов.

Помимо указанных, существует еще значительное число характеристик поисковых машин, понимание которых требует определенной технической подготовки пользователя. Однако отдельно необходимо остановиться на некоторых особенностях интерфейса поисковых машин.

2.4.11.Особенности организации ввода запроса

Вфункции интерфейсной части поисковых машин входят две задачи — предоставить пользователю возможность

ввести запрос и отобразить список документов, составляю-

щих отклик.

Для ввода запроса обычно используется так называемая полоса ввода текста, которая присутствует на главной Webстранице поисковой машины. Однако большинство машин предоставляют возможность так называемого «расширенного поиска» (Advanced Search) через специальную Web-страницу, ссылка на которую обычно присутствует на главной странице. Использование «расширенного поиска» позволяет пользователю задать дополнительные параметры поиска, такие как дату создания документа, язык документа, ограничить часть документа, по которой осуществляется поиск и т.д. Состав этой

59

страницы зависит от возможностей информационно-поисковой системы. Например, страница расширенного поиска системы

Aport.

Организацию вывода отобранных документов следует рассматривать с точки зрения вопросов: как упорядочиваются документы, и какая информация о документе выводится.

2.4.12.Ранжирование документов

Внастоящее время поисковые машины предоставляют пользователю возможность выбора способа упорядочивания документов. Как правило, в арсенале системы находится несколько способов, основным из которых является «степень релевантности», или рейтинг документа. Естественно, что не все документы одинаково, с точки зрения поисковой машины, соответствуют запросу. Очевидно также, что каждая система имеет свой собственный принцип оценки этого параметра, но, тем не менее, существует ряд общих методов. На «степень релевантности» оказывают влияние такие факторы, как место-

положение ключевых слов в документе и числовые харак-

теристики ключевых слов. Больший рейтинг документу обеспечивается, если, например, указанные пользователем ключевые слова встречаются в заголовке документа (внутри тега <TITLE>... </TITLE>), в специальных мета-тегах

<KEYWORDS> и <DESCRIPTION>, в подписях к иллюстра-

циям (свойство ALT тега <IMG>), а также выделены в основном тексте с помощью тегов <Н1> — <Н6>, <В>, <I>, <DFN>

ит.п. Из количественных характеристик обычно учитывают две — число вхождений ключевых слов в текст документа и плотность ключевых слов, т.е. отношение числа вхождений ключевых слов к общему числу слов в документе.

2.4.13.Вывод дополнительной информации

Поисковые системы по-разному оформляют список ре-

зультатов поиска. Некоторые просто предоставляют список документов, а некоторые для удобства пользователя выводят такие сведения, как оценка степени релевантности, дата об-

60

новления документа в индексе, язык документа, а также предоставляют информацию о сайте. Поисковая система Aport даже предоставляет пользователю реконструкцию контекстов, в которых встретились ключевые слова, указанные в запросе.

2.4.14. Проблемы индексирования Web-документов

Поскольку основным средством «передвижения» поискового робота по документам сети является переход по гиперссылкам, роботы некоторых поисковых служб могут оказаться неспособными перейти от документа к документу, если связь между ними зафиксирована с помощью конструкций, не содержащих явно тег <А>. К ним относятся конструкции Frame и ImageMap. Поэтому при подготовке Web-документов следует помнить о возможных трудностях, связанных с использованием таких конструкций.

2.4.15. Ограничения области действия поисковых роботов

Следует помнить о том, что за пределами внимания поисковых роботов может остаться часть документов проиндексированного Web-сайта, даже если робот не имеет ограничений по глубине индексирования и числу страниц одного сайта или домена. Такая ситуация возможна, если на сайте опубликованы документы в формате, отличном от HTML, например, документы в формате Microsoft Word, презентации Microsoft PowerPoint, архивы ZIP, RAR и т.п.

2.4.16.Использование метапоисковых систем

Внастоящее время все более и более популярными становятся метапоисковые системы. Такие системы не имеют собственных поисковых инструментов и собственной базы данных документов. Их основная задача состоит в том, чтобы передать запрос пользователя «настоящим» поисковым системам. Важным достоинством систем метапоиска является то, что они позволяют задействовать сразу несколько поисковых

61

служб, при этом у пользователя нет необходимости подключаться к каждой из этих служб и многократно вводить запрос.

Метапоисковые системы бывают двух видов: представленные в виде Web-сайта в Интернет и реализованные как отдельные программы, требующие установки на пользовательский компьютер. В качестве систем первой группы можно на-

звать глобальные службы Search (www.search.com) и MetaCrawler (www.metacrawler.com). а также российскую систему «Следопыт» (www.medialingua.ru/www/wwwsearc.htm).

Для примера систем второй группы можно назвать программу Internet Explorer, оснащенную некоторыми функциями метапоиска. Запрос, который пользователь вводит через форму «Поиск», переадресовывается различным поисковым машинам. Набор используемых систем поиска зависит от того, для какого региона локализована версия браузера. Для русской версии — это отечественные системы Yandex, Rambler, Aport, глобальная машина Excite и система поиска от Microsoft «MSN Web Search». К сожалению, добавить в этот список новую систему крайне затруднительно для обычного пользователя, не имеющего детального представления о программной архитектуре Windows и Internet Explorer, однако можно легко отказаться от использования той или иной службы. Для этого надо нажать на кнопку «Настроить» панели инструментов формы поиск. При этом на экране отобразится окно диалога, позволяющее определить, какие поисковые системы и в каком порядке должны использоваться.

Проводя поиск, программа Internet Explorer, в отличие от подхода, свойственного многим метапоисковым системам, не формирует общего результирующего списка, а выводит выданные различными службами списки документов по отдельности. Для просмотра отклика какой-нибудь одной системы необходимо использовать кнопку «Следующий» на панели инструментов формы поиска.

62

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]