Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
0749667_2BFE1_aliev_t_a_zabolotskaya_t_a_akadem...doc
Скачиваний:
1
Добавлен:
01.07.2025
Размер:
878.08 Кб
Скачать

5.2. Поиск информации

Поиск в сети Интернет необходимой информации, особенно научного характера, является непростой задачей. В начале 2000 г. ресурсы сети Интернет составляли примерно 850 миллионов Web-страниц, и с каждым днем их количество стремительно увеличивается.

В Интернете поиск информации обеспечивают специальные поисковые службы, от умения пользоваться которыми зависит успех поиска. В традиционной библиотеке на помощь читателю приходят различные каталоги: систематический, алфавитный, предметный и другие. В Сети, обращаясь к поисковой службе, вы должны «объяснить» машине (доступными средствами) то, что вам необходимо найти. Поисковые службы можно классифицировать по способам формирования ресурсов, по типам предоставляемых услуг и т.д.

5.2.1. Поисковые каталоги

При работе с поисковым каталогом для получения конкретного списка Web-ресурсов, необходимо на начальной странице этого каталога выбрать интересующую вас тему, затем в рамках этой темы — категорию, потом — подкатегорию и так далее, пока вы не получите список ресурсов, рекомендованных для просмотра. В этом поисковые каталоги похожи на предметные каталоги общественных и научных библиотек. Крупнейшим поисковым каталогом мира сегодня считается поисковая система «Yahoo!» (www.yahoo.com). Она предоставляет примерно 1млн ссылок к ресурсам Сети, т. е. охватывает лишь тысячную долю всего Web-пространства. В России аналогом такого поискового каталога можно назвать каталог «Атрус» (www.atrus.ru).

Достоинством поисковых каталогов, как и их недостатком, является «человеческий фактор». Вся информация, помещаемая в каталог, просматривается и отбирается специально подготовленным штатом редакторов. Такой подход к формированию каталогов защищает их от информационного «мусора», страниц-однодневок и обеспечивает высокую репутацию таких служб, как «Yahoo!», хотя совокупный объем ресурсов справочных каталогов невелик.

5.2.2. Поисковые указатели

Основное отличие поисковых указателей от поисковых каталогов состоит в полной автоматизации всех этапов работ. Количество страниц, среди которых ведут поиски крупнейшие поисковые указатели, приближается к 300-миллионному рубежу. Но то, насколько точно выданный список будет соответствовать вашему запросу и, в конечном счете, решению вашей задачи, зависит от особенностей работы того поискового указателя, который вы выбрали.

В своем большинстве современные поисковые системы начинались с разработки, в основном в университетских лабораториях США, специальных экспериментальных программ для мониторинга Сети. Программа, путешествуя по Web-узлам Интернета, просматривает Web-страницы и копирует их содержание на центральный сервер поисковой системы. Такие агентские программы называют «поисковыми роботами», «поисковыми машинами», «пауками», «червяками» и т.п.

Второй этап работы поисковой системы — индексация, т. е. преобразование всей информации, собранной поисковыми роботами, в форму, обеспечивающую быстрый поиск документа по запросу пользователя. Каждая поисковая система имеет свои приемы и методы индексации. В частности перед индексацией большинство систем очищают документ от так называемых зарезервированных слов (stop-words), к которым относятся артикли, предлоги, местоимения, а также слова, которые встречаются повсеместно, такие, например, как «computer». Некоторые системы производят нормализацию слов, отбрасывая суффиксы и окончания.

На основе «зачищенных» документов готовятся индексы Web-страниц — особая база данных, по которой впоследствии будет производиться поиск запрашиваемой информации. Алгоритм индексации, а также поисковый робот составляют коммерческую тайну поисковой службы и не разглашаются.

Третий этап работы поискового указателя — ответ на ваш конкретный запрос. Поисковая система анализирует ключевые слова запроса пользователя, затем просматривает созданные индексы хранящихся на ее сервере документов, после чего выполняется поиск совпадений. В работе службы отсутствует «человеческий фактор», поэтому найденных по вашему запросу Web-страниц будет гораздо больше, чем при поиске через поисковый каталог.

В формировании результирующего списка найденных ссылок каждая поисковая система придерживается своей политики. Чаще других при исчислении рейтинга ссылок учитываются такие обстоятельства:

разыскиваемые слова встречаются на Web-странице неоднократно (но не слишком часто, и не подряд);

разыскиваемые слова расположены близко к началу страницы;

разыскиваемые слова присутствуют в заголовке страницы;

Web-страница имеет иллюстрацию, текст к которой содержит слова, введенные пользователем.

Некоторые поисковые системы учитывают количество ссылок, ведущих к найденному ресурсу, т. е. по «мнению» поисковой службы, чем больше публикаций ссылаются на данный ресурс, тем он популярнее, а значит полезнее автору запроса. К сожалению, некоторые поисковые системы (в том числе и такие известные, как «Alta Vista») начали повышать рейтинг тем, кто за это платит, объясняя свою позицию тезисом о том, что для пользователя ценность информации на сайте солидной фирмы выше, чем на личной странице никому неизвестного автора.

У каждого из двух основных типов поисковых служб есть свои преимущества и недостатки, которые вытекают, в основном, из принципов их работы.

Поисковые каталоги формируются с участием ответственных редакторов, которые имеют, как правило, солидное образование в различных областях науки, техники и культуры. Чаще всего, если вы находите в каталогах нужный вам ресурс, можно считать, что он — один из лучших в Сети. Поэтому, если вам необходимо быстро найти хороший достоверный источник по какой-то теме, надо начинать поиск с поискового каталога.

Существенным недостатком всех поисковых каталогов является их слабое знание о подлинных ресурсах WWW (глубинном Интернете — «Deep Web»), так как ручная обработка материала замедляет процесс накопления фондов каталога.

Поисковые указатели, в свою очередь, пополняют свои активы за счет деятельности поисковых роботов, которые проникают во все уголки Web-пространства, работая постоянно, днем и ночью. Объем проиндексированных этими поисковыми системами документов составляет примерно 25% от общего объема WWW, что является хорошим показателем для стремительно «растущей» Сети.

В то же время отсутствие контроля человека за сбором информации откладывает отпечаток на качество собираемого материала. Роботу не под силу оценить научную значимость и достоверность найденного материала, профессиональный уровень автора, верно определить рейтинг документа в результирующем списке. Однако поисковые указатели окажут вам неоценимую помощь в розыске новых, только что появившихся в Сети материалов, хотя возможно и спорных, к анализу которых следует подойти ответственно.