Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
книги_other / Энциклопедия студента Сост. И.Кузнецов.pdf
Скачиваний:
299
Добавлен:
21.03.2015
Размер:
5.57 Mб
Скачать

Примечание. Не делайте скоропалительных выводов, если ничего (или почти ничего) не найдено. Часто это не является свидетельством отсутствия информации. Обычно доказать отрицательный результат (т. е. отсутствие литературы по этой теме) непросто. Прежде чем прийти к такому заключению, надо попробовать, несколько других подходов.

Как правило, гораздо легче идти от широкой стратегии к узкой, чем, наоборот, построить очень узкую стратегию и расширять ее, если найдено слишком мало. Если одновременно используются несколько критериев поиска, попробуйте «ослабить» или убрать некоторые. Чрезмерно обширный результат поиска явление довольно распространенное, часто из-за ошибочного определения проблемы или формулировки запроса.

Но что делать, если нашлось 400 действительно хороших ссылок по теме ваших исследований, а вам достаточно 25? Тогда попробуйте:

ограничить поиск дополнительными критериями, предусмотренными системой (для баз данных OVID Technologies - это может быть язык или год публикации, тип статьи, объект исследования и др.);

прочитать названия и аннотации и выбрать самостоятельно наиболее подходящие ссылки, хотя это весьма поверхностный подход, не учитывающий полного содержания статьи.

Если вы удовлетворены результатом поиска, запишите стратегию - она может быть неоднократно использована в дальнейшем для поиска более современной литературы.

Говорят, что в Интернете есть все. На самом деле, конечно, это не так. Материалы для размещения в Сети готовят живые люди, и потому там можно найти лишь то. что они сочли нужным (в смысле полезным или выгодным для себя) опубликовать.

В результате каталогизация имеющихся в Сети ресурсов стала серьезной проблемой. Несмотря на то, что ею занимаются тысячи организаций, проблема не только не приближается к разрешению, но и становится острее. Процент каталогизированных (или индексированных) ресурсов неуклонно падает. В последние два года это падение стало катастрофическим.

Вывод простой: пространство Web быстрее наполняется, чем систематизируется.

Ксожалению, у нас нет оснований предполагать, что в ближайшее время что-нибудь может измениться к лучшему.

В итоге поиск информации в World Wide Web можно считать самой трудной задачей в Интернете. Если вы подключились к Сети с серьезными намерениями, не пожалейте времени для решения этой задачи.

Поисковые системы Интернета

Поисковые каталоги

Взгляните на эту книгу. Она начинается с Содержания и заканчивается Алфавитным указателем. Несмотря на то, что они расположены в разных местах книги и выглядят совершенно по-разному, задача у них одна: помочь найти в книге именно тот раздел, который в данный момент нужен.

146

Содержание - это пример каталогизации. Читатель выбирает тему, которая ему интересна, и по ней находит номер страницы, где эта тема раскрывается.

Алфавитный указатель - пример индексации (по-английски index - это я есть указатель). Читатель находит в указателе нужный термин и получает номер страницы, на которой он встречается.

ВИнтернете каталоги и указатели различаются технологией подготовки. Над каталогами работают люди, а указатели формируются автоматически.

При каталогизации ресурса опытный редактор внимательно просматривает его, определяет, к какой области знаний относится данный ресурс, устанавливает его категорию в этой отрасли и вносит ресурс в каталог.

Самый крупный каталог Интернета - Yahoo (www.yahoo, com). В нем работают более 150 квалифицированных редакторов. Это большая организация, но и ее усилий хватает лишь на то, чтобы поддерживать каталог на уровне примерно 1 миллиона ресурсов. Дальнейшее расширение сдерживается необходимостью поддерживать уровень актуальности.

Сегодня редакторы Yahoo заняты не столько наполнением каталога новыми ресурсами, сколько проверкой актуальности ресурсов, каталогизированных ранее.

Вроссийской части Интернета тоже есть несколько каталогов. В недавнем прошлом лучшим считался каталог @Rus (www.atrus.ru), но в последний год он заметно коммерциализировался, поменял направленность и сейчас представляет не столько каталог, сколько группу тематических Web-порталов, собранных под одним доменным именем и посвященных обществу, музыке, спорту, здоровью и т. д.

Лишь в категории «Интернет» @Rus продолжает оставаться полноценным каталогом с базой данных среднего размера (порядка 10 тыс. классифицированных ссылок).

Ведущим же каталогом России в настоящее время стал ресурс «List.Ru» (www.list.ru). Его активы - примерно 100 тыс. ссылок, классифицированных по 18 категориям (Автомобили, Вокруг света. Отдых, Образование и наука и т. д.).

С большим отставанием за ним следуют еще два каталога: «Созвездие Интернет»

(www.stars.ru) и «Russia on the Net» (www.ru). Их активы примерно равнозначны и составляют 35-40 тыс. ссылок, но активы «Созвездия» выглядят более актуальными.

Поисковые указатели

Поисковые указатели - это автоматизированные системы. Они способны функционировать без участия человека, и потому их знание о подлинных ресурсах Сети намного (на несколько порядков) больше. Количество проиндексированных Webстраниц может измеряться сотнями миллионов.

Работа поискового указателя происходит в три этапа, из которых два первых являются подготовительными и незаметны для пользователя. Сначала поисковый указатель собирает информацию из World Wide Web. Для этого используют специальные программы, аналогичные броузерам.

Они способны скопировать заданную Web-страницу на сервер поискового указателя, просмотреть ее. найти все гиперссылки, которые на ней имеются, перейти по указанным в них адресам, скопировать те ресурсы, которые найдены там, снова разыскать имеющиеся в них гиперссылки и т. д.

147

Подобные программы называют червяками, пауками, гусеницами, краулерами, спайдерами и другими подобными именами. Каждый поисковый указатель эксплуатирует для этой цели свою уникальную программу, которую нередко сам и разрабатывает.

Многие современные поисковые системы родились из экспериментальных проектов, связанных с разработкой и внедрением автоматических программ, занимающихся мониторингом Сети.

Теоретически, при удачном входе спайдер способен прочесать все Webпространство за одно погружение, но на это надо очень много времени, а ему еще необходимо периодически возвращаться к ранее посещенным ресурсам, чтобы контролировать происходящие там изменения и выявлять «мертвые», т. е. потерявшие актуальность ссылки. Неактуальными называют ресурсы, которые по каким-то причинам перестали существовать (или изменили местоположение), хотя гиперссылки, имеющиеся в других ресурсах, продолжают на них указывать. При использовании «мертвых» гиперссылок мы получаем сообщение от броузера о том, что ресурс не найден.

После копирования разысканных Web-ресурсов на сервер поисковой системы начинается второй этап работы - индексация. В ходе индексации создаются специальные базы данных, с помощью которых можно установить, где и когда в Интернете встречалось то или иное слово.

Считайте, что индексированная база данных - это своего рода словарь. Она необходима для того, чтобы поисковая система могла очень быстро отвечать на запросы пользователей. Современные системы способны выдавать ответы за доли секунды, но если не подготовить индексы заранее, то обработка одного запроса будет продолжаться часами.

На третьем этапе происходит обработка запроса клиента и выдача ему результатов поиска в виде списка гиперссылок. Допустим, клиент хочет узнать, где в Интернете имеются Web-страницы, на которых упоминается известный голландский механик, оптик и математик Христиан Гюйгенс. Он вводит слово Гюйгенс в поле набора ключевых слов и нажимает кнопку Найти (Search). По своим базам указателей поисковая система в доли секунды разыскивает подходящие Web-ресурсы и формирует страницу результатов поиска, на которой рекомендации представлены в виде гиперссылок, Далее клиент может пользоваться этими ссылками для перехода к интересующим его ресурсам.

Все это выглядит достаточно просто, но на самом деле здесь есть проблемы. Основная проблема Современного Интернета связана с изобилием Web-страниц. Достаточно ввести в поле поиска такое простое слово, как, например, «футбол», и российская поисковая система выдаст несколько тысяч ссылок, сгруппировав их по 1020 штук на отображаемой странице.

Несколько тысяч - это еще не так много, потому что зарубежная поисковая система в аналогичной ситуации выдала бы сотни тысяч ссылок. Попробуйте найти среди них нужную! Впрочем, для рядового потребителя совершенно все равно, выдадут ему тысячу результатов поиска или миллион.

Как правило, клиенты просматривают не более 50 ссылок, стоящих первыми, и что там делается дальше, мало кого беспокоит. Однако клиентов очень и очень беспокоит качество самых первых ссылок. Клиенты не любят, когда в первом десятке встречаются ссылки, утратившие актуальность, их раздражает, когда подряд идут

148

ссылки на соседние файлы одного и того же сервера. Самый же плохой вариант - когда подряд идут несколько ссылок, ведущих к одному и тому же ресурсу, но находящемуся на разных серверах.

Клиент вправе ожидать, что самыми первыми будут стоять наиболее полезные ссылки. Вот здесь и возникает проблема. Человек легко отличает полезный ресурс от бесполезного, но как объяснить это программе?! Поэтому лучшие поисковые системы проявляют чудеса искусственного интеллекта в попытке отсортировать найденные ссылки по качественности их ресурсов. И делать это они должны быстро - клиент не любит ждать.

Строго говоря, все поисковые системы черпают исходную информацию из одного и того же Web-пространства, поэтому исходные базы данных у них могут быть относительно похожи. И лишь на третьем этапе, при выдаче результатов поиска, каждая поисковая система начинает проявлять свои лучшие (или худшие) индивидуальные черты.

Операция сортировки полученных результатов называется ранжированием. Каждой найденной Web-странице система присваивает какой-то рейтинг, который должен отражать качество материала.

Но качество - понятие субъективное, а программе нужны объективные критерии, которые можно выразить числами, пригодными для сравнения. Высокие рейтинги получают Web-страницы, у которых ключевое слово, использованное в запросе, входит в заголовок. Уровень рейтинга повышается, если это слово встречается на Web-странице несколько раз, но не слишком часто.

Благоприятно влияет на рейтинг вхождение нужного слова в первые 5-6 абзацев текста - они считаются самыми важными при индексации. По этой причине опытные Web-мастера избегают давать в начале своих страниц таблицы. Для поисковой системы каждая ячейка таблицы выглядит как абзац, и потому основной содержательный текст как бы далеко отодвигается назад (хотя на экране это и не заметно) и перестает играть решающую роль для поисковой системы.

Очень хорошо, если ключевые слова, использованные в запросе, входят в альтернативный текст, сопровождающий иллюстрации. Для поисковой системы это верный признак того, что данная страница точно соответствует запросу. Еще одним признаком качества Web-страницы является тот факт, что на нее есть ссылки с каких-то других Web-страниц. Чем их больше, тем лучше. Значит, эта Web-страница популярна и обладает высоким показателем цитирования.

Самые совершенные поисковые системы следят за уровнем цитирования зарегистрированных ими Web-страниц и учитывают его при ранжировании.

Создатели Web-страниц всегда заинтересованы в том, чтобы их просматривало больше людей, поэтому они специально готовят страницы так, чтобы поисковые системы давали им высокий рейтинг. Хорошая, грамотная работа Web-мастера способна значительно поднять посещаемость Web-страницы, однако есть и такие «мастера», которые пытаются обмануть поисковые системы и придать своим Web-страницам значимость, которой в них на самом деле нет. Они многократно повторяют на Webстранице какие-то слова или группы слов, а для того чтобы те не попадались на глаза читателю, либо делают их исключительно мелким шрифтом, либо применяют цвет текста, совпадающий с цветом фона.

149

За такие «хитрости» поисковая система может и наказать Web-страницу, присвоив ей штрафной отрицательный рейтинг. В последние годы сложилась и практика коммерческого рейтингования. В этом случае поисковая система дает более высокий рейтинг тем Wеb-страницам. за которые их владелец заплатил.

Невзирая на очевидную субъективность такого подхода. в нем есть определенный смысл для тех, кто ищет информацию в Интернете по распространенным словам. Например, если клиент ввел в поле поиска слово «автомобиль» или «сантехника», то можно предположить, что он хочет приобрести либо машину, либо смеситель для мойки. В этом случае ему не нужны романы из жизни сантехников, как не нужны и рассуждения об управлении автомобилем. Почему бы не дать ему на первом месте среди результатов поиска адреса известных торговых фирм?

Необходимость в ранжировании результатов поиска очевидна. Без этого клиенты захлебнулись бы в потоке предлагаемых ссылок и. может быть, так никогда и не добрались бы до самых полезных для себя ресурсов.

Однако у ранжирования есть и негативная сторона. У каждой поисковой системы своя политика ранжирования, и не исключено, что взгляды создателей поисковой системы не вполне совпадают со взглядами клиента. Очень может быть и так, что до каких-то ценных для себя ресурсов он никогда и не доберется, потому что по результатам ранжирования они всегда будут отодвигаться глубоко вниз.

Из этого можно сделать несколько выводов:

Во-первых, старайтесь избегать прямолинейного поиска по одному слову. Дайте поисковой системе группу ключевых слов, а еще лучше - фразу.

Для поиска по группе слов или по ключевой фразе используйте не какую попало поисковую систему, а ту, к которой наиболее привыкли. В разных системах используются разные правила для записи группы слов, и эти правила надо знать (об этом мы поговорим ниже).

Если пользуетесь поиском по одному слову, то, наоборот, применяйте как можно больше разных поисковых систем. То, что они используют разные алгоритмы рейтингования, нам на пользу - это дает шанс не пропустить какой-то значимый ресурс.

Краткий обзор поисковых указателей России

За рубежом возникновение первых поисковых указателей относится к 19941995гг., а в России - к 1996-1997 гг. Поскольку в России объем Web-ресурсов составляет лишь несколько процентов от мирового, отечественным поисковым системам работать много проще, чем западным. Технически они оснащены самыми современными средствами, соответствующими уровню 2000 года, а общий размер Рунета (российского сектора Интернета) сегодня примерно таков, каким был западный сектор в 1994 1995 гг.

Поэтому сегодня в России особых проблем с поиском информации нет и в ближайшее время они не предвидятся. А в западном секторе проблемы с поиском очень большие, и разные поисковые системы пытаются по-разному их преодолеть. О том, как это происходит, мы и расскажем.

Из поисковых указателей в России сегодня действуют три главных (есть и более мелкие системы, но мы останавливаться на них не будем). Это «Рамблер»

(www.rambler.ru), «Яндекс» (www.yandex.ru) и «Апорт2000» (www.aport.ru).

150

Исторически наиболее популярной поисковой системой является «Рамблер». Она начала работать раньше других и долгое время лидировала по размеру поискового указателя и качеству услуг поиска. Увы, сегодня эти достижения в прошлом. Несмотря на то, что размер поискового указателя «Рамблер» примерно равен 12 миллионам Webстраниц, он давно толком не обновлялся и выдает устаревшие результаты.

Сегодня «Рамблер» - это популярный портал, лучшая в России классификационнорейтинговая система (о том, что это такое, мы расскажем ниже) плюс рекламная площадка. Традиционно эта система держит первое место в России по посещаемости и имеет хорошие доходы от рекламы. Но в развитие средств поиска денежные средства, как мы покажем ниже, не вкладываются.

Самый большой указатель лежит в основе системы «Яндекс» - примерно 27 миллионов Web-страниц, но дело не только в размере. Это не просто указатель на ресурсы, а указатель на самые актуальные ресурсы.

Система «Апорт» выигрывает на третьем этапе в момент представления информации клиенту. Она не стремится к созданию самого большого указателя автоматическими средствами, а вместо этого широко использует информацию из каталога @Rus, проходящую ручную обработку. Поэтому система выдает не так много результатов, как ее ближайшие конкуренты, но зато эти результаты, как правило, точны и наглядно представлены.

Краткий обзор зарубежных поисковых указателей

За рубежом поисковых указателей гораздо больше. Если брать только крупнейшие, то можно насчитать около двух десятков. Мы в нашем обзоре остановимся на трех.

Наиболее популярной (кстати, совершенно незаслуженно, как мы покажем далее) считается поисковая система Alta Vista (www.altavisla.com). Она была одной из первых и при ее красивом названии долгое время держалась в лидерах. К сожалению, сегодня нет никаких оснований, чтобы пользоваться ее услугами. Рано проведя акционирование, Alta Vista сегодня вынуждена больше заботиться об интересах акционеров, чем о развитии. Для нас с вами это означает, что индексацию новых ресурсов система тормозит, причем принудительно, а обновлением старых ресурсов не занимается. Ее указатели безнадежно устарели, а изобилие рекламных баннеров на страницах поиска никак не способствует скорости работы.

Самой мощной в мире сегодня является поисковая система Fast Search (www.alltheweb.com). О ней мало кто знает, потому что она была открыта сравнительно недавно (летом 1999 года). Создатели системы поставили перед ней глобальную цель - создать самый крупный и самый быстрый указатель в мире. Эта цель была достигнута в считанные месяцы.

Из множества прочих специально выделим систему Northern Light (www.northernlight.com). Она имеет приличный указатель, приближающийся к 300 миллионам Web-страниц, и предпринимает заметные усилия по поддержанию его актуальности. Эта система идеальна для проведения научных исследований, благодаря тому что сочетает индексацию и каталогизацию. После поиска по ключевым словам система не только выдает обширные списки ссылок на найденные ресурсы, но и формирует набор папок, в которых результаты поиска располагаются по отдельным

151

категориям. Кроме того, в системе есть специальный раздел каталожного типа, который называется Special Editions. Он ведется вручную, и в нем можно найти готовые подборки материалов по актуальным проблемам. Имеется в системе и небольшой коммерческий раздел Special Collections. Его материалы поставляются за деньги. Впрочем, коммерческий раздел невелик и совершенно не портит систему. По-видимому, он рассчитан на журналистов, которым могут срочно потребоваться справки по «горячим» темам.

Проверка и выбор поискового указателя

Конкретные рекомендации по выбору поискового указателя очень быстро стареют. Ситуация в Интернете меняется буквально на глазах. Не проходит и полугода, чтобы что-нибудь не изменилось и в поисковых системах. Та система, которая была наилучшей вчера, может быть не самой лучшей сегодня и очень плохой завтра.

Вто же время популярность - вещь хитрая. Она трудно зарабатывается, но потом

идолго живет. В итоге мы очень часто встречаемся с ситуацией, когда самой популярной является далеко не лучшая система.

Мы поможем читателю научиться самостоятельно проверять разные поисковые системы и выбирать для работы те, которые дают лучшие результаты.

При проверке размер поискового указателя не имеет решающего значения. Нам ведь нужны не миллионы ссылок, а всего две-три, но желательно самые лучшие. Поэтому важно не только то, как много Web-страниц проиндексировала поисковая система, но и то, когда она это делала в последний раз, как часто потом проверяла актуальность ссылок и насколько корректно представляет результаты поиска.

Чтобы проверить качество работы поисковой системы, надо дать ей задание на розыск сведений, о которых устаревшая система знать не может. Вот тут-то и проявится гниль тех систем, которые когда-то нагребли горы материала, а теперь не обновляют его

ипредставляют клиентам старье, густо сдобрив рекламой.

Давайте проведем такой опыт. Допустим, мы узнали, что в течение последних месяцев 2000 года мир интересовался ходом выборов президента США. Попробуем заказать в разных системах поиск документов, в которых одновременно содержатся три слова: Буш, Гор и выборы. Вот что он дает:

«Рамблер» - 45 документов; «Апорт» - 3338 документов; «Яндекс» - 17 036 документов.

В том, что «Апорт» отстает от «Яндекса», нет ничего удивительного, ведь «Апорт» никогда не стремился к механическому увеличению размеров указателя. Его сильная сторона - качественный отбор. Но нельзя не обратить внимание на результат «Рамблера», имеющего внушительный указатель, который всего лишь в два раза меньше указателя «Яндекса».

Этот нехитрый эксперимент говорит о том, что как поисковая система «Рамблер» прекратил свое развитие и, по-видимому, сосредоточивается на чем-то другом.

Такой же опыт можно поставить и за рубежом. Мы, например, разыскиваем Webстраницы, на которых упоминается операционная система с проектным названием Microsoft Whistler. К моменту написания этой книги она еще не существовала в природе.

152

Те поисковые системы, которые плохо обновляют указатели, неминуемо проявят себя на этом задании.

Ключевые слова

Поисковая система

Результат поиска

+Mkrosoft +Whistler

Alta Vista (230 млн)

2800

Microsoft Whistler

Northern Light (250 млн)

14 000

Microsoft Whistter

Fast Search (580 млн)

26 900

Как видите, две самые современные системы, Northern Light и Fast Search, различаются по результатам примерно так же, как различаются размеры их указателей. Результат, выдаваемый системой Alta Vista, заметно хуже. А теперь сами назовите слово, характеризующее указатель Alta Vista, если свежей информации в нем в пять раз меньше, чем в Northern Light. Заметим также, что выдача результатов в системе Alta Vista происходит очень медленно.

Классификационно-рейтинговые системы

Строго говоря, эти системы не являются поисковыми, но, если надо найти «то, не знаю что», ими удобно пользоваться.

Самый крупный классификатор в России - «Рамблер Тор 100» размещается на портале «Рамблер» (www.rambler.ru). Классификатор похож на каталог, но, в отличие от каталога, перед ним не ставится задача собрать как можно больше информации о ресурсах Сети. По каждой из категории, входящих в классификатор, представляются лучшие сайты, а дальше работает счетчик. Чем больше посетителей обращаются к конкретному сайту, тем выше показания счетчика.

Те, кто вышел в Сеть без серьезных намерений, но с общим желанием отдохнуть и познакомиться, например, с музыкальными новинками, могут увидеть, какие сайты в этой области посещаются чаще других и. соответственно, начать свое путешествие именно с них.

Приемы поиска информации

Рассказывать о том, как пользоваться поисковыми каталогами, нет никакой необходимости. Надо просто зайти на сайт (адреса мы уже дали), выбрать категорию, которая интересует, в ней выбрать раздел, и так далее, пока не откроется список конкретных ссылок. Точно так же работают и с классификаторами, только там против каждой ссылки на сайт имеется число, показывающее, сколько людей воспользовались этим адресом в последние сутки (в последний час, в последнюю неделю).

Значительно интереснее рассмотреть приемы использования поисковых указателей, тем более что для разных указателей эти приемы разные.

Но прежде чем приступать к изучению конкретных систем, давайте рассмотрим общие концепции, равно относящиеся ко всем поисковым указателям.

Четыре вида поиска

Все поисковые указатели реализуют несколько алгоритмов поиска.

К ним относятся: простой поиск, расширенный поиск, контекстный поиск и специальный поиск.

153