56. Поиск в Internet

Теоретически гипертекстовая технология WWW позволяет находить любую информацию в процессе целенаправленного продвижения по ссылкам. Однако, чтобы не «листать» множество web-страниц, удобнее для поиска нужной информации использовать справочно-поисковые системы.

Все существующие типы таких систем обрабатывают массивы неоднородной информации, содержащейся в сети, и применяют различные механизмы поиска и отображения информации. Их можно условно разделить на следующие группы:

системы web-поиска;
каталоги;
базы данных адресов электронной почты;
системы поиска FTP-файлов и др.

Для WWW наиболее характерны системы web-поиска — информационные системы, позволяющие осуществлять поиск в пространстве «всемирной паутины», объединенном протоколом HTTP. К наиболее известным зарубежным системам web-поиска относятся AltaVista, Google, Yahoo, HotBot, Infoseek, Lycos, WebCrawler и др. Среди российских поисковых систем можно назвать «Яндекс», Aport, Rambler и др. Первая поисковая российская система Rambler начала работать в конце 1996 г., Aport — с лета 1997 г., а система Яndex — с конца сентября 1997 г.

Основные достоинства таких систем заключаются в высокой скорости поиска и простоте работы с ними: пользователь обращается на сервер поиска, задает поисковый образ — ключевые слова интересующей его темы, вводит их в специально предусмотренном поле, и система выдает списки и адреса тех документов, в которых встречаются эти ключевые слова. При этом поиск может осуществляться в точном соответствии с введенным ключевым словом (с учетом различия строчных и прописных букв), но большинство современных поисковых систем также позволяет задавать ключевую фразу в свободной форме, выполняя автоматический морфологический анализ введенной фразы, в частности, учитывая при поиске различные словоформы введенных слов. В поисковом запросе можно использовать одно или несколько слов — как русских, так и английских, разделенных пробелами.

При этом по умолчанию считается, что в найденных документах должны содержаться все указанные в запросе ключевые слова. Можно также использовать расширенный поиск, тогда ключевая фраза вводится с применением специальных знаков, указывающих требуемую логику запроса:

знак «&» — требуется наличие обоих связанных этим знаком слов (логика И);
знак «|» — достаточно наличия любого из связанных слов (логика ИЛИ);
знак «+» — данное слово должно быть обязательно (обычно в списке сначала выдаются web-документы, полностью соответствующие запросу, а затем — документы, соответствующие частично);
применение знака «+» позволяет исключить такие частично соответствующие страницы);
знак «–» — данное слово обязательно не должно присутствовать;
кавычки — заключенная в них фраза ищется в точности такой, как есть (т. е. без словоформ);
скобки — позволяют строить сложные запросы (например: бег& (марафонский | спринтерский) ).

Опции расширенного поиска могут быть заданы и при помощи интерактивной формы, например в ней может быть указано, что поиск следует производить только на заданном сервере или в заданном регионе, среди страниц на выбранном языке, обновляемых с определенной частотой или в определенном формате.

Для автоматического просмотра и индексирования web-документов и групп новостей поисковые системы используют автономно действующие программы — поисковые роботы («пауки»). При просмотре web-страниц поисковый робот анализирует содержащуюся на странице информацию, формирует базу ключевых слов и отсылает ее на сервер поисковой системы, анализирует имеющиеся ссылки и рассылает по ним свои копии. Аналогичным образом время от времени просматриваются заново и ранее уже добавленные в базу данных поисковой службы web-страницы, чтобы отследить произошедшие на них изменения и обновления. При этом чем чаще обновляется web-страница, тем чаще выполняется ее повторный анализ.

После ввода пользователем ключевого слова (фразы) поисковая система выполняет поиск в накопленной на ее сервере базе данных.

Все подходящие варианты выдаются в виде списка ссылок, при этом приоритет отдается документам:

содержащим искомые термины в числе первых нескольких слов;
тем, где искомые термины находятся близко друг от друга;
содержащим несколько вхождений искомых терминов.

Документы, наиболее соответствующие указанным требованиям, отображаются ближе к началу списка найденных страниц. Такая сортировка называется сортировкой по релевантности. Для каждого найденного документа в списке выдаются: заголовок, аннотация документа и гиперссылка на соответствующий web-документ в виде записи его URL.

Англоязычные документы лучше искать, применяя глобальные поисковые системы. Однако при поиске русскоязычных документов целесообразнее пользоваться отечественными поисковыми системами, которые индексируют только русскоязычную часть Интернета. Такие поисковые сервисы называют локальными. Они производят автоматическое сканирование документов только с доменов ru, su и других, принадлежащих России и странам ближнего зарубежья. При регистрации же страницы, размещенной в зоне com, поисковый робот проверяет корневую страницу ресурса и при отсутствии на ней русского текста индексация не производится.

<<< < Предыдущая 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 3132 / 3732 33 34 35 36 37 > Следующая >>>