Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Информатика_методичка .doc
Скачиваний:
45
Добавлен:
08.11.2018
Размер:
1.07 Mб
Скачать
      1. Всемирные поисковые машины

Google (http://www/google.com).«Google — это искаженное написание английского слова «googol», придуманного Милтоном Сироттой, племянником американского математика Эдварда Кайзера, для обозначения числа, состоящего из единицы и ста нулей. Использование этого термина хорошо отражает миссию компании: структурировать бесконечное количество находящейся в Сети информации и сделать ее доступной и полезной».

Эта поисковая машина, основанная на принципиально новом алгоритме поиска, отличается предельно аскетическим интерфейсом и великолепными результатами поиска, отличающимися высокой степенью ревалентности (соответствия результатов поиска реальному состоянию дел в Сети). В отличие от других поисковых систем, в «первой десятке» результатов, выданных Google, нет никакого информационного мусора и случайных сайтов: место сайта в списке напрямую связано с количеством ссылок на него с других серверов аналогичной тематики. На сегодняшний день Google значительно потеснил былого лидера поисковых систем – AltaVista.

AltaVista (http://www.altavista.com). Крупнейшая в мире поисковая система, охватывающая весь Интернет – в том числе и его русскоязычную часть. Поддерживается возможность сложного поиска, с указанием операторов И (AND) и НЕ (NOT), Поиск по фразам, метасимвол «*», который заменяет от нуля до пяти любых букв. Возможен ограниченный поиск в тексте ссылок, ссылках, названиях аплетов, именах хостов, названиях картинок, видимом тексте, заголовках и URL. Возможен поиск в группах новостей. Можно вести поиск среди документов на заданном языке, но при этом вы не увидите множества страниц с неопознанным или неверно определенным языком, а среди русских таких бывает больше половины. Если же вы задаете поиск на любом языке, формулируйте задание поточнее, чтобы набор символов не совпал с какими-нибудь словами в другом языке. Поиск в различных кодировках дает разные результаты. Возможен автоматический перевод найденных документов с английского на французский, немецкий, итальянский, испанский или португальский язык, а также перевод с этих языков на английский.

Yahoo! (http://yahoo.com). Вторая по величине поисковая система в мире – правда, с ее помощью вы не сможете отыскать русскоязычный текст. Помимо собственно поисковой системы содержит собственный каталог ресурсов WWW.

MetaCrawler (http://www.metacrawler.com) Одна из крупнейших метапоисковых машин. Сама по себе ничего найти не может, ее задача – переадресовывать ваш запрос на десяток поисковых серверов (в том числе – на Yahoo и AltaVista), обобщить полученные результаты и вывести их в виде единого списка.

      1. Русскоязычные поисковые системы

Rambler (http://www.rambler.ru). «Поисковик номер один» среди специализирующихся на российской части Интернет. А заодно – и крупнейший каталог. Поисковая система Rambler была изначально создана в фирме "Стек" для возможности поиска по русскоязычным серверам и состоит из двух частей: поисковой программы-робота и базы данных. Компания "СТЕК" образовалась в Научном Центре Биологических Исследований в г. Пущино (Московская область) в 1991 году, а автором поисковой системы является Дмитрий Крюков.

Первая часть является роботом, который может получать адреса документов через прокси-сервер или непосредственно с указанного узла, индексирует содержание документа и помещает результаты этого индексирования в базу данных. Робот может рекурсивно сканировать определенные хосты. Он поддерживает стандартный механизм исключения роботов через файлы ROBOTS.TXT.

Второй частью Rambler является собственно сама поисковая система по серверам России и стран СНГ, содержащая миллионы документов с более чем 15,000 сайтов (имен DNS). Система поддерживает логические операции И, ИЛИ, НЕ, логические группы, метасимволы «?» и «*», заменяющие один символ или их группу, а также позволяет увеличивать и уменьшать значимость вводимых слов с помощь коэффициентов «+» и «─». Есть возможность поиска документов «похожих» на приглянувшийся среди найденных, а также поиска среди уже найденных документов. Поиск в различных кодировках дает одинаковый результат. Особой популярностью пользуется служба Rambler’s Top 100, позволяющая каждому установить счетчик на своей страничке и участвовать в рейтинге.

Яndex (http://yandex.ru). Эта поисковая система Интернета - часть проекта фирмы Comptek по разработке набора средств полнотекстовой индексации и поиска в текстовых данных с учетом морфологии русского языка. Яndex (произносится как "яндекс") расшифровывается как Языковый Индекс или, в английском написании, Yandex - Yet Another Index.

Как указывается в документе на сервере, продукты Яndex предназначены для работы с большими объемами русских текстов всех типов - в виде файлов различных форматов, полей баз данных и страничек Интернет.

Поисковая машина Яndex была запущена в эксплуатацию в конце сентября 1997 года и область поиска системы - русскоязычный Интернет. Отличительные особенности системы, в соответствии с описанием на http://yandex.ru:

  • полнотекстовый поиск с полным учетом морфологии русского и английского языков

  • мощный язык запросов (в том числе возможность поиска с расстоянием)

  • возможность запроса на естественном языке

  • корректная обработка сленговых слов

  • возможность поиска похожего документа

  • очень компактный индекс

  • подсветка слов из запроса в найденных документах

  • развитая релевантность, позволяющая найти искомую информацию, не перегружая пользователя тысячами ссылок на не нужные документы;

  • высокая скорость поиска.

Основным достоинством Яndex’а является способность находить заданные слова независимо от формы, в которой они употребляются в документах. Интересно, что система может образовывать словоформы даже для тех слов, которых нет в словаре. Система поддерживает логические операции И, ИЛИ и НЕ, логические группы, поиск по фразам, причем действие операторов И и НЕ может распространяться как на один абзац, так и на весь документ в целом. Поиск может вестись как по всем формам ключевых слов, так и по конкретно заданной форме. Возможно определение расстояния между словами с учетом их порядка, указание значимости ключевых слов, а также использование уточняющих слов. Специальный поиск можно вести по заголовкам документов и находящимся в них ссылкам. Кроме того, имеется возможность попросить систему найти документы схожие с наиболее приглянувшимися вам из найденных по предыдущему запросу. Можно также ограничить поиск уже найденными документами. А в том случае, если нужные документы не будут найдены, можно продолжить поиск через AltaVista, куда автоматически передается уже обработанный системой запрос. Поиск в различных кодировках дает одинаковый результат.

Апорт! (http://www.aport.ru). Поисковая система Апорт! - это проект фирмы Агама при поддержке российского отделения Intel. Система задумана и реализована как Web-индекс для осуществления поиска в Российской части Интернета, на русскоязычных серверах СНГ и мирового Интернет

Поиск ведется более чем по полутора миллионам документам. Система умеет искать по различным словоформам введенных слов и даже исправляет во введенных словах ошибки, поддерживает логические операторы И, ИЛИ, НЕ, логические группы, поиск по фразам, ограничение в расстоянии между словами, заданное числом слов или фраз. Мало того, система может переводить с русского на английский и с английского на русский не только запрос, но и полученную в результате поиска информацию. Возможен поиск по URL, а также указание допустимого времени создания документов.

Turtle (http://www.turtle.ru). В течение почти пяти лет монополии трех поисковиков в Рунете ничто не угрожало. Новички появлялись с завидной периодичностью, однако ни один из них так и не смог достичь хотя бы уровня Апорта, самого скромного представителя «триады».

Однако в начале 2002 года ситуация изменилась: на рынке появился еще один амбициозный и умелый поисковик, немедленно окрещенный особо журналистами «убийцей Яндекса» — Turtle.

Ожидания, связанные с «Черепашкой», объяснялись просто: Turtle стал вторым детищем компании Stack Group — после самого Rambler! Видимо, отчаявшись привести в соответствие с требованиями времени механизм старого поисковика, разработчики решили по максимуму вложить свои силы в создание нового.

По заявлениям создателей, поисковый механизм Turtle отличается рекордной точностью (хотя большинство экспертов и указывает, что результаты поиска с использованием того же Яndex выглядят куда лучше), а также содержит ряд абсолютно новых возможностей. Например, в дополнение к обычному и расширенному поиску в Turtle введен еще и «Поиск по фрагменту»: вы можете задать в качестве запроса не только слово или фразу, но и целый (и довольно объемный) фрагмент текста. Мастера сетевого поиска оценят и язык запросов Turtle, который содержит ряд новых и весьма интересных операторов.