
2. Принцип работы поисковых систем
Поисковая система — веб-сайт, предоставляющий возможность поиска информации в Интернете. Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на серверах, товары в интернет-магазинах, а также информацию в группах новостей.
В большинстве случаев информационная потребность возникает после изучения какой-либо новой информации, полученной пользователем.
Основатели и разработчики первых поисковых систем воспользовались методом поиска книг в библиотеках. Они создали тематические каталоги, в категориях которых и располагались нужные сайты. Человек заходил в каталог, выбирал нужную рубрику и получал несколько сайтов по тематике, к ней относящихся. По началу, когда сайтов было не много, все было прекрасно, а потом стало все сложней и сложней отыскать нужный ресурс. Рубрик становилось все больше и больше, вложенность категорий все росла и росла. В конеце концов приходилось проделывать путь в множество подкатегорий, а если в какой-то категории «свернуть» не туда, то можно было просто ничего не найти.
Потом постепенно все поисковые системы начали переходить на «поисковые указатели». В отличие от каталогов, поисковые указатели формируют связки «Запрос — ответ», и к «ответам» могли приписываться несколько разных ресурсов. Но впоследствии выяснилось, что это трудно не только для людей, но и для поисковых машин, потому что на любой распространенный запрос «высыпались» сотни тысяч ответов, в которых просто невозможно было разобраться. И именно поэтому возможность выбора поисковиком из этой «горы» информации полезных двадцати-тридцати ссылок и стала определяющей на поисковом рынке.
Как правило, основной частью поисковой системы является поискоовая машиина (поискоовый движоок) — комплекс программ, обеспечивающий функциональность поисковой системы. Основными критериями качества работы поисковой машины являются релевантность (степень соответствия запроса и найденного, то есть уместность результата), полнота базы, учёт морфологии языка. Индексация информации осуществляется специальными поисковыми роботами. В последнее время появился новый тип поисковых движков, основанных на технологии RSS, а также среди XML-данных разного типа.
Поисковые cистемы обычно состоят из трех компонентов:
агент (паук или кроулер), который перемещается по Сети и собирает информацию;
база данных, которая содержит всю информацию, собираемую пауками;
поисковый механизм, который люди используют как интерфейс для взаимодействия с базой данных.
2.1 Популярные и необычные поисковые системы Популярные поисковые системы.
Всеязычные:
Google (34,4 % Русскоязычного сегмента).
Bing (0,9 % Русскоязычного сегмента).
Yahoo! (0,2 % Рунета) и принадлежащие этой компании поисковые машины: Inktomi, AltaVista, Alltheweb.
Англоязычные и международные: AskJeeves (механизм Teoma).
Рейтинг российских поисковых систем. Основные поисковые системы:
http://www.yandex.ru/ — 54.8267%
http://www.rambler.ru/ — 21.7645%
http://www.google.com/ — 15.6207%
http://www.mail.ru/ — 4.5466%
http://www.aport.ru/ — 1.5788%
Необычные поисковые системы. Русскоязычные - большинство «русскоязычных» поисковых систем индексируют и ищут тексты на многих языках — украинском, белорусском, английском и др. Отличаются же они от «всеязычных» систем, индексирующих все документы подряд, тем, что в основном индексируют ресурсы, расположенные в доменных зонах, где доминирует русский язык или другими способами ограничивают своих роботов русскоязычными сайтами.
Яндекс (46,3 % Рунета)
Mail.ru (8,9 % Рунета)
Rambler (3,3 % Рунета)
Nigma (0,5 % Рунета)
Генон (0,1 % Рунета)
Gogo.ru (<0,1 % Рунета)
Aport (<0,1 % Рунета)
Из перечисленных поисковых систем не все имеют собственный поисковый алгоритм — так Mail.ru и QIP.ru используют поисковый механизм Яндекса, а Nigma сочетает в себе как свой алгоритм, так и сборную выдачу от других поисковиков.
Koogle (с его помощью ортодоксальные иудеи могут найти контент, признанный раввинами удовлетворяющим религиозным требованиям).
Yauba (индийский поиск «для параноиков» — в отличие от привычных поисковиков, за пользователями не следят, а все записи о его действиях удаляются с сервера).
TinEye — поисковая система, специализирующаяся на поиске изображений в Интернете.
Генон — поисковая система, собирающая и создающая контент у себя на сайте.