
Министерство образования и науки УР
БОУ СПО Глазовский технический колледж
Реферат
По дисциплине: «Информационные технологии»
На тему: Программы-поисковики в Интернете.
Выполнил: Кутявин В.О.
Студент 621 группы
Проверила: Касимова Е.В.
Преподаватель
Глазов 2013 г
Содержание.
1.Введение.
2. Из чего состоят поисковики?
3. Как работают поисковики?
4. Основные поисковики рунета.
5. Поисковые машины (search engines).
6. Заключение.
1. Введение
Поисковики (поисковые системы) - создаются и обеспечивают более удобный доступ пользователей сети к информационным ресурсам интернета.
С бурным развитием интернета, количество web-страниц в сети давно уже перевалило за миллиарды. Для удобства простых пользователей, которым очень легко заблудится в таком море информации были придуманны и созданны поисковые системы. Далее для краткости просто - поисковики.
На самом деле поисковики действительно можно назвать целыми системами, состоящими из набора различных инструментов и программ. Об основных поисковиках русскоязычного интернета, и о их принципах работы пойдёт речь в этой статье.
2. Из чего состоят поисковики?
Поисковики состоят из следующих основных компонентов:
- Spider (паук) - специальная программа которая похожа на браузер и занимается скачиванием в базу данных поисковика найденные краулером новые сайты и странички в интернете. Так как Spider - это по своей сути поисковый робот, то естественно он "видит" только HTML код страници. Без графики, баннеров, скриптов и т.п. Поэтому на поисковую оптимизацию большое количество скриптов, анимации не только не влияет, но даже в некоторых случаях ухудшает её. Например, меню сайта написанное только при помощи скриптов, для поискового робота просто не сушествует, и он не найдёт другие страници вашего сайта если меню не будет продублированно обычными ссылками. К тому же поисковики будут дольше индекстровать ваш сайт, если HTML код его страниц заграмождён различными скриптами.
- Crawler («путешествующий» паук) - специальная программа, которая в автоматическом режиме осуществляет поиск новых сайтов и страниц в интернете. Основная его задача, обнаружение еще неизвестных поисковой системе документов в интернете. Crawler использует для этого уже известные сайты и переходя по имеющимся на них ссылкам. Поэтому если вы сделали свой сайт, то пока на него не существует ссылок с других источников, ваш новый сайт будет невидим для поисковиков.
Некоторые поисковики используют вместо Spider и Crawler одну программу, которая сразу и находит и скачивает информацию.
- Indexer (индексатор) - эта программа анализирует скачанные страници на предмет их соответствия различным поисковым запросам. Полный алгоритм работы этой программы не знает ни кто. К тому же он периодически может менятся. Но общий принцип работы у всех поисковиков примерно одинаковый.
- Database (база данных) - в базе хранятся все найденные и скачанные поисковыми роботами страници сайтов. Некоторые поисковики используют общую базу данных.
- Web server (сам сайт поисковика) - то, что мы все наблюдаем в окошке своего браузера, когда вводим поисковый запрос в строку поиска. Отвечает за выдачу результатов поиска.
3. Как работают поисковики?
Поиск нужной информации в поисковиках происходит по ключевому слову, или словосочетанию, которые больше всего соответствуют той теме, информацию по которой необходимо найти. Именно эти слова или словосочетания вбиваются пользователями интернета в строку поиска.
Для этой цели, системы поиска (поисковики) применяют набор различных программ, выполняющих такие функции как: - поиск сайтов; - их классификация по соответствию тому или иному запросу; - ранжирование сайтов по их качеству; ... и многое другое.
Разные поисковики могут использовать различный алгоритм действия этих программ и по разному распределять их функции. Но принцип действия у них у всех примерно одинаковый.Весь процесс работы поисковика, сбора обработки и выдачи информации примерно выглядит так:
Поисковый робот (паук) "бродит" по виртуальному пространству отыскивая по ссылкам новые сайты и новые страници старых сайтов, и заносит их адреса в базу данных. Потом другой робот скачивает всё текстовое содержание этих страниц, и то же отправляет их в базу. Как я уже писал некоторые поисковики для этой цели используют одну программу, которая и находит и скачивает новую информацию.
В базе страници хранятся и ждут когда их проиндексирует другая программа. После чего составляются каталоги с адресами и кратким описанием этих страниц. Уже оттуда поисковики выдают адреса страниц в порядке степени их соответствия каждому поисковому запросу пользователя.
Время за которое поисковики успевают найти новый сайт, проанализировать его и начать выдавать по поисковым запросам, примерно составляет от нескольких недель до нескольких месяцев.
Конечно же описанная здесь мною схема работы поисковиков примерная и очень упрощённая. На самом деле всё намного сложнее. Одни роботы (пауки) ищут только абсолютно новые страници, другие только проверяют уже проиндексированные страници на предмет изменений в них и т.д.
Особо углублятся не вижу смысла потому что каждые поисковики работают немного по разному. Например, недавно я нашел в интернете информацию о том что поисковик Google вновь созданные сайты, в течении примерно полугода хранит в специальной базе и начинает выдавать их в результаты поиска, только по истечении этого срока, который точно даже ни кто и не знает. Это правило правда распостраняется только на англоязычные сайты. Русскоязычные сайты Googleиндексирует быстрее всех.
Вообще создатели и разработчики поисковых программ и систем хранят алгоритм их работы и критерии отбора сайта в тайне, и периодически меняют их Узнать эти критерии можно только примерно и только косвенным путём, методом тестимрования сайтов.