Интернет технологии / 2014_inet_lec_3
.pdf
Поисковая система Google была запущена в 1997 году
Сергеем Брином и Лари Пейджем как часть исследовательского проекта Стэнфордского университета.
При ранжировании результатов запроса Google учитывает количество внешних ссылок на ресурс, или цитируемость.
По одной из версий, которую принято считать официальной, название поисковика «Google» произошло от
намеренно искаженного создателями слова Googol (Гугол), которое означает «десять в сотой степени» — 10100.
https://www.google.com
11
Курс «Интернет-технологии». Лекция 3 — Поиск информации…
В сентябре 1997 года была официально анонсирована поисковая система Yandex, являющаяся самой популярной в русскоязычном вебе.
Первое время развивалась в рамках компании CompTek International.
Как отдельная компания «Яндекс» образовался в 2000 году.
В мае 2011 года Яндекс провел первичное размещение акций, заработав на этом больше, чем какая-либо из Интернет-компаний со времен поисковика Google
в 2004 году.
12
Курс «Интернет-технологии». Лекция 3 — Поиск информации…
Поисковая система — программно-аппаратный комплекс с вебинтерфейсом, предоставляющий возможность поиска информации, которая размещается во Всемирной паутине.
Основной программной частью поисковой системы является поисковая машина (поисковый движок) — комплекс программ, обеспечивающий полную функциональность поисковой системы и обычно являющийся коммерческой тайной компании-разработчика поисковой системы.
Исходной информацией для поиска является поисковый запрос.
Поисковая система индексирует веб-документы, т. е. извлекает из них информацию, важную для поиска, преобразует эту информацию в формат, удобный для поисковой машины, и сохраняет эту информации в базу данных поисковой машины.
13
Курс «Интернет-технологии». Лекция 3 — Поиск информации…
Локальные поисковые системы предназначены для поиска информации по какой-либо части всемирной сети, например по одному или нескольким сайтам, либо по локальной сети.
Глобальные поисковые системы предназначены для поиска информации по всей сети Интернет либо по значительной ее части. Такие поисковые машины осуществляют поиск информации различного типа, например текстов, видео, изображений, географических объектов, персональных данных и др.
При этом файлы, с которыми может работать поисковая машина, могут быть как текстового формата (например .html, .htm, .txt, .doc, .rtf…), так и
графического (.gif, .png, .svg…) или мультимедийного (видео и звук).
Пока наиболее распространенным является поиск по текстовым документам.
14
Курс «Интернет-технологии». Лекция 3 — Поиск информации…
Поисковые системы обычно состоят из 4-х компонент:
1.Поисковый агент, который перемещается по сети и собирает информацию.
2.База данных, которая содержит всю информацию, собираемую пауками.
3.Поисковая машина, реализующая алгоритм поиска заданной информации и выдачу результата.
4.Внешний интерфейс, который используются
для взаимодействия между поисковой машиной и пользователем.
15
Курс «Интернет-технологии». Лекция 3 — Поиск информации…
Поисковый агент состоит из нескольких элементов:
1. Spider (основной паук). Скачивает веб-страницы, фактически работает аналогично браузеру.
Паук не имеет никаких визуальных компонент.
2.Сrawler («путешествующий» паук). Основная задача – определять, куда дальше должен идти Spider, основываясь на ссылках или исходя из заранее заданного списка адресов.
3.Indexer (индексатор). «Слепая» программа, которая анализирует веб-страницы, скачанные пауками.
16
Курс «Интернет-технологии». Лекция 3 — Поиск информации…
База данных — это хранилище всех данных, которые поисковая система скачивает и анализирует.
Хранение такого объема данных требует огромных ресурсов.
В современных системах для этого используются целые «дата-центры», которые реализуют модель распределенной базы данных.
По данным на начало
2012 года, в индексе Google находится около 40 млрд страниц, количество уникальных URL — более одного квинтиллиона (1018).
|
серверная ферма |
|
|
компании Google, |
|
17 |
г. Ленуар, |
|
штат Сев. Каролина |
||
|
||
|
Курс «Интернет-технологии». Лекция 3 — Поиск информации… |
Чтобы определить порядок, в котором список документов будет показан пользователю, поисковая система применяет алгоритм ранжирования.
Работа алгоритма ранжирования заключается в следующем:
в списке выдачи поисковой системы документы необходимо разместить согласно степени релевантности к пользовательскому запросу.
Основные принципы определения релевантности:
1.Количество слов запроса в текстовом содержимом документа.
2.Теги, в которых эти слова располагаются.
3.Местоположение искомых слов в документе.
4.Удельный вес слов в общем количестве слов документа.
5.Индекс цитирования — количество ссылок на данную страницу с других страниц, зарегистрированных в базе системы.
6.Время — как долго страница находится в базе поискового сервера.
База данных выводит ранжированный список документов
18 |
с HTML и возвращает его пользователю, сделавшему запрос. |
|
|
|
Курс «Интернет-технологии». Лекция 3 — Поиск информации… |
Результаты поиска формируются на основании следующих
критериев:
1.Заголовок. Присутствует ли ключевое слово в заголовке?
2.Домен/адрес. Присутствует ли ключевое слово в имени домена или в адресе страницы?
3.Стиль. Если место на странице, где ключевое слово использовано в жирных, курсивных фрагментах или текстовых заголовках?
4.Плотность. Как часто ключевое слово употреблено на странице?
5.Метаданные. Некоторые поисковые системы до сих пор читают мета ключевые слова и мета описания .
6.Ссылки наружу. На кого есть ссылки на странице и встречается ли ключевое слово в тесте ссылки?
7.Внешние ссылки. Кто еще в имеет ссылку на данный сайт?
8.Ссылки внутри страницы. На какие еще страницы данного сайта содержит ссылки эта страница?
19
Курс «Интернет-технологии». Лекция 3 — Поиск информации…
1.Алгоритм работы поисковой системы цикличен — вся база данных поисковой системы обновляется не мгновенно, а периодически. У каждой поисковой системы свой цикл работы и обновления данных.
2.В алгоритм работы поисковой системы может быть заложено более или менее частое сканирование определенных сайтов:
одни сайты будут просматриваться поисковым роботом чаще, другие — реже.
3.Роботы популярных поисковых систем являются самонастраивающимися. Чем чаще обновляется сайт, тем чаще его посещает работ поисковой системы.
20
Курс «Интернет-технологии». Лекция 3 — Поиск информации…
