Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
лекция 2 прыгунов.doc
Скачиваний:
3
Добавлен:
09.11.2018
Размер:
70.66 Кб
Скачать

1

I

Тема 2. Принципы работы поисковых систем, 2.1 Процесс составления индекса.

Главный элемент структуры современного Интернета - это поисковые машины, или поисковики. Разных поисковиков очень много, но среди них есть главные, наиболее известные и посещаемые. В мировом Интернете сейчас доминирует Google. В русскоязычном Интернете (Рунете), наиболее популярный поисковик - Яндекс. В два раза (по количеству поисковых запросов в день) от Яндекса отстает Рамблер, потом следует "русский" Google, затем, совсем далеко от лидеров, следует Апорт. В Интернете используются следующие способы поиска нужной страницы: оглавление, ссылки и предметный указатель. Просто они автоматизированы и выполняются специальными программами.

Первый, самый естественный способ поиска нужной страницы - это оглавление книги. Читатель книги просматривает ее оглавление, находит нужную ему главу, видит номер нужной страницы и открывает ее, пролистав книгу до нужного номера страницы. Этому способу поиска в Интернете соответствуют каталоги. В них страницы (сайты Интернета) разложены по рубрикам, так что пользователь может, последовательно просматривая оглавление каталога, выбрать нужную рубрику, просмотреть сайты, относящиеся к ней, а затем перейти на нужный сайт или страницу. Именно каталоги были основным способом упорядочения Интернета в середине 1990-х годов.

Второй привычный нам способ поиска - это ссылки в тексте на нужные страницы книги, например "подробнее об этом см. на стр. 234". Чтобы найти нужный текст, читатель книги должен открыть указанную страницу 234 и найти в ее тексте интересующий фрагмент. В Интернете идею отсылок читателя со страницы на страницу превратили в автоматические ссылки на страницы, на которых пользователь просто щелкает мышкой. Ссылки в Интернете называются гипертекстовыми ссылками ("гипер" - потому, что ссылка уводит за пределы текста, на другую страницу). Ссылки - это основной, "корневой" принцип Интернета, а ведь по сути это старая идея, просто автоматизированная текстовая ссылка. Ссылки в каталогах и на обычных сайтах чаще всего расставляют вручную -вебмастер размечает специальными пометками фрагмент текста и присоединяет к нему адрес соответствующей страницы. Конечно, часто ссылки расставляются и автоматически при формировании веб-страницы.

Предметный указатель, или индекс - третий, самый интересный для нас способ поиска нужной страницы - это алфавитный список важных терминов в конце книги, так называемый предметный указатель, или индекс. Вот как может выглядеть фрагмент типичного индекса: №1 Тау Кита, 90; №2 Третья космическая скорость, 255; №3 294 Туманность, 14; №4 Тяжелые кварки 347.

В индексе перечислены важные для данной книги термины (ключевые слова) и номера страниц, на которых эти термины встречаются. Если читатель книги не может найти нужную страницу по оглавлению, он может предположить, какие слова могут встречаться на ней, и заглянуть в индекс. Вот именно эта идея поиска нужной страницы по ключевым словам в индексе и стала основной идеей, на которой построен интернет-поисковик. Естественно, составление и использование поискового индекса в Интернете автоматизированы. Фактически, когда пользователь вводит поисковый запрос в поисковую машину, он обращается к предметному указателю Интернета, или индексу, - списку всех ключевых слов Интернета с указанием страниц, на каких они встречаются.

Поисковая машина - это программа, которая составляет и хранит предметный указатель Интернета, а также находит в нем заданные ключевые слова. Для этого программа составляет так называемый индекс. Процесс составления индекса и поиска по нему состоит из следующих этапов:

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]