Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ГОСы / FBI_MIR_2016.docx
Скачиваний:
29
Добавлен:
04.01.2020
Размер:
3.47 Mб
Скачать

25. Эффективность работы поисковых машин

Эффективность работы поисковых систем ограничивается четырьмя существенными факторами.

1. Топология Интернета такова, что поисковые машины могут просматривать не больше трети всех сайтов в Интернете.

Просмотрев с помощью поисковых средств AltaVista свыше 600 млн. веб-страниц и 1,5 млн. ссылок, размещенных на этих страницах, специалисты пришли к выводу, что все исследуемое пространство состоит из следующих компонентов:

  • Центральное ядро (тесно связанные между собой веб-страницы) 28%

  • Отправные страницы (в них есть ссылки, ведущие к ядру, но с ядра попасть к отправным страницам нельзя) 22%

  • Конечные веб-страницы, к которым можно прийти по ссылкам из ядра, но к ядру с них попасть нельзя 22%

  • Отростки — полностью изолированные от ядра страницы, имеющие ссылки либо на конечные веб-страницы, либо ссылки с отправных страниц 22%

  • Острова — Веб-страницы, не пересекающиеся с остальными ресурсами Интернет 6%

К отдельным ресурсам Интернета поисковые машины не имеют доступа.

2. Глубина индексирования веб-сайтов. Глубина – количество страниц и вложенность директорий, просматриваемая при индексации. Большинство поисковых машин индексируют только определенное количество документов на одном веб-сайте.

3.Охват — определяется тремя показателями – объемом проиндексированной информации, количеством уникальных серверов и количеством уникальных документов (говорят, не больше трети всех сайтов в Интернете).

"Видимая" часть сайтов — это та часть, которая обрабатывается поисковыми системами и индексируется. "Невидимая" часть - это та часть сайта, которая не предназначена для обработки поисковыми системами

Cуществует понятие «невидимый Интернет». К невидимому Интернету в первую очередь относятся ресурсы, для доступа к которым требуется пароль или регистрация, профессиональные базы данных, а также различные форматы предоставления информации. Например, только с недавнего времени поисковые машины начали индексировать информацию в PDF-формате.

4. Частота индексации. Индекс поисковых систем Интернета обновляется с периодичностью около неде­ли. Отсюда видно, что в индекс поисковой системы не могут попасть материалы, например, периодических изданий, так как выходят они заведомо чаще, чем об­новляется индекс.

Лидирующие позиции по количеству проиндексированных веб-страниц занимают поисковые машины Google, Yandex, Rambler. При работе с поисковыми машинами большое значение име­ет язык запросов, так как единственным инструментом поиска становится полнотекстовый поиск по ключевым словам.

Скорость обхода – показывает, насколько быстро осуществляется индексация новой информации в базе.

Скорость поиска – скорость выполнения поисковой системой запроса пользователя.

  1. Топология интернета

Топология интернета (А. Брёдер, 1999 г.)

  • Центральное ядро (28% Web-страниц) — компоненты сильной связности (SCC) или узел галстука. Сюда относятся Web-страницы, связанные так тесно, что, просто следуя по гиперссылкам, из любой из них в конечном счете можно попасть на любую другую.

  • "Отправные" Web-страницы (IN) (22% Web-страниц) — они содержат гиперссылки, которые в конечном счете ведут к ядру, но из ядра к ним попасть нельзя.

  • "Оконечные" Web-страницы (OUT) (столько же — 22%) — к ним можно прийти по ссылкам из ядра, но нельзя вернуться назад в ядро.

  • "Отростки" (еще 22% Web-страниц) — полностью изолированы от центрального ядра: это либо "мысы", связанные гиперссылками со страницами любой другой категории, либо "перешейки", соединяющие две Web-страницы, не входящие в ядро.

  • Острова – веб-страницы, не пересекающиеся с остальными ресурсами Интернета 6%

Выявлено, что четыре основных множества - более 90% веб-страниц, топологически относятся к одной компоненте связности. Существуют и "острова", которые вообще не пересекаются с остальными ресурсами Интернет. Единственный способ обнаружить ресурсы этой группы - знать адрес. Никакие поисковые машины не смогут найти эти острова, если они в прошлом каким-то образом не соединялись с другими частями Интернет.

Соседние файлы в папке ГОСы