Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ГОСы / Шпоры МИР.docx
Скачиваний:
114
Добавлен:
04.01.2020
Размер:
1.23 Mб
Скачать
  1. Топология интернета

Топология интернета (А. Брёдер, 1999 г.)

  • Центральное ядро (28% Web-страниц) — компоненты сильной связности (SCC) или узел галстука. Сюда относятся Web-страницы, связанные так тесно, что, просто следуя по гиперссылкам, из любой из них в конечном счете можно попасть на любую другую.

  • "Отправные" Web-страницы (IN) (22% Web-страниц) — они содержат гиперссылки, которые в конечном счете ведут к ядру, но из ядра к ним попасть нельзя.

  • "Оконечные" Web-страницы (OUT) (столько же — 22%) — к ним можно прийти по ссылкам из ядра, но нельзя вернуться назад в ядро.

  • "Отростки" (еще 22% Web-страниц) — полностью изолированы от центрального ядра: это либо "мысы", связанные гиперссылками со страницами любой другой категории, либо "перешейки", соединяющие две Web-страницы, не входящие в ядро.

  • Острова – веб-страницы, не пересекающиеся с остальными ресурсами Интернета 6%

Выявлено, что четыре основных множества - более 90% веб-страниц, топологически относятся к одной компоненте связности. Существуют и "острова", которые вообще не пересекаются с остальными ресурсами Интернет. Единственный способ обнаружить ресурсы этой группы - знать адрес. Никакие поисковые машины не смогут найти эти острова, если они в прошлом каким-то образом не соединялись с другими частями Интернет.

  1. Скрытые ресурсы интернета

Не попадем на них через информационно-поисковые системы (ИПС).

1) Источники, недоступные для ипс

Глубокая паутина (также известна как невидимая сеть) — множество веб-страниц Всемирной паутины, не индексируемых поисковыми системами. Не следует смешивать понятие глубокая паутина с понятием тёмная паутина (от англ. dark web), под которым имеются в виду сетевые сегменты, хотя и подключённые к общей сети Интернет, но требующие для доступа определенных программных средств, настроек или авторизации.

www.brightplanet.com – навигатор скрытого веба

2) Скрытые ресурсы

- Онлайн БД (вход через систему или требует пароля) (патенты, медицина и финансы)

- Ресурсы, требующие пароль и регистрацию — объявления о поиске работы, чаты, библиотеки, справочники (не все).

- С-мы интерактивного взаимодействия с пользователем — помощи, консультирования, обучения, требующие участия людей для формирования динамических ответов от серверов

- Специализированные поисковые системы, которые обслуживают определенные отрасли или рынки, базы данных которых не включаются в глобальные каталоги традиционных поисковых служб. Например, медицинские поисковики.

- Закрытая (полностью или частично) информацию, доступную, пользователям Сети только с определенных адресов, групп адресов, иногда городов или стран. Например, китайский интернет.

- Веб-сайты, зарегистрированные на бесплатных серверах. Индексируются, в лучшем случае, лишь частично - поисковые системы во избежание рекламного спама не стремятся обходить их в полном объеме

- Веб-сайты, создатели которых не оповещают о создании этих ресурсов

Различные форматы представления информации. Например, только сравнительно недавно поисковые машины начали индексировать информацию в PDF-формате.

- архив ресурсов «открытого веба» — устаревающие веб-страницы

На Alexa.com есть ресурс «машина времени» The Wayback Machine — Интернет-архив. Сохранено 484 биллиона веб-страниц.

Плюс некоторые удаленные документы сохраняются какое-то время в кэше гугла.

По топологии Бредера (галстук бабочка):

Существующие "острова" вообще не пересекаются с остальными ресурсами Сети. Единственный способ обнаружить ресурсы этой группы - знать их адрес. Поисковые машины в принципе не находят этих островов, если они в прошлом каким-то образом не соединялись с другими частями Интернет.. Доступные сегодня благодаря традиционным информационно-поисковым системам 10 млрд. вэб- страниц - это лишь видимая крупица. Непознанных, скрытых ресурсов Сети в сотни (!) раз больше. Это прежде всего динамически генерируемые страницы, файлы неопознаваемых поисковыми системами форматов, информация из многочисленных баз данных.

Соседние файлы в папке ГОСы