Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
72
Добавлен:
03.03.2016
Размер:
5.18 Mб
Скачать

21

Курс «Интернет-технологии». Лекция 3 — Поиск информации…

Основные термины веб-поиска

1.Индексация — процесс составления или приписывания указателя (индекса) — служебной структуры данных, необходимой для последующего поиска.

2.Индекс цитирования — число упоминаний (цитирований) информации, в традиционной библиографической науке рассчитывается за промежуток времени, например, за год.

3.Иллюзия свежести — эффект кажущейся свежести, достигаемый поисковыми системами в интернете за счет более регулярного обхода тех документов, которые чаще находятся пользователями.

4.Кластеризация документов — одна из задач информационного поиска, целью которой является автоматическое выявление групп семантически похожих документов среди заданного фиксированного множества документов.

5.Клоакинг — техника поискового спама, состоящая в распознании робота поисковой системы и генерации для него специального содержания, принципиально отличающегося от содержания, выдаваемого пользователю.

22

Курс «Интернет-технологии». Лекция 3 — Поиск информации…

Основные термины веб-поиска

6.Поиск по смыслу — алгоритм информационного поиска, способный находить документы, не содержащие слов запроса.

7.Прямой поиск — поиск непосредственно по тексту документов, без предварительной обработки (без индексирования).

8.Ранжирование — это процесс выстраивания найденных по запросу пользователя страниц в порядке наибольшего соответствия искомому запросу.

9.Релевантность — соответствие документа запросу.

10.Регулярное выражение — способ записи поискового предписания, позволяющий определять пожелания к искомому слову, его возможные написания, ошибки и так далее. В широком смысле — язык, позволяющий

задавать запросы неограниченной сложности.

23

Курс «Интернет-технологии». Лекция 3 — Поиск информации…

Феномен Интернета

В Интернете информации куда больше, чем можно найти с помощью традиционных информационно-поисковых систем. Кроме видимой для поисковых систем части веб-пространства, существует огромное количество веб-страниц, которые ими не охватываются.

Как правило, эти веб-страницы доступны в Сети, однако выйти на них трудно, а порой невозможно, если не знать точного адреса.

Эти ресурсы — «скрытый» (deep) Web, (определение ввел Джилл Эллсворт

в 1994 году, обозначив им источники, недоступные для обычных поисковых систем). Сегодня такие ресурсы называют также «невидимым» (invisible) Web.

Доступные сегодня посредством традиционных информационно-поисковых систем веб-страницы — это лишь видимая крупица. Непознанных, скрытых

24

ресурсов Сети в сотни (!) раз больше.

Курс «Интернет-технологии». Лекция 3 — Поиск информации…

Открытый Web:

> 20 млрд документов; > 100 млн сайтов.

Рост:

~ 10 млн документов в месяц; ~ 1 млн сайтов в месяц.

Скрытый Web:

20-50 млрд документов.

А как может выглядеть структура веб-пространства?

25

Курс «Интернет-технологии». Лекция 3 — Поиск информации…

Институт поиска и анализа текстов (США) на базе исследования 200 млн страниц, 1999 год.

27% Ядро

22% IN

22% OUT

22% «отростки»

7 % «острова»

26

Курс «Интернет-технологии». Лекция 3 — Поиск информации…

1.Пропорции основных категорий веб-страниц в течение времени остаются неизменными, несмотря на значительное увеличение общего объема веб-ресурсов.

2.Модель Bow Tie примерно одинакова для различных подмножеств веб-пространства, т. е. обладает фрактальными свойствами.

3.С большой вероятностью случайно выбранные веб-страницы окажутся никак не связанными.

27

Курс «Интернет-технологии». Лекция 3 — Поиск информации…

1.Среднее расстояние между страницами

с односторонними связями – 16 переходов по ссылкам.

2.Среднее расстояние между страницами с двусторонними

связями – 7-8 переходов по ссылкам.

3.Никакие поисковые машины не могут найти «острова», если на них не ведут гиперссылки.

Недостаток модели: недооценка количества «островов».

По оценке компании BrightPlanet в 2000 году

число скрытых ресурсов в интернете было в сотни раз больше, чем доступных через поисковые системы!

28

Курс «Интернет-технологии». Лекция 3 — Поиск информации…

Состав скрытого Web:

1.Динамически генерируемые страницы.

2.Информация из баз данных.

3.Файлы нераспознаваемых форматов.

4.Сайты, защищенные паролем.

5.Прочее…

Крупнейший каталог скрытых ресурсов: www.completeplanet.com

Содержит более 100 тыс. ссылок

Другие известные каталоги: www.bighub.com www.invisible-web.net

Сайты, защищенные паролем и берущие плату за доступ, по некоторым оценкам, составляют всего 10% скрытого Web.

Пример: Система БД Dialog : www.dialog.com

Содержит 900 баз данных, 700 тыс. пользователей, которые просматривают более 17 млн документов в час!

Услугами Dialog пользуются в более чем 100 странах

29

Курс «Интернет-технологии». Лекция 3 — Поиск информации…

 

1

– часть ядра,

 

охватываемая всеми

 

поисковыми системами

 

2 – видимое ядро

 

3

– невидимое ядро

A, B, C, D – области, охватываемые

4

– доступный системе А

поисковыми системами (10-30%)

скрытый Web

 

5

– полностью скрытый Web

30

Курс «Интернет-технологии». Лекция 3 — Поиск информации…

Соседние файлы в папке Интернет технологии