Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Донецкий национальный технический университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Интернет технологии / 2014_inet_lec_3

.pdf

Скачиваний:

Добавлен:

03.03.2016

Размер:

5.18 Mб

Скачать

☆

<<< < Предыдущая 1 23 / 53 4 5 > Следующая >>>

Курс «Интернет-технологии». Лекция 3 — Поиск информации…

Основные термины веб-поиска

1.Индексация — процесс составления или приписывания указателя (индекса) — служебной структуры данных, необходимой для последующего поиска.

2.Индекс цитирования — число упоминаний (цитирований) информации, в традиционной библиографической науке рассчитывается за промежуток времени, например, за год.

3.Иллюзия свежести — эффект кажущейся свежести, достигаемый поисковыми системами в интернете за счет более регулярного обхода тех документов, которые чаще находятся пользователями.

4.Кластеризация документов — одна из задач информационного поиска, целью которой является автоматическое выявление групп семантически похожих документов среди заданного фиксированного множества документов.

5.Клоакинг — техника поискового спама, состоящая в распознании робота поисковой системы и генерации для него специального содержания, принципиально отличающегося от содержания, выдаваемого пользователю.

Курс «Интернет-технологии». Лекция 3 — Поиск информации…

Основные термины веб-поиска

6.Поиск по смыслу — алгоритм информационного поиска, способный находить документы, не содержащие слов запроса.

7.Прямой поиск — поиск непосредственно по тексту документов, без предварительной обработки (без индексирования).

8.Ранжирование — это процесс выстраивания найденных по запросу пользователя страниц в порядке наибольшего соответствия искомому запросу.

9.Релевантность — соответствие документа запросу.

10.Регулярное выражение — способ записи поискового предписания, позволяющий определять пожелания к искомому слову, его возможные написания, ошибки и так далее. В широком смысле — язык, позволяющий

задавать запросы неограниченной сложности.

Курс «Интернет-технологии». Лекция 3 — Поиск информации…

Феномен Интернета

В Интернете информации куда больше, чем можно найти с помощью традиционных информационно-поисковых систем. Кроме видимой для поисковых систем части веб-пространства, существует огромное количество веб-страниц, которые ими не охватываются.

Как правило, эти веб-страницы доступны в Сети, однако выйти на них трудно, а порой невозможно, если не знать точного адреса.

Эти ресурсы — «скрытый» (deep) Web, (определение ввел Джилл Эллсворт

в 1994 году, обозначив им источники, недоступные для обычных поисковых систем). Сегодня такие ресурсы называют также «невидимым» (invisible) Web.

Доступные сегодня посредством традиционных информационно-поисковых систем веб-страницы — это лишь видимая крупица. Непознанных, скрытых

ресурсов Сети в сотни (!) раз больше.

Курс «Интернет-технологии». Лекция 3 — Поиск информации…

Открытый Web:

> 20 млрд документов; > 100 млн сайтов.

Рост:

~ 10 млн документов в месяц; ~ 1 млн сайтов в месяц.

Скрытый Web:

20-50 млрд документов.

А как может выглядеть структура веб-пространства?

Курс «Интернет-технологии». Лекция 3 — Поиск информации…

Институт поиска и анализа текстов (США) на базе исследования 200 млн страниц, 1999 год.

27% Ядро

22% IN

22% OUT

22% «отростки»

7 % «острова»

Курс «Интернет-технологии». Лекция 3 — Поиск информации…

1.Пропорции основных категорий веб-страниц в течение времени остаются неизменными, несмотря на значительное увеличение общего объема веб-ресурсов.

2.Модель Bow Tie примерно одинакова для различных подмножеств веб-пространства, т. е. обладает фрактальными свойствами.

3.С большой вероятностью случайно выбранные веб-страницы окажутся никак не связанными.

Курс «Интернет-технологии». Лекция 3 — Поиск информации…

1.Среднее расстояние между страницами

с односторонними связями – 16 переходов по ссылкам.

2.Среднее расстояние между страницами с двусторонними

связями – 7-8 переходов по ссылкам.

3.Никакие поисковые машины не могут найти «острова», если на них не ведут гиперссылки.

Недостаток модели: недооценка количества «островов».

По оценке компании BrightPlanet в 2000 году

число скрытых ресурсов в интернете было в сотни раз больше, чем доступных через поисковые системы!

Курс «Интернет-технологии». Лекция 3 — Поиск информации…

Состав скрытого Web:

1.Динамически генерируемые страницы.

2.Информация из баз данных.

3.Файлы нераспознаваемых форматов.

4.Сайты, защищенные паролем.

5.Прочее…

Крупнейший каталог скрытых ресурсов: www.completeplanet.com

Содержит более 100 тыс. ссылок

Другие известные каталоги: www.bighub.com www.invisible-web.net

Сайты, защищенные паролем и берущие плату за доступ, по некоторым оценкам, составляют всего 10% скрытого Web.

Пример: Система БД Dialog : www.dialog.com

Содержит 900 баз данных, 700 тыс. пользователей, которые просматривают более 17 млн документов в час!

Услугами Dialog пользуются в более чем 100 странах

Курс «Интернет-технологии». Лекция 3 — Поиск информации…

	1	– часть ядра,
	охватываемая всеми
	поисковыми системами
	2 – видимое ядро
	3	– невидимое ядро
A, B, C, D – области, охватываемые	4	– доступный системе А
поисковыми системами (10-30%)	скрытый Web
	5	– полностью скрытый Web

Курс «Интернет-технологии». Лекция 3 — Поиск информации…

<<< < Предыдущая 1 23 / 53 4 5 > Следующая >>>

Соседние файлы в папке Интернет технологии

#
03.03.20163.68 Mб902014_inet_lec_1.pdf
#
03.03.20165.02 Mб812014_inet_lec_10.pdf
#
03.03.20166.37 Mб842014_inet_lec_2.pdf
#
03.03.20165.18 Mб862014_inet_lec_3.pdf
#
03.03.20164.61 Mб882014_inet_lec_4.pdf
#
03.03.20164.85 Mб822014_inet_lec_5.pdf
#
03.03.20163.63 Mб852014_inet_lec_6.pdf
#
03.03.20165.03 Mб842014_inet_lec_7.pdf
#
03.03.20164.54 Mб792014_inet_lec_8.pdf