- •Лабораторная работа 5 Тема: Поиск информации в сети Интернет.
- •Теоретические сведения
- •1.Поисковые системы сети Интернет
- •1.1. Типы поисковых систем
- •1.2. Поисковые каталоги
- •1.3. Индексные поисковые системы
- •1.4. Сравнения индексных поисковых систем и поисковых каталогов
- •2. Принципы работы индексных поисковых систем
- •2.1. Сканирование World Wide Web
- •2.2. Индексация World Wide Web
- •2.3. Ранжирование результатов поиска
- •3. Приемы эффективного поиска информации
- •3.1. Команды простого поиска
- •3.2. Команды языка запросов
- •3.3. Команды расширенного поиска
- •Ход выполнения работы:
- •Вопросы для самоконтроля
2.2. Индексация World Wide Web
Собранные копии Web-ресурсов - это лишь исходный материал. Проводить в них поиск информации, заданный пользователем, очень неудобно, поскольку это занимает много времени. Поэтому собранные данные проходят предварительную обработку, которая называется индексацией. Цель индексации - предварительная обработка сканированных документов и получение индексного файла, с помощью которого запрос пользователя можно быстро обработать. Каждая поисковая система проводит такую индексацию по своим алгоритмам, которые составляют коммерческую тайну системы.
Одним из примеров индексации есть индексация обратным файлом (инверсным файлом, inverted file). Обратный файл - это обычный словарь, в который входят все слова, выявленные на Web-страничках, скопированных с Web-пространства. Рядом с каждым словом проставляются номера Web-документов, в которых это слово было выявлено. Нередко проставляется и вес слова - число, которое показывает, как часто данное слово встретилось в данном Web-документе. Дополнительно прибавляется еще адресная таблица, в которой для каждого номера Web-документа указанная его URL-адреса.
Если, например, клиент дает задание на поиск документов, которые содержат слова справочник и энциклопедия, с помощью обратного файла будут получены два списка номеров документов. В первом содержатся документы, в которых встречается первое слово. Во втором - документы, в которые входит второе слово. Далее из этих списков будут выбранные лишь те документы, которые входят в первый и второй список одновременно. По номерам этих документов в адресной таблице определяются их URL-адреса. Прежде чем выдать клиенту эти адреса, как итог обработки запроса, происходит ранжирование результатов поиска.
Еще одним примером индексации есть применения технологии PageRank, которая для оценки информационной полезности Web-ресурсов использует принцип своеобразного голосования: если страница А ссылается на страницу Б, она тем самым "голосует" за нее, чем повышает ее рейтинг. Кроме того, каждый "голос" имеет собственный вес - ссылка с страницы с высоким рейтингом "весит" больше, чем ссылка с неизвестного сайта. Алгоритм PageRank подобен алгоритму, который используется в процессе определения победителя шахматного турнира, который проводится за швейцарской системой. Такую технологию используют система Google и частично <МЕТА>.
2.3. Ранжирование результатов поиска
Ранжирование результатов поиска - очень важный этап, качество которого определяет удовлетворенность клиента результатами поиска. Современные индексные поисковые системы работают с миллиардами Web-документов, и потому отчеты о результатах поиска часто содержат сотни тысяч адресов. Чаще пользователю достаточно около десяти ссылок, но на наилучшие информационные ресурсы.
На этапе ранжирования поисковая система старается по своим алгоритмам определить ценность каждого из найденных ресурсов и упорядочить их таким образом, чтобы наиболее ценные (с точки зрения системы) располагались в начале списка. Для этого каждому ресурсу дается некоторая условная оценка. При ее подсчете отдельным Web-ресурсам могут начисляться призовые баллы, а некоторым - штрафные.
