
- •Тема2 (Лекции)
- •9Глобальная сеть инернет
- •9.1Интернет - глобальное международное сетевое объединение
- •9.2Провайдер сети Internet
- •9.3Интернет – средство доставки данных
- •9.4Транспортные протоколы (контроль и управление передачей)
- •9.5Краткая история создания Интернет
- •10Основные принципы адресации в сети Интернет
- •10.1Доменная система именования компьютеров
- •10.2Система адресации ресурсов в сети - url
- •10.3Обзор сервисов Интернета
- •10.4Всемирная паутина (www):
- •10.5Гипертекст и Web-страницы
- •10.6Браузеры
- •10.7Язык гипертекстовой разметки (html)
- •10.8Механизм работы Web-сервера
- •10.9Кэширование Web-страниц
- •10.10Электронная почта
- •10.11Адрес электронной почты
- •10.12Почтовые клиенты
- •10.13Как работает почта
- •10.14Популярные почтовые клиенты
- •10.15Электронная почта с Web-интерфейсом
- •10.17Списки рассылки
- •10.18Сетевые новости
- •10.19Удаленный доступ (Telnet)
- •10.20Протокол пересылки файлов ftp
- •10.21Передача голоса по каналам Интернет
- •10.22Интерактивное телевидение
- •10.23Видеоконференции по каналам Интернет и isdn
- •10.24Whois – служба поиска пользователей в сети
- •10.25Вспомогательные программы для работы в Web
- •10.26Средства автономного просмотра Web-страниц
- •10.27Интернет-переводчики
- •10.28Собственная страничка в Интернете
- •11Поиск информации в Web
- •11.1Индексированные каталоги
- •11.2Тематические коллекции ссылок
- •11.3Подбор доменного имени
- •11.4Поисковые машины
- •11.4.1Как работает поисковая машина
- •11.4.2Построение индекса
- •11.4.3Поиск по индексу
- •11.5Как выбрать поисковую машину
- •11.5.1 Охват и глубина
- •11.5.2 Скорость обхода и актуальность ссылок
- •11.5.3Качество поиска
- •11.5.4Скорость поиска
- •11.5.5Поисковые возможности
- •11.5.6Дополнительные удобства
- •11.6Метапоисковые системы
- •11.7Онлайновые энциклопедии и справочники
- •11.8Степень достоверности содержания Web-документов
- •11.9Практические рекомендации по поиску
- •11.10Поисковая машина Yandex
- •11.11Яndex.Site - подробный список возможностей
- •11.12Простейшие запросы
- •11.12.1Естественно-языковый поиск
- •11.12.2Логические операторы
- •11.12.3Скобки
- •11.12.4Поиск по адресам (по url)
- •11.12.5Ранжирование результата поиска
- •11.12.6Поиск с расстоянием
- •11.13Синтаксис языка запросов (строгий поиск)
- •11.13.1Результаты поиска
- •11.13.2Каталог Яндекса
- •11.13.3Поиск в каталоге
- •11.14Задание Yandex
- •11.15Поисковая машина Rambler
- •11.16Язык поисковых запросов
- •11.16.1Регистр
- •11.16.2Операторы
- •11.16.3Кавычки
- •11.16.4Скобки
- •11.16.5Метасимволы
- •11.16.6Применение языка запросов
- •11.16.7Морфология
- •11.16.8Стоп-слова
- •11.16.9Ограничение расстояния
- •11.16.10Ненайденные слова
- •11.17Расширенный поиск
- •Тема2 (практика)
- •12Работа с браузером Internet Explorer
- •12.1Запуск Internet Explorer.
- •12.2Просмотр www-страниц.
- •12.3 Возврат к ранее просмотренным страницам.
- •12.4Сохранение www-страницы на жестком диске.
- •12.5Сохранение рисунков входящих в состав www страницы.
- •12.6Печать www – страниц.
11.4.2Построение индекса
Схема построения индекса показана на рис. 30. Сетевые агенты, или роботы-пауки, "ползают" по Сети, анализируют содержимое Web-страниц и собирают информацию о том, что и на какой странице было обнаружено.
Рис. 30 Роботы-пауки просматривают информационное наполнение Web-страниц и создают базу, на основе которой производится поиск
При нахождении очередной HTML-страницы большинство поисковых систем фиксируют слова, картинки, ссылки и другие элементы (в разных поисковых системах по-разному), содержащиеся на ней. Причем при отслеживании слов на странице фиксируется не только их наличие, но и местоположение, т.е. где эти слова находятся: в заголовке (title), подзаголовках (subtitles), в метатэгах (meta tags) или в других местах. При этом обычно фиксируются значимые слова, а союзы и междометия типа "а", "но" и "или" игнорируются. Метатэги позволяют владельцам страниц определить ключевые слова и тематику, по которым индексируется страница. Это может быть актуально в случае, когда ключевые слова имеют несколько значений. Метатэги могут сориентировать поисковую систему при выборе из нескольких значений слова на единственно правильное. Однако метатэги работают надежно только в том случае, когда заполняются честными владельцами сайта. Недобросовестные владельцы Web-сайтов помещают в свои метатэги наиболее популярные в Сети слова, не имеющие ничего общего с темой сайта. В результате посетители попадают на незапрашиваемые сайты, повышая тем самым их рейтинг. Именно поэтому многие современные поисковики либо игнорируют метатэги, либо считают их дополнительными по отношению к тексту страницы. Каждый робот поддерживает свой список ресурсов, наказанных за недобросовестную рекламу.
Очевидно, что если вы ищете сайты по ключевому слову "собака", то поисковый механизм должен найти не просто все страницы, где упоминается слово "собака", а те, где это слово имеет отношение к теме сайта. Для того чтобы определить, в какой степени то или иное слово имеет отношение к профилю некоторой Web-страницы, необходимо оценить, насколько часто оно встречается на странице, есть ли по данному слову ссылки на другие страницы или нет. Короче говоря, необходимо ранжировать найденные на странице слова по степени важности. Словам присваиваются весовые коэффициенты в зависимости от того, сколько раз и где они встречаются (в заголовке страницы, в начале или в конце страницы, в ссылке, в метатэге и т.п.). Каждый поисковый механизм имеет свой алгоритм присваивания весовых коэффициентов - это одна из причин, по которой поисковые машины по одному и тому же ключевому слову выдают различные списки ресурсов.
Слова в любом тексте в информационном отношении весьма неравнозначны. И дело не только в том, что текст содержит много вспомогательных элементов предлогов или артиклей (напр., в англоязычных текстах). Часто для сокращения объема индексных регистров и ускорения самого процесса индексации вводятся так называемые стоп-листы. В эти стоп-листы вносятся слова, которые не несут смысловой нагрузки (например, предлоги или некоторые вводные слова). Но при использовании стоп-листов необходима определенная осторожность. Например, занеся в стоп-лист, неопределенный артикль английского языка "а", можно заблокировать нахождение ссылки на "витамин А".
Поскольку страницы постоянно обновляются, процесс индексирования должен выполняться постоянно. Роботы-пауки путешествуют по ссылкам и формируют файл, содержащий индекс, который может быть довольно большим. Для уменьшения его размеров прибегают к минимизации объема информации и сжатию файла. Имея несколько роботов, поисковая система может обрабатывать сотни страниц в секунду. Сегодня мощные поисковые машины хранят сотни миллионов страниц и получают десятки миллионов запросов ежедневно.
При построении индекса решается также задача снижения количества дубликатов - задача нетривиальная, учитывая, что для корректного сравнения нужно сначала определить кодировку документа. Еще более сложной задачей является отделение очень похожих документов (их называют "почти дубликаты"), например таких, в которых отличается лишь заголовок, а текст дублируется. Подобных документов в Сети очень много - например, кто-то списал реферат и опубликовал его на сайте за своей подписью. Современные поисковые системы позволяют решать подобные проблемы.
Современная поисковая система содержит в себе несколько подсистем.
web-агенты. Осуществляют поиск серверов, извлекают оттуда документы и передают их системе обработки.
Система обработки. Индексирует полученные документы, используя синтаксический разбор и стоп-листы (где, помимо прочего, содержатся все стандартные операторы и атрибуты HTML).
Система поиска. Воспринимает запрос от системы обслуживания, осуществляет поиск в индексных файлах, формирует список найденных ссылок на документы.
Система обслуживания. Принимает запросы поиска от клиентов, преобразует их, направляет системе поиска, работающей с индексными файлами, возвращает результат поиска клиенту. Система в некоторых случаях может осуществлять поиск в пределах списка найденных ссылок на основе уточняющего запроса клиента (например, recall в системе altavista). Задание системе обслуживания передается WEB-клиентом в виде строки, присоединенной к URL, наример, http://altavista.com/cgi-bin/query?pg=q&what=web&fmt=/&q=plug+%26+play, где в поле поиска было записано plug & play)
Следует иметь в виду, что работа web-агентов и системы поиска напрямую независимы. WEB-агенты (роботы) работают постоянно, вне зависимости от поступающих запросов. Их задача - выявление новых информационных серверов, новых документов или новых версий уже существующих документов. Под документом здесь подразумевается HTML-, текстовый или nntp-документ. WEB-агенты имеют некоторый базовый список зарегистрированных серверов, с которых начинается просмотр. Этот список постоянно расширяется. При просмотре документов очередного сервера выявляются URL и по ним производится дополнительный поиск. Таким образом, WEB-агенты осуществляют обход дерева ссылок. Каждый новый или обновленный документ передается системе обработки. Роботы могут в качестве побочного продукта выявлять разорванные гиперсвязи, способствовать построению зеркальных серверов.