
- •Тема2 (Лекции)
- •9Глобальная сеть инернет
- •9.1Интернет - глобальное международное сетевое объединение
- •9.2Провайдер сети Internet
- •9.3Интернет – средство доставки данных
- •9.4Транспортные протоколы (контроль и управление передачей)
- •9.5Краткая история создания Интернет
- •10Основные принципы адресации в сети Интернет
- •10.1Доменная система именования компьютеров
- •10.2Система адресации ресурсов в сети - url
- •10.3Обзор сервисов Интернета
- •10.4Всемирная паутина (www):
- •10.5Гипертекст и Web-страницы
- •10.6Браузеры
- •10.7Язык гипертекстовой разметки (html)
- •10.8Механизм работы Web-сервера
- •10.9Кэширование Web-страниц
- •10.10Электронная почта
- •10.11Адрес электронной почты
- •10.12Почтовые клиенты
- •10.13Как работает почта
- •10.14Популярные почтовые клиенты
- •10.15Электронная почта с Web-интерфейсом
- •10.17Списки рассылки
- •10.18Сетевые новости
- •10.19Удаленный доступ (Telnet)
- •10.20Протокол пересылки файлов ftp
- •10.21Передача голоса по каналам Интернет
- •10.22Интерактивное телевидение
- •10.23Видеоконференции по каналам Интернет и isdn
- •10.24Whois – служба поиска пользователей в сети
- •10.25Вспомогательные программы для работы в Web
- •10.26Средства автономного просмотра Web-страниц
- •10.27Интернет-переводчики
- •10.28Собственная страничка в Интернете
- •11Поиск информации в Web
- •11.1Индексированные каталоги
- •11.2Тематические коллекции ссылок
- •11.3Подбор доменного имени
- •11.4Поисковые машины
- •11.4.1Как работает поисковая машина
- •11.4.2Построение индекса
- •11.4.3Поиск по индексу
- •11.5Как выбрать поисковую машину
- •11.5.1 Охват и глубина
- •11.5.2 Скорость обхода и актуальность ссылок
- •11.5.3Качество поиска
- •11.5.4Скорость поиска
- •11.5.5Поисковые возможности
- •11.5.6Дополнительные удобства
- •11.6Метапоисковые системы
- •11.7Онлайновые энциклопедии и справочники
- •11.8Степень достоверности содержания Web-документов
- •11.9Практические рекомендации по поиску
- •11.10Поисковая машина Yandex
- •11.11Яndex.Site - подробный список возможностей
- •11.12Простейшие запросы
- •11.12.1Естественно-языковый поиск
- •11.12.2Логические операторы
- •11.12.3Скобки
- •11.12.4Поиск по адресам (по url)
- •11.12.5Ранжирование результата поиска
- •11.12.6Поиск с расстоянием
- •11.13Синтаксис языка запросов (строгий поиск)
- •11.13.1Результаты поиска
- •11.13.2Каталог Яндекса
- •11.13.3Поиск в каталоге
- •11.14Задание Yandex
- •11.15Поисковая машина Rambler
- •11.16Язык поисковых запросов
- •11.16.1Регистр
- •11.16.2Операторы
- •11.16.3Кавычки
- •11.16.4Скобки
- •11.16.5Метасимволы
- •11.16.6Применение языка запросов
- •11.16.7Морфология
- •11.16.8Стоп-слова
- •11.16.9Ограничение расстояния
- •11.16.10Ненайденные слова
- •11.17Расширенный поиск
- •Тема2 (практика)
- •12Работа с браузером Internet Explorer
- •12.1Запуск Internet Explorer.
- •12.2Просмотр www-страниц.
- •12.3 Возврат к ранее просмотренным страницам.
- •12.4Сохранение www-страницы на жестком диске.
- •12.5Сохранение рисунков входящих в состав www страницы.
- •12.6Печать www – страниц.
11.2Тематические коллекции ссылок
Тематические коллекции ссылок - это списки, составленные группой профессионалов или даже коллекционерами-одиночками. Очень часто узкоспециализированная тема может быть раскрыта одним специалистом лучше, чем группой сотрудников крупного каталога. Тематических коллекций в Сети так много, что давать конкретные адреса не имеет смысла.
11.3Подбор доменного имени
Каталог - удобная система поиска, однако для того, чтобы попасть на сервер компании Microsoft или IBM, вряд ли имеет смысл обращаться к каталогу. Угадать название соответствующего сайта нетрудно: www.microsoft.com, www.ibm.com или www.microsoft.ru, www.ibm.ru - сайты российских представительств этих компаний.
Аналогично, если пользователю необходим сайт, посвященный погоде в мире, его логично искать на сервере www.weather.com. В большинстве случаев поиск сайта с ключевым словом в названии эффективнее, чем поиск документа, в тексте которого это слово используется. Если западная коммерческая компания (или проект) имеет односложное название и реализует в Сети свой сервер, то его имя с высокой вероятностью укладывается в формат www.name.com, а для Рунета (российской части Сети) - www.name.ru, где name - имя компании или проекта. Подбор адреса может успешно конкурировать с другими приемами поиска, поскольку при подобной системе поиска можно установить соединение с сервером, который не зарегистрирован ни в одной поисковой системе. Однако, если подобрать искомое имя не удается, придется обратиться к поисковой машине.
11.4Поисковые машины
Если бы компьютер был высокоинтеллектуальной системой, которой можно было легко объяснить, что вы ищете, то он выдавал бы два-три документа - именно те, которые вам нужны. Но, к сожалению, это не так, и в ответ на запрос пользователь обычно получает длинный список документов, многие из которых не имеют никакого отношения к тому, о чем он спрашивал. Такие документы называются нерелевантными (от англ. relevant - подходящий, относящийся к делу). Таким образом, релевантный документ - это документ, содержащий искомую информацию. Очевидно, что от умения грамотно выдавать запрос зависит процент получаемых релевантных документов. Доля релевантных документов в списке всех найденных поисковой машиной документов называется точностью поиска. Нерелевантные документы называют шумовыми. Если все найденные документы релевантные (шумовых нет), то точность поиска составляет 100%. Если найдены все релевантные документы, то полнота поиска - 100%.
Таким образом, качество поиска определяется двумя взаимозависимыми параметрами: точностью и полнотой поиска. Увеличение полноты поиска снижает точность, и наоборот.
Среди первых поисковых систем были archie, gopher и wais. Эти относительно простые системы казались тогда чудом. Использование этих систем показало их недостаточность и определенные врожденные недостатки: ограниченность зоны поиска и отсутствие управления этим процессом. Поиск проводился по ограниченному списку серверов и никогда не было известно, насколько исчерпывающую информацию получил клиент.
11.4.1Как работает поисковая машина
Поисковые системы можно сравнить со справочной службой, агенты которой обходят предприятия, собирая информацию в базу данных . При обращении в службу информация выдается из этой базы. Данные в базе устаревают, поэтому агенты их периодически обновляют. Некоторые предприятия сами присылают данные о себе, и к ним агентам приезжать не приходится. Иными словами, справочная служба имеет две функции: создание и постоянное обновление данных в базе и поиск информации в базе по запросу клиента.
Аналогично, поисковая машина состоит из двух частей: так называемого робота (или паука), который обходит серверы Сети и формирует базу данных поискового механизма.
База робота в основном формируется им самим (робот сам находит ссылки на новые ресурсы) и в гораздо меньшей степени - владельцами ресурсов, которые регистрируют свои сайты в поисковой машине. Помимо робота (сетевого агента, паука, червяка), формирующего базу данных, существует программа, определяющая рейтинг найденных ссылок.
Принцип работы поисковой машины сводится к тому, что она опрашивает свой внутренний каталог (базу данных) по ключевым словам, которые пользователь указывает в поле запроса, и выдает список ссылок, ранжированный по релевантности.
Следует отметить, что, отрабатывая конкретный запрос пользователя, поисковая система оперирует именно внутренними ресурсами (а не пускается в путешествие по Сети, как часто полагают неискушенные пользователи), а внутренние ресурсы, естественно, ограниченны. Несмотря на то что база данных поисковой машины постоянно обновляется, поисковая машина не может проиндексировать все Web-документы: их число слишком велико. Поэтому всегда существует вероятность, что искомый ресурс просто неизвестен конкретной поисковой системе.
Эту мысль наглядно иллюстрирует рис. 25. Эллипс 1 ограничивает множество всех Web-документов, существующих на некоторый момент времени, эллипс 2 - все документы, которые проиндексированы данной поисковой машиной, а эллипс 3 - искомые документы. Таким образом, найти с помощью данной поисковой машины можно лишь ту часть искомых документов, которые ею проиндексированы.
Рис. 29Схема, поясняющая возможности поиска
Проблема недостаточности полноты поиска состоит не только в ограниченности внутренних ресурсов поисковика, но и в том, что скорость робота ограниченна, а количество новых Web-документов постоянно растет. Увеличение внутренних ресурсов поисковой машины не может полностью решить проблему, поскольку скорость обхода ресурсов роботом конечна.
При этом считать, что поисковая машина содержит копию исходных ресурсов Интернета, было бы неправильно. Полная информация (исходные документы) хранится отнюдь не всегда, чаще хранится лишь ее часть - так называемый индексированный список, или индекс, который гораздо компактнее текста документов и позволяет быстрее отвечать на поисковые запросы.
Для построения индекса исходные данные преобразуются так, чтобы объем базы был минимальным, а поиск осуществлялся очень быстро и давал максимум полезной информации. Объясняя, что такое индексированный список, можно провести параллель с его бумажным аналогом - так называемым конкордансом, т.е. словарем, в котором в алфавитном порядке перечислены слова, употребляемые конкретным писателем, а также указаны ссылки на них и частота их употребления в его произведениях.
Очевидно, что конкорданс (словарь) гораздо компактнее исходных текстов произведений и найти в нем нужное слово намного проще, нежели перелистывать книгу в надежде наткнуться на нужное слово.