
- •Тема2 (Лекции)
- •9Глобальная сеть инернет
- •9.1Интернет - глобальное международное сетевое объединение
- •9.2Провайдер сети Internet
- •9.3Интернет – средство доставки данных
- •9.4Транспортные протоколы (контроль и управление передачей)
- •9.5Краткая история создания Интернет
- •10Основные принципы адресации в сети Интернет
- •10.1Доменная система именования компьютеров
- •10.2Система адресации ресурсов в сети - url
- •10.3Обзор сервисов Интернета
- •10.4Всемирная паутина (www):
- •10.5Гипертекст и Web-страницы
- •10.6Браузеры
- •10.7Язык гипертекстовой разметки (html)
- •10.8Механизм работы Web-сервера
- •10.9Кэширование Web-страниц
- •10.10Электронная почта
- •10.11Адрес электронной почты
- •10.12Почтовые клиенты
- •10.13Как работает почта
- •10.14Популярные почтовые клиенты
- •10.15Электронная почта с Web-интерфейсом
- •10.17Списки рассылки
- •10.18Сетевые новости
- •10.19Удаленный доступ (Telnet)
- •10.20Протокол пересылки файлов ftp
- •10.21Передача голоса по каналам Интернет
- •10.22Интерактивное телевидение
- •10.23Видеоконференции по каналам Интернет и isdn
- •10.24Whois – служба поиска пользователей в сети
- •10.25Вспомогательные программы для работы в Web
- •10.26Средства автономного просмотра Web-страниц
- •10.27Интернет-переводчики
- •10.28Собственная страничка в Интернете
- •11Поиск информации в Web
- •11.1Индексированные каталоги
- •11.2Тематические коллекции ссылок
- •11.3Подбор доменного имени
- •11.4Поисковые машины
- •11.4.1Как работает поисковая машина
- •11.4.2Построение индекса
- •11.4.3Поиск по индексу
- •11.5Как выбрать поисковую машину
- •11.5.1 Охват и глубина
- •11.5.2 Скорость обхода и актуальность ссылок
- •11.5.3Качество поиска
- •11.5.4Скорость поиска
- •11.5.5Поисковые возможности
- •11.5.6Дополнительные удобства
- •11.6Метапоисковые системы
- •11.7Онлайновые энциклопедии и справочники
- •11.8Степень достоверности содержания Web-документов
- •11.9Практические рекомендации по поиску
- •11.10Поисковая машина Yandex
- •11.11Яndex.Site - подробный список возможностей
- •11.12Простейшие запросы
- •11.12.1Естественно-языковый поиск
- •11.12.2Логические операторы
- •11.12.3Скобки
- •11.12.4Поиск по адресам (по url)
- •11.12.5Ранжирование результата поиска
- •11.12.6Поиск с расстоянием
- •11.13Синтаксис языка запросов (строгий поиск)
- •11.13.1Результаты поиска
- •11.13.2Каталог Яндекса
- •11.13.3Поиск в каталоге
- •11.14Задание Yandex
- •11.15Поисковая машина Rambler
- •11.16Язык поисковых запросов
- •11.16.1Регистр
- •11.16.2Операторы
- •11.16.3Кавычки
- •11.16.4Скобки
- •11.16.5Метасимволы
- •11.16.6Применение языка запросов
- •11.16.7Морфология
- •11.16.8Стоп-слова
- •11.16.9Ограничение расстояния
- •11.16.10Ненайденные слова
- •11.17Расширенный поиск
- •Тема2 (практика)
- •12Работа с браузером Internet Explorer
- •12.1Запуск Internet Explorer.
- •12.2Просмотр www-страниц.
- •12.3 Возврат к ранее просмотренным страницам.
- •12.4Сохранение www-страницы на жестком диске.
- •12.5Сохранение рисунков входящих в состав www страницы.
- •12.6Печать www – страниц.
11.4.3Поиск по индексу
Поиск по индексу заключается в том, что пользователь формирует запрос и передает его поисковой машине. В случае когда у пользователя имеется несколько ключевых слов, весьма полезно использование булевых операторов.
Текст, в пределах которого проверяется действие логических операторов, называется единицей поиска. Это может быть предложение, абзац или весь документ. В разных поисковых системах могут использоваться различные единицы поиска. Например, можно искать документы, в которых два слова - "электрический" и "счетчик" - находятся одновременно в пределах предложения или в пределах всего документа. Соответственно поиск в пределах предложения возможен для тех систем, которые имеют в индексе подробный адрес.
Поисковые машины - это роботизированные системы (Search Engines). Специальная программа-робот, которую называют паук (spider) или ползун (crawler), постоянно обходит Сеть в поисках новой информации, которую она вносит в базу данных. База данных содержит URL-адреса и проиндексированную информацию, связанную с этими адресами. Важными показателями качества поисковой машины являются объем базы данных (количество документов), скорость обхода Сети (с этим связана скорость обновления информации в базе данных), алгоритм индексации (только по ключевым словам Web-страницы или по всему тексту, с учетом морфологии или без него, с поиском по тэгам HTML - заголовкам, ссылкам, подписям к изображениям и др.), а также дополнительные возможности (расширенный поиск, поиск похожих документов, ограничение области поиска), удобный пользовательский интерфейс и справочная система.
Мощная поисковая машина обходит всю сеть за несколько дней. При этом составляется весьма свежий и довольно подробный индекс - опись доступных ресурсов. При каждом новом цикле обхода индекс обновляется, и старые недействительные адреса удаляются. Однако автоматизированный подход приводит к тому, что в индекс могут попасть дубликаты (один и тот же документ на разных сайтах, в разных кодировках). Поисковые машины индексируют фреймы покадрово, не индексируют редиректы, а иногда и скрипты. Кроме того, часть интернета для поисковых машин закрыта. Это информация, доступ к которой осуществляется по паролю, а также базы данных, доступ в которые осуществляется по запросу из формы (а не по ссылке).
Таблица 4
|
Яндекс |
Rambler |
Апорт! |
AltaVista |
|
Зона поиска,объем базы данных |
Русская часть Интернета. Поиск по страницам сайтов из раздела каталога, по регионам. Специальный поиск по новостям, товарам, картинкам. |
Русская часть Интернета. |
Русская часть Интернета. Специализи-рованный поиск по новостям, товарам, картинкам, MP3 |
Специализи-рованный поиск по новостям, товарам, развлечениям, аудио (MP3) и видео. |
Специализи-рованный поиск по университе-там США, Apple, Linux, BSD |
Объем базы на начало 2001 года |
Более 31 миллионов документов |
Более 12 миллионов документов |
Более 14 миллионов документов |
Более 250 миллионов документов |
1,25 миллиарда страниц |
Тип индексации |
полнотекстовая индексация |
полнотекстовая индексация |
полнотекстовая индексация и индексация по ссылкам |
полнотекстовая индексация |
полнотекстовая индексация и индексация по ссылкам |
Наличие дополнительных сервисов |
Система объединяет поисковую машину и каталог, а также ряд дополнительных проектов (Закладки.Ру, Народ.Ру, система интеллектуального выбора товаров, CY и пр.). |
Система объединяет поисковую машину и рейтинг-классификатор Top100 |
Система объединяет поисковую машину, каталог и дополнительные сервисы (интернет-покупки и др.) |
Система объединяет поисковую машину, каталог и ряд дополнительных сервисов (хостинг, регистрация доменного имени, перевод и др.) |
Система объединяет поисковую машину и каталог, содержащий 15 разделов и 1,5 миллиона Web-страниц. |
Синтаксис языка поиска |
|||||
логическое И |
пробел или & (в пределах предложения)&&(в пределах документа) |
AND, &, пробел между словамипо умолчанию |
И, AND, &,+, пробел между словами по умолчанию |
AND, & (только при сложном поиске) |
по умолчанию для всех слов поиска |
логическое ИЛИ |
| |
OR, | |
ИЛИ, OR, | |
OR (по умолчанию при простом поиске), | (только при сложном поиске) |
OR |
бинарный оператор И-НЕ |
~ (в пределах предложения) ~ ~ (в пределах документа) |
не используется |
заменяется префиксным оператором "-" (AND - пробел по умолчанию); НЕ, NOT |
AND NOT, ! (только при сложном поиске) |
заменяется префиксным оператором "-" |
префиксы обязательных (+) и запрещенных (-) слов |
+, - |
не используются |
+, - |
+, - (только при простом поиске) |
+, - |
группирование слов |
( ) |
( ) |
( ) |
( ) |
не используется |
расстояние между ключевыми словами при поиске |
/(n m) - в словах, &&/(n m) - в предложениях (- назад, + вперед) |
при расширенном поиске - выдача документов только с минимальным расстоянием между словами |
сл2(...), с2(...), w2(...), [2,...] (- назад, + вперед) |
NEAR (в пределах10 слов, только при сложном поиске) |
не используется |
поиск фразы |
" " |
нет |
" ", ' ' |
" " |
" ", ' ', -..- |
символы замены части слова |
нет |
*, ? (замена любого символа) |
* (только в конце слова) |
* |
нет |
ограничение по языку документа |
выбор: любой, кириллица, латиница |
выбор: любой, русский, английский |
выбор: русский, английский |
выбор из 25 языков |
выбор из 25 языков |
морфология |
все склонения и спряжения по умолчанию, ! (поиск точной словоформы) |
# (все формы слов), @ (однокоренные слова) |
! (указание нормальной формы) |
нет |
нет |
поиск по датам |
есть |
есть |
есть |
есть |
нет |
ограничение поиска по полям |
Поиск в заголовках, ссылках, мета-тэгах, файлах и подписях картинок, в текстах ссылок, в названиях скриптов, объектов и апплетов. Поиск похожих документов. Сужение поиска на выбранные сайты. |
Поиск в заголовках, адресах, названиях документов (только при расширенном поиске). Поиск похожих документов. |
Поиск в заголовках, ссылках, мета-тэгах, файлах и подписях картинок, в адресах, в текстах ссылок. Сужение поиска на выбранные сайты. |
Поиск в заголовках, ссылках, мета-тэгах, файлах и подписях картинок, в адресах, в текстах ссылок, в названиях скриптов, объектов и апплетов |
Поиск в ссылках и Поиск похожих документов. Сужение поиска на выбранные сайты. |
Возможности расширенной формы, качество помощи |
|||||
настройка расширенной формы |
настройка словарного фильтра, настройки по дате, по сайту, ссылке, изображению, специальному объекту |
по документу, дате, режимам AND, OR, расстоянию между словами, усечению слова |
по документу, заголовку, изображению,дате, 5 разделам (сайты, МР3, картинки, товары, новости) |
по булевскому вопроснику, дате, по сайту, ссылке, изображению, тексту и пр. |
ограничения по сайту, языку, ссылкам |
настройка вывода результатов |
задание числа результатов на странице, всех элементов формы вывода |
задание числа результатов на странице, формы вывода |
задание формы выдачи |
задание числа результатов на странице, всех элементов формы вывода |
задание числа результатов на странице, всех элементов формы вывода |
ранжирование результатов поиска |
сортировка по релевантности или дате |
сортировка по релевантности или дате |
по популярности сайта |
по терминам, указанным в SORT |
по цитируемости (ссылок на страницу с других страниц) |
итеративный поиск (в результатах поиска) |
Да. Выполняется с помощью установки флажка |
Да. Выполняется с помощью переключателя области поиска |
Да. Выполняется с помощью установки флажка |
Да. Выполняется с помощью SORT BY |
нет |
качество раздела помощи |
имеется детальное описание языка запросов, таблица синтаксиса и раздел по поиску в категориях |
краткий раздел HELP |
подробный справочник по языку запросов, есть много русских синонимов для основных операторов |
самый большой из рассмотренных в этой таблице учебник on-line по языку запросов |
очень ограниченный раздел HELP |
семейный фильтр |
есть |
нет |
нет |
есть |
нет |
Синтаксис языка запросов в разных поисковых системах может отличаться, обычно в справочных данных на поисковом сервере приводится информация о синтаксисе запросов. В качестве примера в табл. приводится синтаксис языка запросов, принятый в поисковой машине Yandex.
Таблица 5. Синтаксис языка запросов при строгом поиске
Синтаксис |
Что означает оператор |
Пример запроса |
Пробел или & |
Логическое И (в пределах предложения) |
Лечебная физкультура |
&& |
Логическое И (в пределах документа) |
Рецепты && (плавленый сыр) |
I |
Логическое ИЛИ |
Фото I фотография I снимок I фотоизображение |
+ |
Обязательное наличие слова в найденном документе (работает также в применении к стоп-словам) |
+Быть или +не быть |
() |
Группирование слов |
(Технология I изготовление) (сыра I творога) |
~ |
Оператор И НЕ (в пределах документа) |
Банки ~ закон |
~~или~ |
Оператор И НЕ (в пределах документа) |
Путеводитель по Парижу ~~ (агентство I тур) |
/(n m) |
Расстояние в словах (~ назад +вперед) |
Поставщики /2 кофе музыкальное /(-2 4) образование вакансии ~/+1 студентов |
<< << |
Поиск фразы |
<<Красная шапочка>> (эквивалентно красная /+1 шапочка) |
&&/(n m) |
Расстояние в предложениях (-назад +вперед) |
Банк && /1 налоги
|
Многие поисковые системы имеют режим "расширенный поиск". Например, в наиболее популярной на сегодня поисковой системе Google (www.google.com) этот режим дает возможность искать документы на определенном языке, измененные в определенное время или представленные в определенном формате, например Word-документ или презентацию Power Point.
После того как пользователь передал запрос поисковой системе, она обрабатывает синтаксис запроса и сравнивает ключевые слова со словами в индексе. После этого составляется список сайтов, отвечающих запросу, они ранжируются по релевантности и формируется результат поиска, который и выдается пользователю.
Несмотря на то что человек человеку всегда лучше объяснит, что же он ищет, нельзя сказать, что современные поисковые машины - это примитивные системы, которые, кроме как найти некоторую последовательность символов, ничего не могут. Напротив, существуют, например, поисковые системы позволяющие решать проблему различных словоформ. А это далеко не тривиальная задача. Если мы ищем документ по ключевому слову "стол", то, вероятно, документ, содержащий фразу "столы для кухни" - это то, что нам нужно. Однако "стол" и "столы" для системы, осуществляющей формальное сравнение, - это разные слова. Поиск, учитывающий словоизменения, называется морфологическим поиском.