Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

world_information_resources

.pdf
Скачиваний:
69
Добавлен:
08.06.2015
Размер:
2.12 Mб
Скачать

Виды поиска в WWW

поиск по

Тематические

Поисковые машины

известным адресам

каталоги

 

Специализированный поиск в базах данных (резервирование, поиск справочной информации о людях, организациях …)

Рис. 35 Разновидности поиска в Интернет Можно выделить следующие критерии профессионального поиска:

контроль полноты охвата ресурсов;

контроль достоверности информации, полученной из Сети;

высокая скорость проведения поиска.

Компоненты поисковой системы

извлекает

 

 

 

 

search engine results

 

результаты поиска

 

 

 

engine

 

из базы данных

 

хранилище

 

(система выдачи

 

 

скаченных и

Браузероподобная

 

результатов):

 

обработанных

программа

 

 

страниц

скачивания

 

 

 

web-страниц

 

 

 

 

 

 

SEARCH ENGINE

 

 

 

 

 

 

spider (паук)

Поисковая

 

the database

 

 

 

 

spider (паук)

система

 

(база

 

 

 

 

 

 

данных)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

indexer

 

 

 

crawler

 

 

indexer

 

 

 

 

 

(индексатор)

 

 

 

crawler

 

 

(индексатор)

 

 

 

 

 

 

 

 

 

«путешествующий» паук, автоматически идет по всем ссылкам, найденным на странице

программа, анализирует веб-страницы, скаченные пауками

Рис. 36 Компоненты поисковой системы

Поисковая система осуществляет отбор на основании постоянно

101

меняющихся критериев:

Title (заголовок): Имеется ли ключевое слово в заголовке?

Domain/URL (Домен/адрес): Имеется ли ключевое слово в имени домена / в адресе страницы?

Style (стиль): (STRONG или B), Курсив (EM или I), Заголовки HEAD.

Density (плотность): Количество ключевых слов относительно всего текста страницы называется плотностью ключевого слова.

MetaInformation (мета данные): - мета ключевые слова (meta keywords) и мета описания (meta description).

Outbound Links (ссылки наружу): Какие ссылки есть на странице и содержит ли они и ключевое слово?

Inbound Links (внешние ссылки): Имеются ли в Интернет ссылки на данный сайт? Каков текст ссылки? Это называется «внестраничный» критерий (автор страницы не всегда может им управлять).

Insite Links (ссылки внутри страницы): Какие ссылки на страницы данного сайта содержит эта страница?

Таким образом, поисковой системе необходимо делать множество уточняющих запросов, используя страницу целиком.

Основные методы поиска информации в Интернет:

Непосредственный поиск с использованием гипертекстовых ссылок (особенно необходим на заключительных этапах информационного поиска).

Поиск в тематических каталогах.

Поиск в энциклопедиях, словарях.

Поиск с помощью поисковых машин.

Поиск в базах данных.

Технология проведения информационного поиска.

102

Определение географических регионов поиска;

Составление тезауруса; Тезаурус - список ключевых слов, организованный с учетом семантических отношений между ними.

При составлении тезауруса необходимо предусмотреть обработку синонимов, омонимов и морфологических вариаций ключевых слов.

Отбор поисковых машин. Устанавливается последовательность использования поисковых машин в соответствии с убыванием ожидаемой эффективности поиска с применением каждой машины.

Составление и выполнение запросов к поисковым машинам.

Это наиболее сложный и трудоемкий этап, связанный с обработкой большого количества информации (в основном шумовой).

Технологияпоиска

Уточнение запроса (отсечение нерелевантныхрезультатов)

Анализ полученных результатов

Формирование запроса

Отбор поисковых машин

Составлениетезауруса

Рис. 37 Технология поиска

Yandex (http://www.yandex.ru)

Поисковая машина последнего поколения, являющаяся к настоящему времени самой объемной: число учтенных оригинальных документов превышает 33 миллиона. Помимо серверов доменов "ru" и "su", «Yandex» индексирует содержание зарубежных русскоязычных Web-узлов, а также серверов СНГ.

103

«Yandex» располагает самой мощной и сложной системой составления запросов, которая позволяет сформулировать поисковую задачу максимально точно. Более чем какие-либо другие системы, «Yandex» приспособлен для задания запросов на естественном русском языке. Поисковый механизм сам производит расширения (падежи, числа, склонения), исключает "стоп-слова", анализирует расстояние терминов друг от друга и пр. В списке результатов ссылки снабжаются сведениями о том, есть ли в документе совпадение фразы или же просто присутствуют все введенные термины.

Допустимо задать употребление термина только в определенном падеже, указать, на каком расстоянии от другого слова или словосочетания он должен находиться в тексте и какие термины этот текст содержать не должен. Это, однако, требует освоения весьма сложного синтаксиса формирования поисковых предписаний, которые включают чуть ли не все специальные символы компьютерной клавиатуры. Среди используемых знаков: -&, !, /, :, <>, (), |, $.

«Yandex» обладает также «Расширенным поиском», представляющим собой детальную систему меню, с помощью которой можно составить сложный запрос без знания специального синтаксиса. Возможно, в частности, обеспечить сочетание нескольких фраз, исключить документы, содержащие указанные слова, конкретизировать местоположение термина в документе (заголовок, аннотация, ссылка...), применить ограничение по дате публикации, нахождению его на конкретном сайте, языку публикации. Также обеспечивается выявление иллюстраций указанной тематики. Среди сервисных функций «Yandex» есть возможность искать страницы, схожие по содержанию с конкретным документом.

Апорт (http://www.aport.ru)

В настоящее время эта поисковая система переживает период серьезного обновления. Объем накопленной информации оценивается

104

примерно в 20 миллионов проиндексированных документов с российских серверов и серверов ближнего зарубежья.

Одно из достоинств «Апорт» состоит в широких возможностях составления запроса. Помимо традиционных операторов "И" и "ИЛИ", поиска по целой фразе (двойные кавычки), система обладает способностью вычленять сочетания терминов только в случае, если они расположены в тексте рядом друг с другом. Насколько "рядом", каждый раз определяется пользователем. Так запрос "{3, налоговые льготы}" выявит все документы, в которых указанные слова (и их производные) встречаются в пределах трех соседствующих предложений, а запрос "[4, цветной металл]" отыщет только те страницы, где между искомыми словами стоит не больше двух других слов. За счет этого пользователь застрахован от большой доли информационного шума, возникающего при случайном сочетании ключевых слов.

«Апорт» предлагает также возможность автоматического перевода запроса с русского на английский язык и наоборот. В поисковую строку можно ввести термины на любом из двух языков и выбрать из меню условие: искать только на английском, на английском и русском, только на русском. В этом же случае также появляется возможность ограничения поиска элементами страниц, а также временем создания/обновления документов.

Наибольшей оригинальностью отличается форма выдачи результатов. Список найденных документов открывается сведениями о том, сколько документов и на каком количестве серверов выявлено. Перечень результатов сформирован таким образом, что в начале каждой ссылки идут сведения о сервере, на котором содержится источник. Приводится не только его название и адрес, но и аннотация. Далее приводится число страниц на сервере, содержащих искомые термины, а также следуют соответствующие ссылки.

В списке результатов каждая ссылка включает название файла, дату и время его последнего обновления, адрес/адреса источника с указанием

105

оригинальной кодировки и степень соответствия запросу. Положительным моментом, отличающим «Апорт» от других систем, является то, что найденные ключевые слова выводятся в окружающем контексте из любой части документа, а не только из его начала, что позволяет точнее определять соответствие страницы запросу уже на этапе просмотра ссылок, функция "Реконструкция текста" позволяет получить весь исходный документ, причем с сохранением оригинального форматирования. Это бывает полезно в случае, когда оригинал источника по каким-то причинам в данное время недоступен.

Rambler (http://www.rambler.ru)

Первая профессиональная отечественная поисковая система. Созданная в 1996 году специально для выявления материалов на серверах в пределах бывшего СССР, она обеспечивает полнотекстовый поиск в 12 миллионах документах, расположенных на Web-узлах России и стран ближнего зарубежья.

Система имеет дружественный интерфейс, предлагающий воспользоваться простой или детальной формами запроса (клавиша «Расширенный поиск»). Лучше сразу обратиться к последней, так как при использовании основного интерфейса возможности детализации запроса невелики.

Механизм составления детального запроса реализован через меню. Пользователю предлагается ввести один или несколько терминов и определить параметры для разыскания. К основным параметрам относятся: область поиска (во всем документе или в заглавии), условия поиска (выдавать ссылки на документ, в котором обязательно встречаются все термины или любой из них) употребление словоформ (искать ли все производные корня данного слова, ограничиться точно введенной формулировкойили усекать все встречающиеся окончания).

Очень полезными и, кстати, практически дублирующими друг друга параметрами являются требование минимального расстояния между

106

искомыми словами и поиск на полное соответствие запросу. Обе эти характеристики применяются при поиске по точной фразе. Помимо этого можно также уточнить поисковое предписание по языку документа, дате его последнего обновления и указать термины, появление которых в источнике должно быть исключено.

«Rambler» обладает хорошим механизмом вывода результатов. Ссылка на найденный объект включает помимо названия, электронного адреса, кодировки, размера и времени обновления документа еще и внушительных размеров резюме, из которого можно получить представление о том, в каком контексте употреблены искомые термины (они выделены жирным шрифтом). Щелчок мышью по стрелке перед названием выявленного документа запустит поиск страниц, схожих содержанием с данной.

Google (http://www.google.ru).

Поисковая система Google является законодателем мод в сфере поиска информации в World Wide Web.Ее поисковый механизм используют многие другие всемирно известные поисковые системы (в частности Yahoo), а ее база данных содержит ссылки более чем на 10 млрд Web-страниц все конкуренты значительно уступают Google по этому показателю. Несмотря на такой колоссальный размер базы данных, скорость работы поисковой системы Google остается одной из наилучших. Google практически всегда предоставляет в результатах поиска ссылки только на нужные пользователю ресурсы, — разумеется, если пользователь составил корректно сформулированный запрос.

Стоит отметить, что механизм поиска информации по каталогу у Google, пожалуй, более интересный и удобный, чем у Яндекса. Он позволяет искать сведения не только по крошечным описаниям, с помощью которых пользователю подается характеристика каждого имеющегося в каталоге Webсайта, но и по содержимому всех Web-сайтов, занесенных в каталог.

При составлении поискового запроса в режиме расширенного поиска следует указать поисковой системе множество дополнительных параметров.

107

Различные пункты в анкете, расположенной на Web-странице расширенного поиска, предоставляют пользователю следующие возможности.

Найти результатысо всеми словами.

Найти результатыс точной фразой.

Найти результатыс любым из слов.

Найти результатыбез слов.

Язык.

Формат файла.

Дата.

Упоминание.

Домен.

Для составления запроса можно сочетать все возможности практически в любой комбинации. Составив подходящий запрос, можно выбрать количество WEB-сайтов из списка, которое Google выведет на каждую Webстраницу.

Рассмотрим команды, которые используются в службе Google.

Искать точную фразу («...»). Например, если нужно найти точную фразу «мама мыла раму», необходимо ввести ее в строку поиска, обозначив кавычками.

Оператор И (AND). В Google оператор «И» (AND) не используется. Все слова, вводящиеся в строку запроса, по умолчанию соединяются оператором «И» (AND). Другими словами, если написать фразу «отечественное законодательство» (без кавычек), то Google автоматически поймет этот запрос как «отечественное И законодательство».

Оператор ИЛИ (OR). Для поиска Web-страниц, содержащих любое из ключевых слов, необходимо разделить ключевые слова в строке запроса оператором OR. Например: «дятел OR ворон OR ястреб» (без кавычек).

Исключить слово из поиска (-). Этот оператор ставится перед каждым словом, по которому нужно исключить Web-страницы из результатов

108

поиска. Например, введя запрос «напиток -вино -коньяк» (без кавычек), программа выдаст Web-страницы, содержащие слово «напиток», но на которых при этом не будет слов «вино» и «коньяк»[10].

109

Лабораторная работа №1

Тема: Схемы оплаты и тарифы на услуги Internet-провайдеров.

Цель: выявление оптимальных схем оплаты на услуги Internet-провайдеров

1. Используя сайты Internet-провайдеров г. Смоленска представить информацию о режимах оплаты и тарифах за подключение к Internet в режиме on-line по сети , ADSL в виде таблицы. Для анализа взять среднее значение тарифа. Тарифы представить в руб.

Схемы

 

Тариф, руб.

 

 

 

оплаты

 

 

 

 

 

 

 

 

 

 

Corbina

Mannet

Ситиком

Домолинк

Смолтелеком

Телепорт

 

 

 

 

 

 

 

 

 

 

 

 

 

Ethernet

Ethernet

Ethernet

ADSL

Ethernet

Ethernet

ADSL

Ethernet

 

 

 

 

 

 

 

 

 

По времени

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

По трафику

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Смешанная

 

 

 

 

 

 

 

 

(время

+

 

 

 

 

 

 

 

 

трафик)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Аванс

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Регистрация

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2. Используя сайты Internet-провайдеров г. Смоленска, представить информацию о дополнительных услугах и тарифах в виде таблицы. Тарифы, представить в рублях.

Дополнительные услуги Тариф, руб.

Mannet Corbina Домолинк Смолтелеком Ситиком Телепорт

Предоставл. дополнит, почтового ящика

Предоставл. дополнительного дискового пространства под Web-страницы

110