Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Шпаргалка.doc
Скачиваний:
10
Добавлен:
13.09.2019
Размер:
560.64 Кб
Скачать

8. Формирование адреса

URL адрес в Internet состоит из набора доменов, причем уточнение идет справа налево. Имена доменов разделяются точкой. Вложенных доменов может быть сколь угодно много.

Существует негласное правило, согласно которому крайний правый домен определяет или страну, или принадлежность владельца к какой-либо области деятельности.

Первоначальные "организационные" домены:

  • edu - образование

  • gov - правительственное учреждение

  • mil - военная организация

  • com - коммерческая организация

  • org - некоммерческая организация

  • net - другие сети

Первоначальные "географические" домены:

  • ru (su) - Россия

  • fi -Финляндия

  • se -Швеция

  • uk - Великобритания

  • lv -Латвия

  • ua - Украина

Каждая страна имеет свое имя. Например: mainpgu.karelia.ru

Домен ru в конце обозначает Россию (RUssia).

Далее указан домен 'karelia', также являющийся "географическим". Деление регионов на географические зоны произвольно. Обычно это делается с учетом количества населения. Если город большой, например, Москва или Санкт-Петербург, то его имя может следовать сразу за 'ru'. Адреса в Москве имеют вид: домен.msk.ru или домен.msk.su. Адреса, оканчивающиеся на su, были созданы еще при Советском Союзе, а затем их менять не стали, так как часть пользователей работают со старыми адресами.

Самым левым доменом в адресе обычно является имя конкретного компьютера. Имя компьютера условно. За одним именем могут стоять сколь угодно много компьютеров, распределяющих информацию по своим правилам.

Допустим, файл с именем "internet.zip" лежит на FTP-сервере ftp.ict.nsc.ru в директории /pub/winsite/www/.    Тогда URL адрес этого файла будет выглядеть так:

file://ftp.ict.nsc.ru/pub/winsite/www/internet.zip

Пример URL адреса директории, в которой лежит файл:

file://ftp.ict.nsc.ru/pub/winsite/www/

Понятно, что URL адрес корневой директории FTP сервера ftp.ict.nsc.ru выглядит вот так:

file://ftp.ict.nsc.ru/

Кстати вместо сетевого имени машины ftp.ict.nsc.ru можно указать ее IP-адрес 193.124.243.76. Это часто бывает полезно для ускорения работы с удаленными системами при невысокой скорости передачи данных.

9. Методы информационного поиска в Интернет. Схема работы поисковых машин. Правила работы с поисковиками.

По состоянию на начало 2000 года только ресурсы WEB составляли более 850 миллионов WEB-страниц и количество их лавинообразно продолжает увеличиваться, и поэтому, поиск нужной информации очень сложен.

Для поиска информации в Сети используются специальные поисковые службы. Обычно поисковая служба - это компания, имеющая свой сервер, на котором работает некая поисковая система. Услуги большинства поисковых систем бесплатны для конечного пользователя, но по темпам роста это один из самых эффективных бизнесов в мире.

Пример. Мощная поисковая система принимает в сутки 30-50 миллионов посетителей и демонстрирует им сотни миллионов рекламных баннеров. Каждый щелчок пользователя на баннере оценивается примерно 1 центом, т.о. совокупный доход только от рекламных баннеров составляет до 100000 $ в сутки. Это одна из причин огромной прибыли бесплатных услуг.

В Сети поиск обеспечивают специальные поисковые службы. Обращаясь к поисковой системе мы формулируем запрос, в котором описываем, какого рода информацию хотим найти. В ответ мы получаем список гиперссылок, ведущих к ресурсам, соответствующих нашему запросу. Какими из этих ссылок мы воспользуемся - дело наше.

При классификации поисковых систем выделим 3 основных способа:

  1. Поисковые индексы - это полностью автоматизированные системы, которые без участия человека постоянно сканируют информационное пространство Сети и индексируют всё, что им попадается. Результаты своей работы они заносят в базу данных, из которой потом извлекают ответ на запрос пользователя. Такие системы должны постоянно передвигаться по Сети, искать новые документы и обновлять старые. Для этого они должны быть постоянно подключены к Сети через мощные каналы связи. Какое-то время так и было, но взрывной рост объема информации в Сети несколько изменил ситуацию. Поисковые системы просто захлебнулись в лавине информации. Летом 1999 года крупнейшие поисковые индексы преодолели 200-миллионный рубеж (количество WEB-страниц), а 300-миллионный по прогнозам будет взят в 2000 году. Поэтому для сохранения работоспособности такие системы стали индексировать не весь документ, а только его части, например, заголовок. Применяют и другие способы уменьшения объема информации, но ни одна поисковая система не может похвастаться 100% охватом. Ещё одной бедой автоматических индексов является проблема устаревания информации. Одни документы создаются, другие изменяются, а третьи, просто уничтожаются. Не успела поисковая система проиндексировать документ, как его автор уже внёс изменения, а то и уничтожил файл. Когда это документ вновь попадёт под индексацию, неизвестно. Поэтому не стоит удивляться, если вам в качестве ответа выдают гиперссылку, которая никуда не ведёт.

Работа поисковых индексов состоит из 3 этапов:

  • Сбор информации поисковыми роботами. Создание поисковой системы начинается со специальной программы, способной путешествовать по WEB-узлам Сети, просматривать и копировать их на центральный сервер поисковой системы. Такие агентские программы называют «червяками», «пауками», «ботами», «краулерами» и т.д. Многообразие названий связано с тем, что каждая поисковая система создаёт свою собственную, неповторимую систему и даёт ей своё имя, впоследствии ставшее нарицательным. Если при чтении WEB-страниц поисковый робот находит на ней ссылки на другие страницы того же WEB-узла он переходит по этим ссылкам, читает их содержание и так далее. Как червяк, он проникает в самые отдалённые закоулки WWW.

  • Второй этап работы поисковой системы - индексация. Собрать на центральном сервере образы сотен миллионов WEB-страниц - это одно дело, а вот выбрать из них те, которые нужны клиенту, сформировавшему запрос - совсем другое. Процесс преобразования данных из той формы, в которой они хранятся на WEB-страницах, в другие формы, удобные для быстрого просмотра называется индексацией. В результате индексации и образуется база данных, которую называют поисковым индексом.

У каждой поисковой системы свои способы индексации. Например, перед индексацией документ очищается от зарезервированных слов (stop-words), к которым относятся артикли, предлоги, союзы, местоимения и другие слова, имеющие менее 4 символов. Резервируются также очень распространённые слова, такие как computer, Internet и т.п. На этапе подготовки может происходить нормализация слов за счёт отбрасывания суффиксов и окончаний. Нормализацию проводят не все системы. Например, система Alta Vista не производит нормализацию никогда, и эта её уникальная особенность используется для контекстного поиска.

На основе подготовленных документов создаётся индекс - особая база данных, созданная, чтобы ускорит поиск. Суть метода индексации - это коммерческая тайна поисковой службы.

  • Третий этап - ответ на запрос клиента. Лучшие поисковые системы в ответ на запрос просматривают свои индексы и немедленно возвращают список ссылок, ведущих к затребованным ресурсам. Работа происходит следующим образом: система анализирует ключевые слова, которые клиент использовал в запросе, производит такую же операцию освобождения от зарезервированных слов и нормализацию, после чего выполняет поиск совпадений с содержимым поисковых индексов. По найденным совпадениям формируется итоговый список ссылок. У каждой поисковой системы своя политика формирования результирующего списка. Здесь важно, какие ссылки дать в начале списка, а какие - в конце, то есть, надо выводить какой-то рейтинг. Рейтинг может определяться, например, по таким показателям:

  • если разыскиваемы слова встречаются неоднократно (но не слишком часто, и не подряд);

  • если они расположены близко к началу страницы;

  • если эти слова присутствуют в заголовке страницы;

  • и т.д.

  1. Второй способ поиска информации в Сети - с помощью Поисковых тематических каталогов, которые с самого начала не ставят перед собой задачу 100% - го охвата. В каталогах вся информация рассортирована по темам, причём это информация, обработанная человеком. Это означает, что по каждому ресурсу Сети (страница, документ, сайт, сервер) составляется краткая справка: содержание, ссылка на другие ресурсы, автор, фирма и т.д. Ценность информации в каталогах значительно выше, чем в автоматических индексах, но её гораздо меньше. Многие каталоги не бесплатны, особенно содержащие коммерческую информацию.

Поисковые каталоги похожи на предметные каталоги библиотек. На начальной странице мы выбираем тему, которая нас интересует, затем в рамках темы выбираем категорию, затем подкатегорию и т.д., пока не получим список рекомендуемых ресурсов. Крупнейшим поисковым каталогом мира на сегодня считается поисковая система YAHOO! Она предоставляет примерно 1 млн ссылок к ресурсам WWW. На YAHOO! Работает 150 редакторов, ежедневно просматривающих ресурсы Сети в поисках наиболее ценных ресурсов. Кроме того, служба использует и информацию, поставляемую WEB-мастерами, но только после тщательной проверки. Скрупулёзность в подборе информации обеспечивает высокую репутацию службы, несмотря на то, что совокупный ресурс её доходов крайне мал.

  1. Гибридные системы В гибридных системах поиска можно воспользоваться как индексной базой данных, так структурированными тематическими каталогами. Примером могут служить системы: Lycos (http://www.lycos.com); Excite (http://www.excite.com); WebCrawler (http://www.webcrawler) .

Современные тенденции развития поисковых систем.

Порталы.

Входя в WWW с помощью броузера мы попадаем на какую-либо начальную страницу, которая задана в настройках броузера. Опыт показывает, что очень удобно иметь в качестве начальной страницы такую, на которой уже есть несколько ссылок на основные поисковые системы. Удобно здесь же иметь доступ к электронной почте, новости и т.д. Такие готовые начальные страницы называются порталами. Борясь за клиентов, многие поисковые системы превращаются в порталы, например, MyYahoo!, MyAltaVista.

Рейтинговые службы.

Рейтинговые службы появились в последние 3 года, они занимают промежуточное положение между поисковыми системами и порталами и могут использоваться в обоих качествах. Суть рейтинговой службы состоит в том, что на её сервере создаются тематические списки ссылок на наиболее популярные WEB-ресурсы. Когда мы выбираем одну из ссылок, срабатывает счётчик и рейтинг этого ресурса увеличивается. Каждый следующий посетитель может судить о популярности данного ресурса по количеству выборов его из списка. Самая популярная отечественная рейтинговая служба Rambler(www.rambler.ru), зарубежная - Webside Story(www.hitbox.com).

Поиск информации в цифрах и фактах.

  • Всего поисковые ресурсы WWW представляет 8000-9000 служб. Из них всемирно известно порядка двух десятков, обеспечивающих доступ к сотням миллионов Web-страниц.

  • Второй уровень - тематические международные поисковые службы по вопросам туризма, спорта, книг и т.п. Количество крупнейших служб составляет несколько десятков.

  • Третий уровень - национальные поисковые системы - их несколько сотен.

  • Четвёртый и пятый небольшие поисковые системы организаций и частных лиц. Количество таких микрослужб порядка 8000.

Рассмотренные ниже поисковые системы сейчас не относятся ни к одному из вариантов поиска, а сочетают в себе черты индексов и каталогов в различных комбинациях. Например, до последнего времени поисковый каталог YAHOO! Переадресовывал особо сложные запросы поисковому индексу Alta Vista, сегодня - службе Inktomi. С другой стороны, поисковые указатели научились выполнять автоматическую каталогизацию своих ресурсов. Примером такого подхода является самый мощный сегодня поисковый указатель Fast Search