Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
36
Добавлен:
28.06.2014
Размер:
338.41 Кб
Скачать

МОСКОВСКИЙ ЭНЕРГЕТИЧЕСКИЙ ИНСТИТУТ

Лабораторная работа №1

По дисциплине: «Вычислительные машины, системы и сети»

На тему: «Поиск информации в INTERNET»

Выполнила:

Степная Е. В.

А-13-08

Проверил:

Куриленко И. Е.

2012 г.

Принцип адресации ресурсов в сети internet

Основным протоколом сети Интернет является сетевой протокол TCP/IP. Каждый компьютер, в сети TCP/IP (подключенный к сети Интернет), имеет свой уникальный IP-адрес или IP – номер. Адреса в Интернете могут быть представлены как последовательностью цифр, так и именем, построенным по определенным правилам. Компьютеры при пересылке информации используют цифровые адреса, а пользователи в работе с Интернетом используют в основном имена.

Цифровые адреса в Интернете состоят из четырех чисел, каждое из которых не превышает двухсот пятидесяти шести. При записи числа отделяются точками, например: 195.63.77.21. Такой способ нумерации позволяет иметь в сети более четырех миллиардов компьютеров.

Для отдельного компьютера или локальной сети, которые впервые подключаются к сети Интернет, специальная организация, занимающейся администрированием доменных имен, присваивает IP – номера.

В Интернете применяется так называемая доменная система имен. Каждый уровень в такой системе называется доменом. Типичное имя домена состоит из нескольких частей, расположенных в определенном порядке и разделенных точками. Домены отделяются друг от друга точками, например: www.lessons-tva.info или tva.jino.ru.

В Интернете доменная система имен использует принцип последовательных уточнений.

Доменная система образования адресов гарантирует, что во всем Интернете больше не найдется другого компьютера с таким же адресом. Для доменов нижних уровней можно использовать любые адреса, но для доменов самого верхнего уровня существует соглашение.

В системе адресов Интернета приняты домены, представленные географическими регионами. Они имеют имя, состоящее из двух букв, например:

Украина - ua

Франция - fr;

Канада - са;

США - us;

Россия - ru.

Существуют и домены, разделенные по тематическим признакам, например:

Учебные заведения - edu.

Правительственные учреждения - gov.

Коммерческие организации - com.

В последнее время добавлены новые зоны, например: biz, info, in, .cn и так далее

При работе в Internet используются не доменные имена, а универсальные указатели ресурсов, называемые URL (Universal Resource Locator). URL - это адрес любого ресурса (документа, файла) в Internet, он указывает, с помощью какого протокола следует к нему обращаться, какую программу следует запустить на сервере и к какому конкретному файлу следует обратиться на сервере. Общий вид URL: протокол://хост-компьютер/имя файла (например: http://www.lessons-tva.info/book.html).

Принципы построения и модели работы поисковых машин разных поколений

Поисковая машина — комплекс программ, предназначенный для поиска информации. Обычно является частью поисковой системы.

Основными критериями качества работы поисковой машины являются релевантность, полнота базы, учёт морфологии языка.

Классификация

- Локальные

Предназначены для поиска информации по какой-либо части всемирной сети, например по одному или нескольким сайтам, либо по локальной сети.

- Глобальные

Предназначены для поиска информации по всей сети Интернет либо по значительной её части.

Файлы, с которыми может работать поисковая машина, могут быть как текстового формата (например .html,.htm,.txt,.doc,.rtf, …), так и графического (.gif, .png, .svg, …) или мультимедийного (видео, звука и другой информации).

Пока наиболее распространённым является именно поиск по текстовым документам. Такими документами могут быть web-страницы, документы в формате doc, rtf, txt и др.

Функции поисковых машин:

  1. Поиск ссылок на страницы и другие документы сайтов

  2. Автоматически. Поисковая машина ищет ссылки со страниц сайтов.

  3. Ручной режим. Пользователи сами добавляют в базу данных поисковой машины ссылки на страницы своих сайтов

  4. Индексация документов сайтов. Извлечение из документов информации, важной для поиска, преобразование этой информации в формат, удобный для поисковой машины и сохранение этой информации в базу данных поисковой машины

  5. Поиск по базе данных проиндексированных документов

  6. Нахождение документов, соответствующих поисковому запросу

  7. Ранжирование документов в соответствии с их релевантностью поисковым запросам

  8. Кластеризация документов

Одним из первых инструментов поиска в интернете (до Всемирной паутины) был Archie.

Первой поисковой системой для Всемирной паутины был «Wandex», уже не существующий индекс, который создавал «World Wide Web Wanderer» — бот, разработанный Мэтью Грэем (англ. Matthew Gray) из Массачусетского технологического института в 1993. Также в 1993 году появилась поисковая система «Aliweb», работающая до сих пор. Первой полнотекстовой (т. н. «crawler-based», то есть индексирующей ресурсы при помощи робота) поисковой системой стала «WebCrawler», запущенная в 1994. В отличие от своих предшественников, она позволяла пользователям искать по любым ключевым словам на любой веб-странице — с тех пор это стало стандартом во всех основных поисковых системах. Кроме того, это был первый поисковик, о котором было известно в широких кругах. В 1994 был запущен «Lycos», разработанный в университете Карнеги Мелона.

Вскоре появилось множество других конкурирующих поисковых машин, таких как «Excite», «Infoseek», «Inktomi», «Northern Light» и «AltaVista». Позже каталоги соединились или добавили к себе поисковые машины, чтобы увеличить функциональность. В 1996 году русскоязычным пользователям интернета стало доступно морфологическое расширение к поисковой машине Altavista и оригинальные российские поисковые машины «Рамблер» и «Апорт». 23 сентября 1997 была открыта поисковая машина Яндекс.

В последнее время завоёвывает всё большую популярность практика применения методов кластерного анализа и поиска по метаданным. Из международных машин такого плана наибольшую известность получила «Clusty» компании Vivísimo. В 2005 году на российских просторах при поддержке МГУ запущен поисковик «Нигма», поддерживающий автоматическую кластеризацию. В 2006 году открылась российская метамашина Quintura, предлагающая визуальную кластеризацию в виде облака тегов. «Нигма» тоже экспериментировала с визуальной кластеризацией.

Соседние файлы в папке Лабораторная работа 1