- •Принцип адресации ресурсов в сети internet.
- •Принципы построения и модели работы поисковых машин разных поколений.
- •Современная модель работы поисковой системы.
- •Способы оценки степени релевантности запросу пользователя информации, найденной поисковой машиной.
- •Функции оценки релевантности tf/idf, PageRank, LexRank.
Национальный исследовательский университет
Московский Энергетический Институт
Лабораторная работа №1.
Поиск информации в INTERNET.
Выполнил: Логинов Андрей
группа А-13-08
Преподаватель: Куриленко Иван Евгеньевич
Москва, 2012.
Цель работы:
Научиться искать информацию в сети INTERNET и получить знания о внутреннем устройстве и принципах работы поисковых машин.
Подготовка к работе:
-
Изучить принцип адресации ресурсов в сети INTERNET
-
Ознакомиться с принципами построения и моделями работы поисковых машин разных поколений
-
Ознакомиться с современной моделью работы поисковой системы
-
Ознакомиться со способами оценки степени релевантности запросу пользователя информации, найденной поисковой машиной
-
Ознакомиться с функциями оценки релевантности TF/IDF, PageRank, LexRank
Порядок выполнения работы:
-
Изучить принципы и модель работы поисковой машины Yandex .
-
Изучить принципы и модель работы поисковой машины Google .
-
Изучить расширенный режим подачи запросов к поисковой системе
-
Проанализировать различные функции оценки релевантности. Указать для каждой функции достоинства и недостатки (например, вероятность выдачи нерелевантной информации).
-
Составить обзор методов борьбы с нерелевантным содержимым
-
Принцип адресации ресурсов в сети internet.
Протокол передачи данных – набор соглашений интерфейса логического уровня, которые определяют обмен данными между различными программами. Эти соглашения задают единообразный способ передачи сообщений при взаимодействии программного обеспечения разнесённой в пространстве аппаратуры.
Для того чтобы при обмене данными компьютеры, объединённые в сеть, действовали согласованно, разработан ряд стандартов и правил, называемых протоколами. Весь набор сетевых протоколов, на которых базируется Интернет, называется TCP/IP. Название образовано из аббревиатур двух базовых протоколов – TCP, отвечающего за гарантированную транспортировку данных по каналам связи, и IP, содержащего правила адресации.
Протоколы, входящие в семейство TCP/IP разделяются на уровни:
-
Физический уровень описывает среду передачи данных (будь то кабель, оптоволокно или радиоканал), физические характеристики такой среды и принцип передачи данных.
-
Канальный уровень описывает, каким образом передаются пакеты данных через физический уровень, включая кодирование.
-
Сетевой уровень изначально разработан для передачи данных из одной сети (подсети) в другую.
-
Транспортный уровень включает протоколы, которые могут решать проблему гарантированной доставки сообщений, а также гарантировать правильную последовательность прихода данных. Транспортные протоколы определяют, для какого именно приложения предназначены эти данные.
-
Прикладной уровень, на котором работает большинство сетевых приложений. Эти программы имеют свои собственные протоколы обмена информацией, например, HTTP, FTP (передача файлов), SMTP (электронная почта), SSH (безопасное соединение с удалённой машиной), DNS (преобразование символьных имён в IP-адреса) и многие другие.
Чтобы компьютеры, объединённые в сеть, могли обмениваться сообщениями, каждый из них должен иметь уникальный адрес. В сети Интернет такой адрес называется IP-адресом.
IP (Internet Protocol) – межсетевой протокол; относится к маршрутизируемым протоколам сетевого уровня семейства TCP/IP.
В третьей версии протокол TCP разделился на два отдельных протокола: TCP и IP. Это произошло в 1978 году, но первый стандарт, который утверждает такое разделение вышел в 1980 году, и протоколу IP дали такую же версию, как и новому TCP, то есть 4-ю версию.
Всего
для протокола IPv4
существует
различных адресов.
Если
в IPv4 на адрес отводилось 32 бита, то в
IPv6 на него выделяется 128 бит. Таким
образом, с использованием протокола
IPv6 всего возможно
адресов.
В отличие от IPv4, адреса в IPv6 могут быть записаны различными способами. Самая развёрнутая запись состоит из восьми частей, разделённых двоеточиям. Каждая часть представляет собой – 16-ричное число.
DNS (Domain Name System) – компьютерная распределённая система, предназначенная для поиска по имени домена его IP адрес и некоторой другой информации (например, имени почтового сервера).
URL (Universal Resource Locator) – универсальный указатель ресурса, который определяет местонахождение каждого файла, хранящегося на компьютере, подключённом к Интернету.
