- •Принцип адресации ресурсов в сети internet
- •Принципы построения и модели работы поисковых машин разных поколений
- •Современная модель работы поисковой системы
- •Принципы и модель работы поисковой машины Yandex. Матрикснет
- •Принципы и модель работы поисковой машины Google. Технологии ранжирования Google
- •Расширенный режим подачи запросов к поисковой системе.
- •Idf (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некоторое слово встречается в документах коллекции. Учёт idf уменьшает вес широкоупотребительных слов.
- •Обзор методов борьбы с нерелевантным содержимым.
МОСКОВСКИЙ ЭНЕРГЕТИЧЕСКИЙ ИНСТИТУТ
Лабораторная работа №1
По дисциплине: «Вычислительные машины, системы и сети»
На тему: «Поиск информации в INTERNET»
Выполнила:
Степная Е. В.
А-13-08
Проверил:
Куриленко И. Е.
2012 г.
Принцип адресации ресурсов в сети internet
Основным протоколом сети Интернет является сетевой протокол TCP/IP. Каждый компьютер, в сети TCP/IP (подключенный к сети Интернет), имеет свой уникальный IP-адрес или IP – номер. Адреса в Интернете могут быть представлены как последовательностью цифр, так и именем, построенным по определенным правилам. Компьютеры при пересылке информации используют цифровые адреса, а пользователи в работе с Интернетом используют в основном имена.
Цифровые адреса в Интернете состоят из четырех чисел, каждое из которых не превышает двухсот пятидесяти шести. При записи числа отделяются точками, например: 195.63.77.21. Такой способ нумерации позволяет иметь в сети более четырех миллиардов компьютеров.
Для отдельного компьютера или локальной сети, которые впервые подключаются к сети Интернет, специальная организация, занимающейся администрированием доменных имен, присваивает IP – номера.
В Интернете применяется так называемая доменная система имен. Каждый уровень в такой системе называется доменом. Типичное имя домена состоит из нескольких частей, расположенных в определенном порядке и разделенных точками. Домены отделяются друг от друга точками, например: www.lessons-tva.info или tva.jino.ru.
В Интернете доменная система имен использует принцип последовательных уточнений.
Доменная система образования адресов гарантирует, что во всем Интернете больше не найдется другого компьютера с таким же адресом. Для доменов нижних уровней можно использовать любые адреса, но для доменов самого верхнего уровня существует соглашение.
В системе адресов Интернета приняты домены, представленные географическими регионами. Они имеют имя, состоящее из двух букв, например:
Украина - ua
Франция - fr;
Канада - са;
США - us;
Россия - ru.
Существуют и домены, разделенные по тематическим признакам, например:
Учебные заведения - edu.
Правительственные учреждения - gov.
Коммерческие организации - com.
В последнее время добавлены новые зоны, например: biz, info, in, .cn и так далее
При работе в Internet используются не доменные имена, а универсальные указатели ресурсов, называемые URL (Universal Resource Locator). URL - это адрес любого ресурса (документа, файла) в Internet, он указывает, с помощью какого протокола следует к нему обращаться, какую программу следует запустить на сервере и к какому конкретному файлу следует обратиться на сервере. Общий вид URL: протокол://хост-компьютер/имя файла (например: http://www.lessons-tva.info/book.html).
Принципы построения и модели работы поисковых машин разных поколений
Поисковая машина — комплекс программ, предназначенный для поиска информации. Обычно является частью поисковой системы.
Основными критериями качества работы поисковой машины являются релевантность, полнота базы, учёт морфологии языка.
Классификация
- Локальные
Предназначены для поиска информации по какой-либо части всемирной сети, например по одному или нескольким сайтам, либо по локальной сети.
- Глобальные
Предназначены для поиска информации по всей сети Интернет либо по значительной её части.
Файлы, с которыми может работать поисковая машина, могут быть как текстового формата (например .html,.htm,.txt,.doc,.rtf, …), так и графического (.gif, .png, .svg, …) или мультимедийного (видео, звука и другой информации).
Пока наиболее распространённым является именно поиск по текстовым документам. Такими документами могут быть web-страницы, документы в формате doc, rtf, txt и др.
Функции поисковых машин:
-
Поиск ссылок на страницы и другие документы сайтов
-
Автоматически. Поисковая машина ищет ссылки со страниц сайтов.
-
Ручной режим. Пользователи сами добавляют в базу данных поисковой машины ссылки на страницы своих сайтов
-
Индексация документов сайтов. Извлечение из документов информации, важной для поиска, преобразование этой информации в формат, удобный для поисковой машины и сохранение этой информации в базу данных поисковой машины
-
Поиск по базе данных проиндексированных документов
-
Нахождение документов, соответствующих поисковому запросу
-
Ранжирование документов в соответствии с их релевантностью поисковым запросам
-
Кластеризация документов
Одним из первых инструментов поиска в интернете (до Всемирной паутины) был Archie.
Первой поисковой системой для Всемирной паутины был «Wandex», уже не существующий индекс, который создавал «World Wide Web Wanderer» — бот, разработанный Мэтью Грэем (англ. Matthew Gray) из Массачусетского технологического института в 1993. Также в 1993 году появилась поисковая система «Aliweb», работающая до сих пор. Первой полнотекстовой (т. н. «crawler-based», то есть индексирующей ресурсы при помощи робота) поисковой системой стала «WebCrawler», запущенная в 1994. В отличие от своих предшественников, она позволяла пользователям искать по любым ключевым словам на любой веб-странице — с тех пор это стало стандартом во всех основных поисковых системах. Кроме того, это был первый поисковик, о котором было известно в широких кругах. В 1994 был запущен «Lycos», разработанный в университете Карнеги Мелона.
Вскоре появилось множество других конкурирующих поисковых машин, таких как «Excite», «Infoseek», «Inktomi», «Northern Light» и «AltaVista». Позже каталоги соединились или добавили к себе поисковые машины, чтобы увеличить функциональность. В 1996 году русскоязычным пользователям интернета стало доступно морфологическое расширение к поисковой машине Altavista и оригинальные российские поисковые машины «Рамблер» и «Апорт». 23 сентября 1997 была открыта поисковая машина Яндекс.
В последнее время завоёвывает всё большую популярность практика применения методов кластерного анализа и поиска по метаданным. Из международных машин такого плана наибольшую известность получила «Clusty» компании Vivísimo. В 2005 году на российских просторах при поддержке МГУ запущен поисковик «Нигма», поддерживающий автоматическую кластеризацию. В 2006 году открылась российская метамашина Quintura, предлагающая визуальную кластеризацию в виде облака тегов. «Нигма» тоже экспериментировала с визуальной кластеризацией.
