Национальный Исследовательский Университет
Московский Энергетический Институт (Технический Университет)
Кафедра прикладной математики
Лабораторная работа №1 по дисциплине ВМСС
Поиск информации в Internet
Выполнил: Кобец С. Ю.
А-13-08
Преподаватель: Куриленко И. Е.
Москва
2012г.
Адресация в сети Интернет
Так же как и адрес дома в почтовой службе, адрес каждого компьютера в Интернете должен быть определен однозначно. Для записи адресов используются два равноценных формата IP- и DNS - адреса.
IP-адреса
Уникальный код компьютера в сети Интернет (IP-номер) состоит из четырех чисел со значениями от 0 до 255, разделенных точками (ххх.ххх.ххх.ххх.). Такая схема нумерации позволяет иметь в сети более четырех миллиардов компьютеров.
Когда локальная сеть или отдельный компьютер впервые присоединяется к сети Интернет, специальная организация (провайдер) присваивает им IP-номер, гарантируя его уникальность и правильность подключения. Начало адреса определяет сеть, в которой расположен адресуемый компьютер, а крайний правый блок - компьютер в этой сети. Интернет знает, где искать указанную сеть, а сеть знает, где находится этот компьютер.
DNS-адреса
Для удобства компьютерам в Интернете кроме цифровых адресов присваиваются собственные имена. При этом также, как и в случае с IP-адресами, необходима уникальность этого имени. С этой целью была создана специальная система адресации - доменная система имен (Domain Name System) или сокращенно DNS. DNS-адрес вместо цифр содержит буквы, разделяемые точками на отдельные информационные блоки (домены). Первым в DNS-адресе стоит имя реального компьютера с IP-адресом. Далее последовательно идут адреса доменов, в которые входит компьютер, вплоть до домена страны (для них принята двухбуквенная кодировка). Например, duma.ru: duma - имя домена Государственной думы, ru - страна Россия, аналогично mvd.ru. Здесь имеет место ситуация, сходная с присвоением географических названий и организацией почтовых адресов. Когда используется DNS-адрес, компьютер посылает запрос на DNS-сервер, обладающий соответствующей базой данных, DNS-сервер начинает обработку имени с правого конца влево, постепенно сужая поиск, определяя IP-адрес. Таким образом, по DNS-имени можно определить эквивалентный IP-адрес.
Три поколения поиска
Поиск 1.0
Первое поколение поисковых систем оценивало содержание страниц и ранжировало результаты поиска в основном исходя из частоты встречаемости ключевых слов. Такой способ давал определенные результаты, но очень быстро в определенных категориях ключевых слов образовалась путаница – по запросу «Бритни Спирс» вы получаете миллионы страниц, часть из которых не имеет никакого отношения к певице.
Поиск 2.0
С запуском Google, поиск стал больше опираться на данные сети – анализировалась не только одна страница, но и ссылки, ведущие на нее. Таким образом устанавливалась система авторитетности страниц, подобная системе оценки цитируемости работ, принятой в научном мире. Ссылки становились как бы «голосами» в пользу какой-либо страницы.
Поиск 3.0
В этой версии, релевантность результата оценивается не только по тому, что находится на странице, и по тому, что окружает страницу (основная страница сайта и ссылки с других сайтов), но и то, как эти данные соотносятся с вашей персональной сетью. Важно не только содержание страницы или ссылки на нее, важно отношение страницы к персональной сети контактов пользователя.
Общие принципы и модели работы современных ИПС
Общие принципы текстового поиска
При вводе документа в систему осуществляется индексирование документа и строится его представление, которое будет далее выступать заместителем этого документа в процессе функционирования системы при обработке пользовательских запросов. Поскольку представление документа в достаточной мере формализовано, исключается необходимость анализа его полного текста каждый раз при обработке запросов.
Далее, на основе индексирующих свойств конкретных документов, полученных извне системы или выявленных самой системой путем анализа содержания документов, система формирует и поддерживает индекс для каждой коллекции хранимых в ней документов. Она также обеспечивает актуализацию индекса при пополнении коллекции или, что случается сравнительно редко, при исключении документов из коллекции.
При поступлении в систему пользовательского запроса для него также строится соответствующее представление. Метод его построения аналогичен используемому для построения представлений документов.
Наконец, собственно поиск заключается в том, что каким-либо эффективным образом (не прямым перебором, а обычно с помощью рационально организованного индекса документов коллекции) осуществляется сопоставление представления запроса с представлениями хранимых в системе документов по принятому и системе критерию близости. В некоторых случаях для этих цепей вводится специальная метрика. Результаты обработки запросов представляются в виде множества найденных релевантных документов (результирующего множества документов).
