Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
36
Добавлен:
28.06.2014
Размер:
1.4 Mб
Скачать

МОСКОВСКИЙ ЭНЕРГЕТИЧЕСКИЙ ИНСТИТУТ (ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ)

ИНСТИТУТ АВТОМАТИКИ И ВЫЧИСЛИТЕЛЬНОЙ ТЕХНИКИ

КАФЕДРА ПРИКЛАДНОЙ МАТЕМАТИКИ

Лабораторная работа № 1.

Поиск информации в internet.

Выполнил

студент группы А-13-08

каф. Прикладной Математики

Захаров Антон

Преподаватель

Куриленко Иван Евгеньевич

Москва, 2012

Цель работы

Научиться искать информацию в сети INTERNET и получить знания о внутреннем устройстве и принципах работы поисковых машин.

Подготовка к работе

  1. Изучить принцип адресации ресурсов в сети INTERNET;

  2. Ознакомиться с принципами построения и моделями работы поисковых машин разных поколений;

  3. Ознакомиться с современной моделью работы поисковой системы;

  4. Ознакомиться со способами оценки степени релевантности запросу пользователя информации, найденной поисковой машиной;

  5. Ознакомиться с функциями оценки релевантности TF/IDF, PageRank, LexRank.

Порядок выполнения работы

  1. Изучить принципы и модель работы поисковой машины Yandex.

  2. Изучить принципы и модель работы поисковой машины Google.

  3. Изучить расширенный режим подачи запросов к поисковой системе.

  4. Проанализировать различные функции оценки релевантности. Указать для каждой функции достоинства и недостатки (например, вероятность выдачи нерелевантной информации).

  5. Составить обзор методов борьбы с нерелевантным содержимым.

Подготовка к работе.

  1. Принцип адресации ресурсов в сети INTERNET.

Интернет состоит из тысяч корпоративных, научных, правительственных и домашних компьютерных сетей. Объединение сетей разной архитектуры и топологии стало возможно благодаря протоколу IP (Internet Protocol) и принципу маршрутизации пакетов данных.

Определение

Протокол передачи данных – набор соглашений интерфейса логического уровня, которые определяют обмен данными между различными программами. Эти соглашения задают единообразный способ передачи сообщений при взаимодействии программного обеспечения разнесённой в пространстве аппаратуры [1].

Для того чтобы при обмене данными компьютеры, объединённые в сеть, действовали согласованно, разработан ряд стандартов и правил, называемых протоколами. Весь набор сетевых протоколов, на которых базируется Интернет, называется TCP/IP. Название образовано из аббревиатур двух базовых протоколов – TCP, отвечающего за гарантированную транспортировку данных по каналам связи, и IP, содержащего правила адресации.

Есть ещё целый ряд протоколов, ещё не стандартизированных, но уже очень популярных в Интернете: OSCAR, CDDB, MFTP, BitTorrent, Gnutella, Skype [5]. Эти протоколы в большинстве своём нужны для обмена файлами и текстовыми сообщениями.

Протоколы, входящие в семейство TCP/IP разделяются на уровни:

  • Физический уровень описывает среду передачи данных (будь то кабель, оптоволокно или радиоканал), физические характеристики такой среды и принцип передачи данных.

  • Канальный уровень описывает, каким образом передаются пакеты данных через физический уровень, включая кодирование.

  • Сетевой уровень изначально разработан для передачи данных из одной сети (подсети) в другую.

  • Транспортный уровень включает протоколы, которые могут решать проблему гарантированной доставки сообщений, а также гарантировать правильную последовательность прихода данных. Транспортные протоколы определяют, для какого именно приложения предназначены эти данные.

  • Прикладной уровень, на котором работает большинство сетевых приложений. Эти программы имеют свои собственные протоколы обмена информацией, например, HTTP, FTP (передача файлов), SMTP (электронная почта), SSH (безопасное соединение с удалённой машиной), DNS (преобразование символьных имён в IP-адреса) и многие другие.

Наиболее распространённые протоколы:

Уровень

Протоколы

Прикладной

DNS, FTP, HTTP, HTTPS, IMAP, LDAP, POP3, SNMP, SMTP, SSH, Telnet, XMPP

Сеансовый/Представления

SSL, TLS

Транспортный

TCP, UDP

Сетевой

BGP, EIGRP, ICMP, IGMP, IP, IS-IS, OSPF, RIP

Канальный

Arcnet, ATM, Ethernet, Frame relay, HDLC, PPP, SLIP

Чтобы компьютеры, объединённые в сеть, могли обмениваться сообщениями, каждый из них должен иметь уникальный адрес. В сети Интернет такой адрес называется IP-адресом.

Определение

IP (Internet Protocol) – межсетевой протокол; относится к маршрутизируемым протоколам сетевого уровня семейства TCP/IP [2].

В последнее время все больше стали говорить о переходе с протокола IPv4 к протоколу IPv6, что не удивительно, и, в общем-то, правильно. Дело в том, что используемая сейчас 4-ая версия протокола создавалась в далёкие 1970-ые годы, и именно сейчас в полной мере стали проявляться проблемы, о которых не думали в то далёкое время.

Историческая справка

Форматов адресов IPv1, IPv2 и IPv3 как таковых не было. История TCP началась в 1973 году, когда создавалась сеть ARPAnet – родитель Интернета, именно для неё и была подготовлена первая версия протокола TCP.

Затем в 1977 году была разработана вторая версия протокола TCP, после чего вышел документ Internet Engineering Note number 2 (IEN2), в котором говорится уже про «Internet Protocol» (сокращение IP там не появляется), которая затем в 1978 году утвердилась в виде так называемой модели OSI.

В третьей версии протокол TCP разделился на два отдельных протокола: TCP и IP. Это произошло в 1978 году, но первый стандарт, который утверждает такое разделение вышел в 1980 году, и протоколу IP дали такую же версию, как и новому TCP, то есть 4-ю версию. Ну а в 1981 году вышел исправленный стандарт протокола IP, который был окончательно утверждён, и используется до сих пор (RFC 791, перевод стандарта на русский язык).

Определение IP адреса с помощью сервиса 2ip.ru

Протокол IPv5 разрабатывался параллельно с IPv6, но считается экспериментальным, и не предназначен для публичного использования, зато некоторые его наработки были взяты в протокол IPv6. Так что на данный момент у нас есть всего две реально используемые версии протокола: четвертая и шестая.

В точечно-десятичной нотации IP-адрес (IPv4) состоит из четырёх частей. Каждая часть, разделённая точкой, представляет собой один байт, и, следовательно, максимальное десятичное число, которое может быть представлено одним байтом 28 = 256 (от 0 до 255).

Примеры IP-адресов и вариантов записи:

IPv4 (двоичный)

11011100.11010111.00001110.00010110

IPv4 (десятичный)

220.215.14.22

IPv6

FEDC:BA98:7654:3210:FEDC:BA98:7654:3210

1080:0:0:0:8:800:200C:7A 1080::8:800:200C:7A

0:0:0:0:0:0:0:1 ::1 (localhost)

0:0:0:0:0:0:0:0 ::

Всего для протокола IPv4 существует различных адресов.Много ли это? В прошлом веке их вполне хватало, а теперь, можно сказать, что эти адреса уже исчерпаны. Дело в том, что 1 февраля 2011 года среди пяти региональных регистраторов распределили последние пять блоков IP-адресов.

В январе 1995 года вышел стандарт RFC 1752, который описывал новую версию протокола, названный тогда IPng (IP Next Generation), впоследствии названный IPv6. Датой принятия окончательной версии протокола считается апрель 2003 года (стандарт RFC 3513).

Самое главное, ради чего создавался новый протокол, это увеличение количества IP-адресов. Если в IPv4 на адрес отводилось 32 бита, то в IPv6 на него выделяется 128 бит. Таким образом, с использованием протокола IPv6 всего возможно адресов.

В отличие от IPv4, адреса в IPv6 могут быть записаны различными способами. Самая развёрнутая запись состоит из восьми частей, разделённых двоеточиям. Каждая часть представляет собой – 16-ричное число.

Однако в реальности в такой записи может быть много последовательно идущих нулей, чтобы их не писать, вместо них можно написать “::”. Чтобы не было неопределённости, сокращать можно только один раз в адресе.

Для человека такая система адресации сложна, так же как нам сложно помнить, поэтому в 1984 году Полом Мокапетрисом была разработана надстройка над IP-адресацией, называемая системой DNS.

Определение

DNS (Domain Name System) – компьютерная распределённая система, предназначенная для поиска по имени домена его IP адрес и некоторой другой информации (например, имени почтового сервера).

Доменные имена системы DNS – синонимы IP-адреса. Они символьные, а не числовые, удобнее для запоминания. Доменные имена также уникальны, т. е. нет в мире двух одинаковых доменных имён (на одном уровне). Доменные имена, в отличие от IP-адресов необязательны, они приобретаются дополнительно.

Определение IP адреса для доменного имени сайта с помощью сервиса ip-whois.net

Чтобы найти в Интернете какой-либо документ, достаточно знать ссылку на него (URL).

Определение

URL (Universal Resource Locator) – универсальный указатель ресурса, который определяет местонахождение каждого файла, хранящегося на компьютере, подключённом к Интернету.

Рассмотрим структуру следующего URL:

http://a1308.ru/homework.php?id=451

  • Протокол (http). В данном случае HTTP, протокол передачи гипертекста, по которому обеспечивается доставка документа с Web-сервера Web-браузеру.

  • Доменное имя (a1308.ru)

  • Пусть к документу (homework.php) с расширением. В рассматриваемом случае документом является файл в формате php, который находится в корневой папке сайта.

  • Параметры запроса (id=451). В данном случае запрашивается содержимое страницы, закреплённое за идентификатором 451.

Имена каталогов, содержащиеся в URL, обычно являются виртуальными и не имеют ничего общего с реальными именами каталогов компьютера, на котором выполняется Web-сервер, а являются их псевдонимами. Так, например, таким псевдонимом для рассмотренного выше URL является:

http://a1308.ru/homework/id451

  1. Принципы построения и модели работы поисковых машин разных поколений.

Определение

Поисковая система – программно-аппаратный комплекс с веб-интерфейсом, предоставляющий возможность поиска информации в Интернете. Под поисковой системой обычно подразумевается сайт, на котором размещён интерфейс (фронт-энд) системы [7].

Определение

Поисковая машина – программная часть поисковой системы (поисковый движок), представляющая собой комплекс программ, обеспечивающий функциональность поисковой системы и обычно являющийся коммерческой тайной компании-разработчика поисковой системы [7].

Интерфейс поисковой системы от компании Google google.ru

Выделяют три поколения поисковых машин [8, стр. 7].

Первое поколение. Эти поисковики уделяли внимание таким факторам, как частота ключевых слов на странице, заглавие страницы, место размещения ключевых слов в теле страницы и т. п. Среди прочих факторов значительную роль играли и мета-теги (keywords, description и другие). Также, желательно было, чтобы доменное имя и URL страницы содержали ключевые слова, что долгие годы было практически невозможно использовать для сайтов на кириллице, пока не появилась поддержка кирилличных доменов.

Второе поколение добавило к упомянутым выше факторам, влияющим на оценку релевантности, такие факторы, как количество внешних ссылок (индекс цитирования), сами характеристики таких ссылок (текст ссылки, релевантность ресурса, на котором она находится), количество прохождений по конкретной ссылке с данного поисковика и некоторые другие.

Третье поколение включает поисковые машины, способные понимать различные грамматические формы слов. Такие машины создают собственные карты, которые позволяют отфильтровывать такие явления, как дорвеи, сплеш-страницы, страницы, подаваемые приёмами клоакинга, и другие методы искусственного завышения популярности. На сегодняшний день поисковые системы Яндекс и Google умеют различать словоформы и достаточно грамотно находят релевантные к данному запросу страницы, не смотря на различия в падежах.

  1. Современная модель работы поисковой системы.

Поисковые машины состоят из трёх основных элементов: индексатора, индекса и программного обеспечения поисковой машины [7, стр. 29].

Индексатор, или, как его ещё называют, «поисковый робот» («краулер», «спайдер») считывает информацию с web-страницы и переходит по ссылкам на другие страницы этого же web-сайта. Web-сайты просматриваются регулярно (несколько раз в месяц); это необходимо, чтобы следить за изменениями. Все данные о найденной информации поступают во вторую часть поисковой машины.

Индекс (каталог) хранит все, найденные индексатором данные о страницах. При изменении web-страницы, со временем меняется и информация о ней в индексе. Пока данные о web-странице не попали в каталог, страница недоступна для поисковой машины.

Программное обеспечение поисковой машины – её третья составляющая. Эта программа просеивает миллионы записанных в каталог страниц, чтобы найти информацию, отвечающую цели поиска, и затем ранжирует их по степени соответствия заданному запросу.

Каталог поисковой системы Яндекс yaca.yandex.ru

  1. Способы оценки степени релевантности запросу пользователя информации, найденной поисковой машиной.

Определение

Релевантность в информационном поиске – семантическое соответствие поискового запроса и поискового образа документа. В более общем смысле, одно из наиболее близких понятию качества «релевантности» — «адекватность», то есть не только оценка степени соответствия, но и степени практической применимости результата, а также степени социальной применимости варианта решения задачи [9].

Каждый день в Интернете появляются сотни и тысячи новых страниц и сайтов. Многие владельцы хотят занять на выдаче самые высокие позиции, и им не важно, что сайт не подходит по теме, главное быть впереди других. Поэтому все труднее найти среди этой кучи нужную информацию.

Вначале на релевантность влияли такие показатели, как плотность ключевых слов на странице и текст заголовков, но после того, как хитрые оптимизаторы научились этим пользоваться, поисковики поменяли алгоритмы поиска. В основе внешних критериев релевантности лёг принцип цитируемости. Этот принцип подразумевает, что релевантность сайта определяется тем, насколько много других сайтов ссылается на данный сайт. Объясняется это тем, что чем больше сайтов рекомендуют посетителям зайти на этот ресурс, тем более высокую оценку получает он у поисковой машины. Но когда появилось множество так называемых каталогов, где любой желающий мог просто купить эти ссылки, этот метод устарел.

Затем обратили внимание не только на количество, но и на качество ссылок. По этой причине 90% каталогов стали абсолютно бесполезны. Компания Google первой модернизировала свою поисковую машину. Поисковый робот не просто бродил по сети и собирал ссылки, но и смотрел, на каких сайтах они находятся, оценивал важность каждой ссылки. Новый алгоритм поиска получил название PageRank, и сводился к попытке оценивать каждый документ с учётом его веса в среде всех других проиндексированных документов сети, ссылающихся на оцениваемый.

Несомненно, такая система оценки релевантности выглядит гораздо более полезной для пользователей. В целом же идея подобного алгоритма оказалась весьма удачной, и её переняли другие поисковые системы, но под своим именем. Например, у Яндекса это называется ТИЦ.

Тематический индекс цитирования (тИЦ) определяет «авторитетность» Интернет-ресурсов с учётом качественной характеристики ссылок на них с других сайтов. Эту качественную характеристику называют «весом» ссылки. Рассчитывается она по специально разработанному алгоритму. Большую роль играет тематическая близость ресурса и ссылающихся на него сайтов. Само по себе количество ссылок на ресурс также влияет на значение его тИЦ, но тИЦ определяется не количеством ссылок, а суммой их весов.

тИЦ как средство определения авторитетности ресурсов призван обеспечить релевантность расположения ресурсов в рубриках каталога Яндекса. тИЦ не является чисто количественной характеристикой, поэтому представляет собой некоторые округлённые значения, которые помогают ориентироваться в «значимости» («авторитетности») ресурсов в каждой области [10].

Официально опубликованной формулы вычисления тИЦ не существует. Есть только ряд факторов, заверенных компанией Яндекс, которые влияют на тИЦ:

  • Количество исходящих ссылок на странице с обратной ссылкой. Каждая исходящая ссылка с сайта делит передаваемый «вес» с другими внешними. То есть получается, чем меньше исходящих ссылок со страницы, тем больший тИЦ будет передаваться.

  • Количество исходящих ссылок с сайт в целом. Здесь похожая методика с первым пунктом, только не в масштабе страницы, а целого сайта. Сайт с огромным числом внешних ссылок передаст меньше тематического индекса цитирования, нежели сайт с меньшим количеством обратных ссылок.

  • тИЦ исходящих ссылок. Чем больше тематический индекс цитирования, тем больше его сайт сможет передать по ссылкам.

  • Фильтры, наложенные на сайт. Если на сайт наложены какие-то негативные фильтры, то «веса» ссылок с него упадут.

  • Возраст домена.

Уровень вложенности страниц. Например, главная страница у «Яндекса» имеет больший авторитет, чем внутренние.

  1. Функции оценки релевантности TF/IDF, PageRank, LexRank.

TF/IDF (Term frequency/Inverse document frequency) – статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса. Вес некоторого слова пропорционален количеству употребления этого слова в документе, и обратно пропорционален частоте употребления слова в других документах коллекции [11].

TF (частота слова) – отношение числа вхождения некоторого слова к общему количеству слов документа. Таким образом, оценивается важность слова в пределах отдельного документа.

IDF (обратная частота документа) – инверсия частоты, с которой некоторое слово встречается в документах коллекции. Учёт IDF уменьшает вес широкоупотребительных слов.

–количество документов в корпусе;

–количество документов, в которых встречается слово (когда).

В некоторых вариантах формулы не учитывается логарифмирование.

Таким образом, мера TF-IDF является произведением двух сомножителей: TF и IDF.

TF-IDF

Большой вес в TF-IDF получат слова с высокой частотой в пределах конкретного документа и с низкой частотой употреблений в других документах.

Пример

Вычислим TF-IDF для слова в контексте некоторого документа, если в этом документе оно встречается 25 раз, общее количество слов в документе равно 870, общее количество документов 60, и слововстречается в половине этих документов.

TF-IDF

PageRank – это числовая величина, характеризующая «важность» веб-страницы. Чем больше ссылок на страницу, тем она становится «важнее». Кроме того, «вес» страницы определяется весом множества страниц, ссылающихся на , и нормированным количеством исходящих ссылок . Таким образом, PageRank – это метод вычисления веса страницы путём подсчёта важности ссылок на неё.

Пример

Если страницы B, C, D ссылаются на страницу А, каждая из них вносит по 0.25 в PageRank страницы А.

Предположим, что на странице B имеются ссылки на страницы A и C, а страница D содержит ссылки на все три страницы. Значение PageRank распределяются между всеми исходящими ссылками на странице. Таким образом, страница B «даёт» по 0.125 страницам A и C. Только треть PageRank страницы D учитывается в PageRank А.

LexRank – лексический аналог функции ранжирования PageRank, используемой в поисковике Google [12].

Соседние файлы в папке Лабораторная работа 1