- •Лабораторная работа №1
- •Сетевые адреса
- •Доменные имена
- •Способы оценки релевантности
- •Функции оценки релевантности
- •LexRank
- •PageRank
- •Современная модель работы поисковой системы
- •Классификация ипс
- •Выполнение основной части работы
- •Методы борьбы с нерелевантным содержимым в выдаче
- •Анализ функций оценки релевантности
Классификация ипс
Существует три основных типа ИПС:
Классификационные
Используется иерархическая организация информации, которая называется классификатором. Его разделы называются рубриками. После разработки классификатора его авторами он становится доступным другой группе специалистов – систематизаторам. Эти работники, зная внутреннюю структуру классификатора, читают документы и приписывают им соответствующие информационные индексы
Пример – Yahoo (более 100 систематизаторов)
Недостатки:
Необходимо оценивать относительную важность различных областей человеческой деятельности
Оценка очень субъективна и имеет связь с рядом национальных и прочих особенностей (возраст, пол и пр.)
Взаимодействие с различными культурами может серьезно осложнять процесс поиска и требует дополнительных усилий при реализации поиска (приглашение особого специалиста – информационного брокера)
Словарные
Основаны на словаре из слов, встречающихся в Интернет, в котором при каждом слове будут также храниться и список документов, содержащих данное слово. В случае, если поиск в таком словаре осуществляется достаточно быстро, то при реализации ИПС можно отказаться от услуг систематизаторов и разработчиков классификаторов. Также подобная схема организации ИПС позволяет выполнять различные операции со списками документов (объединение, пересечение и т.д.). Так, по запросу «стол ИЛИ стул» ИПС предложит в качестве результата множество документов, содержащих первое либо второе слово
Очевидно, что по любому запросу такие системы могут выдавать миллионы страниц. Поэтому в ИПС словарного типа широко применяются алгоритмы ранжирования (упорядочивания страниц).
Пример - Yandex
Предметные
Особый тип ИПС, возникший некоторое время назад. Основная идея организации подобных ИПС заключается в том, что при поиске определенного предмета интереса в качестве результатов выдается список соответствующих ресурсов Интернет.
Исторически возникли из небольших кольцевых структур, которые организовывали Web-мастера, занимающиеся одной конкретной областью
Пример – WebRing
Выполнение основной части работы
Об основных технологиях и принципах, применяемых в поисковых машинах GoogleиYandex, было сказано выше, а мы перейдем к изучению расширенного режима подачи запросов.
Форма подачи запросов в расширенном режиме выглядит следующим образом:

Большое количество доступных опций позволяют значительно улучшить качество поисковой выдачи. Кроме того, по ссылке в правом верхнем углу доступны советы от работников компании по использованию этого инструмента. С помощью расширенного поиска можно искать только те страницы, которые:
содержат ВСЕ введенные условия поиска;
содержат точное словосочетание;
содержат хотя бы одного из введенных слов
НЕ содержат ни одно из введенных слов;
написаны на определенном языке;
созданы в определенном формате;
были изменены в определенный период времени;
содержат числа из определенного диапазона;
находятся на определенном домене или веб-сайте;
не содержат материалов, предназначенных только для взрослых.
Улучшить результаты поиска можно, добавив в запрос некоторое количество операторов. Расширенный поиск Google позволяет использовать следующие операторы:
поиск с включением («эпизод +1»)
поиск синонимов (~еда)
поиск "OR" (или) (отпуск Лондон ORПариж)
поиск в домене (site:www.mpei.ru)
поиск по диапазону чисел (1907..1914)
и другие функции расширенного поиска
Yandex
Рассмотрим теперь аналогичный раздел на сайте поисковой машины Yandex:

Эта форма позволяет достаточно гибко задавать критерии поиска, и для большей части запросов этого обычно хватает. В случае, если поисковая задача достаточно сложна, можно прибегнуть к использованию специального языка запросов, разработанного специалистами Yandex. Приведем основные операторы этого языка с пояснением в приложении 1. Сейчас же запишем пример запроса на их встроенном языке и расшифруем его значение:
кривой ~~ (кривой & рог)
Этот запрос вернет все документы, содержащие слово «кривой», но при этом не содержащие словосочетание (два слова, стоящие рядом в одном предложении) «кривой рог».
По своим функциональным возможностям оба этих сервиса являются очень схожими, при выборе между ними следует учитывать тот факт, что поисковая система Yandexориентирована на поиск в русскоязычной части сети Интернет, в то время какGoogleпоказывает примерно одинаковые результаты при поиске на всех языках.
