- •Лабораторная работа №1
- •Сетевые адреса
- •Доменные имена
- •Способы оценки релевантности
- •Функции оценки релевантности
- •LexRank
- •PageRank
- •Современная модель работы поисковой системы
- •Классификация ипс
- •Выполнение основной части работы
- •Методы борьбы с нерелевантным содержимым в выдаче
- •Анализ функций оценки релевантности
Методы борьбы с нерелевантным содержимым в выдаче
Естественно, поскольку все алгоритмы ранжирования страниц основаны на вычислении определенных величин, для того, чтобы повысить место сайта в выдаче, можно прибегать к различным уловкам. Рассмотрим особенности некоторых из типов подобных страниц:
Не имеющие отношения к содержимому страницы, но популярные в поисковых запросах слова в тегах«meta keywords», «description», например «sex», «бесплатно».
«Накачка» текста ключевыми словами — искусственное повышение частоты ключевого слова или выражения в тексте и (или) использование элементов разметки HTML(h1-3, strong, b, em, i) для искусственного повышения веса ключевого слова
«Невидимый текст» — текст, невидимый для посетителя страницы, но индексируемый поисковой машиной. Применяется цвет текста, соответствующий цвету фона, текст размером в 1 пиксель, блоки текста, со стилем «display:none»
Ссылочный спам — ссылки, «накручивающие» параметр «link popularity» и PageRankсайта. Так как поисковики, отвечая на запрос, ориентируются на количество ссылок, имеющихся на других сайтах на данный ресурс, то имеет смысл каким-либо образом увеличить этот показатель. Приведем примерную схему действия:
Создать небольшие сайты на бесплатном хостинге, зарегистрировать их в большом количестве тематических каталогов и с них ссылаться на основной
Принять участие в обмене ссылками
Приобретать ссылки за деньги
Ссылочный спам с гостевых книг, блогов, вики и пр.
Поисковые машины борются с этим, создавая фильтры, в которые добавляют сайты, ссылки с которых не учитываются при ранжировании.
Дорвеи— промежуточные страницы, созданные для накрутки веса страницы приссылочном ранжировании. При использовании подобного метода поступают следующим образом: создается промежуточная страница, содержащая бессмысленный набор ключевых слов, используемых в возможных поисковых запросах. После попадания человека на подобный ресурс происходит автоматическая его переадресация на другую страницу с понятным человеку содержимым
Маскировка, или «клоакинг» — анализ переменных запроса, при котором поисковой машине отдается содержимое сайта, отличное от того, которое видит пользователь.
Естественно, подобные способы продвижения сайта в поисковой выдаче не одобряются со стороны поисковой системы и влекут за собой разнообразные санкции вплоть до исключения из индекса. Рассмотрим некоторые из методов борьбы с подобными страницами:
Автоматический
Применяется специализированное программное обеспечение, которое на основе некоторых критериев (частота встречи слов в документе, применение тегов и т.д.) понижает индекс того или иного сайта или вообще исключает его из выдачи
Полуавтоматический
На основании сообщений пользователей, жалующихся на применение поискового спама, сайту понижается позиция в выдаче или при последующей ручной проверке сайт отправляют в бан
Ручной
Группа специалистов вручную проверяет некоторый набор страниц на предмет обнаружения поискового спама
Если рассматривать конкретные технологии, применяемые разными корпорациями, то, к примеру, Googleиспользует следующие виды фильтров для решения задачи фильтрации поискового спама:
Google SandBox– в этот фильтр попадают свежие сайты и находятся там неопределенное время
Google Bombing – этот фильтр применяется к сайтам, на которые множество ресурсов ссылается по одному и тому же ключевому слову. Поисковой системе кажется противоестественным, что большое количество сайтов указывают на сторонний ресурс одинаковой текстовой ссылкой.
Google -30– фильтр применяется к сайтам, использующим черные методы оптимизации – вышеупомянутые дорвеи и т.д. При применении этого фильтра позиция сайта в поисковой выдаче понижается на 30 позиций
Supplemental Results– сюда попадают страницы, которые, по мнениюGoogle, не имеют большой значимости для пользователя, содержат неуникальный контент и т.д.
Duplicate Content– применяется, когда сайт содержит большое количество неуникальных материалов
Too many pages at once– применяется, если в день появляется подозрительно большое количество новых страниц. Создан, чтобы отслеживать сайты с автоматической генерацией контента
Too many links at once– применяется, если за малый промежуток времени появляется большое число ссылок на сайт
Похожие фильтры, отличающиеся только названиями и, скорее всего, внутренней логикой работы, использует и поисковая система Яндекс. Как можно заметить, на сегодняшний момент эта задача решается поисковыми системами довольно успешно и большая часть документов, не соответствующих запросу, просто удаляются из выдачи.
