Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
46
Добавлен:
28.06.2014
Размер:
228.17 Кб
Скачать

Методы борьбы с нерелевантным содержимым в выдаче

Естественно, поскольку все алгоритмы ранжирования страниц основаны на вычислении определенных величин, для того, чтобы повысить место сайта в выдаче, можно прибегать к различным уловкам. Рассмотрим особенности некоторых из типов подобных страниц:

  • Не имеющие отношения к содержимому страницы, но популярные в поисковых запросах слова в тегах«meta keywords», «description», например «sex», «бесплатно».

  • «Накачка» текста ключевыми словами — искусственное повышение частоты ключевого слова или выражения в тексте и (или) использование элементов разметки HTML(h1-3, strong, b, em, i) для искусственного повышения веса ключевого слова

  • «Невидимый текст» — текст, невидимый для посетителя страницы, но индексируемый поисковой машиной. Применяется цвет текста, соответствующий цвету фона, текст размером в 1 пиксель, блоки текста, со стилем «display:none»

  • Ссылочный спам — ссылки, «накручивающие» параметр «link popularity» и PageRankсайта. Так как поисковики, отвечая на запрос, ориентируются на количество ссылок, имеющихся на других сайтах на данный ресурс, то имеет смысл каким-либо образом увеличить этот показатель. Приведем примерную схему действия:

    • Создать небольшие сайты на бесплатном хостинге, зарегистрировать их в большом количестве тематических каталогов и с них ссылаться на основной

    • Принять участие в обмене ссылками

    • Приобретать ссылки за деньги

    • Ссылочный спам с гостевых книг, блогов, вики и пр.

Поисковые машины борются с этим, создавая фильтры, в которые добавляют сайты, ссылки с которых не учитываются при ранжировании.

  • Дорвеи— промежуточные страницы, созданные для накрутки веса страницы приссылочном ранжировании. При использовании подобного метода поступают следующим образом: создается промежуточная страница, содержащая бессмысленный набор ключевых слов, используемых в возможных поисковых запросах. После попадания человека на подобный ресурс происходит автоматическая его переадресация на другую страницу с понятным человеку содержимым

  • Маскировка, или «клоакинг» — анализ переменных запроса, при котором поисковой машине отдается содержимое сайта, отличное от того, которое видит пользователь.

Естественно, подобные способы продвижения сайта в поисковой выдаче не одобряются со стороны поисковой системы и влекут за собой разнообразные санкции вплоть до исключения из индекса. Рассмотрим некоторые из методов борьбы с подобными страницами:

  • Автоматический

    • Применяется специализированное программное обеспечение, которое на основе некоторых критериев (частота встречи слов в документе, применение тегов и т.д.) понижает индекс того или иного сайта или вообще исключает его из выдачи

  • Полуавтоматический

    • На основании сообщений пользователей, жалующихся на применение поискового спама, сайту понижается позиция в выдаче или при последующей ручной проверке сайт отправляют в бан

  • Ручной

    • Группа специалистов вручную проверяет некоторый набор страниц на предмет обнаружения поискового спама

Если рассматривать конкретные технологии, применяемые разными корпорациями, то, к примеру, Googleиспользует следующие виды фильтров для решения задачи фильтрации поискового спама:

  • Google SandBox– в этот фильтр попадают свежие сайты и находятся там неопределенное время

  • Google Bombing этот фильтр применяется к сайтам, на которые множество ресурсов ссылается по одному и тому же ключевому слову. Поисковой системе кажется противоестественным, что большое количество сайтов указывают на сторонний ресурс одинаковой текстовой ссылкой.

  • Google -30– фильтр применяется к сайтам, использующим черные методы оптимизации – вышеупомянутые дорвеи и т.д. При применении этого фильтра позиция сайта в поисковой выдаче понижается на 30 позиций

  • Supplemental Results– сюда попадают страницы, которые, по мнениюGoogle, не имеют большой значимости для пользователя, содержат неуникальный контент и т.д.

  • Duplicate Content– применяется, когда сайт содержит большое количество неуникальных материалов

  • Too many pages at once– применяется, если в день появляется подозрительно большое количество новых страниц. Создан, чтобы отслеживать сайты с автоматической генерацией контента

  • Too many links at once– применяется, если за малый промежуток времени появляется большое число ссылок на сайт

Похожие фильтры, отличающиеся только названиями и, скорее всего, внутренней логикой работы, использует и поисковая система Яндекс. Как можно заметить, на сегодняшний момент эта задача решается поисковыми системами довольно успешно и большая часть документов, не соответствующих запросу, просто удаляются из выдачи.

Соседние файлы в папке Лабораторная работа 1