
- •Внутренние факторы
- •Внешние факторы
- •Поведенческие факторы
- •Новые факторы
- •Слагаемые бюджета на seo
- •Внутренняя оптимизация
- •Покупка ссылок
- •Заказ контента
- •Работа специалистов
- •Работа над уникальностью контента на сайте
- •Защита уникальности контента
- •Проверка контента на уникальность
- •Где брать уникальный контент
- •Оптимизация в стратосфере Рунета
- •Икроножное seo: оптимизаторские финты для интернет – изданий
- •SeoPult: приборы, карты, фигуры пилотажа
- •Трастовость сайта
- •Что такое rustRank
- •Способы увеличения траста
- •Работа с сайтом
- •Приобретение ссылочной массы
- •Агс, горе от ума и парадоксы современного seo
- •Особенности продвижения интернет‑магазина
- •Место не для каждого
- •Ставка на низкочастотные запросы
- •Подбор ключевых запросов для семантического ядра
- •Стратегия продвижения
- •Подготовительные работы
- •Получение траста
- •Внутренняя оптимизация
- •Настройка cms
- •Контент для карточек товара
- •Наблюдение за действиями посетителей
- •Поведенческие факторы ранжирования
- •Источники данных
- •Основные поведенческие факторы
- •Кластер страниц по дополняющим запросам
- •Как повлиять на поведенческие факторы
- •Оптимизация сниппетов
- •Роль сниппета в ранжировании
- •Работа над качеством сниппета
- •Продвижение в «Яндекс. Картинках»
- •Руководство к действию
- •Продвижение через поисковые подсказки
- •Формирование поисковых подсказок
- •Как попасть в поисковые подсказки
- •Быть или не быть
- •Выбор домена и хостинга
- •Регистрация домена
- •Выбор хостинга
- •Правила переноса сайта на другой хостинг
- •Проверка уникальности контента методом шинглов
- •Метод шинглов
- •Алгоритм поиска дубликатов
- •Семантическая разметка страниц
- •Микроформаты и микроданные
- •Cms с поддержкой микроформатов
- •Трафиковое продвижение
- •Что это такое
- •Принцип работы трафикового модуля
- •Зеркала и склейка
- •Что такое зеркало в seo
- •Подробнее о склейке
- •Особенности продвижения молодого сайта
- •Работа над техническими ошибками
- •Требования к контенту
- •Ссылочное продвижение
- •Стратегия продвижения
- •Региональное продвижение: места силы
- •Аффилиаты: сидя на двух стульях
- •Продвижение аффилированных интернет‑магазинов
- •Аффилиат‑фильтр
- •Как «Яндекс» вычисляет аффилиаты
- •Решение для продвижения нескольких сайтов
- •Создание эффективной посадочной страницы
- •Правила создания хорошей посадочной страницы
- •Акцент на дизайне
- •Возможности html5 при оптимизации
- •Эволюция html
- •Структура страниц и seo
- •Атрибуты для описания ссылок
- •Описание медиафайлов
- •Особенности мобильных версий сайтов
- •Отличительные черты
- •Сервисы для создания мобильных версий сайтов
- •Кросс – браузерность
- •Мобильное приложение
- •Сервисы для тестирования мобильных версий сайтов
- •Seo для специалиста
- •Университет воды, огня и медных труб
- •Работа не волк. Работа – вервольф
- •Seo и алгоритмы поисковых систем: ключи, отмычки, кувалды
- •Сгинь, нечистая! История и эволюция нечестных методов поисковой оптимизации
- •2008 Год был переломным для оптимизации?
- •Недобросовестные веб – мастера, или как попасть в черный список
- •Волшебство сеомантики, или Семантика в seo
- •Погода в доме. О внутренней оптимизации
- •Письменное задание по seo
- •SeoPult: математика под капотом
- •Естественная постановка вопроса
- •Программируя термитник, или Собери свою seo – армию
- •Догнать и удержать: жизненный цикл клиента в seo – агентстве
- •Seo как бизнес
- •Взгляд Optimism.Ru на seo: насколько полон стакан?
- •Открывая seo – агентство: между шестеренок индустрии
- •SeoPult: атомная электростанция ради «одной кнопки »
- •Собирая пазл знаний о seo
- •Seo для клиента: счастия ключи, гайки знания
- •Возьми мое seo
- •Уловки seo – агентств: двойное дно, тройной прайс
- •«Придворный » оптимизатор: как найти верного seo – исполнителя
- •Оптимизатор на стороне клиента с печеньками
- •Будущее seo. Легким движением seo превращается…
Проверка уникальности контента методом шинглов
Уникальный, качественный, ласкающий глаз и не взрывающий мозг контент – краеугольный камень SEO – продвижения. Контент должен быть представлен либо авторскими текстами, либо рерайтом, сделанным с чувством, с толком, с расстановкой. Обмануть поисковую машину и всучить ей чужой текст, перекроенный с помощью синонимайзера, вряд ли удастся, поскольку посредством специальных алгоритмов она умеет распознавать такую подмену.
Знание того, каким образом работают алгоритмы, проверяющие тексты на уникальность, полезно тем, кто занимается текстовым наполнением сайтов. Предупрежден – значит вооружен.
Метод шинглов
Ежедневно поисковый робот индексирует многие миллионы документов. Если бы для обнаружения дублей поисковой машине требовалось сопоставить между собой все существующие документы (каждый с каждым), ей пришлось бы произвести миллиарды миллиардов операций. Будь даже полнотекстовое сравнение одного документа со всеми прочими доступно, оно оказалось бы малоэффективным. Небольшая перестановка слов, знаков, предложений в тексте при сопоставлении с идентичным ему в остальном документе исключала бы совпадение.
На помощь поисковой машине были привлечены математика и лингвистика. Для сравнения огромного количества документов в базе поисковика применяется так называемый метод шинглов. Он крайне трудоемок, но современные компьютеры с ним справляются. Детально концепцию описывает опубликованная в апреле 1997 года статья «Синтаксическая кластеризация в Сети» (Syntactic clustering of he Web) авторства А. Бродера, С. Глассмана, М. Манассе и Г. Цвейга, которая вошла в сборник трудов Шестой международной конференции World Wide Web.
Алгоритм поиска дубликатов
В переводе с английского shingle означает «гонт». Яснее не стало? Гонт – это кровельный материал, а точнее, небольшие дощечки с пазами и выступами, которые собираются в один лист. Применительно к поисковым системам шинглы – это алгоритм для поиска дубликатов путем вычисления и сопоставления контрольных сумм выборки канонизированных (см. значение термина ниже) словосочетаний длиной от одной до десяти (приблизительно) единиц. Работает это следующим образом.
1. Все слова в тексте приводятся к исходным словоформам, стоп – слова (предлоги, союзы, частицы, знаки препинания и другие незначимые и не несущие смысловой нагрузки элементы) удаляются. Это называется канонизацией текста. Таким образом получается исходник для вычисления шинглов. Более жесткая канонизация может учитывать синонимы и, например, исходное слово «недомогать» заменять на «болеть». Это помогает выявлять тексты, где лишь некоторые исходные слова заменены близкими по смыслу
2. Канонизированный текст делится на фразы длиной от трех до десяти (примерно) слов. Разбивка осуществляется или встык, или внахлест, когда в последующую фразу включено одно или несколько последних слов из предыдущей. Малейшее изменение канонизированного текста – и возникают совсем другие шинглы. Чтобы конструкция не разрушилась как карточный домик, в тексте нужно задать четкие, но малоочевидные точки отсчета для членения на шинглы. В качестве примера приведем схожий алгоритм «Яндекса» под названием «Спамооборона», где устанавливаются границы, цитата: «от буквы “ю” до буквы “ю”; или от двухбуквия, сумма численных значений символов (букв) которого кратна 50, до следующего такого же».
3. Далее для каждого шингла вычисляется контрольная сумма (точнее, применяется хэш‑функция). Проще говоря, последовательность слов превращается в последовательность цифр.
4. Затем формируется выборка шинглов, вернее, контрольных сумм и непосредственно сравнение и анализ документов. Из всех полученных контрольных сумм отбирается несколько десятков значений. Производится это путем случайной выборки, к примеру, 70 математических функций из заблаговременно составленного реестра, каждая из которых может описывать интересный для целей data mining параметр: пересечение, вложенность и т. д. Все шинглы документа пропускаются через каждое из 70 выражений, что дает на выходе значения, атрибутируемые тому или иному шинглу. Для каждой из 70 функций выбирается шингл с минимальным (возможны и иные критерии) значением контрольной суммы. В результате на базе анализируемого документа составляется сигнатура из 70 значений контрольных сумм. При сравнении с другим документом, который подвергся такой же операции, берутся шинглы, отобранные по совпадающим функциям. К примеру, если при отборе шинглов в обоих случаях было использовано 25 одинаковых функций из 70, то сравнение выполняется по 25 соответствующим контрольным суммам.
5. В результате анализа, если обнаружена высокая доля совпадения контрольных сумм двух документов, делается вывод о том, являются ли эти документы четкими (контент полностью совпадает) или нечеткими (контент претерпел некоторые изменения) дубликатами.
Конечно, алгоритм мы продемонстрировали лишь в общих чертах, чтобы дать представление о принципе поиска дубликатов методом шинглов.
Поисковики используют и другие сложные методы проверки текстов на уникальность. Среди них – статистический анализ частотности слов с использованием распределения Ципфа для поиска аномалий, наложение длинных пассажей (более длинных, чем шинглы, отрывков текста) для поиска совпадений в документах, которые подверглись ручному рерайту с разрушением шинглов, и другие методы.
Таким образом, избежать санкций поисковиков за использование чужого контента можно, лишь создавая оригинальный контент – самостоятельно ли, с привлечением ли копирайтера или рерайтера, способного качественно преобразовать заимствованный текст.