Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
0454435_58763_lekcii_mk_i_mediaplanirovanie.docx
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
154.65 Кб
Скачать

Ключевые слова

Ключевое слово — слово в тексте, способное в совокупности с другими ключевыми словами представлять текст (см. релевантность). В вебе используется главным образом для поиска.

Набор ключевых слов документа называют поисковым образом документа. Набор ключевых слов близок к аннотации, плану и конспекту, которые тоже представляют документ с меньшей детализацией, но лишён синтаксической структуры.

Когда используют термин «ключевое слово», подразумевают несколько близких, но не сводимых друг к другу понятий:

Ключевое слово в анализе текста (в том числе, и в поисковых системах) — набор слов, представляющих содержание текста и получаемых лингвистическими и математическими методами (например, анализируя частоту появления слова в тексте).

В HTML ключевые слова в тексте помечаются с помощью специальных тегов (strong, em, теги заголовков), то есть эксплицитно. Это открывает пространство для злоупотреблений (например, может подтолкнуть автора к выделению как можно большего фрагмента текста, чтобы увеличить число слов, по которым он будет легче находиться). Поэтому поисковые системы ориентируются на ключевые слова, выделяемые в результате анализа, а авторское выделение принимают как дополнительную информацию.

Ключевые слова могут не присутствовать в тексте, а только подразумеваться в нём. В HTML для задания таких ключевых слов есть элементы HTML meta с атрибутом keywords. Такой путь задания ключевых слов открывает ещё больше возможностей для злоупотребления, поэтому практически не воспринимается поисковыми системами. Однако, их используют другие пользовательские агенты (например, веб-браузеры для поиска по закладкам).

В микроформатах XHTML ключевые слова, описывающие документ, представлены в виде списка ссылок, каждая из которых должна вести на страницу, содержащую список документов, также содержащих это ключевое слово. Таким образом, возможность злоупотреблений несколько уменьшается, поскольку каждая ссылка должна вести к реальному содержимому. Для таких ключевых слов чаще используются термины «теги», «метки», а на уровне кода реализуются они с помощью микроформата tag-rel.

Google PageRank

Google PageRank (от Larry Page Rank) (иногда просто PR) — алгоритм расчёта авторитетности страницы, используемый поисковой системой Google.

PageRank — это числовая величина, характеризующая «важность» страницы в Google. Чем больше ссылок на страницу, тем она становится «важнее». Кроме того, «вес» страницы А определяется весом ссылки, передаваемой страницей B. Таким образом, PageRank — это метод вычисления веса страницы путем подсчета важности ссылок на нее. PageRank является одним из вспомогательных факторов при ранжировании сайтов в результатах поиска. PageRank не единственный, но очень важный способ определения положения сайта в результатах поиска Google.

Google учитывает не все ссылки. Поисковая система отфильтровывает ссылки с сайтов, специально предназначенных для скопления ссылок. Некоторые ссылки могут не только не учитываться, но и отрицательно сказаться на ранжировании ссылающегося сайта (такой эффект называется поисковой пессимизацией). В Google понимают, что вебмастер не в состоянии повлиять на входящие внешние ссылки, но полностью контролирует исходящие ссылки со своего сайта. Поэтому ссылки на сайт не могут повредить ему, но ссылки с сайта — могут. Следует внимательно относиться к сайтам, на которые вы ссылаетесь.

Google использует показатель PageRank найденных по запросу страниц, чтобы определить порядок выдачи этих страниц посетителю в результатах поиска.

Это означает, что поиск в Google работает следующим образом:

  1. ищутся все страницы, в которых есть слова из запроса пользователя;

  2. найденные страницы ранжируются на основе текстовых критериев;

  3. учитывается текст ссылок на сайт;

  4. результаты корректируются с учетом PageRank каждой страницы.

Шкала PageRank может изменяться от 0 до 10. Разделение на единицы по шкале основано на логарифмической зависимости или на чем-то весьма схожем, но только не на равномерном разделении. Перерасчёт значимости страниц происходит во время так называемого «Google Dance». Можно придерживаться примерно такой градации: PageRank от 4 до 5 — наиболее типичный для большинства сайтов средней «раскрученности». 6 — очень хорошо «раскрученный» сайт. 7 — величина, практически недостижимая для множества сайтов, но иногда встречается. Значения 8, 9, 10 имеют исключительно популярные и значимые проекты. Например, в данный момент у сайта русской Википедии PR равен 8, у английской Википедии, gnu.org и у сайта Microsoft — 9. Значение 10 имеют всего несколько десятков сайтов, например http://www.whitehouse.gov, http://www.adobe.com, http://w3c.org и т.д.

Следует отметить, что PageRank — это параметр относящийся к каждой отдельной странице, но не всему сайту в целом. На одном сайте могут находиться страницы с разным PageRank.