Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Поисковая система.docx
Скачиваний:
8
Добавлен:
01.04.2025
Размер:
154.72 Кб
Скачать
    1. Критерии поиска.

Когда кто-либо хочет найти информацию, доступную в Интернет, он посещает страницу поисковой системы и заполняет форму, детализирующую информацию, которая ему необходима. Здесь могут использоваться ключевые слова, даты и другие критерии. Критерии в форме поиска должны соответствовать критериям, используемым агентами при индексации информации, которую они нашли при перемещении по Сети.

База данных отыскивает предмет запроса, основанный на информации, указанной в заполненной форме, и выводит соответствующие документы, подготовленные базой данных. Чтобы определить порядок, в котором список документов будет показан, база данных применяет алгоритм ранжирования. В идеальном случае, документы, наиболее релевантные пользовательскому запросу будут помещены первыми в списке. Различные поисковые системы используют различные алгоритмы ранжирования, однако основные принципы определения релевантности следующие:

1. Возраст сайта. 2. Название URL сайта (имя домена). 3. Язык сайта (русский или иностранный). 4. Число страниц сайта. 5. Популярность тематики сайта. 6. Общий объём (вес) сайта и каждой отдельно взятой веб-страницы сайта. 7. Объём текстовой информации на сайте, а также на каждой веб-странице сайта. 8. Применение стиля к страницам сайта. 9. Общее количество ключевых слов на сайте и на отдельно взятой веб-странице. 10. Соотношение общего числа слов на сайте/веб-странице к числу ключевых слов на сайте/веб-странице. 11. Индекс цитирования. 12. Количество запросов по конкретному ключевому слову за заданный период времени. 13. Периодичность обновления информации на сайте, а также дата последнего обновления веб-страниц сайта. 14. Общее число картинок и мультимедийных файлов на сайте. 15. Использование фреймов. 16. Размер и тип (жирность, пропись заглавными буквами и т.д.) шрифта, которым оформлены ключевые слова. Стиль заголовков и наименований ключевых слов. 17. Указаны ли ключевые слова или нет. 18. Как далеко от начала страницы располагаются ключевые слова. 19. Наличие и анализ мета-тегов. 20. Наличие и содержание описания и свойств страницы. 21. Наличие файла "robots.txt". 22. Географическое местоположение сайта. 23. Комментарии внутри программного кода сайта. 24. Тип (html или asp) страниц для каждой веб-страницы сайта. 25. Наличие в составе сайта flash модулей. 26. Наличие на сайте страниц-дублей или с незначительными различиями. 27. Соответствие ключевых слов сайта тому разделу каталога поисковой системы, в котором зарегистрирован этот сайт. 28. Наличие "шумовых слов" ("стоп слов"). 29. Общее количество гиперссылок сайта, число внутренних ссылок, число внешних ссылок сайта. 30. Глубина сайта. А также другие специальные технические параметры.

База данных выводит ранжированный подобным образом список документов с HTML и возвращает его человеку, сделавшему запрос. Различные поисковые механизмы также выбирают различные способы показа полученного списка - некоторые показывают только ссылки; другие выводят cсылки c первыми несколькими предложениями, содержащимися в документе или заголовок документа вместе с ccылкой.

Поисковые алгоритмы засекречены, поэтому нет точного определения того, что именно учитывает алгоритм поисковой системы, на какие факторы обращает внимание в первую очередь, а какие не берёт в расчёт.

У каждой поисковой системы есть особая система фильтрации спама. Некоторые поисковики вносят изменения в алгоритмы именно для того, чтобы включить определённые фильтры. Так, можно вспомнить фильтр «песочница», который первоначально был обнаружен у Google, но, как считают многие оптимизаторы, есть и у Яндекса