- •Введение
- •Поисковая система
- •История развития поисковых систем
- •Информационный поиск
- •Информационный поиск как процесс
- •Семантический поиск
- •Документальный поиск
- •Фактографический поиск
- •Информационный поиск как наука
- •Запрос и объект запроса
- •Задачи информационного поиска
- •Оценки эффективности
- •Точность (precision)
- •Полнота (recall)
- •Выпадение (fall-out)
- •Статистика запросов
- •Область применения
- •Особенности
- •Сниппет, алгоритм обратных индексов, индексация страниц, особенности работы поисковиков
- •Основные принципы работы поисковых систем
- •Алгоритмы работы поисковых систем — прямой поиск и алгоритм обратных (инвертированных) индексов
- •Алгоритм прямого поиска
- •Алгоритм обратных (инвертированных) индексов.
- •Задержка индексации Яндексом сайтов в не-русскоязычных доменных зонах
- •Принципы работы механизмов поиска
- •Поисковые средства
- •Кроулеры
- •Критерии поиска.
- •Сравнительный обзор поисковых систем
- •Наиболее популярные русскоязычные справочно-поисковые системы в интернет
- •Наиболее популярные зарубежные поисковики для русскоязычного пользователя
- •Выводы и рекомендации по использованию поисковых систем.
- •Рекомендации для эффективного использования поисковой системы
- •Оптимизация сайта под поисковые системы, индексация сайта.
- •Рекомендации для эффективного поиска информации
- •Переспективы развития поисковых систем
- •Список использованной литературы
Критерии поиска.
Когда кто-либо хочет найти информацию, доступную в Интернет, он посещает страницу поисковой системы и заполняет форму, детализирующую информацию, которая ему необходима. Здесь могут использоваться ключевые слова, даты и другие критерии. Критерии в форме поиска должны соответствовать критериям, используемым агентами при индексации информации, которую они нашли при перемещении по Сети.
База данных отыскивает предмет запроса, основанный на информации, указанной в заполненной форме, и выводит соответствующие документы, подготовленные базой данных. Чтобы определить порядок, в котором список документов будет показан, база данных применяет алгоритм ранжирования. В идеальном случае, документы, наиболее релевантные пользовательскому запросу будут помещены первыми в списке. Различные поисковые системы используют различные алгоритмы ранжирования, однако основные принципы определения релевантности следующие:
1. Возраст сайта. 2. Название URL сайта (имя домена). 3. Язык сайта (русский или иностранный). 4. Число страниц сайта. 5. Популярность тематики сайта. 6. Общий объём (вес) сайта и каждой отдельно взятой веб-страницы сайта. 7. Объём текстовой информации на сайте, а также на каждой веб-странице сайта. 8. Применение стиля к страницам сайта. 9. Общее количество ключевых слов на сайте и на отдельно взятой веб-странице. 10. Соотношение общего числа слов на сайте/веб-странице к числу ключевых слов на сайте/веб-странице. 11. Индекс цитирования. 12. Количество запросов по конкретному ключевому слову за заданный период времени. 13. Периодичность обновления информации на сайте, а также дата последнего обновления веб-страниц сайта. 14. Общее число картинок и мультимедийных файлов на сайте. 15. Использование фреймов. 16. Размер и тип (жирность, пропись заглавными буквами и т.д.) шрифта, которым оформлены ключевые слова. Стиль заголовков и наименований ключевых слов. 17. Указаны ли ключевые слова или нет. 18. Как далеко от начала страницы располагаются ключевые слова. 19. Наличие и анализ мета-тегов. 20. Наличие и содержание описания и свойств страницы. 21. Наличие файла "robots.txt". 22. Географическое местоположение сайта. 23. Комментарии внутри программного кода сайта. 24. Тип (html или asp) страниц для каждой веб-страницы сайта. 25. Наличие в составе сайта flash модулей. 26. Наличие на сайте страниц-дублей или с незначительными различиями. 27. Соответствие ключевых слов сайта тому разделу каталога поисковой системы, в котором зарегистрирован этот сайт. 28. Наличие "шумовых слов" ("стоп слов"). 29. Общее количество гиперссылок сайта, число внутренних ссылок, число внешних ссылок сайта. 30. Глубина сайта. А также другие специальные технические параметры.
База данных выводит ранжированный подобным образом список документов с HTML и возвращает его человеку, сделавшему запрос. Различные поисковые механизмы также выбирают различные способы показа полученного списка - некоторые показывают только ссылки; другие выводят cсылки c первыми несколькими предложениями, содержащимися в документе или заголовок документа вместе с ccылкой.
Поисковые алгоритмы засекречены, поэтому нет точного определения того, что именно учитывает алгоритм поисковой системы, на какие факторы обращает внимание в первую очередь, а какие не берёт в расчёт.
У каждой поисковой системы есть особая система фильтрации спама. Некоторые поисковики вносят изменения в алгоритмы именно для того, чтобы включить определённые фильтры. Так, можно вспомнить фильтр «песочница», который первоначально был обнаружен у Google, но, как считают многие оптимизаторы, есть и у Яндекса
