- •Тема: информационно-поисковые системы
- •1.Классификация поисковых систем интернет
- •1. Объем поискового индекса
- •2. Метод выбора серверов для просмотра (опроса)
- •3. Используемые поисковые технологии
- •2.Информационно-поисковые системы
- •1. Каталог
- •2. Поисковая машина
- •3.Метапоисковая машина
- •4. Поиск источников информации
- •3.3. Инструментарий поисковых систем сетевой службы www
- •3.1. Инструментарий формирования запросов в ипс
- •2. Логические операторы (булев поиск).
- •7. Определение области поиска (наименование сервиса), домена (серверы с определенным расширением имени, su,ru) и т. П.
- •3.2. Язык запросов ипс Яndex
- •1. Булев поиск:
- •Пример 1.1.
- •Пример 1.2.
- •Пример 1.3.
- •Пример 1.4.
- •2. Контекстный поиск:
- •Пример 2.1.
- •Пример 2.2.
- •Пример 3.1.
- •Пример 3.2.
- •5. Поиск по адресам:
- •8. Ранжирование результата поиска
- •Пример 8.1.
- •Пример 8.2.
7. Определение области поиска (наименование сервиса), домена (серверы с определенным расширением имени, su,ru) и т. П.
8. Запрос на естественном языке. Запрос на русском языке можно делать только в Яndex. При внешней привлекательности данный вид запроса не очень эффективен - поиск будет не совсем точным и полным т. к. запрос автоматически индексируется и система сама выделяет из него ключевые слова.
При расчете критерия выдачи в поисковых системах учитываются:
частота слова в документе;
его местоположение (в заголовке, подзаголовке, HTML-дескрипторах).
Документы сортируются в порядке убывания релевантности, информация о них выдается в виде:
URL-адреса;
названия;
нескольких первых строк или краткого описания (резюме, автоматическая аннотация или реферат).
В конкретных поисковых системах может быть предложен различный набор этих инструментов.
3.2. Язык запросов ипс Яndex
Поисковая система Яndex начала работать с конца сентября 1997 г. Помимо серверов с расширением su и ru она индексирует содержание российских и зарубежных Web-узлов. Нормализация слов происходит на основе специального алгоритма, это позволяет не хранить все словоформы в словаре.
Яndех включает модули морфологического анализа и синтеза, индексации и поиска, а также набор вспомогательных модулей, таких как анализатор документов, языки разметки, конверторы форматов, сетевой «паук».
Алгоритмы морфологического анализа и синтеза, основанные на базовом словаре, умеют нормализовать слова, то есть находить их начальную форму, а также строить гипотезы для слов, не содержащихся в базовом словаре. Система полнотекстового индексирования позволяет создавать компактный индекс и быстро осуществлять поиск с учетом логических операторов.
Создаваемый индекс составляет около '/3 объема текста (без картинок и пр.), при этом записывается адрес слова с точностью до позиции в тексте, что потом позволяет проводить контекстный поиск.
Используется словарь на 90 тыс. слов. При индексации происходит нормализация, то есть слово ставится в свою исходную форму (для существительных — именительный падеж единственного числа, для глаголов — неопределенная форма и т. д.). Одновременно с индексацией исключается омонимия. Скорость индексации — не менее 2 Мб/мин.
Если слово не существует в словаре, то словарный сервер на основании имеющихся у него морфологических правил строит гипотезы возможной нормализации и словоизменения. Алгоритм морфологического разбора позволяет распознавать словаре найденные в словаре.
Индексирование проводится по всем словам, стоп-слова определяются статистически.
Язык запросов Яndех включает следующие компоненты:
1. Булев поиск:
оператор «пробел» или «&» означает логическое И (в пределах предложения);
оператор «&&» означает логическое И (в пределах документа);
оператор «|» означает логическое ИЛИ;
оператор «~» означает бинарный оператор И НЕ (в пределах предложения);
оператор «~~» означает бинарный оператор И НЕ (в пределах документа).
Пример 1.1.
Несколько набранных в запросе слов, разделенных пробелами, означают, что все они должны входить в одно предложение искомого документа. Тот же самый эффект произведет употребление символа ‘&’.
Например, при запросе ‘информационные технологии’ или ‘информационные & технологии’ результатом поиска будет список документов в которых в одном предложении содержатся оба слова (эквивалентно запросу (‘ +информационные +технологии’).