Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ТЕМА 7_ИПС.doc
Скачиваний:
4
Добавлен:
17.04.2019
Размер:
148.48 Кб
Скачать

7. Определение области поиска (наименование сервиса), домена (серверы с определенным расширением имени, su,ru) и т. П.

8. Запрос на естественном языке. Запрос на русском языке можно делать только в Яndex. При внешней привлекательности данный вид запроса не очень эффективен - поиск будет не совсем точным и полным т. к. запрос автоматически индексируется и система сама выделяет из него ключевые слова.

При расчете критерия выдачи в поисковых системах учитываются:

  • частота слова в документе;

  • его местоположение (в заголовке, подзаголовке, HTML-дескрипторах).

Документы сортируются в порядке убывания релевантности, информация о них выдается в виде:

  • URL-адреса;

  • названия;

  • нескольких первых строк или краткого описания (резюме, автоматическая аннотация или реферат).

В конкретных поисковых системах может быть предложен различный набор этих инструментов.

3.2. Язык запросов ипс Яndex

Поисковая система Яndex начала работать с конца сентября 1997 г. Помимо серверов с расширением su и ru она индексирует содержание российских и зарубежных Web-узлов. Нормализация слов происходит на основе специального алгоритма, это позволяет не хранить все словоформы в словаре.

Яndех включает модули морфологического анализа и синтеза, индексации и поиска, а также набор вспомогательных модулей, таких как анализатор документов, языки разметки, конверторы форматов, сетевой «паук».

Алгоритмы морфологического анализа и синтеза, основанные на базовом словаре, умеют нормализовать слова, то есть находить их начальную форму, а также строить гипотезы для слов, не содержащихся в базовом словаре. Система полнотекстового индексирования позволяет создавать компактный индекс и быстро осуществлять поиск с учетом логических операторов.

Создаваемый индекс составляет около '/3 объема текста (без картинок и пр.), при этом записывается адрес слова с точностью до позиции в тексте, что потом позволяет проводить контекстный поиск.

Используется словарь на 90 тыс. слов. При индексации происходит нормализация, то есть слово ставится в свою исходную форму (для существительных — именительный падеж единственного числа, для глаголов — неопределенная форма и т. д.). Одновременно с индексацией исключается омонимия. Скорость индексации — не менее 2 Мб/мин.

Если слово не существует в словаре, то словарный сервер на основании имеющихся у него морфологических правил строит гипотезы возможной нормализации и словоизменения. Алгоритм морфологического разбора позволяет распознавать словаре найденные в словаре.

Индексирование проводится по всем словам, стоп-слова определяются статистически.

Язык запросов Яndех включает следующие компоненты:

1. Булев поиск:

оператор «пробел» или «&» означает логическое И (в пределах предложения);

оператор «&&» означает логическое И (в пределах документа);

оператор «|» означает логическое ИЛИ;

оператор «~» означает бинарный оператор И НЕ (в пределах предложения);

оператор «~~» означает бинарный оператор И НЕ (в пределах документа).

Пример 1.1.

Несколько набранных в запросе слов, разделенных пробелами, означают, что все они должны входить в одно предложение искомого документа. Тот же самый эффект произведет употребление символа ‘&’.

Например, при запросе ‘информационные технологии’ или ‘информационные & технологии’ результатом поиска будет список документов в которых в одном предложении содержатся оба слова (эквивалентно запросу (‘ +информационные +технологии’).