Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ЛекцииОСНИ.docx
Скачиваний:
26
Добавлен:
01.03.2025
Размер:
1.55 Mб
Скачать

7.3.3. Расширенный поиск в Internet

Кроме обычного запроса на естественном языке пользователи большинства систем могут также воспользоваться режимом «расширенного поиска» (AdvancedSearch), в котором с помощью специальных символов можно задать более точные критерии и область поиска. «Расширенный поиск» - это неудачный перевод с английского, на самом деле, область поиска сужается, расширяется только набор критериев поиска.

Повысить избирательность поиска помогают фильтры поисковых систем.

Фильтры позволяют:

  • ограничить список отбираемых документов с помощью логических операторов (выполнить так называемый сложный или расширенный поиск);

  • ограничить пространство поиска типом протокола, с помощью которого был создан документ (поиск на Web-сайтах или в телеконференциях);

  • ограничить выбираемый материал временным отрезком, определенным датами создания разыскиваемого документа (например, между 24 июля 1999 г и 24 июля 2002 года);

  • отобрать документы, которые содержат составленные только на определенном языке;

  • ограничить отбор документов территорией размещения серверов (например, только Россия);

  • ограничить поиск только определенной частью документа (заголовок, доменный адрес);

  • отобрать документы, которые содержат фразу с заданным порядком расположения ключевых слов.

Отфильтровать информацию или уточнить запрос позволяют логические операторы OR, AND, NOT.

Использование логического оператора И (AND, &) приводит к запросу документов, которые обязательно содержат все перечисленные в запросе слова. Например, если мы хотим найти документы, содержащие слова «эффективный поиск», то эти ключевые слова будут соответствовать запросу «эффективный и поиск», «эффективный+поиск» а также «эффективный & поиск». Оператор логическое И подразумевается и его можно опускать.

Оператор логическое ИЛИ (OR, ) позволяет искать документы, содержащие хотя бы один из операндов. По запросу «эффективный ИЛИ поиск» будут найдены документы, содержащие любое из указанных слов или оба вместе.

Оператор логическое НЕ (NOT, -) позволяет исключить документы, которые содержат документы, которые содержат ключевое слово, указанное после этого оператора. Например по запросу «эффективный NOT поиск» будут выданы все документы, содержащие слово «эффективный» (эффективный результат, эффективное воздействие, эффективное лекарство и т.д.), но не содержащие слово «поиск».

С помощью оператора NEAR (вблизи, рядом) можно отбирать документы, в которых ключевые слова, соединенные этим оператором будут находиться поблизости друг от друга, а не в разных концах документа.

Оператор FOLLOWED BY позволяет отбирать документы, в которых ключевые слова следуют друг за другом в заданном порядке.

Оператор ADJ отбирает документы, в которых ключевые слова являются смежными (следуют один за другим).

К сожалению, на сегодняшний день каждая поисковая система имеет свой собственный синтаксис запросов, поэтому при формировании в ней расширенных запросов необходимо уточнять правила использования операторов поиска. С 1999 года началась разработка проекта SESP (SearchEngineStandardsProject) который должен будет стандартизировать работу поисковых служб.

Современные ПС становятся интеллектуальными. Используя принципы искусственного интеллекта, они ранжируют (располагают) выводимый список документов (ссылок на них) в зависимости от степени их релевантности. При этом ПС анализируют положение найденных ключевых слов, их взаимное расположение в документе. Наиболее точно найденные документы располагаются в начале списка найденных в процессе поиска документов.

Для ранжирования найденных документов используются следующие показатели.

  • положение ключевого слова на странице (keywordprominence) - показатель, определяющий, как близко к началу документа находится заданное ключевое слово. Как правило, чем ближе к началу страницы располагается ключевое слово, тем точнее документ соответствует запросу;

  • частота ключевого слова (keywordfrequency) - показатель, учитывающий абсолютную частоту использования ключевых слов (т.е. сколько раз встречается данное слово на странице). Наибольший вес при ранжировании документов имеют слова, расположенные в заголовке Web-страницы (так называемый титул);

  • индекс цитирования (linkpopularity) - количество сайтов, которые ссылаются на данный сайтё.