Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Вопросы к экзамену СКОТ.doc
Скачиваний:
18
Добавлен:
25.02.2016
Размер:
974.85 Кб
Скачать

11. Системы поиска интернет.

Эффективный способ повышения релевантности поиска – использование так называемого языка запросов. С помощью языка запросов можно конкретизировать запрос к поисковой системе. Каждая поисковая система имеет собственный язык запросов, однако существуют универсальные конструкции, "понятные" большинству поисковых систем.

Примечание. Конструкции, в которых по определенным правилам используются следующие символы: "*", "-", "&", "|", "~", "(", ")".

  • Для так называемого "поиска по маске" используются символы "*" и "?". Знаком "?" в ключевом слове запроса заменяют один символ, на место которого может быть подставлена любая произвольная буква, а знаком "*" - целая цепочка символов произвольной длины.

  • Символы "+" и "-", введенные без пробела перед каким-либо ключевым словом, позволяют обеспечить его обязательное присутствие или отсутствие в найденном документе соответственно.

  • Оператор "&" (логическое И), присутствующий в пользовательском запросе, заставляет систему искать документы, в которых перечисленные слова должны обязательно встречаться в пределах одного предложения. С точки зрения поискового механизма степень релевантности результата поиска тем выше, чем ближе друг к другу стоят указанные слова в найденном документе.

  • Оператор "|" (логическое ИЛИ) заставляет систему искать документы, в которых содержится только одно из перечисленных слов.

  • Назначение символа "~" аналогично назначению символа "-".

  • Удвоение какого-либо оператора (пробел между одинаковыми операторами не ставится) означает, что условие необходимо применять не к одному предложению, а ко всему документу в целом.

  • Логические операторы языка запросов можно использовать в различных комбинациях. Для этих целей могут использоваться символы открывающей и закрывающей скобок, то есть, " (" и ")".

Например, запрос:

маркетинг в & (internet | интернет)

означает, что пользователю необходимы документы, в которых содержатся либо слова "маркетинг в интернет", либо слова или "маркетинг в internet".

В некоторых комбинациях логических операторов можно обойтись и без скобок.

Некоторые поисковые системы воспринимают символ двойных кавычек как указание, что заключенную в кавычки фразу необходимо искать целиком.

Большинство поисковых машин не различают регистра, однако, например, популярный Яндекс регистр учитывает, поэтому в запросах рекомендуется использовать строчные буквы, делая исключения лишь для имен собственных, которые всегда пишутся с большой буквы.

Как уже было сказано, каждая поисковая система "понимает" свой язык запросов, поэтому пользователям нужно помнить, что инструкцию по использованию языка запросов всегда можно найти в справочном разделе каждой поисковой системы. Потратив некоторое количество времени на изучение этой документации, вы научитесь составлять грамотные и четкие запросы к конкретной поисковой системе, а значит, будете уметь быстро находить именно то, что нужно найти, не страдая при этом от информационной перегрузки.

К наиболее известным в мире системам web-поиска относятся AltaVista, NorbernLight, Yahoo! , Magellan, Excite, HotBot, Infoseek (Go) , Lycos, OpenText, WebCrawler, WWW Worm, Google.

Основными полнотекстовыми поисковыми системами, представленными в русскоязычном секторе Интернета, считаются Яndex, Rambler, Апорт, List.ru, RussiaontheNet, Россия-Он-Лайн, Кирилл и Мефодий, Иван Сусанин, FTP-Search. По размерам индексов российские поисковые системы заметно проигрывают известным зарубежным, однако здесь собрана и классифицирована обширная информация на русском языке.

Масштабы информационных ресурсов и их количество в Интернете огромными темпами расширяются, и централизованная база данных (индекс) поисковых машин на сегодняшний день уже не является удовлетворительным решением. Кроме того, несмотря на то, что работа поисковых машин считается вполне успешной, все современные системы имеют серьезные недостатки:

  • поиск по ключевым словам дает слишком много ссылок, и многие из них оказываются бесполезными;

  • огромное количество поисковых машин с разными пользовательскими интерфейсами порождает у пользователя проблему информационной перегрузки;

  • методы индексирования баз данных, как правило, семантически не связаны с их информационным содержанием;

  • неадекватные стратегии поддержки каталогов часто приводят к тому, что пользователю выдаются ссылки на информацию, которой уже нет в Интернете;

  • поисковые машины еще не столь совершенны, чтобы понимать естественный язык;

  • по тому представлению результатов, которое обеспечивают современные поисковые машины, невозможно сделать логически обоснованный вывод о полезности каждого источника.