Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
PITS-Lab-06.doc
Скачиваний:
4
Добавлен:
16.11.2019
Размер:
4.31 Mб
Скачать

1.2.3. Информационный поиск в Internet

Ресурсы всех перечисленных сервисов Сети могут быть предметом поиска, а многие из них имеют и свои собственные встроенные средства поиска [7-12].

Первая проблема любого пользователя Сети связана с тем, как найти необходимую информацию. Точнее, как эффективно искать, чтобы найти сразу, побыстрее, побольше и именно то, что было нужно. На сегодняшний день нет другого способа быстрого поиска данных, кроме поиска по ключевым словам. Поэтому поиск в Сети – вид искусства задавать ключевые слова и составлять фразы из них так, чтобы получать в ответ минимум информационного мусора. При этом следует точно знать следующие параметры поиска:

  • объект поиска: ПО, ПС, статья, адрес Web-страницы, адрес ЭП, файл (текстовый, графический, аудио, видео) и т.п.;

  • страна и язык;

  • используемые сервисы и ресурсы: Web, Gopher, FTP и другие;

  • стратегия поиска: случайная (random), «колесо рулетки» (roulette), свободное «скольжение» (surf), по именам университетов, компаний и организаций, по рубрикам, по странам, по последним изменениям, опрос поисковых (справочных) серверов (search engines), опрос специализированных серверов.

Архитектура средств поиска представлена на рис.1.3, где ИПС – информационно-поисковые системы.

Рис.1.3. Архитектура средств поиска

Специализированные информационные службы (СИС) являются самым мощным интегрированным средством поиска в Сети. СИС ведут учет наличия различных информационных источников в Сети и отслеживают динамику их обновления. Главное в организации таких СИС: наличие БД ссылок на информационные ресурсы Сети, а также механизма поиска в этих БД. Поэтому самый простой способ начать поиск информации в Internet – обратиться к одной из СИС.

СИС – поисковая система верхнего уровня, имеющая удобный тематический каталог и обеспечивающая направленный итерационный поиск информации. Например, это зарубежные системы Lycos, Altavista, Oingo, Snap (рис.1.4), Yahoo, Google (рис.1.2), DirectHit, NothernLight.

Рис.1.4. Зарубежные СИС

СИС Oingo может проводить поиск даже с учетом нескольких значений смысла отдельного слова, например, queen – королева, шахматная фигура, кошка, насекомое, музыкальная группа. Среди отечественных СИС наиболее популярны: Rambler, Yandex (рис.1.5), Апорт, Улитка и другие [15].

Инструменты поиска. СИС опираются на различные инструменты поиска (Search Engines), расположенные на одноименных серверах Сети. Большинство инструментов поиска использует контекстный поиск по ключевым словам и специальный язык (формат) запросов – информационно-поисковый язык (ИПЯ).

Рис.1.5. Отечественные СИС

Для составления запросов такой ИПЯ может использовать:

  • ключевые слова;

  • логические условия (связки между словами) – операторы AND и OR или соответствующие знаки (+, &) и (|,V);

  • указания границ поиска с помощью префиксов, задающие, где искать:

  • в заголовках (используется префикс title:);

  • в адресах (префикс url);

  • по всему тексту;

  • знаки:

  • +/- (например, +слово/-слово) – задает обязательное присутствие или отсутствие слова в искомом документе;

  • «» (например, «текст») – задает обязательное присутствие данной цитаты в искомом документе.

Инструменты поиска делятся на общие и тематические. Инструменты имеют удобный интерфейс, обеспечивающий ввод и редактирование URL, закладки (адреса, занесенные в память), отображение процента передачи страницы в ОП и другое. Наиболее популярные инструменты поиска имеют, конечно, и свои специфичные особенности, например, оригинальные алгоритмы эффективного поиска.

Виды поиска. СИС, ИПС и инструменты поддерживают поиск двух видов: начальный (первичный) и детальный (конкретный) [15]. Начальный поиск является упрощенным и может проводиться на основе древовидного тематического каталога. Для начального поиска удобны системы Google, DirectHit, Snap, Oingo, SurfWax. Детальный поиск может оказаться гораздо сложнее, часто является итерационным и делится на

  • расширенный поиск (рис.1.6), который поддерживает более сложный язык запросов, использующий такие возможности, как:

Рис.1.6. Формы расширенного поиска

  • конструкция вида ‘фрагмент*’, где фрагмент – подставляемая важная (искомая) часть слова, * – остальная несущественная часть;

  • знак & вместо + ;

  • знак ~ или оператор NEAR (near – недалеко, около) – связывает слова, между которыми в искомом тексте может быть до 9 других слов;

  • знак ! или оператор AND NOT – связка И-НЕ;

  • конструкция AND-OR со скобками вида: (слово AND слово) OR (слово AND слово);

  • расширенный набор префиксов:

  • domain: – ограничить поиск доменом верхнего уровня;

  • host: – ограничить поиск одним компьютером или несколькими;

  • image: – ограничить поиск рисунками с данным именем, например, image:visa.gif (это логотип платежной системы Visa);

  • link: – поиск страниц, ссылающихся на данную;

  • text: – поиска слова, встречающегося в тексте, видном на странице;

  • title: – поиск только в заголовках;

  • url: – поиск документа, адрес которого содержит указанное слово;

  • в полях From (от) и To (до) можно задать интервал времени, когда создан искомый документ;

  • метапоиск редких документов – одновременный опрос нескольких поисковых систем с устранением одинаковых адресов и выдачей результатов на экран в удобном виде. Примеры: системы Ixquick, Infind, Savvysearch, Askjeeves (рис.1.7). Недостатки метапоиска [15]:

Рис.1.7. Системы метапоиска

  • используется лишь малая часть адресов (в лучшем случае несколько десятков), выделенных отдельной поисковой системой. На большее просто нет времени. В результате часть интересных документов может быть пропущена;

  • опрашивать одновременно несколько поисковых систем можно только с помощью языка запросов, понятного им всем. А у каждой из них он свой, например, оператор NEAR в СИС Lycos задает промежуток до 25 слов вместо обычных 9.

Примеры вариантов итераций поиска: searchengines, engine*, title:«search engine*». Парадокс состоит в том, что метапоиск хорош и как начальный, если тема является общей. Начальный метапоиск наиболее эффективен при ограничении числа задействованных в нем поисковых систем, дающих ответы на самые общие вопросы.

В рамках рассмотренных видов поиска некоторые СИС могут осуществлять дополнительные услуги. Например, Altavista обеспечивает перевод фрагментов текста до 150 символов и адресов на различные языки, а также удобный поиск объектов мультимедиа (рис.1.8).

Рис.1.8. Дополнительные услуги поиска СИС Altavista

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]