Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Учебное пособие к печати 2012.doc
Скачиваний:
2
Добавлен:
01.03.2025
Размер:
14.65 Mб
Скачать

Глава 12. Сетевой информационный поиск: технология поиска информации в Интернет

Современная библиотека не может ограничиться предоставлением пользователям только собственного библиотечного фонда или электронных ресурсов собственной генерации. Наряду с формированием библиотечной коллекции научные библиотеки в числе приоритетных задач считают предоставление пользователям максимально широких возможностей поиска любых типов информации, генерируемой мировым сообществом.

Решению такой глобальной задачи служит техническая оснащенность библиотек, в частности, наличие в них современного телекоммуникационного оборудования, средств доступа к сетевой информации, а также наличие высококвалифицированных специалистов, способных оказать читателям помощь, дать консультацию по методике сетевого поиска.

Настоящая глава посвящена знакомству с общими правилами поиска информации в интернет (далее сетевого поиска).

12.1 Поисковые ресурсы Интернет

Глобальная сеть Интернет объединяет миллионы компьютеров и локальных сетей, к ее услугам прибегают сотни миллионов человек. Но сеть Интернет — это лишь средство связи компьютеров и локальных сетей между собой. Для хранения и передачи информации по сети Интернет созданы специальные информационные службы, иногда называемые сервисами Интернет.

Для того чтобы эффективно добывать информацию необходимо разобраться, как устроены и по каким принципам работают главные инструменты для поиска информации во Всемирной сети: поисковые системы и каталоги. Прежде всего, надо изучить язык поисковых машин: как именно нужно искать, какими приемами пользоваться, какие языки запросов нужно применять в том или ином случае. Навыками информационных разысканий в той или иной степени обладают большинство пользователей глобальных компьютерных сетей. И дилетанты, и профессионалы зачастую пользуются одними и теми же инструментами. Однако результаты разысканий и затраченное на них время различаются в очень значительной степени. Изучение некоторых, рассмотренных в данной главе приемов, позволят сэкономить время и добиться более эффективных результатов поиска.

Информационно-поисковые системы (ипс)

Современные ИПС Интернета состоят из нескольких обязательных компонентов:

I - Программного блока, включающего а) spider – программу, скачивающую веб-страницы, б) crawler – программу, сканирующую, изучающую все скаченные страницы и в) indexer (индексатор) – программу, анализирующую все скаченные страницы, индексирующую их и создающую БД;

II - Массива записей – базы данных, хранящей все сведения, собранные и проанализированные системой;

III - Интерфейса, состоящего из системы выдачи результатов поиска и собственно интерфейса, который пользователь видит на экране.

Традиционно результаты поиска в ИПС Интернета предъявляются пользователю в виде списка документа, упорядоченного (ранжированного) по степени релевантности найденных документов.

Релевантность определяется пониманием запроса поисковой машиной, т.е. алгоритмом поиска информации конкретной поисковой системой, а пертинентность определяется с точки зрения пользователя как соответствие между его ожиданием (информационной потребностью) и результатами поиска. Для вычисления ранга документа разными ИПС используются разные методы и подходы, чаще других следующие методы.

Статистический - основан на количественных характеристиках заданного для поиска ключевого слова: как часто оно встречается, в каком контексте, с усечением или в точно заданной форме. При этом из подсчета убирается информационный шум – стоп-слова, которые не несут смысловой нагрузки (предлоги, союзы и др.).

Локальный метод – основан на определении места, в котором появляется термин: в зависимости от того, где оно встретилось - в заголовке, в начале текста (возможно в аннотации), определяется его «вес».

Оформление текста – выделение, местоположение и др. ИПС вычисляет ранг документа или страницы на основании всех перечисленных методов. Как правило, наиболее релевантные документы содержаться в первых 20 выдачах (списке). Однако, это не строгое правило, и в разных поисковых системах одни и те же релевантные документы могут занять очень отличающиеся по рангу места. Это происходит потому, что каждая поисковая система использует собственные инструменты поиска и ранжирования.

Все системы поиска информации в Интернете располагаются на специально выделенных компьютерах с мощными каналами связи, собственными, фиксированными URL –адресами.

Как уже говорилось выше, средствами поиска в Интернет являются ИПС которые подразделяются на: каталоги, поисковые и метапоисковые системы.

Каталоги (предметные или тематические) – представляют собой систематизированные группы адресов объединенных по тематике. Поисковые каталоги напоминают систематические каталоги обычных библиотек. То, что в первую очередь волнует пользователя – работа, обучение, развлечение, новости и т.д. – вынесено на самый верх информационной страницы. Путем последовательных уточнений можно достаточно быстро дойти до самых нижних ступеней иерархии. Иерархический принцип построения является основой любого каталога.

С помощью каталога можно достаточно быстро найти несколько web-узлов, содержащих информацию по интересующей теме. Если пользователь только начинает интересоваться какой-то темой, каталог может оказаться чрезвычайно полезным – в нем можно найти самые "информационноемкие" и авторитетные web-узлы по данной теме. Однако с помощью каталога поиск информации по узконаправленной тематике может оказаться нецелесообразным.

Преимущества каталогов:

  • имеют удобную древовидную структуру, позволяющую быстро найти сайты на заданную тему;

  • некоторые каталоги имеет дополнительную алфавитно-предметную рубрикацию (например, mail.ru);

  • web-узлы по заданной теме перечисляются в порядке их значимости; возможна сортировка по посещаемости, дате открытия и другим критериям;

  • в каталоге чаще всего представлены все наиболее популярные web-узлы по той или иной тематике.

Недостатки:

  • субъективность отбора ресурсов и ранжирования результатов поиска, поскольку отбор ведется людьми (человеческий фактор);

  • в каталоги попадает ограниченное количество сайтов;

  • обновление каталогов происходит очень медленно.

В России популярны каталоги Yahoo=Яхо.ком, Mail.ru= Мэил.ру

Рис. 52. Стартовая страница каталога Mail.ru

Рис. 53. Алфавитный рубрикатор каталога Mail.ru

Yahoo - http://www.yahoo.com Yahoo был основан в 1994, и на сегодняшний день это самый старый и наиболее полный каталог интернет-ресурсов. Yahoo имеет около 150 редакторов, для того, чтобы составлять и редактировать содержимое своих каталогов. База данных Yahoo составляет более 1 млн. проиндексированных сайтов. Также, в случае нехватки своей собственной базы данных, Yahoo использует базу данных Google (до июля 2000 года Yahoo пользовался базой данных Inktomi).

Mail.ruhttp://www.mail.ru набирающая популярность поисковая система, организованная по типу каталога. Использует результаты поисковой системы Google после некоторой дополнительной обработки. Оптимизация под Mail.ru сводится к оптимизации под Google.

Информационно-поисковые системы – действие поисковых систем, или как их еще называют, поисковых машин, заключается в постоянном исследовании всех узлов Интернета, доступных данной системе поиска; их связям и ответвлениям. Прочитанная информация индексируется, то есть создается специализированная база данных, в которой закодированы все исследованные системой страницы Интернета.

Преимущества поисковых машин:

  • постоянное обновление ссылок;

  • намного большее количество web-узлов, по которым производится поиск. Крупнейшие поисковые каталоги содержат ссылки на десятки тысяч сайтов, тогда как поисковые системы - на сотни тысяч и миллионы;

  • высокая скорость поиска.

Недостатки:

  • очень часто выдается большой объем неравнозначной по ценности информации, велик информационный шум;

  • сложность использования. Если запрос достаточно сложный нужно уметь использовать инструмент расширенного поиска, в том числе задействовать операторы поиска;

  • менее наглядная форма представления результатов запроса. Каталог выдает название сайта с его краткой аннотацией и другой полезной информацией, в поисковой системе это менее наглядно.

К наиболее известным поисковым системам относятся такие службы, как англоязычные системы Google = Гугл (www.google.com)15,; Альта-Виста www.altavista.com, русскоязычные Яндекс www.yandex.ru, Рамблер www.rambler.ru, Апорт www.aport.ru. Характеристика Яндекса и Гугл будет дана ниже.

Следующий тип ИПС - Метапоисковые системы – это надстройки над поисковыми системами и электронными каталогами. Пользователь, вводя поисковое предписание, фактически одновременно обращается к десятку поисковых систем. Метапоисковые системы наиболее эффективны на начальных этапах поиска информации. Они помогают локализовать средства поиска, в которых присутствуют сведения об искомой пользователем информации. Этим гарантируется объективность и полнота полученных результатов. Наиболее значимая русскоязычная метапоисковая система – MetaBot.ru (http://metabot.ru). Метод работы в MetaBot сходен с поисковыми системами, но есть и свои особенности. Когда формулировка запроса окончена, следует отметить форму поиска (русский, мировой поиск, поиск файлов, МРЗ/Video) и нажать на кнопку «Искать», расположенную напротив заполненного поля, чтобы приступить к поиску информации.

Рис. 54. Стартовая страница MetaBot.ru

Результатом поиска будет перечень ссылок, отсортированных по релевантности. Для каждого документа указывается заголовок, краткая аннотация, адрес в Интернет, а также перечень поисковых систем, в которых он был найден.

Рис. 55. Форма выдачи результата поиска в MetaBot.ru