Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Metodichka_vkr_ispr.doc
Скачиваний:
2
Добавлен:
01.03.2025
Размер:
1.52 Mб
Скачать

10 Поиск информации в сети Internet

Для ученого Internet - это в первую очередь средство оперативного доступа к научной информации и ее получения в реальном масштабе времени. В первую очередь это статьи в журналах, патенты, материалы симпозиумов, а также информация о технологиях, сельскохозяйственных культурах, реактивах, оборудовании, программном обеспечении и пр. Информационное наполнение Сети огромно, но оно происходит стихийно, случайным образом, и поэтому информация в Internet не структурирована в глобальном масштабе. Отсюда и другое название Internet – Глобальная информационная Свалка, на которой крупицы нужных данных теряются среди залежей коммерческих, развлекательных, порнографических и прочих ресурсов сети, включая домашние странички пользователей. В силу этих обстоятельств задача поиска подчас становится нетривиальной. В практике научной работы задача поиска информации бывает двух видов.

1) Рутинный поиск в процессе текущей работы – новые публикации статей по давно разрабатываемой теме, заказ приборов и реактивов знакомых фирм и т.п. Эта задача решается путем регулярного посещения сайтов научных журналов (их перечень и относительный рейтинг для данной темы хорошо известен каждому исследователю), фирм-производителей или их региональных дилеров.

2) Поиск de novo, связанный с началом новой темы, или нового аспекта старой темы, или переходом на новый объект, или освоением новых методов исследования, В докомпьютерную эпоху подобная работа начиналась с просмотра реферативных сборников типа отечественных реферативных журналов или Biological Abstracts, Chemical Abstracts и т.п. Ныне она значительно облегчилась за счет средств поиска в Internet.

Поисковые машины

Для облегчения доступа к информации в Internet существуют поисковые машины со специальным программным обеспечением, основанном на уникальных для каждой системы алгоритмах поиска и обработки его результатов. В Сети существует несколько десятков публичных поисковых систем общего назначения, из которых наиболее известны старейшие AltaVista (www.altavista.com) и Yahoo (www.yahoo.com) и более молодая, но успевшая стать признанным мировым лидером Google (www.google.com; имеется русское зеркало www.google.ru). В Рунете (Российском сегменте Internet) широко используются Рамблер (www.rambler.ru), Яндекс (www.yandex.ru) и Апорт (www.aport.ru). Пользователям персональных компьютеров необходимо помнить, что все поисковики в ответ на их запрос ведут поиск не в Internet как таковом (что заняло бы слишком много времени), а в собственной базе данных, в которой проиндексированы (зарегистрированы) ресурсы Сети. Это означает, что не попавшие в базу данных документы поисковая машина найти не может. Поисковые системы регулярно пополняют свои базы, сканируя Internet, а в ряде случаев владельцы сайтов сами регистрируют в них свои ресурсы, в том числе и за плату.

Из всех поисковых машин Google имеет самую большую базу индексированных документов, как текстовых (*.html, *.txt, *.doc, *.pdf, в том числе и русских), так и графических и звуковых файлов. Структура базы индексированных документов Google также самая совершенная, как и скорость ее обновления (Google сканирует весь Internet за две недели), и алгоритмы обработки запросов. При этом из всех западных поисковиков Google наиболее корректно работает с текстами на русском языке: последнее неудивительно, ибо она создана выходцем из Советского Союза Сергеем Брином и Лоуренсом Пейджем, сотрудниками Стенфордского университета.

Все поисковые системы ведут поиск по ключевым словам, и от их оптимального выбора зависит эффективность работы. Задавая слишком широкие и расплывчатые критерии поиска, мы рискуем получить несколько тысяч ссылок, отыскать нужную среди которых бывает весьма непросто. По данным психологов, человек начинает испытывать дискомфорт, если ему не удается найти нужное в течение 12 минут.

Для оптимизации поиска служит язык запросов, основанный на булевой алгебре, или алгебре логики. Детали этого языка различаются для разных поисковиков, их можно уточнить в справочной системе.

Основных булевых операторов всего три:

И (AND) – логическое умножение, пересечение множеств, обозначается пробелом, знаком + (плюс) или &. Он позволяет перечислить слова, которые должны встречаться в пределах одного предложения или одного документа.

Например, по запросу Triticum&genome будут выданы ссылки на работы, касающиеся генома пшеницы.

ИЛИ (OR) - логическое сложение, объединение множества обозначается символом |, позволяет искать документы, в тексте которых содержится только одно из перечисленных слов. Например, по запросу РНК-полимераза RNA polymerase будут найдены документы про PHK-полимеразу как на русском, так и на английском языке.

ИЛИ-НЕ (NOR), логическое вычитание, обозначается символом  (тильда) или  (минус). Он исключает из искомого объекта выделенное им слово. Например, запрос Triticum aestivum ~ sativum ~ durum позволит найти материалы про мягкую, но не твердую пшеницу. Двойное повторение символов && и  позволяет применить соответствующий оператор ко всему документу, а не только к текущему предложению.

Помимо операторов, полезно знать другие особенности синтаксиса языка запросов, и в частности поиск по маске. Знак вопроса (?) позволяет заменить в ключевом слове один символ. К примеру, мы забыли, как пишется латинское название томата (Lycopersicon esculentum), через "у" или через "i". Набираем L?copersicon, и поисковый сервер сам расставит недостающие буквы по своим местам.

Звездочка (*) дает возможность замены последовательности символов, это позволяет найти слова-производные от данного корня. Эта функция особенно полезна для русского и других флексивных языков, в которых окончания и суффиксы существительных изменяются. Впрочем, блоки морфологического анализа многих поисковых машин выполняют эту операцию автоматически.

Для поиска файлов в Интернете (как на web-, так и на ftp-серверах) может быть полезной система http://filesearch.ru. Задаем имя файла (скажем, filename.zip или filename.*). Этот сервис Internet чаще всего используют для поиска архивов программ, но с его помощью можно найти и любые другие файлы. Важно только потом удостовериться, что найдено именно то, что нужно.

Методическое замечание. При обработке результатов поиска необходимо использовать один элементарный прием, про который почему-то нередко забывают. Просматривая ссылку, ее нужно открывать в новом окне браузера:

- щелчок правой кнопкой мыши по ссылке;

- в меню выбрать пункт «Открыть в новом окне» («Open in new window»);

- и щелкнуть по нему левой кнопкой мышки.

Если же открывать ссылки в окне поисковой системы, то обратная загрузка списка потребует заметно большего времени и зачастую приводит к сбою на сервере. Эта рекомендация остается в силе и для работы с другими списками ссылок, например оглавлениями статей в журналах.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]