Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
25
Добавлен:
09.05.2015
Размер:
357.6 Кб
Скачать

Материалы для семинарских занятий по теме «Поиск в Интернете»

Устройство Интернета

Поиск в Интернете может осуществляться с использованием специальной программы просмотра – браузера (другое название – броузер). В России наиболее популярным браузером является Internet Explorer (IE) фирмы Microsoft. Его конкурент – Netscape Navigator (NN), несколько лучше работает с графическими файлами.

Кликнув (щелкнув левой клавишей мыши) по иконке, либо запустив из меню браузер, обратим внимание на поле Адрес (Address). Если на заре появления Интернета было необходимо вводить адрес полностью (http://www.altavista.com), то теперь достаточно ввести собственно адрес (www.altavista.com). Чаще всего адрес начинается с www (World Wide Web) и компьютер подставит начальные http:// (hyper text transfer protocol). Обратите внимание, что все адреса вводятся только латинскими буквами.

Итак, обратимся к одной из самых мощных русскоязычных поисковых систем – Яндекс. Вводим ее адрес www.yandex.ru и нажимаем клавишу Enter. Эту клавишу необходимо нажимать каждый раз при введении нового адреса. Перед вами откроется страница Яндекса (чаще называемая сайтом - site). Не пытайтесь вводить адрес, так как он изображен на сайте (Яndex) – это брэнд, и как вы заметили, имеет одну русскую букву и четыре – латинские.

Адрес сайта называют также доменным именем. Он состоит из доменов - символов, разделяемых точками (www.yandex.ru). Самый главный домен называется доменом первого уровня и стоит на крайней правой позиции в строке адреса. У нас это – ru. Далее влево идет домен второго уровня, в нашем случае это yandex, и последний – домен третьего уровня – www.

Все домены первого уровня уже давно распределены. Доменом .ru владеет РОСНИИРОС (Российский НИИ Развития Общественных Сетей). Почти всегда по этим доменам можно определить, где находится сайт. Например .uk (United Kingdom) – в Великобритании, .de (Deutschland) – в Германии, .dk

(Denmark) – в Дании.

Компьютер трактует сайт как набор специальных файлов, формат которых понятен браузеру. При введении адреса и нажатии клавиши Enter, компьютер определяет, где находится сайт и, если искомый документ на месте, он доставляется в виде файла и отображается в окне браузера у владельца, т.е. у вас.

Ваш браузер работает в основном с файлами в формате HTML (hyper text make-up language). HTML - это язык разметки, где участки текста обрамляются специальными значками (метками) – тегами, которые подсказывают браузеру, что делать с текстом. Например, заголовок вашего текста будет выглядеть так: <HTML><HEAD><TITLE> Пушкин – наше все! </TITLE>

Посмотреть, как все это располагается на нашей стартовой странице Яндекса можно, наведя стрелку на любой участок экрана (только не на ссылку) и, кликнув правой клавишей мышки, выбрать Просмотр в виде HTML.

Отметим также важную для нас особенность. Тег <IMG> указывает на наличие картинки, которая хранится отдельно (!) от HTML страниц, состоящих только из текста. Изображения вставляются извне, при этом они могут храниться отдельно от текстового документа – на разных компьютерах и даже в разных странах. N.B. Если у вас не отображается картинка – кликните по ней правой клавишей мышки и выберите Show picture).

Итак, осуществляя поиск необходимой вам информации, используя слова и словосочетания мы не можем найти графические файлы (картинки, фотографии и т.д.), т.к. они не содержат букв, слов и цифр. Для их поиска существуют другие ресурсы, и речь о них пойдет на занятии «Поиск изображений».

Общие принципы поиска

Один из первых индексирующих англоязычных, поисковых серверов AltaVista ("вид с высоты") корпорации Digital (теперь Compaq), появился в 1995 году. Нескольким служащим корпорации пришла в голову мысль использовать новейшие сервера для считывания содержимого Всемирной Паутины в базу данных и осуществления поиска по ней.

Рассмотрим основные правила использования этого ресурса.

Если вам просто нужно найти слово, то вы вводите это слово на строке для аргументов поиска и нажимаете кнопку Submit. Если вам нужно найти словосочетание - заключаете его в кавычки.

Если вы не уверены в том, как сочетаются в искомом тексте верхние и нижние регистры букв - пишите все слово строчными буквами, и тогда будут найдены все варианты его написания. Если вы указали хотя бы одну букву в искомом слове прописной буквой, то система будет искать только такие варианты. Например, Black , а не black.

Если вы не уверены в том, как пишется искомое слово, можно пользоваться аргументом шаблонного поиска. Например, если вы не уверены в том, как пишется слово leasure, можно искать leas*re или просто leas*.

Если вы хотите найти не текст, а картинку с каким-либо изображением, то можно пользоваться словом image. Например, image:sea даст список страниц с изображением моря.

Если вы хотите найти все страницы, находящиеся на одном сервере, то тут помогает ключ host:. Например, поиск на host:www.narod.ru

Если вы хотите, чтобы часть слов обязательно содержалась в найденном документе, а часть - предпочтительно, то к обязательным словам следует добавить +. Например, +Prince Charles +UK.

Если слово, которое вы ищете, может встречаться в разных контекстах, и вам точно известно, какие из контекстов вам не годятся, можно исключить слова, которые встречаются в ненужном контексте. Например, указать аргумент поиска +Prince Charles +UK -France.

Подробную информацию о всех возможностях Альтависты вы получите изучив справочную систему этого поискового ресурса по адресу www.altavista.com

Яndex (www.yandex.ru) – один из самых лучших русскоязычных поисковых ресурсов. Для детального ознакомления со всем, что предлагает нам Яndex, обратитесь опять же к справочному аппаратуэтой поисковой системы. Ниже дается лишь небольшой фрагмент, который поможет вам лучше ориентироваться на первых этапах работы.

Самый простой способ. Вы не хотите углубляться в детали техники поиска? Просто задайте Яндексу вопрос так же, как бы вы его задали библиотекарю или всезнайке-эрудиту. Например, "где раки зимуют", " ярчайшая звезда северного полушария" или "как выбрать компьютер".

Проверяйте орфографию.

Если поиск не нашел ни одного документа, то вы, возможно, допустили орфографическую ошибку в написании слова. Проверьте правильность написания. Если вы использовали при поиске несколько слов, то посмотрите на количество каждого из слов в найденных документах (перед их списком после фразы "Результат поиска"). Какое-то из слов не встречается ни разу? Скорее всего, его вы и написали неверно.

Используйте синонимы.

Если список найденных страниц слишком мал или не содержит полезных страниц, попробуйте изменить слово. Например, вместо "рефераты" возможно больше подойдет "курсовые работы" или "сочинения". Попробуйте задать для поиска три-четыре слова-синонима сразу. Для этого перечислите их через вертикальную черту (|). Тогда будут найдены страницы, где встречается хотя бы одно из них. Например, вместо "фотографии" попробуйте "фотографии | фото | фотоснимки".

Ищите больше, чем по одному слову.

Слово "психология" или "продукты" дадут при поиске поодиночке большое число бессмысленных ссылок. Добавьте одно или два ключевых слова, связанных с искомой темой. Например, "психология Юнга" или "продажа и покупка продовольствия". Рекомендуем также сужать область вашего вопроса. Если вы интересуетесь автомобилями ГАЗа, то запросы "автомобиль Волга" или "автомобиль ГАЗ" выдадут более подходящие документы, чем "легковые автомобили".

Не пишите большими буквами.

Начиная слово с большой буквы, вы не найдете слов, написанных с маленькой буквы, если это слово не первое в предложении. Поэтомуне набирайте обычные слова с Большой Буквы, даже если с них начинается ваш вопрос Яндексу. Заглавные буквы в запросе рекомендуется использовать только в именах собственных. Например, "группа Черный кофе", "телепередача Здоровье".

Найти похожие документы.

Если один из найденных документов ближе к искомой теме, чем остальные, нажмите на ссылку "найти похожие документы". Ссылка расположена под краткими описаниями найденных документов. Яndex проанализирует страницу и найдет документы, похожие на тот, что вы указали. Но если эта страница была стерта с сервера, а Яндекс еще не успел удалить ее из базы, то вы получите сообщение "Запрошенный документ не найден".

Используйте знаки "+" и "-".

Чтобы исключить документы, где встречается определенное слово, поставьте перед ним знак минуса. И наоборот, чтобы определенное слово обязательно присутствовало в документе, поставьте перед ним плюс. Обратите внимание, что между словом и знаком плюс-минус не должно быть пробела. Например, если вам нужно описание Парижа, а не предложения многочисленных турагентств, имеет смысл задать такой запрос "путеводитель по парижу -агентство -тур". Плюс стоит использовать в том случае, когда нужно найти так называемые стоп-слова (наиболее частотные слова русского языка, в основном это местоимения, предлоги, частицы). Чтобы найти цитату из Гамлета, надо задать запрос "+быть или +не быть".

Попробуйте использовать язык запросов.

С помощью специальных знаков вы сможете сделать запрос более точным. Например, укажите, каких слов не должно быть в документе, или что два слова должны идти подряд, а не просто оба встречаться в документе (Описание синтаксиса языка запросов).

Искать без морфологии.

Вы можете указать Яндексу не перебирать все словоформы слов из запроса при поиске. Например, !лукоморья найдет только страницы, цитирующие строчку из стихотворения Пушкина ("У лукоморья дуб зеленый").

Тонкий поиск.

Яндекс обладает развитым языком запросов, позволяющим осуществлять тонкий поиск. Для того, чтобы воспользоваться широким спектром возможностей, используйте страницу "расширенный поиск", где большая часть настроек Яндекса задается простым образом. Обратите внимание, что, при заполнении нескольких полей, запрос будут составлен таким образом, чтобы все условия выполнялись одновременно (через документное "И" - &&).

Синтаксис языка запросов (строгий поиск)

пробел или & логическое И (русский хоккей)

+

обязательное наличие слова в найденном документе (+быть или +не быть)

( )

группирование слов (технология изготовление) (сыра творога)

поиск в заголовке $title (Дон Кихот)

Поиск общих понятий

Yahoo

Yahoo – тематический каталог и, следовательно, как любой каталог, построен в виде дерева. Сначала идут основные рубрики, затем рубрики делятся на разделы, подразделы и так до описания сайтов. Сейчас Yahoo один из самых больших каталогов и один из самых посещаемых сайтов в мире.

Google

Одной из лучших поисковых машин (search engines) нового поколения является Google (www.google.com). Уникальная технология поиска и инфраструктура позволяют быстро находить ответы даже на самые сложные запросы.

Если попытаться определить политику Google одним словом, это было бы слово «фокусирование». В то время как гиганты сетевого поиска вроде Yahoo! или AltaVista разворачивают порталы с электронной почтой, чатами и прочими услугами, Google продолжает фокусироваться именно на технологии поиска, улучшая и оттачивая ее.

Google определяет полезность любой страницы на основе дополнительной информации, которой в самой странице нет. “Важность” страницы определяется по тому, как часто на нее ссылаются другие страницы.

Oingo

Для тех из вас, кто хочет провести углубленное исследование терминов и другой информации на английском языке, представляет интерес поисковая система Oingo (www.oingo.com). Ее основное отличие от других систем в том, что она способна “понимать” смысл вводимых в нее слов. Вам представляется возможность протестировать эту систему запросив информацию, например о термине “protector”. Посмотрите, также, что происходит при использовании русскоязычных терминов.

Кодировки

Мы вводим слово в окно поиска не задумываясь о том. Что система может не понять это слово, так как компьютеры воспринимают слова и буквы совершенно не так, как люди. Для компьютера строчная d будет соответствовать числу 100, а прописная D – числу 68. Это явилось результатом соглашения между производителями компьютеров и программистами и было названо кодировкой.

Во всем англоязычном мире принята практически идентичная кодировка для латинских букв. В этой кодировке буквам и символам отводятся первые 128 цифр (от 0 до 127).

Для одного из способов (так как их несколько) кодировки русских букв, называемого Win 1251, служат цифры от 168 до 255.

При работе с Интернетом сложности вызывает то, что помимо кодировки Win 1251 существуют и другие. Одной из распространенных является кодировка KOI-8. В этой кодировке используются почти те же цифры, что и в Win 1251, но для других букв. Вот почему вы видите иногда на экране монитора мешанину из русских букв. При возникновении такой проблемы необходимо кликнуть правой клавишей мышки и выбрав в меню вид кодировки, кликнуть на KOI-8 (КОИ-8) или Win 1251 (Западноевропейский (Windows). Если вы не достигли успеха, попытайтесь перебрать другие возможности (Кириллица (DOS) и другие).

Файлы и FTP-серверы

Работая с различными документами вы сохраняете их (на жестком диске компьютера или дискете) в виде файлов. Строго говоря вся информация хранится в виде файлов разного вида. Например, чаще всего вы видите, что в названии документа после точки справа стоят символы .doc или .txt. Это расширения файлов, показывающие, что первый документ сделан в Microsoft Word, а второй – текстовой файл.

Часть информации в Интернете (документы, изображения и т.д.) хранится не только на webсерверах, но и на ftp-серверах. Это практически так, как хранится информация на вашем домашнем компьютере, только является доступной для всех, кто пользуется Интернетом.

Кроме упомянутых нами расширений файлов .doc и .txt, существуют и другие расширения, которые помогают нам определить тип файла:

pdf – весьма популярный формат, особенно в англоговорящих странах. Для чтения таких файлов используется программа Adobe Reader (Adobe Acrobat), распространяемая бесплатно;

.jpg, .jpeg, .gif, .tif, .tiff, .bmp – содержат графику. Браузеры на ваших компьютерах работают с изображениями в формате .gif и .jpg;

.zip, .arg, .rar – архивные файлы. Эти файлы необходимы для уплотнения и сжатия информации, что удобно для экономии места на диске (или дискете). Сжимать, а затем запаковывать подобные файлы призваны специальные программы – архиваторы, например

WinZip и WinRar;

.mp3 .wav – музыкальные файлы.

Поиск необходимых нам файлов будет не сложен, если мы знаем адрес файла. В строку Адрес вводим ftp:// и собственно нужный нам адрес.

Поиск изображений

До середины 1990-х годов в Интернете было очень сложно найти нужное нам изображение. Теперь основные поисковые системы, в первую очередь Google, а также Yahoo, AltaVista и другие позволяют делать это довольно эффективно. Они также показывают уменьшенные копии найденных картинок, что ускоряет и облегчает поиск.

Несомненно, лучшей на сегодняшний день поисковой системой, работающей с изображениями, является Google. Войдя в Google (www.google.com), нужно кликнуть на папке Images, которая располагается сразунад строкой, в которую вы вводите имя искомой картинки.

Какие критерии использует поисковая система Google, когда ищет нужную нам картинку? Это имя картинки, содержимое тэга <alt>, а также более десяти других признаков, плюс сложный алгоритм, который является секретом компании. При этом саму картинку Google не анализирует.

Как вы наверное заметили, картинки найденные вами – небольшие по размеру и при печати дают весьма посредственные изображения. Но существуют базы данных, хранящие гигантское количество изображений. И, естественно, не бесплатно! Ознакомьтесь с некоторыми из таких хранилищ, например

Eyewire (www. eyewire.com), Getty (www. getty-images.com) или Corbis (www. corbis.com). все желающие могут приобрести размещенные там изображения по фиксированной цене и использовать их как им заблагорассудится: обрабатывать, публиковать и т.д. такие условия называются royalty-free. Если же права на изображения четко оговариваются, вплоть до уступки целиком, то такие условия называются традиционным лицензированием.

Поиск аудиофайлов

Многие из вас уже имели возможность прослушать музыкальные файлы на своем компьютере, использую CD ROM’ы (Compact Disc Read Only Memory). Вы можете это делать, если ваш компьютер оснащен звуковой картой или платой. Можно ли передавать и получать музыкальные файлы? Да. Еще

несколько лет назад это было весьма проблематично из-за огромного объема таких файлов. Но теперь, благодаря распространению формата сжатия MP3 можно получать запись хорошего качества объемом всего 2-8 Мбайт.

Правда, такие возможности нанесли (и наносят!) огромный урон звукозаписывающим компаниям, авторам и исполнителям музыкальных произведений. Используя полученные вами навыки работы, вы можете найти материалы о двух основных фигурантах многочисленных скандалов KaZaA и Napster, чьи сайты пытались закрыть в судебном порядке, закрывали (а они снова открывались) и сейчас возможно работают под другими именами. В связи с чем я бы рекомендовал скорее теоретическое знакомство с подобного рода возможностями обмена музыкальными файлами.

Многие радиостанции радуют нас сегодня не только наличием на их сайтах текстовой, графической, но и звуковой информации. Одна из моих любимых станций – «Радио Свобода» (www.svoboda.org) позволяет бесплатно загрузить (и так делают все радио станции) на ваш компьютер программу Real Audio и слушать радиопередачи live (в режиме реального вещания), а также некоторые наиболее интересные передачи из архива. Также работает, например, BBC (www.bbc.co.uk), где есть много полезного для изучающих английский язык. Постарайтесь использовать эти возможности и приятных вам минут у “компьютерных приемников”!

Вы также можете найти в Интернете различные звуки и шумовые эффекты коллекции WAVфайлов. Существует два основных пути поиска нужных вам звуков.

Первый – попытаться представить и угадать как может выглядеть этот файл. Например, вам необходимо найти звук скрипки. Используем либо хорошо вам знакомые поисковые системы, либо, что еще лучше, менее объемные AllTheWeb (www.alltheweb.com) и Teoma (www.teoma.com). Почему? В

небольших системах поиск осуществляется быстрее и эффективнее. Войдя в выбранную вами поисковую систему, вводим в окно поиска violin.wav и работаем далее с полученными файлами.

Для поиска библиотеки звуков были созданы специальные поисковые системы. Одна из них Findsouns (www.findsounds.com), которую вы и протестируете на предмет нахождения нужных нам звуков скрипки.

Второй путь поиска нужных звуков – традиционный, заключается в помещении искомой нами информации (сейчас это слово violin) в окно поиска одной из популярных систем (Yahoo и др.). Сообщите, какой из способов более предпочтителен в вашей работе и почему.

Поиск новостей, карт, адресов, телефонов, энциклопедий и словарей

У каждого из в определенный момент возникает необходимость узнать или уточнить какие-либо новости. Обратившись к Интернету, мы выясняем, что самым “быстро успевающим” новостным агентством является англоязычное CNN (www.cnn.com), чей сайт обновляется каждые полчаса. Откройте начальную страницу(home page) этого агентства и проверьте, какие новости вынесены в заголовки и, следовательно, считаются главными. Думаю, что многие из вас вряд ли согласятся с выбором CNN.

А существуют ли менее предвзятые источники новостей? Несомненно! Знакомьтесь, RocketInfo (www.rocketinfo.com). Эта поисковая система (опять же англоязычная) опрашивает тысячи новостных сайтов и обладает мощным языком запросов. С этим языком вам поможет ознакомиться справочный аппарат RocketInfo. Введите, например, в окно запроса nord ost moscow и посмотрите, что у вас получится.

Что касается русскоязычных новостей, то все основные поисковые системы также предоставляют нам эту возможность. Открыв любую из них, скажем Rambler или Yandex кликните на переключателе Новости и, вводите искомое вами слово (слова) в окно поиска.

Иногда нам нужно искать новости по определенной тематике. Здесь нам поможет система поиска Moreover (www.moreover.com). Она группирует новости по таким разделам как Internet features, Top stories и т.д. Более того (как переводится слово moreover?) эта система еще позволяет получать новости

по электронной почте. Выбрав необходимую вам категорию новостей, отправьте пустое письмо по адресу on-index_выбранная вами категория_d@e.moreover.com. Буква d (daily), стоящая перед собачкой, обозначает ежедневное получение корреспонденции. Я, лично, предпочитаю еженедельное получение. Для этого замените d на w (обозначает weekly).

Примерно в том же ключе работают и другие новостные поисковые системы, например NewsTrove (www.newstrove.com). Эта система к тому же постоянно подсказывает нам и направляет нас, создавая рубрики, тем самым, ускоряя поиск и делая его более качественным.

Заканчивая разговор о новостных поисковых системах, хотелось бы обратить ваше внимание на сайт NewsIsFree (www.newsisfree.com). Кстати, название сайта подсказывает изучающим английский язык, что слово news существительное неисчисляемое и используется только в единственном числе. Итак, вы увидите, что NewsIsFree позволяет создавать “обойму” новостей и получает их из тысяч разных источников на многих языках!

Обратимся теперь к поиску определенных мест (городов, улиц и т.д.) на карте. Проще всего поиск осуществлять на карте США, так как на карте нашей страны, да и других государств еще много белых пятен. Если у вас есть знакомые в Америке, попробуйте найти их местожительство, используя Интернетатлас MapsOnUS (mapsonus.switchboard.com). Любая информация, улица, номер дома, почтовый индекс облегчит процесс поиска. Сделали ли вы какие-либо маленькие открытия?

Не менее удивительные вещи можно найти с помощью Terraserver (terraserver.microsoft.com), которая позволяет “видеть” многие уголки земного шара.

Теперь самое время найти адрес и телефон вашего знакомого (знакомых), которые затерялись на просторах Северной Америки. Нам поможет в этом TheUltimates (www.theultimates.com/white). Опять же, чем более полной информацией о вашем знакомом вы располагаете, тем успешнее будет поиск. Будет любопытно узнать, так ли хорошо ищет эта система, как утверждают ее создатели.

Одним из самых мощных порталов, своего рода “монстром” в русскоязычном Интернете является мега энциклопеди Кирилла и Мефодия (mega.km.ru). Здесь очень удобно начинать путешествие по различным энциклопедиям (музыкальной, кулинарной, кино, здоровья и другим) и словарям (в том числе экономическому, иностранных терминов и т.д.). Не менее могуч новый портал Rubricon (www.rubricon.ru).

Как вы догадываетесь мир англоязычных энциклопедий и словарей еще более обширен и многообразен. Пожалуй, стоит начать с Infoplease (www.infoplease.com). Среди рубрик его стартовой страницы Day in History, Birthdays и другие. У одного моего знакомого написано в визитке curmudgeon. Поможет ли Infoplease и как быстро найти этот термин? Ну и конечно жемчужина Интернета

Encyclopedia Britannica (www.britannica.com).

Философия поиска

Рассмотрим основные пути по которым идут создатели поисковых систем, пытающиеся облегчить нам этот сложный процесс.

Сортировка

Первый способ, созданный на заре развития Интернета – сортировка. Разработчики поисковых программ пытались создать такую поисковую систему, которая расставляет запрашиваемые документы в порядке убывания “важности”. Так алгоритм считает документ “хорошим”, если ключевые слова встречаются в заголовке, ближе к началу текста и т.д. Но с этим постоянно борются (и небезуспешно) желающие увидеть свои страницы в числе выдаваемых первых десяти. Вот почему, мы часто бываем очень удивлены находя среди показанных нам ссылок уж совершенно курьезные.

Оценка по количеству ссылок

Если гипотетически принять положение, что интересные сайты посещают чаще, то становится понятным подход, исповедуемый многими поисковыми системами сегодня. Это AllTheWeb, Wisenut и конечно же любимая нами Google. Они оценивают важность сайта по количеству ссылок, которые делают на него другие сайты. Такой способ, в основном, работает очень хорошо. При этом, например, Google оценивает ссылки с известного хорошего сайта выше, чем с не качественного сайта. Новый сайт также будет котироваться не высоко, так как на него еще нет ссылок.

Голосование редакторов

Некоторые поисковые системы, а точнее тематические каталоги, например Yahoo! (www.yahoo.com) и Open Directory (dmoz.org) решили отбирать наиболее значительные сайты с помощью привлекаемых для этой каторжной работы редакторов. Десятки тысяч трудягредакторов анализируют сайты, относят их к определенной теме (темам), разделам и подразделам. И хотя за помещение сайтов в каталог нужно платить, редакторы не всегда могут успеть проконтролировать качество и содержание каталогов. Вот почему часть хороших некоммерческих сайтов туда вообще не попадает, а среди лежащих там – большой процент несуществующих мертвых ссылок (dead links).

Создание каталогов

Другой подход заключается в том, что сами профессионалы отбирают в каталог “лучшие” на их взгляд сайты. Наиболее интересным примером является работа Интернеткаталога для библиотекарей

Librarians’ Index to the Internet (www.lii.org). Необходимо также упомянуть SurfWax (www.surfwax.com) и Northern Light (www.northernlight.com), каждая из этих систем предлагает свои интересные находки. Ну и конечно же выделим метапоисковую систему Vivisimo (vivisimo.com), которая создает тематический каталог по ходу вашей работы, являясь “руководящей и направляющей” поисковой системой.

Соответствие запроса и базы данных

В сущности, если мы не знаем, что точно искать, необходимо сужение области поиска. Чтобы ускорить поиск в этом случае, нужно уменьшить анализируемую базу данных. Во многих системах, как, например, в Google нам поможет префикс intitle. Поместите в окно поиска intitle:oliver cromwell и система выдаст только те документы, где в заголовках есть имя нашего персонажа.

Другой способ – выбрать специализированную поисковую систему, которая ищет только определенные документы, например по истории. Здесь нам помогут InvisibleWeb (www.invisibleweb.com) и CompletePlanet (www.completeplanet.com). Вы уже поняли, что в этом случае поиск состоит из двух этапов – поиск подходящей базы данных, а затем поиск в ней необходимых документов.

Поиск “снизу”

Все вышеизложенное можно отнести к тому, что называется поиском “сверху”. Поиск же “снизу” сводится к поиску необходимого документа, если точно известно название файла и/или ключевые слова или фразы встречающиеся в документе.

Правда, в этом случае поисковые системы иногда “капризничают”. Для этого и служат различные корректирующие инструменты, такие как раздел Refine системы Teoma, фокусировки слов в SurfWax и

оператор NEAR в AltaVista.

описание поисковых элементов web-каталогов и библиографических баз

Рассмотрев список выбранных ресурсов электронных каталогов и библиографических баз данных, представленных в Сети, можно сделать некоторые обобщающие выводы, которые должны помочь в организации работ по профессиональномуиспользованию названных ресурсов, связанных с справочнобиблиографическим поиском документов.

Во-первых, все рассматриваемые ресурсы имеют одинаковую содержательную основу: библиографические записи первоисточников.

Во-вторых, поисковые инструменты, используемые в системах, определены целым набором поисковых полей, которые можно назвать ключевыми или тождественными по отношению к другим системам.

В третьих, принятые библиотечные стандарты и Госты составления библиографических описаний и универсальная система каталогизации информации является обобщающим фактором в выработке основных стратегических подходов библиографического поиска.

Выводы, о которых было сказано выше, дают возможность перейти к подробному рассмотрению и описанию основных поисковых полей, которые являются универсальным инструментом при работе с библиотечными каталогами и библиографическими базами данных.

Условно весь массив поисковых полей можно разделить на три структурные группы:

Первая группа объединена основным библиографическим ГОСТом, принятом в российской системе каталогизации и имеющим определенный набор библиографических полей, спроектированных на соответствующие поисковые элементы;

Вторая группа имеет специализированные характеристики, связанные с индексацией и предметизацией фондов и может быть отождествлена с набором универсальных рубрикаторов и классификаторов, таких как УДК, ББК, ГРНТИ и т.п.

Последняя группа поисковых полей имеет индивидуальные характеристики и зависит в большей степени от персональных особенностей поисковых инструментов, принятых для каждого конкретного случая поиска.

Все представленные группы могут состоять в логическом или концептуальном взаимодействии, позволяющим моделировать многообразные варианты поисковых алгоритмов.

Перейдем к рассмотрению основных поисковых полей первой группы:

a.Область авторских сведений. Обычно эти поля определены как: "Автор", "Авторский коллектив", "Составитель", "Редактор", "Отв. редактор" и т.д.

Данные поля можно отнести к системе уточняющих при обработке сложных библиографических запросов. В другом случае их можно рассматривать как постоянные поля, относящие к строго формализированным запросам.

Многие поисковые механизмы, принятые в библиографических базах и электронных каталогах, расширяют рамки возможного использования авторских поисковых полей путем введения кодовой системы усечения окончаний от корнеобразующей фамилии, тем самым значительно расширяя диапазон поиска. Например, фамилия "ИВАНОВ" может образовывать целую группу однокоренных фамилий, которые легко находятся по системе предлагаемых правил той или иной поисковой системы. Авторские поисковые поля во многих системах имеют соответствующую словарную группу, которая поддерживается системой по определенным грамматическим

правилам. Поэтому при составлении запросов с использованием авторских полей, необходимо сопоставлять предлагаемые словарные варианты написания фамилий с собственным опытом.

b.Поисковые поля, определенные как "Название", "Заголовок" "Подзаголовок", "Параллельное название" и т.п., также относятся к поисковым полям первой группы, т.е. равнозначны области заголовка, принятого в стандарте библиографического описания издания. Поле "Название" первоисточника относится к типу уточняющих или конкретизирующих запросов, при этом одна из особенностей этого поля состоит в том, что оно может быть заменено грамматической комбинацией поля "ключевые слова". Такое равенство возникает в случае невозможности точного воспроизведения названия документа, но с учетом существования некоторых ключевых слов, относящихся к области заголовка издания. В этом случае многие поисковые механизмы используют систему настройки месторасположения ключевых слов по отношению к элементам библиографического описания. В данном примере поле "Ключевые слова" должны соотносится с местом "Заголовок".

c.Область библиографического описания , определенная как "выходные данные издания" в общей системе поисковых полей получила несколько соответствий. К ним относятся такие поля как: "Год издания", "Место издания", "Издательство", а также шифры ISBN/ISSN. Идентификационные номера ISBN/ISSN являются уникальным определителем документа/периодического издания, по которым каждый книжный/периодический источник становиться определен и неповторим. К сожалению, не все источники информации имеют свои идентификаторы. Данный факт во многих случаях ограничивает использования названных поисковых полей.

Поиск по полям "Год издания", "Место издания", "Издательство" также относится к типу уточняющего поиска, и, как правило, подключение названных полей происходит в случаях составление запросов по авторским или ключевым полям. Многие поисковые системы поддерживают внутренние словари издательств и кодов ISBN/ISSN, тем самым значительно упрощая работупо корректному составлению информационных запросов с использованием названных полей.

Из элементов библиографического описания первоисточников для организации результативного поиска, поисковые системы иногда применяют область определения серии издания, которая становится самостоятельной строкой для поиска или входит в систему ключевых слов, а также вводят поле "Вид издания" (книга, статья, ноты, карты и т.д.). Данные поисковые элементы могут оказать существенное влияние на организацию и построение поисковых алгоритмов.

Поисковые поля второй группы, которые были определены как предметизирующие библиографические массивы, соответствуют следующему набору универсальных таблиц и классификаторов:

a.Универсальные таблицы и рубрикаторы ББК, УДК, ГРНТИ, ДК Дьюи с соответствующим набором поисковых полей "Код ББК", "Код УДК", "Код ГРНТИ", "Код Дьюи" По используемой системе классификации документальных потоков в рассматриваемых библиотечных системах, определяется и наличие данных полей в поисковых инструментах того или иного библиотечного электронного каталога или библиографической базы данных. Почти все названные таблицы имеют гипертекстовые варианты, заложенные в соответствующих словарях поисковых систем, сопровождающих пользовательский интерфейс.

b.Внутренние тематические рубрикаторы или тезаурусы, которые базируются на основе предметных каталогов или рубрикаторов. Примером таковых является Рубрикатор ИНИОН , рубрикатор "Народное образование.Педагогика", "Предметный тезаурус РГБ" и т.д. Для построения информационных запросов по данномутипу поиска используются следующие поисковые поля : "предметная область", "предметная рубрика", "тематика поиска" и т.п.

Соседние файлы в папке Теория (входящий)