Скачиваний:
134
Добавлен:
18.05.2015
Размер:
51.71 Кб
Скачать

Поиск информации (html-документов)

Службы поиска информации развиваются сейчас особенно бурно. Существует множество поисковых машин(Search Engines), которые работают на принципах, аналогичных Archie, только ищут они не файлы и каталоги, а HTML-документы (Web-страницы). Программа-робот примерно раз в месяц автоматически просматривает все доступные в мире Web-сервера и формирует (или обновляет) свою базу данных. При получении запроса на поиск информации сервер просматривает свою базу данных и выдает список ссылок на подходящие страницы, иногда вместе с некоторыми описаниями, которые готовят сами авторы страниц.

В качестве описания страницы (и индексируемой информации) выступают название страницы (Title), описание (Description), ключевые слова (Key-words) иногда первые 256 символов текста на странице. Разные поисковые машины используют разные принципы индексации и по-разному собирают информацию, но автору Web-страницы следует помнить о "невидимой" части информации (описание и ключевые слова), которая может облегчить людям поиск нужной информации и повысить вероятность попадания на вашу страницу тех, кому она действительно интересна.

Среди самых популярных в мире поисковых машин можно выделить следующие: http://www.yahoo.com/;http://www.altavista.com/;http://www.lycos.com/;http://www.excite.com/.

Очень часто поисковые машины соседствуют с каталогами ресурсов (а сейчас и с порталами), представляющими всю собранную информацию в систематизированном виде. Однако, поскольку речь идет о миллионах документов, то классификация ресурсов должна проводиться автоматически, а это накладывает определенные ограничения и иногда приводит к ошибкам. Как правило самые известные каталоги содержат ссылки только на англоязычные ресурсы. Поэтому целесообразно, создавая свой сайт, позаботиться о его английской версии.

Однако, и в русскоязычной части Интернета сейчас существует немало поисковых машин, ориентированных именно на русскоязычные сайты. И часто они также соседствуют с каталогами, автоматически выстраиваемыми в соответствии с правилами русского языка. Среди русских поисковых машин отметим следующие: http://www.yandex.ru/ иhttp://www.rambler.ru/.

В любой отечественной библиотеке систематический каталог, при всей его разработанности, имеет серьезный недостаток - он не строится на основе информационных ресурсов, а разбрасывается по искусственно построенной рубрикации наук. При этом отношение к созданию новых рубрик на точках интенсивного прироста информации крайне консервативно.

Поисковые системы (поиск по входящим в узлы словам, являющимся серьезным расширением алфавитного каталога) не всегда удобны. Во многих случаях трудно или невозможно сформулировать ключевые слова, но если тематика точно известна, наиболее подходящим инструментом поиска оказываются каталоги (предметные указатели).

Широко известным ресурсом - каталогом является “Yahoo!” (www.yahoo.com). В его основе лежат ссылки на любимые узлы, собранные двумя студентами Стэнфордского университета Д.Фило и Д.Янгом. В 1994 г. их увлечение стало их основной деятельностью.

Из русскоязычных поисковых систем первые позиции занимает “Rambler” (http://www.rambler.ru). Эта система, поддерживаемая ТОО "Стек", создана специально для выявления материалов на серверах в пределах б. СССР (время создания - осень 1996г.).

“Rambler” поддерживает все кодировки кириллицы, обеспечивает полнотекстовый поиск на большинстве отечественных узлов, а количество проиндексированных страниц увеличивается ежедневно. Система имеет наглядный и дружественный интерфейс, позволяющий составить поисковое предписание без особого напряжения. Пользователям предлагается составить простой или углубленный запрос. Применение углубленного запроса (объем возможных ссылок расширяется), позволяет уточнить поисковое предписание по дате обновления искомого документа, и указать термины, появление которых в источнике следует исключить.

Одним из достоинств “Rambler” является вывод результатов поиска. Помимо ссылки включается название, электронный адрес, кодировка, размер и время обновления документа, а также резюме, из которого можно получить представление о том, в каком контексте употреблены искомые термины +(они выделены жирным шрифтом).

Организация работы в Интернет

Работа проводится в три этапа — подготовка (“препроцессинг”), сеанс связи (непосредственно рабочий процесс или “процессинг”), анализ полученной информации (“постпроцессинг”).

В ходе подготовки формируется план поиска информации и оформляется в виде текстового файла. Такой план включает: название искомых целей, конкретные URL, ключевые слова для поиска

В ходе работы полезно разбегаться по темам с некоторыми ограничениями. Так, часть окон можно выделить на фоновую или побочную тему или импровизации в ходе поиска, но по другим желательно жестко придерживаться намеченного плана.

Вообще полезно в начале работы сформировать несколько директорий (с мнемоническими именами) для того, чтобы сбрасывать в них найденную информацию.

Если Ваш ПК — коллективного пользования, то активное использование опции "Избранное" может привести к конфликтам. Поэтому работу следует перевести в режим постпроцессинга.

Первое путешествие (“разминку”) в киберпространстве следует начать с больших и хорошо обжитых узлов (можно рекомендовать www.cityline.ru иwww.infoart.ru, а на любителя подойдетwww.mafia.spb.ru). Начать можно с уже упомянутых поисковых систем (“Rambler” и “AltaVista”). Вначале надо четко понять и сформулировать, что Вы ищете. Можно использовать не только понятия, но и уникальные идентификаторы которые могут встретиться (фамилии, ссылки).

Соседние файлы в папке Лекции