Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ЭКОНОМИЧЕСКАЯ ИНФОРМАТИКА-СЕТИ.rtf
Скачиваний:
1
Добавлен:
12.07.2019
Размер:
1.74 Mб
Скачать

Информационный поиск.

Internet предназначен для публикации информации и гипертекстовой связи отдельных информационных документов. Для поиска в Internet используются:

  • поисковые системы;

  • каталоги;

  • страницы с поиском по нескольким системам;

  • тематические поисковые системы и каталоги;

  • коллекции ссылок.

Современные поисковые системы имеют многоуровневую организацию, в основе своей все они состоят из пяти программных компонентов:

Spider (паук) – эта браузероподобная программа планомерно путешествует по сети и скачивает все попавшиеся ей на пути Web – узлы (страницы по глобальным URL – ссылкам). Spider работает как любой Web – браузер, только ничего не визуалирует, а лишь считывает HTML – код;

Crawler – (сборщик, или путешествующий паук) – это порождаемый Spider-ом процесс, который углубляет поиск, перемещаясь по всем локальным ссылкам, найденным на странице. Его основные задачи – сканирование Internet – ресурсов в поисках изменений на страницах и определение того, куда он должен идти дальше, исходя из найденных ссылок и заданного списка адресов;

Indexer (индексатор) – ключевая программа поисковой системы, которая анализирует Web – страницы, скачанные пауками, определяет их тематическую принадлежность, актуальность, популярность у пользователей и т.д. Индексатор разбирает страницу на части и анализирует такие ее элементы, как заголовки страниц, структурные элементы, стилевые элементы и т.д. По окончании анализа он строит базы данных в удобном для поиска виде;

Database (база данных) – хранилище скачанных и обработанных индексатором страниц. Такая база данных требует огромных ресурсов для хранения информации;

Gateway (шлюз или собственно поисковая машина) – принимает запросы от пользователей, анализирует их, извлекает результаты поиска из базы данных и предоставляет интерфейс для просмотра этих результатов.

Поисковые системы

Поисковая система Яndex (http://yandex.ru) позволяет искать информацию по более 1,5 млн. российских и зарубежных серверов. В настоящее время учтено около 200 млн. документов. Система позволяет задавать достаточно сложные запросы, поддерживает возможность выделения одного документа в различных кодировках. Поддерживаются логические операторы “и”, “или”, “не”, логические группы, поиск по фразам, по всем формам заданных слов. Специальный поиск можно по заголовкам документов и находящимся в них ссылкам. Яндекс – пока единственная российская поисковая система, индексирующая документы в форматах PDF, RTF и DOC. Среди сервисных функций Яндекса – поиск в новостях, в собственном каталоге Интернет-ресурсов и перечне товаров из Интернета, включая книжные.

Поисковая система Rambler (http://www.rambler.ru) является первой российской профессиональной поисковой системой. В настоящее время она охватывает около 120 млн. страниц на серверах в пределах СНГ. При вводе запросов поддерживаются логические операторы “и”, “или”, “не”, логические группы, символы “?”, “*”, используемые для замены одного или группы символов. Средства расширенного запроса в Rambler позволяют указать временные интервалы создания документа и искать информацию в группах новостей.

Поисковая система Апорт (http://www.aport.ru/win) наиболее эффективна при поиске серверов российских учреждений, обеспечивая поиск почти по 70 млн. документов. В настоящее время является единственным профессионально поддерживаемым справочником Интернет – ресурсов. Она поддерживает формирование запросов, включая поиск по различным словоформам введенных слов, исправление ошибок во введенных словах, поддерживает логические операторы “и”, “или”, “не”, логические группы, поиск по фразам, ограничение расстояния между словами, заданное количеством слов или фраз. Система способна также переводить запрос с русского на английский и обратно. Помимо этого возможен поиск по URL- адресам, заголовкам, ключевым словам, подписям к графическим изображениям, ссылкам и комментариям, а также указание диапазона времени создания документов. Апорт на достаточно высоком уровне осуществляет поиск МР3-файлов и является пока единственной системой, при помощи которой можно искать в российском Интернете аудиофайлы.

Поисковая система Google (www.google.com) является лидером среди глобальных поисковых систем по всем значимым параметрам. Объем индексного файла составляет сегодня более 8 млрд. Web – страниц и статей из групп новостей по интересам. Несомненным преимуществом Google является его способность индексировать документы не только в виде HTML – файлов, но и в форматах PDF, RTF, DOC, XLS, PPT, Wp5 и ряде других. При этом Google позволяет моментально конвертировать страницы в указанных форматах в обычный HTML – файл, так что пользователю не нужно специальное программное обеспечение для доступа к файлу. Google отличается высокой степенью комфорта для пользователя. Длительность процесса поиска в большинстве случаев не превышает одной секунды.