Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ГОСы / Шпоры МИР.docx
Скачиваний:
114
Добавлен:
04.01.2020
Размер:
1.23 Mб
Скачать
  1. Средства поиска информации в интернете

1) Гиперссылки

Переход с одного сайта по ссылке на другой. Занимает очень много времени.

2) Поисковые системы

Поисковые системы — программно-аппаратный комплекс с веб-интерфейсом, предоставляющий возможность поиска информации в Интернете.

Основные составляющие поисковой системы: поисковый робот, индексатор (формирует индексную базу), поисковик. Также пользовательский интерфейс.

Как правило, системы работают поэтапно. Сначала поисковый робот получает контент, затем индексатор генерирует доступный для поиска индекс, и наконец, поисковик обеспечивает функциональность для поиска индексируемых данных. Чтобы обновить поисковую систему, этот цикл индексации выполняется повторно.

Поисковый робот или «краулер» (англ. Crawler) — программа, которая автоматически проходит по всем ссылкам, найденным на странице, и выделяет их. Краулер, основываясь на ссылках или исходя из заранее заданного списка адресов, осуществляет поиск новых документов, ещё не известных поисковой системе.

Индексатор — это модуль, который анализирует страницу, предварительно разбив её на части, применяя собственные лексические и морфологические алгоритмы.

Поисковая система анализирует содержание каждой страницы для дальнейшего индексирования. Слова могут быть извлечены из заголовков, текста страницы или специальных полей — метатегов.

Индексация — процесс добавления сведений о сайте роботом поисковой машины в БД. Впоследствии используется для полнотекстового поиска информации на проиндексированных сайтах.

В индекс включаются:

  • основы слов

  • номера страниц

  • номера вхождений

  • ссылки

  • документы

  • изображения и т.д.

Поисковик работает с выходными файлами, полученными от индексатора. Поисковик принимает пользовательские запросы, обрабатывает их при помощи индекса и возвращает результаты поиска. Поисковый индекс строится по специальной методике на основе информации, извлечённой из веб-страниц.

3) Веб-каталоги

структурированный набор ссылок на сайты с кратким их описанием. Сайты внутри каталога разбиваются по темам, а внутри тем могут быть ранжированы или по индексу цитирования (как в каталогах Яндекса или Google), или по дате добавления, или по алфавиту, или по другому параметру.

4) Справочные ресурсы

К справочным ресурсам Интернет относятся электронные энциклопедии, справочники и словари, расположенные на web-серверах в различных частях света. Во Всемирной паутине широко представлены как электронные версии авторитетнейших печатных изданий, так и источники, существующие исключительно в Сети.

Википедия, сервисы перевода, Энциклопедия Кирилла и Мефодия, Рубрикон (энциклопедии, словари и справочники), Энциклопедия Britannica и т.д.

5) Профессиональные бд

это базы данных с удаленным доступом, содержащие технические, деловые, правовые и другие сведения, подготовленные профессиональными производителями информации.

Характеристики:

- больший объем релевантной информации,

- более полная и достоверная информация,

- высокий уровень структуризации данных,

- развитая поисковая система.

Например, LEXIS NEXIS, Dun and Bradstreet

Соседние файлы в папке ГОСы