Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ГОСы / FBI_MIR_2016.docx
Скачиваний:
29
Добавлен:
04.01.2020
Размер:
3.47 Mб
Скачать

4) Справочные ресурсы

К справочным ресурсам Интернет относятся электронные энциклопедии, справочники и словари, расположенные на web-серверах в различных частях света. Во Всемирной паутине широко представлены как электронные версии авторитетнейших печатных изданий, так и источники, существующие исключительно в Сети.

Википедия, сервисы перевода, Энциклопедия Кирилла и Мефодия, Рубрикон (энциклопедии, словари и справочники), Энциклопедия Britannica и т.д.

5) Профессиональные бд

это базы данных с удаленным доступом, содержащие технические, деловые, правовые и другие сведения, подготовленные профессиональными производителями информации.

  • Характеристики:

    • больший объем релевантной информации,

    • более полная и достоверная информация,

    • высокий уровень структуризации данных,

    • развитая поисковая система.

Например, LEXIS NEXIS, Dan and Bradstreet

6) Локальные программы

— Поисковые плагины (панель поиска в браузере, в которой можно вводить поисковые запросы.)

— Омнибокс — Адресная строка с расширенной функциональностью в современных моделях браузеров. Если в омнибокс написать адрес сайта, то он просто перейдет по соответствующему адресу, если написать поисковый запрос, то будет осуществлен поиск в соответствии с выбранной поисковой системой.

— программа FirstStop WebSearch: фильтрует, проверяет, агрегирует и интегрирует результаты в в объединенный упорядоченный список.

Получает только релевантные результаты с помощью автоматической проверки и удаления дубликатов. Особенности включают в себя: встроенный мастер запроса, библиотеку поиска, возможность экспортировать результаты поиска в Microsoft Word и Excel, доступ к закладкам браузера и многое другое.

  • Image Wolf — продвинутый инструмент, разработанный для поиска труднонаходимых изображений.

и прочее

22. Работа поисковых машин

Основные составляющие поисковой системы: поисковый робот, индексатор (формирует индексную базу), поисковик. Также пользовательский интерефейс.

Как правило, системы работают поэтапно. Сначала поисковый робот получает контент, затем индексатор генерирует доступный для поиска индекс, и наконец, поисковик обеспечивает функциональность для поиска индексируемых данных. Чтобы обновить поисковую систему, этот цикл индексации выполняется повторно.

Поисковый робот или «краулер» (англ. Crawler) — программа, которая автоматически проходит по всем ссылкам, найденным на странице, и выделяет их. Краулер, основываясь на ссылках или исходя из заранее заданного списка адресов, осуществляет поиск новых документов, ещё не известных поисковой системе. Владелец сайта может исключить определённые страницы при помощи robots.txt, используя который можно запретить индексацию файлов, страниц или каталогов сайта.

Поисковая система анализирует содержание каждой страницы для дальнейшего индексирования. Слова могут быть извлечены из заголовков, текста страницы или специальных полей — метатегов.

Индексатор — это модуль, который анализирует страницу, предварительно разбив её на части, применяя собственные лексические и морфологические алгоритмы. Все элементы веб-страницы вычленяются и анализируются отдельно. Данные о веб-страницах хранятся в индексной базе данных для использования в последующих запросах. Индекс позволяет быстро находить информацию по запросу пользователя. Ряд поисковых систем, подобных Google, хранят исходную страницу целиком или её часть, так называемый кэш, а также различную информацию о веб-странице. Другие системы, подобные системе AltaVista, хранят каждое слово каждой найденной страницы. Использование кэша помогает ускорить извлечение информации с уже посещённых страниц.

Индексация — процесс добавления сведений о сайте роботом поисковой машины в БД. Впоследствии используется для полнотекстового поиска информации на проиндексированных сайтах.

В индекс включаются:

  • основы слов

  • номера страниц

  • номера вхождений

  • ссылки

  • документы

  • изображения и т.д.

Поисковик работает с выходными файлами, полученными от индексатора. Поисковик принимает пользовательские запросы, обрабатывает их при помощи индекса и возвращает результаты поиска.

Когда пользователь вводит запрос в поисковую систему (обычно при помощи ключевых слов), система проверяет свой индекс и выдаёт список наиболее подходящих веб-страниц (отсортированный по какому-либо критерию), обычно с краткой аннотацией, содержащей заголовок документа и иногда части текста. Поисковый индекс строится по специальной методике на основе информации, извлечённой из веб-страниц.

Соседние файлы в папке ГОСы