Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Организация информационного поиска.docx
Скачиваний:
19
Добавлен:
20.05.2015
Размер:
49.87 Кб
Скачать

Хранилище

Хранит электронные документы. Хранилище документов также включает в себя и управление тех же самых документов, которое оно хранит; также хранилище обеспечивает миграцию с одного носителя на другой и обеспечивает целостность данных.

Хранилище документов может представлять собой как файловое хранилище, так и хранилище в виде СУБД (базы данных). В свою очередь, хранилище документов в СУБД может производиться как в одной (единой) базе данных, так и в раздельных базах данных.

Поисковая машина (поиско́вый движо́к) — комплекс программ, предназначенный для поиска информации. Обычно является частью поисковой системы.

Основными критериями качества работы поисковой машины являются релевантность (степень соответствия запроса и найденного, т.е. уместность результата), полнота индекса, учёт морфологии языка.

  1. Стратегии сканирования пространства WEB сетевыми роботами. Особенности сканирования скрытого Web.

Ро́бот, или бот, а также интернет-бот, www-бот и т. п. (англ. bot, сокр. от чеш. robot) — специальная программа, выполняющая автоматически и/или по заданному расписанию какие-либо действия через те же интерфейсы, что и обычный пользователь. При обсуждении компьютерных программ термин употребляется в основном в применении к Интернету.

1. Spider (паук)Автономно работающая программа, предназначенная для скачивания веб-страниц. «Паук» обеспечивает скачивание страницы и извлекает все внутренние ссылки с этой страницы. Скачивается html-код каждой страницы. Для скачивания страниц роботы используют протоколы HTTP. Работает «паук» следующим образом. Робот на сервер передает запрос “get/path/document” и некоторые другие команды HTTP-запроса. В ответ робот получает текстовый поток, содержащий служебную информацию и непосредственно сам документ. Ссылки извлекаются из элементов гипертекста. Наряду со ссылками, многими роботами обрабатываются редиректы (перенаправления). Программа скачивает на диск поискового сервера содержимое исследуемых страниц. Каждая скачанная страница сохраняется в следующем формате:

  • URL страницы

  • дата, когда страница была скачана

  • http-заголовок ответа сервера

  • тело страницы (гипертекст документа)

2. Crawler («путешествующий» паук) программа, которая автоматически проходит по всем ссылкам, найденным на странице. Выделяет все ссылки, присутствующие на странице. Его задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Crawler, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе и добавляет их в список ожидающих индексации. .

3. Indexer (робот- индексатор) - программа, которая анализирует веб-страницы, скаченные пауками. Индексатор разбивает страницу на составные части и анализирует их, применяя собственные лексические и морфологические алгоритмы. Анализу подвергаются различные элементы страницы, такие как текст, заголовки, ссылки структурные и стилевые особенности, специальные служебные элементы текста и т.д.Для этого он составляет “словарь” странички, запоминает “частоту” использования слов. Особо отмечает ключевые слова, используемые в заголовках, выделенные в тексте жирным шрифтом. Помещает все это в особый файл - “индекс”.

Традиционная поисковая система чаще всего может назвать адрес базы данных, но не скажет, какие документы конкретно содержаться в ней. Типичный пример - информационно-поисковые системы по украинскому (http://www.rada.gov.ua) или российскому законодательству (http://www.kodeks.ru/). Тысячи документов из баз данных становятся доступны только после входа в систему, а роботы стандартных поисковых систем не в состоянии заиндексировать контент баз данных. Многие поисковые системы как глобальные, так и локальные - описаны на сайтах Search Engine Watch (http://www.searchenginewatch.com) и Search Engine Showdown (http://www.searchengineshowdown.com). На этих сайтах приведены, среди прочих, и поисковые системы "скрытого" веба:

- Singingfish (http://www.singingfish.com) - поисковая система Singingfish обеспечивает поиск аудио- и видеофайлов, представленных на веб-сайтах.

- Scirus (http://www.scirus.com) - поисковая система по представленным в Интернете научным материалам, включая статьи из журналов и отчеты. Со страницы расширеного поиска (Advanced Search) доступны многочисленные тексты из баз данных EBSCO и ProQuest.

- UFOSeek (http://www.ufoseek.com) - поисковая система по материалам о паронормальных явлениях и НЛО. Качественный и полноценный поиск информации в "скрытом" вебе возможен и с использованием таких специализированных коммерческих баз данных, как Dialog, ProQuest, Web of Science. Но эти базы данных ввиду своей платности сами являются объектами "скрытого" веба.