Хранилище

Хранит электронные документы. Хранилище документов также включает в себя и управление тех же самых документов, которое оно хранит; также хранилище обеспечивает миграцию с одного носителя на другой и обеспечивает целостность данных.

Хранилище документов может представлять собой как файловое хранилище, так и хранилище в виде СУБД (базы данных). В свою очередь, хранилище документов в СУБД может производиться как в одной (единой) базе данных, так и в раздельных базах данных.

Поисковая машина (поиско́вый движо́к) — комплекс программ, предназначенный для поиска информации. Обычно является частью поисковой системы.

Основными критериями качества работы поисковой машины являются релевантность (степень соответствия запроса и найденного, т.е. уместность результата), полнота индекса, учёт морфологии языка.

Стратегии сканирования пространства WEB сетевыми роботами. Особенности сканирования скрытого Web.

Ро́бот, или бот, а также интернет-бот, www-бот и т. п. (англ. bot, сокр. от чеш. robot) — специальная программа, выполняющая автоматически и/или по заданному расписанию какие-либо действия через те же интерфейсы, что и обычный пользователь. При обсуждении компьютерных программ термин употребляется в основном в применении к Интернету.

1. Spider (паук) – Автономно работающая программа, предназначенная для скачивания веб-страниц. «Паук» обеспечивает скачивание страницы и извлекает все внутренние ссылки с этой страницы. Скачивается html-код каждой страницы. Для скачивания страниц роботы используют протоколы HTTP. Работает «паук» следующим образом. Робот на сервер передает запрос “get/path/document” и некоторые другие команды HTTP-запроса. В ответ робот получает текстовый поток, содержащий служебную информацию и непосредственно сам документ. Ссылки извлекаются из элементов гипертекста. Наряду со ссылками, многими роботами обрабатываются редиректы (перенаправления). Программа скачивает на диск поискового сервера содержимое исследуемых страниц. Каждая скачанная страница сохраняется в следующем формате:

URL страницы
дата, когда страница была скачана
http-заголовок ответа сервера
тело страницы (гипертекст документа)

2. Crawler («путешествующий» паук) – программа, которая автоматически проходит по всем ссылкам, найденным на странице. Выделяет все ссылки, присутствующие на странице. Его задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Crawler, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе и добавляет их в список ожидающих индексации. .

3. Indexer (робот- индексатор) - программа, которая анализирует веб-страницы, скаченные пауками. Индексатор разбивает страницу на составные части и анализирует их, применяя собственные лексические и морфологические алгоритмы. Анализу подвергаются различные элементы страницы, такие как текст, заголовки, ссылки структурные и стилевые особенности, специальные служебные элементы текста и т.д.Для этого он составляет “словарь” странички, запоминает “частоту” использования слов. Особо отмечает ключевые слова, используемые в заголовках, выделенные в тексте жирным шрифтом. Помещает все это в особый файл - “индекс”.

Традиционная поисковая система чаще всего может назвать адрес базы данных, но не скажет, какие документы конкретно содержаться в ней. Типичный пример - информационно-поисковые системы по украинскому (http://www.rada.gov.ua) или российскому законодательству (http://www.kodeks.ru/). Тысячи документов из баз данных становятся доступны только после входа в систему, а роботы стандартных поисковых систем не в состоянии заиндексировать контент баз данных. Многие поисковые системы как глобальные, так и локальные - описаны на сайтах Search Engine Watch (http://www.searchenginewatch.com) и Search Engine Showdown (http://www.searchengineshowdown.com). На этих сайтах приведены, среди прочих, и поисковые системы "скрытого" веба:

- Singingfish (http://www.singingfish.com) - поисковая система Singingfish обеспечивает поиск аудио- и видеофайлов, представленных на веб-сайтах.

- Scirus (http://www.scirus.com) - поисковая система по представленным в Интернете научным материалам, включая статьи из журналов и отчеты. Со страницы расширеного поиска (Advanced Search) доступны многочисленные тексты из баз данных EBSCO и ProQuest.

- UFOSeek (http://www.ufoseek.com) - поисковая система по материалам о паронормальных явлениях и НЛО. Качественный и полноценный поиск информации в "скрытом" вебе возможен и с использованием таких специализированных коммерческих баз данных, как Dialog, ProQuest, Web of Science. Но эти базы данных ввиду своей платности сами являются объектами "скрытого" веба.

<<< < Предыдущая 1 23 / 53 4 5 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
20.05.20152.06 Mб230ОП 4.1 Л.rtf
#
19.03.2016298.69 Кб65ОППТ.docx
#
19.03.2016205.82 Кб36Определение периода полураспада долгоживущего изотопа.doc
#
21.05.20151.15 Mб37Определённый интеграл.pdf
#
19.03.2016103.42 Кб25Орг. труда.doc
#
20.05.201549.87 Кб19Организация информационного поиска.docx
#
21.05.2015271.51 Кб26ОС Linux. Мет. указ. к лаб. работам..pdf
#
21.05.2015793.6 Кб24ОС. Мет. указ-я по вып-ю лаб. работ на C++..pdf
#
21.05.2015979.06 Кб39ОС. Примеры прогр-ния потоков на C++..pdf
#
20.03.201615.3 Mб16освещение частн.ж в СМИ.pdf
#
20.05.201593.79 Кб346ОСД.docx