- •Мессенджеры-программы или сервисы для мгновенного обмена сообщениями, голосовой связи и видеосвязи в сети Интернет.
- •Организация информационного поиска в Internet.
- •Особенности информационного поиска в web по сравнению с информационно-справочными системами. Модель поведения типичного пользователя.
- •Архитектура поисковой системы для web. Понятия: хранилище документов, модуль индексирования, индекс, сетевой робот, поисковая машина, формат запроса.
- •Хранилище
- •Понятие релевантного и нерелевантного документа. Методы ранжирования результатов поиска. Модели PageRank, “голосования”, hits.
- •Архитектуры Информационно-поисковых систем(ипс): распределенные, метапоисковые .
Хранилище
Хранит электронные документы. Хранилище документов также включает в себя и управление тех же самых документов, которое оно хранит; также хранилище обеспечивает миграцию с одного носителя на другой и обеспечивает целостность данных.
Хранилище документов может представлять собой как файловое хранилище, так и хранилище в виде СУБД (базы данных). В свою очередь, хранилище документов в СУБД может производиться как в одной (единой) базе данных, так и в раздельных базах данных.
Поисковая машина (поиско́вый движо́к) — комплекс программ, предназначенный для поиска информации. Обычно является частью поисковой системы.
Основными критериями качества работы поисковой машины являются релевантность (степень соответствия запроса и найденного, т.е. уместность результата), полнота индекса, учёт морфологии языка.
-
Стратегии сканирования пространства WEB сетевыми роботами. Особенности сканирования скрытого Web.
Ро́бот, или бот, а также интернет-бот, www-бот и т. п. (англ. bot, сокр. от чеш. robot) — специальная программа, выполняющая автоматически и/или по заданному расписанию какие-либо действия через те же интерфейсы, что и обычный пользователь. При обсуждении компьютерных программ термин употребляется в основном в применении к Интернету.
1. Spider (паук) – Автономно работающая программа, предназначенная для скачивания веб-страниц. «Паук» обеспечивает скачивание страницы и извлекает все внутренние ссылки с этой страницы. Скачивается html-код каждой страницы. Для скачивания страниц роботы используют протоколы HTTP. Работает «паук» следующим образом. Робот на сервер передает запрос “get/path/document” и некоторые другие команды HTTP-запроса. В ответ робот получает текстовый поток, содержащий служебную информацию и непосредственно сам документ. Ссылки извлекаются из элементов гипертекста. Наряду со ссылками, многими роботами обрабатываются редиректы (перенаправления). Программа скачивает на диск поискового сервера содержимое исследуемых страниц. Каждая скачанная страница сохраняется в следующем формате:
-
URL страницы
-
дата, когда страница была скачана
-
http-заголовок ответа сервера
-
тело страницы (гипертекст документа)
2. Crawler («путешествующий» паук) – программа, которая автоматически проходит по всем ссылкам, найденным на странице. Выделяет все ссылки, присутствующие на странице. Его задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Crawler, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе и добавляет их в список ожидающих индексации. .
3. Indexer (робот- индексатор) - программа, которая анализирует веб-страницы, скаченные пауками. Индексатор разбивает страницу на составные части и анализирует их, применяя собственные лексические и морфологические алгоритмы. Анализу подвергаются различные элементы страницы, такие как текст, заголовки, ссылки структурные и стилевые особенности, специальные служебные элементы текста и т.д.Для этого он составляет “словарь” странички, запоминает “частоту” использования слов. Особо отмечает ключевые слова, используемые в заголовках, выделенные в тексте жирным шрифтом. Помещает все это в особый файл - “индекс”.
Традиционная поисковая система чаще всего может назвать адрес базы данных, но не скажет, какие документы конкретно содержаться в ней. Типичный пример - информационно-поисковые системы по украинскому (http://www.rada.gov.ua) или российскому законодательству (http://www.kodeks.ru/). Тысячи документов из баз данных становятся доступны только после входа в систему, а роботы стандартных поисковых систем не в состоянии заиндексировать контент баз данных. Многие поисковые системы как глобальные, так и локальные - описаны на сайтах Search Engine Watch (http://www.searchenginewatch.com) и Search Engine Showdown (http://www.searchengineshowdown.com). На этих сайтах приведены, среди прочих, и поисковые системы "скрытого" веба:
- Singingfish (http://www.singingfish.com) - поисковая система Singingfish обеспечивает поиск аудио- и видеофайлов, представленных на веб-сайтах.
- Scirus (http://www.scirus.com) - поисковая система по представленным в Интернете научным материалам, включая статьи из журналов и отчеты. Со страницы расширеного поиска (Advanced Search) доступны многочисленные тексты из баз данных EBSCO и ProQuest.
- UFOSeek (http://www.ufoseek.com) - поисковая система по материалам о паронормальных явлениях и НЛО. Качественный и полноценный поиск информации в "скрытом" вебе возможен и с использованием таких специализированных коммерческих баз данных, как Dialog, ProQuest, Web of Science. Но эти базы данных ввиду своей платности сами являются объектами "скрытого" веба.