Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ГОСы / МИР.docx
Скачиваний:
12
Добавлен:
04.01.2020
Размер:
78.23 Кб
Скачать
    1. Виды поисковых интернет-систем

Поисковые cистемы обычно состоят из трех компонент:

  • агент (паук или кроулер), который перемещается по Сети и собирает информацию;

  • база данных, которая содержит всю информацию, собираемую пауками;

  • поисковый механизм, который люди используют как интерфейс для взаимодействия с базой данных.

Cредства поиска и структурирования, иногда называемые поисковыми механизмами, используются для того, чтобы помочь людям найти информацию, в которой они нуждаются. Cредства поиска типа агентов, пауков, кроулеров и роботов используются для сбора информации о документах, находящихся в Сети Интернет. Это специальные программы, которые занимаются поиском страниц в Сети, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию, которую они находят для построения базы данных. Каждый поисковый механизм имеет собственный набор правил, определяющих, как cобирать документы. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Некоторые игнорируют ссылки, которые ведут к графическим и звуковым файлам, файлам мультипликации; другие игнорируют cсылки к ресурсам типа баз данных WAIS; другие проинструктирова-ны, что нужно просматривать прежде всего наиболее популярные страницы.

    1. Эффективность поиска информации

1. Семантические показатели.  Релевантность - объективно существующее смысловое соответствие между содержанием документа и запроса.  o полнота выдачи (потери информации);  o точность выдачи (информационный шум). Введем следующие обозначения: n a - множество релевантных и выданных системой документов; n b - множество нерелевантных, но выданных системой документов; n c - множество релевантных, но не выданных системой документов. o Полнота выдачи (ПВ) =a / (a+c) *100% o Точность выдачи (ТВ) = a / (a+b) *100% o Потери информации (ПИ) = c / (a+c) *100% o Информационный шум (ИШ) = b / (а+b) *100% 2. Прагматические показатели. Пертинентность - это субъективно оцениваемое соответствие содержания документов или текстов информационным интересам по требителя (Pertinent – уместный, относящийся к делу).  3. Другие показатели. o Охват – определяется тремя показателями – объемом проиндексированной информации, количеством уникальных серверов и количеством уникальных документов. o Скорость обхода – показывает, насколько быстро осуществляется индексация новой информации в базе. o Глубина – количество страниц и вложенность директорий, просматриваемая при индексации. o Скорость поиска – скорость выполнения поисковой системой запроса пользователя.

    1. Эффективность работы поисковых машин

Из-за невероятного увеличения информационных ресурсов Интернет в последние годы некоторые старые поисковые системы перестали быть эффективными. Поэтому появились такие поисковые машины, как Google и Direct Hit, которые сортируют ссылки по принципу популярности. Используя математический алгоритм, они выдают адреса тех ресурсов, на которые чаще всего указывают другие сайты.