Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
исэ лекции.docx
Скачиваний:
9
Добавлен:
13.11.2018
Размер:
501.99 Кб
Скачать

18/24. Принципы работы поисковых машин Интернета.

Поисковые машины Internet являют собой чистый образец работы с сетевыми рес-сами. Подсистема комплектования рес-сов основана на системе каталогов и пок-лей. Поиск осущ-ся роботом («пауком»), кот.периодически обегает заданный емуфрагмент сети или всю сеть, прочитывает доступные ему части сайтов,составляет описание каждого сайта в виде сов-ти обнаруженных в нёмслов и направляет это описание в блок каталога вместе с сетевыми адресамистраниц, на кот-х данные слова найдены. Особенность сетевых поисковыхмашин состоит в том, что они обычно не формируют своего хранилища, аиспользуют в кач-ве блока хранения всю сеть целиком.

Для поисковых машин было бы достаточно обойтисьобщесетевыми ср-вами доступа к источнику по известному адресу.Однако многие поисковики предлагают предварит.обработкудок-та в 2х видах:

(1) дают min текстовое окружение найденных слов

(2) предоставляют текст док-та с размеченнымивхождениями слов запроса, что позволяет сразу обращаться кинтересующему польз-ля фрагменту без необходимости просматриватьвесь док-т целиком. Схема сетевой поисковой машины:

Др.тип ИС в Internet получилназвание «порталы» («ворота/вход»). Отличиепорталов от поисковых машин состоит в том, что порталы открывают доступ

к док-там опред.смысловой области. Соотв-но этомукаталог порталов построен не на формальном выявлении слов в док-тах,а на отборе док-тов по опред.семантическим категориям. Есликаталог поиск.машины моделирует предметный каталог традицион.библиотеки, то каталог сетевого портала моделирует систематич.каталог библиотеки. Соотв-но входной интерфейс порталов д.пользоваться указателем семантических классов каталога, т. е. тематическойкласс-цион.системой. Каждый отобранный в портал док-тд.получить тематический индекс по данной класс-цион.системе. Вопрос об автоматической класс-ции в наст.времяне решён, и видимо, не будет в полной мере решён никогда. Поэтому впорталах может быть организован доступ только к огранич.массивудок-тов, кот.удастся просмотреть и оценить силами экспертов,составляющих персонал портала. В противоположность этому поиск.машины включают в свой доступ практически весь VInternet втеч.примерно недели.

Совр.ведущие поисковые машины стараются включить всебя также ф-ции семантич.отбора, св-венные порталам. Дляэтого наряду с пословным каталогом в них организуется и тематическийкаталог, составленный из наиб.популярных тем поиска в Internet

(Ех: «музыка», «отдых», «образование», «здоровье», «наука», тэпэ), нов этих каталогах также отражается только незначит.часть сетевыхинформац.рес-сов.

Вопросы эфф-ти поиска инфы в Internet:

1 из наиб.важных пок-лей эфф-ти ИС, содержащих текстовую инфу, являются семантич.пок-ли. Они основаны на оценке релевантности [объективно-существующее смысловое соотв-вие между содержанием док-та и запроса] между док-тами и запросами

Объективность оценки релевантности обеспечивается тем, что они устанавлив-ся экспертным путем, а не автором запроса.

Семантич.пок-ль – полнота выдачи (потерии инфы) и точность выдачи (информац.шум).

Др.группа пок-лей оценки эфф-ти док-тальных ИС – прагматич.пок-ли. Они м.определять только в процессе эксплуатации ИС. Они определяют абоненты системы на базе оценок пертинентности [субъективно-оцениваемое соотвествие содержания док-тов или текстов информационным интересам потребителя] выданных док-тов.

Перт-ть м.оценить только автор запроса, работающий в ИС. Оценки перт-ти отличаются от рез-тов, полученных на основе ценок релев-ти.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]