Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
andreev_otvety.doc
Скачиваний:
27
Добавлен:
08.12.2018
Размер:
14.94 Mб
Скачать

40. Оценка количества информации в сообщении. Понятие энтропии

Хартли ввел логарифмическую (аддитивную) меру количества информации, позволяющую оценивать количество инфомации, содержащейся в сообщении, логарифмом числа возможных сообщений.

I= .

Тогда при L=1 I=0, т.е. информация отсутствует.

Для k источников информации

I= ,

т.е. I= .

Найдем количество информации I, содержащейся в одном сообщении:

I= log L= -log.

Данное выражение (формула Шеннона) дает более полное представление об источнике информации, чем аддитивная мера (мера Хартли). Поясним это на следующем примере. Если мы подбрасываем монету, то получим сообщение из двух возможных состояний (орел или решка), то есть, алфавит сообщений из двух букв. Если подбрасываем кубик, одна грань которого голубая, а остальные грани окрашены в розовый цвет, то здесь также имеем алфавит из двух букв (голубой или розовый). Чтобы записать полученный текст (сообщение), в обоих случаях достаточно одной двоичной цифры на букву (п=1, т=2).

Информацио́нная энтропи́я — мера неопределённости или непредсказуемости информации, неопределённость появления какого-либо символа первичного алфавита. При отсутствии информационных потерь численно равна количеству информации на символ передаваемого сообщения.

Например, в последовательности букв, составляющих какое-либо предложение на русском языке, разные буквы появляются с разной частотой, поэтому неопределённость появления для некоторых букв меньше, чем для других. Если же учесть, что некоторые сочетания букв (в этом случае говорят об энтропии n-ого порядка, см. ниже) встречаются очень редко, то неопределённость ещё более уменьшается.

Энтропия — это количество информации, приходящейся на одно элементарное сообщение источника, вырабатывающего статистически независимые сообщения

41. Общие принципы функционирования поисковых систем в электронных сетях с коммутацией пакетов. Понятие поискового механизма.

Поисковая машина называется Spider (паук), это программа работающая по принципу браузера, она скачивает веб-страницы тем же способом, что и браузер пользователя. Но в отличае от браузера, который считывает текстовую информацию, содержащуюся на странице, паук считывает html-текст страницы. Поисковая машина выделяет все ссылки на страницах, определяя путь своего дальнейшего движения, таким образом находя еще неизвестные машине страницы.

Отдельный компонент общей системы - Indexer (индексатор), анализирует страницы, разбивая ее на составные части. Выделяются и анализируются различные элементы страницы, такие как текст, заголовки, структурные и стилевые особенности, специальные служебные html-теги и т.д. 

Вся информация, которая скачивается и анализируется машиной, хранится в базах данных (Database), называемых в «народе» индексом поисковой системы. 

Извлекает данные результатов поиска из базы данных система выдачи результатов (Search engine results engine). Она ранжирует результаты, определяя, какие страницы удовлетворяют запросу пользователя, и в каком порядке они должны быть отсортированы, руководствуясь алгоритмами ранжирования поисковой системы. Алгоритмы всех поисковых систем постоянно модифицируются и держатся в тайне, но именно они влияют на позиции сайта в выдаче.

Взаимодействие между пользователями и компонентами поисковой системы осуществляется при помощи веб-сервера.Каждая поисковая система имеет свой алгоритм ранжирования , детальная реализация механизмов также может отличаться друг от друга, однако всем поисковым системам присущи описанные общие черты.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]