Практическая работа 2
.docx
МИНОБРНАУКИ РОССИИ
Санкт-Петербургский государственный
электротехнический университет
«ЛЭТИ» им. В.И. Ульянова (Ленина)
Кафедра информационных систем
отчет
по практической работе №2
по дисциплине «Теория информации, данные, знания»
Тема: Количество информации.
Формула Хартли. Формула Шеннона.
Студент(ка) гр. |
|
|
Преподаватель |
|
|
Санкт-Петербург
2020
Цель работы
Сформулировать ответы на вопросы с указанием источников информации.
Вопросы по теме 2:
1. Формула измерения количества информации Р. Хартли.
2. Понятие информационной энтропии. Единицы измерения энтропии.
3. Развитие теории информации в работах Клода Шеннона. Формула Шеннона.
Задачи по теме 2:
1. Привести пример вычисления формулы Хартли для определения числа вопросов в задаче угадывания задуманного числа из заданного интервала (например, 1-32, 1-100). Представить вопросы и ответы для данного примера.
2. Выбрать любое предложение из текста на русском языке, содержащее не менее 20 букв русского алфавита. Рассчитать количество энтропии, содержащееся в предложении текста по формулам Хартли и Шеннона. Для формулы Шеннона воспользуйтесь частотами встречаемости букв в Национальном Корпусе Русского языка, приведенными в Приложении. Провести сравнение полученных значений.
Выполнение работы
Вопросы:
I = Log2 K
где I – количество информации в битах, K = mn и обозначается количество различных вариантов последовательностей символов a1, a2, a3, …, an, каждый из которых принадлежит алфавиту Am.
Таким образом I = Log2mn = n Log2m, H(X) = Log2N – формула Энтропии.
Информационная энтропия – это мера неопределённости состояния некоторой случайной величины (физической системы) с конечным или счётным числом состояний. Случайная величина – это величина, которая в результате эксперимента или наблюдения принимает числовое значение заранее неизвестно какое. Энтропия измеряется в битах.
К. Шеннон, используя подход Р. Хартли, обратил внимание на то, что при передаче словесных сообщений частота (вероятность) использования различных букв алфавита неодинакова: некоторые буквы используются очень часто, другие - редко. Формула Шеннона для измерения общего количества информации, которое содержится в сообщении: I = -n* , где – это вероятность возникновения символа под индексом i в сообщении, m – количество символов в алфавите, а n – это количество символов в сообщении. H(X) = - – формула энтропии.
Когда pi = 1/m, формула Шеннона переходит в формулу Хартли.
Задачи:
Допустим, нам нужно угадать число из интервала 1 – 32. За какое минимальное число вопросов это можно сделать, если ответами к этим вопросам могут быть только «да» или «нет»?
По формуле Хартли: N = 32 (число всех возможных вариантов, т.е. алфавит состоит из 32 символов). Тогда I = Log232 = 5 бит. Таким образом, для того, чтобы угадать число, мы должны получить 5 бит информации, т. е. мы можем задать ровно 5 вопросов и получить ровно 5 ответов.
Например:
Было загадано число 2.
Вопрос 1: принадлежит ли число множеству 17 – 32? Ответ – нет.
Значит число принадлежит множество 1 – 16.
Вопрос 2: принадлежит ли число множество 9 – 16? Ответ – нет.
Число принадлежит множеству 1 – 8.
Вопрос 3: принадлежит ли число множеству 5 – 8? Ответ – нет.
Число принадлежит множеству 1 – 4.
Вопрос 4: принадлежит ли число множество 3 – 4? Ответ – нет.
Число принадлежит множеству 1 – 2.
Вопрос 5: это 1? Ответ – нет.
Значит это 2.
Каждую осень птицы улетают на юг.
В предложении содержится 27 символов. Т. о. n = 27, m = 33.
Количество информации в сообщении:
По формуле Хартли: I = n*Log2m ≈ 136 бит.
По формуле Шеннона: I = -n* ≈ 120 бит.
Таким образом количество информации, рассчитанной по формуле Шеннона, оказалось на 16 бит меньше, чем количество информации, рассчитанной по формуле Хартли.
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
Луковкин С.Б. Теоретические основы информатики