Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Теория информ.(редакт2).doc
Скачиваний:
108
Добавлен:
02.05.2015
Размер:
877.06 Кб
Скачать

Лабораторная работа №1 Информация в дискретных сообщениях

Цель работы. Научиться практически определять количество информации в различного вида дискретных сообщениях.

Количество информации, содержащееся в дискретном сообщении (I) можно найти из простого соотношения

I=nH,

где n― число символов в сообщении,

H- энтропия источника сообщений, то есть среднее количество информации, приходящееся на один символ.

Энтропия источника сообщения определяется из основного соотношения теории информации (2), которое для удобства практического использования преобразуется к виду наиболее простому и удобному в зависимости от свойств дискретного источника сообщений.

В случае, если символы источника сообщения появляются равно- вероятно и взаимно независимо, то для подсчета энтропии такого рода сообщений используют формулу Хартли:

),

где m- объем алфавита источника дискретных сообщений.

Если символы источника сообщения генерируются с различны- ми вероятностями, но взаимно независимы, то используют формулу Шеннона

,

,

где Ра1 ― вероятность появления символа a1.

В случае же неравновероятного появления символов источника сообщения и наличия статистических зависимостей между соседними символами энтропию такого источника можно определить с помощью формулы Шеннона с условными вероятностями:

где ― условная вероятность появления символаai после сим- вола ai

Содержание работы.

1.Посчитать среднее количество информации, приходящееся на один символ (энтропию) источника дискретных сообщений в случаях:

а ―равновероятного и взаимно независимого появления символов;

б ―неравновероятного и взаимно независимого появления символов;

в ―при неравновероятном появлении символов и наличии статистических связей между соседними символами.

В качестве дискретного источника сообщений взять источник с объемом алфавита m= 34 (аналогичный по объему алфавита тексту на русском языке: 33 буквы и пробел), а его статистические характеристики смоделировать с помощью генератора случайных чисел.

2.Подсчитать количество информации в сообщении, представляющим собой Вашу фамилию, имя и отчество, считая, что символы сообщения появляются неравновероятно и независимо. Закон распределения символов найти путем анализа участка любого текста на русском языке длиной не менее 300 символов.

Выполнение. Работа выполняется на персональном компьютере в программном средстве «Mathcad». Так как в этом программном продукте в качестве встроенных функций используются только функции натуральных и десятичных логарифмов, то в процессе выполнения работы необходимо выполнить переход к логарифмам по основанию 2 по формуле перехода к иному основанию

где а ― основание известных логарифмов;

б ― основание требуемых логарифмов;

N ― логарифмируемая величина.

П.1.А. Используя формулу Хартли, найти энтропию указанного источника дискретных сообщений (н1).

П.1.б. Смоделировать закон распределения символов дискретного источника сообщений, используя оператор rnd (A), который генерирует случайные числа из диапазона [0,A] по следующей программе:

m : =34 ― задание объема алфавита (m);

i : =1, 2,…,m ― i- порядковый номер символа алфавита;

r(i) :=rnd (1) ― генерирование 34 случайных чисел

в интервале от 0 до 1;

― нахождение суммы всех r(i);

― P(i) – вероятность появления i-го символа (ai).

Проверить правильность вычислений, найдя сумму всех P(i) при i= 1,2,…,m.

Построить график закона распределения P(i). Используя формулу Шеннона, определить энтропию смоделированного источника дискретных сообщений (Н2).

П.1.в.Смоделировать матрицу условных вероятностей появления символа aj после символа ai по следующей программе:

m : =34 -― задание объема алфавита (m);

― порядковый номер символа алфавита;

r(i,j) := rnd(1) ― генерирование матрицы (34Х34) случайных

чисел в интервале от 0 до1;

― нахождение суммы элементов в каждой

строке матрицы r(i,j);

―нормировка по строкам матрицы r(i,j)

с целью получения суммы элементов в каждой строке, равной 1;

― нахождение сумм элементов в каждом

столбце матрицы S(i,j);

― нормировка по столбцам матрицы S(i,j) с

целью получения суммы элементов в

каждом столбце, равной 1.

Полученные значения элементов матрицы PP (i,j) приближенно можно считать условными вероятностями появления символа под номером j после i-го символа.

Используя формулу Шеннона с условными вероятностями определить энтропию смоделированного источника дискретных сообщений (Н3).

П.2.Определить вероятность появления каждого символа (буквы) Pi путем деления числа появлений этого символа (ai) на общее число сим- волов (не менее 300), входящих в сообщение. В случае, если какой- либо символ (из m= 34) в сообщении не встретился, считать, что он встретился 1 раз, иначе может возникнуть неопределенность в фор- муле Шеннона. Отсутствие какого - либо символа, принадлежащего алфавиту, свидетельствует лишь о том, что анализируемое сообщение не содержит достаточного числа символов (не достаточно длинное).

Построить график закона распределения символов (букв).

Проверить правильность полученного закона распределения, для чего найти сумму вероятностей появления каждого символа. Эта сумма должна быть равна 1.

С помощью формулы Шеннона найти энтропию (Н4) дискретного источника 9текста на русском языке). Подсчитав число символов в Вашей фамилии, именит и отчестве (включая пробелы), найти количество информации, содержащейся в этом сообщении.

Контрольные вопросы.

  1. Какие источники сообщений называют дискретными?

  2. Для каких источников дискретных сообщений применимы формулы Хартли, Шеннона?

  3. Каким образом описывается статистическая зависимость между соседними символами в дискретных сообщениях?

  4. Дайте определение энтропии источника дискретных сообщений.

  5. Как проверить правильность нахождения закона распределения символов источника дискретных сообщений?

  6. Какой вид дискретных сообщений обладает наибольшей энтропией?