Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
25
Добавлен:
09.02.2015
Размер:
776.19 Кб
Скачать

Сигнал и количество информации

Лекция 12.

12.1.Понятие сигнала

Знаки или первичные сигналы, организованные в последовательности несут информацию не потому, что они повторяют объекты реального времени, а по общественной договоренности об однозначной связи знаков и объектов, например: предметы и слова для их обозначения.

Кроме того, первичные сигналы могут быть порождены естественными законами реального мира, например: напряжение на выходе термопары под действием температуры.

Информация, основанная на однозначной связи знаков или сигналов с объектами реального мира, называется семантической или смысловой.

Информация, заключенная в характере (порядке и взаимосвязи) следования знаков сообщающей называется синтаксической.

Также в общей науке о знаках (семиотики) кроме перечисленных выделяют сигматический и прагматический аспекты информации. В первом случае изучается вопрос о выборе знаков для обозначения объектов реального мира, во втором случае о ценности информации для достижения поставленных целей.

Рассмотрению подлежат вопросы доставки получателю информации как совокупность из знаков. При этом последовательностью игнорируются смысловое и прагматическое ее содержание. Синтаксическая мера информации имеет практическую ценность потому, что интересующая в конечном итоге получателя семантическая информация заключена в заданной последовательности знаков или первичных сигналов.

Чем больше знаков передаются в определенный интервал времени, тем в среднем больше передается и смысловой информации.

Информация передается, и храниться в виде сообщений.

Под сообщением понимают совокупность знаков или первичных сигналов содержащих информацию. Иначе говоря, сообщение – это информация представленная в какой-либо форме. Пример сообщений: текст телеграммы, данные на выходе ЭВМ, речь, музыка и т.д.

 

Типы сигналов

 

Для того чтобы сообщение можно было передать получателю,

 

 

необходимо воспользоваться некоторым физическим процессом,

 

 

способным с той или иной скоростью распространяться от источника к

 

 

получателю сообщения. Изменяющийся во времени физический

 

 

процесс, отражающий передаваемое сообщение называется сигналом.

 

Сигнал всегда является функцией времени. В зависимости от того, какие

1

 

значения могут принимать аргумент (время t) и уровни сигналов их

делят на 4 типа (рис. 12.1).

1) Непрерывный или аналоговый сигнал (случайные сигналы этого типа называются непрерывными случайными процессами). Они определены для всех моментов времени и могут принимать все значения из

заданного диапазона. Чаще всего физические процессы, порождающие сигналы являются непрерывными. Этим и объясняется второе название сигналов данного типа аналоговый т.е. аналогичные порождающим процессам.

2) Дискретизированный или дискретно непрерывный сигнал (случайные

сигналы этого типа называют процессами с дискретным временем или непрерывными случайными последовательностями). Они определены лишь в отдельные моменты времени и могут принимать любые значения уровня. Временной интервал Dt между соседними отсчетами называется шагом дискретизации. Часто такие сигналы называют дискретными по времени.

3) Дискретный по уровню или квантованный сигнал (случайные сигналы этого типа называют дискретными случайными процессами). Они определены для всех моментов времени и принимают лишь

разрешенные значения уровней отделенные друг от друга на величину шага квантования Dx = xk+1+xk.

4) Дискретный по уровню и по времени сигналы (случайные сигналы этого типа называют дискретными случайными последовательностями). Они определены лишь в отдельные разрешенные моменты времени и могут принимать лишь разрешенные значения уровней.

2

3

4

Рис. 12.1

12.2.Канал передачи данных

Совокупность технических средств используемых для передачи сообщений от источника к потребителю информации называется системой связи. Общая схема системы связи представлена на рис 12.2.

Она состоит из 5 частей:

1) Источник сообщений создающий сообщения или последовательность сообщений, которые должны быть переданы.

2) Передатчик, который перерабатывает некоторым образом сообщения в сигналы соответственного типа определенного характеристиками используемого канала.

3) Канал - это комплекс технических средств, обеспечивающий передачу сигналов от передатчика к приемнику. В состав канала входит каналообразующая аппаратура, осуществляющая сопряжение выходного и входного сигналов соответственно передатчика и приемника с линией связи, и самой линии связи.

4) Приемник обычно выполняет операцию обратную по отношению к операции, производимой передатчиком, т.е. восстанавливается сообщение по сигналам.

5) Получатель это лицо или аппарат, для которого предназначено сообщение. Процесс преобразования сообщения в сигнал, осуществляющий в передатчике и обратный ему процесс, реализующий в приемнике назовем соответственно кодированием и декодированием.

Рис. 12.2

12.3. Кодирование сигнала

Если ввести количественную меру неопределенности, имевшей место до прихода сигнала, то эту же величину можно принять за меру количества информации, содержащейся в принятом сигнале.

Простейший случай {0,1} Это выбор между двумя равновозможными положениями переключателя.

Сигнал, производящий выбор между двумя одинаковыми возможностями, является простейшим. Поэтому естественно принять за единицу ту степень неопределенности, которая существовала до прихода этого сигнала. И, следовательно, то количество информации, которое содержит сигнал.

После приведенного определения единицы количества информации принципиально возможно определить количество информации, заключающееся в любом, сколь угодно сложном сигнале. Для этого нужно представить сложную операцию выбора в виде совокупности (или последовательности) I элементарных операций выбора. Каждая из этих операций представляет собой выбор только между двумя одинаковыми возможностями. Тогда I будет количеством информации, содержащемся в сигнале.

m = 4 – число равновозможных сигналов Достаточно двух элементарных операций ввода. m – число равновозможных элементов ансамбля

 

Тогда

, I – число элементарных операций выбора.

 

 

I log2 m

I n log

.m

 

Если передается n сигналов, то

 

 

одному m равновозможные значения,

2

1

n n

– число различных равновозможных

 

то m

 

последовательностей из n сигналов

Основание log выбираем равным 2, так как log22=1 (bit – binary unit).

12.4.Энтропия как мера количества информации

Как передаётся информация? Информация передаётся в виде сообщений от некоторого источника информации к её приёмнику посредством канала связи между ними.

Источник посылает передаваемое сообщение, которое кодируется в передаваемый сигнал. Этот сигнал посылается по каналу связи. В результате в приёмнике появляется принимаемый сигнал, который декодируется и становится принимаемым сообщением.

В настоящее время получили распространение подходы к определению понятия "количество информации", основанные на том, что информацию, содержащуюся в сообщении, можно

нестрого трактовать в смысле её новизны или, иначе, уменьшения неопределённости наших знаний об объекте.

Базисным понятием всей теории информации является понятие энтропии. Энтропия – мера неопределенности некоторой ситуации. Естественным развитием понятия энтропии являются понятия информации и сложности. К понятию информации с 30-х годов установился подход, как к мере уменьшения энтропии в модели, описывающей объект, в результате получения некоторого сообщения, меняющего эту модель. При этом предполагается, что в новой модели энтропия будет обязательно меньше, чем в исходной.

I( сообщение)=H(до сообщения )–H( после сообщения);

Энтропия – это производное понятие от понятия “состояние объекта”. Она характеризует степень вариативности микросостояния объекта. Качественно, чем выше энтропия, тем в большем числе существенно различных микросостояний может находиться объект при данном макросостоянии. Исторически первым примером была энтропия нагретого физического тела, которая интерпретируется как неопределенность положений и импульсов молекул при данной температуре, играющей роль макросостояния (термодинамическая энтропия). Можно выделить несколько типов определений числового значения энтропии. Для всех определений выполняется характеристическое свойство: энтропия композиции нескольких взаимно независимых моделей равна сумме их энтропий.

12.4.Энтропия как мера количества информации

Энтропия (S или H) независимо вводилась Клазиусом: где Q – энергия, Т – температура;

Л. Больцманом: S=H=ln W, где W – вероятность состояния

Так, если некий опыт имеет n равновероятных исходов, а другой опыт m равновероятных исходов, то составной опыт имеет nm таких исходов. Если мы вводим меру неопределенности f , то естественно потребовать, чтобы она была такова, чтобы

во-первых, неопределенность росла с ростом числа возможных исходов,

во-вторых, неопределенность составного опыта была равна просто сумме неопределенности отдельных опытов,

иначе говоря, мера неопределенности была аддитивной: f(nm)=f(n)+f(m).

Именно такая мера неопределенности была введена К. Шенноном: H(X)= –P(Xi) log P(Xi), где Х – дискретная случайная величина с диапазоном изменчивости N, P(Xi) – вероятность i-го уровня X.

Впервые вопрос о возможности сжатия данных поставил Клод Шеннон в своей работе, посвященной математической теории связи. Он вывел формулу, по которой подсчитывается энтропия текста (т.е. нижняя оценка среднего количества бит, необходимого для кодирования данного текста наиболее компактным образом. В этой же работе Шеннон определил понятие информации в сообщении.

Однако, Шеннон не был первым. Первый шаг на этом пути сделал в 1928 г. Хартли. Основной полученный им результат можно сформулировать примерно так: если в заданном множестве, содержащем N элементов, выделен некоторый элемент x, о котором известно лишь, что он принадлежит этому множеству, то, чтобы найти x, необходимо получить количество информации, равное log2N. Эту формулу обычно называют формулой Хартли.

Формула Хартли является частным случаем более общей формулы Шеннона, позволяющей найти количество информации в случайном сообщении фиксированного алфавита. Пусть X1, ..., Xn - символы этого алфавита, P1, ..., Pn - вероятности их появления в тексте сообщения, тогда формула Шеннона принимает вид:

H=P1*log2(1/P1)+ ... + Pn*log2(1/Pn),

где H – количество бит информации в одном символе сообщения, или энтропия символа сообщения.

Допустим, нужно угадать одно число из набора чисел от единицы до ста. Вычислим по формуле Хартли какое количество информации для этого требуется: I = log2100 ≈ 6,644. То есть сообщение о верно угаданном числе содержит количество информации, приблизительно равное 6,644 единиц информации.

Приведем другие примеры равновероятных сообщений:

при бросании монеты: "выпала решка", "выпал орел";

на странице книги: "количество букв чётное", "количество букв нечётное".

Определим теперь, являются ли равновероятными сообщения "первой выйдет из дверей здания женщина" и "первым выйдет из дверей здания мужчина".

Однозначно ответить на этот вопрос нельзя.

Все зависит от того, о каком именно здании идет речь. Если это, например, станция метро, то вероятность выйти из дверей первым одинакова для мужчины и женщины, а если это военная казарма, то для мужчины эта вероятность значительно выше, чем для женщины.

Для задач такого рода американский учёный Клод Шеннон предложил в 1948 г. другую

формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе.

Формула Шеннона: I= – (p1log2p1+p2log2p2+...+pNlog2pN), где pi – вероятность того, что именно i- е сообщение выделено в наборе из N сообщений. Легко заметить, что если вероятности p1, ..., pN равны, то каждая из них равна 1/N, и формула Шеннона превращается в формулу Хартли.

Число H показывает минимальное среднее число бит, необходимых для представления одного символа алфавита данного сообщения. В некоторых случаях алфавит сообщения может быть неизвестен, тогда выдвигаются гипотезы об алфавите сообщения. Для разных алфавитов может быть достигнут разный коэффициент сжатия. Например, текстовый файл, если его рассматривать как последовательность битов, имеет энтропию порядка 0.7 - 0.9, если как последовательность байтов, – 0.5 - 0.7, хотя популярные программы сжатия уменьшают размеры текстовых файлов до 0.3 - 0.4 от исходного размера.

Доказательство Шеннона не было конструктивным, т.е. не содержало способа построения этих оптимальных кодов, а лишь показывало их существование.

Если сигналы равновозможны, то вероятность P=1/m

 

Тогда

I log2

m log2

1

log2

P.Случай равновозможных сигналов – это частный случай.

 

 

 

m

Если

, тогда

 

это случайная величина.

 

 

Pi Pj

 

Ii log2 Pi

 

m

Среднее значение H P log P это средняя мера неопределенности, выраженная в

i 2 i

двоичных единицах на один сигнал. Формула имеет тот же вид, что и формула для энтропии –

i 1

меры хаотичности, неопределенности в термодинамике. Поэтому она была названа Шенноном энтропией. Шеннон учитывает статистическую структуру источника сообщений. Здесь имеет место не только чисто формальное сходство. Доказано, что каждый акт получения информации, например измерение какой-либо величины в системе, сопровождается возрастанием энтропии в рассматриваемой системе.

 

Энтропия H является средним значением случайной величины (–log2Pi) и имеет чисто статистический смысл,

 

который можно пояснить следующим рассуждением.

 

Рассмотрим последовательности из N сигналов hi (I =1,m), имеет вероятность Pi при достаточно больших N. Это

 

число равно

mn 2log2 mn 2N log2 m

 

 

Однако большая часть из них имеет очень маленькую вероятность.

Наиболее вероятно, что сигнал h1 будет встречаться P1N раз, h2 – P2N, … . Вероятность того, что h1

 

встречается P1N раз равна

.

P P1N

 

 

 

 

 

 

 

1

 

 

 

 

Вероятность события, что сигналы будут встречаться с указанной частотой

P P P1N P P2 N ...P Pm N

 

Тогда

 

 

m

 

 

1

2

m

 

Мы пришли к формуле I log 2

P log 2 P1Pi N ...Pm Pm N N Pi log 2 Pi

 

 

 

 

 

 

m

i 1

 

 

 

 

H n

H n n Pi log2 Pi

 

 

 

 

– на одну букву.

 

i 1

 

 

 

 

Число часто встречающихся последовательностей равно

m

H Pi log2 Pi

i 1

Соседние файлы в папке презентации