- •Теория информации, данные, знания
- •Лекции читает канд.техн.наук, доцент Литвинов Владислав Леонидович
- •Раздел 3: Основы количественной
- •Основные понятия теории информации. Количественные меры информации.
- •Литература
- ••Цель лекции: изучение количественных мер информации, изучение понятия энтропии и ее свойств.
- ••Информация (от лат. informātiō «разъяснение, представление, понятие о чём-либо» ← informare «придавать вид,
- •В международных и российских стандартах даются следующие определения:
- ••А.Н. Колмогоров определил кибернетику как науку о системах,
- ••Колмогоров Андрей Николаевич (1903 - 1987). Великий русский ученый, один из крупнейших математиков
- ••Сигнал – материальный носитель информации, обладающий переменными параметрами (звук, свет, радиосигналы, напряжение, угловое
- •Существует несколько взглядов на то, что принято считать информацией. Один взгляд сводится к
- ••Второй взгляд состоит в том, что информация – это физическая величина, такая же,
- ••Набор символов, в котором установлен порядок их следования, называется
- ••Поскольку при передаче сообщения параметр сигнала должен меняться, очевидно, что минимальное количество различных
- •Количество информации
- ••2-я количественная мера – мера Р.Хартли
- ••3-я количественная мера – мера К.Шеннона
- ••Количественная мера Шеннона получена из следующих соображений. Если символ появляется в сообщении с
- ••Допустим, поступило n независимых сообщений (ансамбль сообщений):
- ••Количество информации для неравновероятных независимых символов в сообщении
- ••Пример 1. Студент Вася сообщил, что у него день рождения 25 октября. Какое
- ••Количество информации в случае неравновероятных зависимых символов
- •Энтропия и ее свойства
- ••Энтропия – мера неопределенности случайного состояния некоторой системы.
- ••Пусть информационная система может порождать ансамбль
- ••Энтропия не зависит от конкретного сообщения. Это характеристика информационной системы (источника сообщений или
- •Свойства энтропии
- •• Раскроем неопределенность вида 0∙∞ по правилу Лопиталя.
- •2.Энтропия - величина неотрицательная и ограниченная.
- •3.Энтропия системы, имеющей m равновероятных состояний, максимальна и равна log2m.
- ••Следовательно, при двух символах в алфавите максимум энтропии достигается в случае равновероятных символов.
- •4.Совместная энтропия независимых источников сообщений равна сумме энтропий.
- •Заключение
- •Вопросы и задачи для самостоятельной работы
- •3.Бросаются одновременно две игральные кости. Определить количество информации, содержащееся в сообщении о том,
- •5.Имеются два ящика, в каждом из которых по 12 шаров. В первом –
- ••6.Какое количество информации требуется, чтобы узнать исход броска монеты?
- ••7. Игра «Угадайка–4». Некто задумал целое число в интервале от 0 до 3.
- •Таким образом, для решения задачи оказалось достаточно двух вопросов независимо от того, какое
- ••В Белгороде 280000 жителей. Какое минимальное количество вопросов, требующих ответа "да" или "нет",
- •• 8. АСУТП посредством АЦП опрашивает потенциометрические датчики Д1 и Д2, имеющие погрешность
- ••9. Эллочка-Людоедка знает 20 слов. В обычном состоянии она произносит в среднем 50
- ••10. В буфере ИС ожидают обработки 6 заданий. 2 из них запрашивают дополнительный
•Сигнал – материальный носитель информации, обладающий переменными параметрами (звук, свет, радиосигналы, напряжение, угловое или линейное перемещение и т.д.).
•Сигнал как носитель информации имеет смысл только тогда, когда он заранее неизвестен для «приемника», т.е. случаен. Поэтому при описании информационных систем используется аппарат теории вероятностей. Причем, чем менее вероятно сообщение, тем больше информации оно несет («В декабре выпал снег»).
•Сигнал называется непрерывным (или аналоговым), если его параметр может принимать любое значение в пределах некоторого интервала.
•Если обозначить Z – значение параметра сигнала, а t – время, то зависимость Z(t) будет непрерывной функцией (рис. 1).
Существует несколько взглядов на то, что принято считать информацией. Один взгляд сводится к тому, что существует два сорта информации:
1.Техническая информация, которая передается по каналам связи и может быть отображена в виде, доступном для восприятия человеком. Количество такой информации может быть вычислено, и процессы, происходящие с такой информацией, подчиняются физическим законам.
2.Семантическая информация, т. е. смысловая. Такая информация, например, содержится в литературном произведении. Для ее оценки строятся различные теории, но, по-видимому, оценки здесь весьма условны, и алгеброй гармонию не поверишь.
•Второй взгляд состоит в том, что информация – это физическая величина, такая же, как, например, давление или температура. Таким образом, информация равным образом описывает как процессы, происходящие в естественных физических системах, так и процессы в искусственно созданных системах.
•Третья, примиряющая, точка зрения состоит в том, что информация едина, а вот количественные оценки должны быть разными. Отдельно нужно измерять количество информации с помощью строгих оценок.
•Кроме количества информации следует еще измерять ее качество
(или ценность). С ценностью информации происходит то же, что и с понятием семантической информацией.
•Например, как точно вычислить ценность научного открытия?
•Набор символов, в котором установлен порядок их следования, называется
алфавитом.
•Следовательно, алфавит – это упорядоченная совокупность знаков.
•Порядок следования знаков в алфавите называется лексикографическим. Благодаря этому порядку между знаками устанавливаются отношения «больше–меньше»: для двух знаков ψ принимается, что ξ < ψ, если порядковый номер ξ в алфавите меньше, чем порядковый номер ψ.
•Примером алфавита может служить совокупность арабских цифр 0,1…9 – с его помощью можно записать любое целое число в системах счисления от двоичной до десятичной. Если в этот алфавит добавить знаки «+» и «–», то им можно будет записать любое целое число, как положительное, так и отрицательное. Наконец, если добавить знак разделителя разрядов («.» или «,»), то такой алфавит позволит записать любое вещественное число.
•Поскольку при передаче сообщения параметр сигнала должен меняться, очевидно, что минимальное количество различных его значений равно двум и, следовательно, алфавит содержит минимум два знака – такой алфавит называется двоичным. Верхней границы числа знаков в алфавите не существует; примером могут служить иероглифы, каждый из которых обозначает целое понятие, и общее их количество исчисляется десятками тысяч.
•Верность передачи информации – мера соответствия принятого сообщения переданному.
•Переработка информации – выполнение формальных операций над входными величинами, над параметрами сигнала в соответствии с заданным алгоритмом.
•Хранение информации – фиксация параметров носителя информации.
•Помехоустойчивость – способность системы передачи информации противостоять воздействию помех.
•Скорость передачи информации – количество информации, переданное в единицу времени.
J=I(S)/T
•Пропускная способность – наибольшая достижимая скорость передачи информации для данной информационной системы.
C=I(S)max/T
Количество информации
•Количество информации – мера неопределённости, «снятой»/устраненной при получении сообщения.
•Количество информации в сообщении о некотором событии существенно зависит от вероятности этого события.
•Пусть имеется m качественных признаков сообщения (количество символов алфавита, количество уровней квантования).
•m называется мощностью алфавита.
•Пусть n - число элементов сообщения.
•Тогда существует mn различных сообщений длиной n.
• |
1-я количественная мера информации |
|
• |
|
|
|
I=mn |
(1) |
•Пример: позвонить в город по 6-значному номеру или в институт по 3-значному номеру. В первом случае неопределенность больше и сообщение (номер телефона) несет большую информацию.
•Недостаток этой меры – неаддитивность (непропорциональность количества информации и длины сообщения).
•Логично предположить, что сообщение, имеющее, например, в два раза большую длину, несет в два раза большую информацию.
•2-я количественная мера – мера Р.Хартли
•Роберт Хартли – американский инженер, работал в телеграфной компании. Рассуждая о
количестве информации, содержащемся в телеграфном тексте, заложил основы теории информации, определив логарифмическую меру количества информации (1928г.).
In logm
•Отсюда возникла и двоичная единица информации. Сообщение должно
иметь минимум один символ: nmin=1. Алфавит должен иметь минимум два элемента: mmin=2. Вот в таком сообщении и содержится минимально возможное количество информации.
•Imin = nmin∙log mmin
•При использовании двоичного логарифма Imin = 1 (бит, от англ. binary digit). Поэтому в теории информации используется логарифм по основанию 2.
I = n∙log2m |
(3) |
•Мера Хартли (логарифмическая мера) (2) не учитывает вероятностный характер сообщения (вспомним, что сообщение имеет смысл, когда оно неизвестно заранее).
•3-я количественная мера – мера К.Шеннона
Клод Элвуд Шеннон (1916-2001) – американский инженер, член Национальной АН США, профессор Массачусетского технологического института, в 1948 г. издал книгу «Математическая теория связи» с изложением основ теории информации. Будучи студентом Массачусетского технологического института, который он окончил в 1936 году, Шеннон специализировался одновременно и в математике, и в электротехнике. В 1940 году он защитил диссертацию, в которой доказал, что работу обычных переключателей и реле в электрических схемах можно представить посредством булевой алгебры. Сейчас булева алгебра лежит в основе современной цифровой схемотехники, но тогда применение к технике методов английского ученого Джорджа Буля было делом революционным. В 1941 году 25-летний Клод Шеннон поступил на работу в Bell Laboratories, где, помимо всего прочего, прославился тем, что катался на одноколесном велосипеде по коридорам лаборатории, одновременно жонглируя четырьмя мячиками. В годы войны он занимался разработкой криптографических систем, и позже это помогло ему открыть методы кодирования с коррекцией ошибок. Группа инженеров под руководством К.Шеннона сумела декодировать систему шифрования Энигма, что помогло союзникам быть в курсе гитлеровских планов. Кстати, в те же сороковые годы Шеннон занимался конструированием летающего диска на ракетном двигателе. В работах 1957-61 годов Шеннон построил свою теорию пропускной способности каналов связи.
•Количественная мера Шеннона получена из следующих соображений. Если символ появляется в сообщении с вероятностью 1 (на определенном месте), то такой символ никакой информации не несет. В случае если любой из m символов алфавита равновероятен p=1/m. Количество информации, содержащееся в сообщении из одного элемента определяется так:
• |
|
p |
1 |
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|||
I0 1 log m |
m |
|
log |
1 |
log p |
|||
|
|
|
||||||
|
|
1 |
|
p |
||||
|
|
|
|
|
|
|||
|
|
m |
|
|
|
|
|
|
p |
|
|
|
|
||||
•Если p – вероятность символа, то I0 – информация в сообщении из одного символа. Но неопределенно, что такое «один символ». Сколько, например, символов в сообщениях «МАМА МЫЛА РАМУ» или «Над всей Испанией безоблачное небо»? Очевидно, что любое сообщение можно представить в виде одного символа соответствующего алфавита. Количество информации не должно зависеть от способа выбора алфавита. Соответственно, эту формулу можно распространить на произвольные сообщения, учитывая, что под P будем понимать вероятность сообщения.
I = - log2P |
(4) |
