- •Э.Н.Гордеев основы теории информации
- •Раздел 1. Информация и Алгоритм. Коды объектов. 12
- •Раздел 2. Сжатие информации. 30
- •Раздел 3. Передача информации. Защита от искажений. 56
- •Раздел 1. Информация и Алгоритм. Коды объектов. 10
- •Раздел 2. Сжатие информации. 29
- •Раздел 3. Передача информации. Защита от искажений. 55
- •12 Рекомендованная литература 122
- •Введение.
- •Алгоритм
- •Представление (кодирование) информации.
- •Примеры кодировок
- •Свойства кодировок
- •Способы представления (кодирования) информации.
- •Кодирование слов и поиск минимального кода
- •Признаковое кодирование.
- •Раздел 2. Сжатие информации.
- •Кодирование информации. Количество информации. Сжатие информации.
- •Сериальное кодирование
- •Алфавитное кодирование.
- •Неравенство Крафта.
- •Префиксные коды.
- •Кодирование натурального ряда.
- •Код Элайеса.
- •Код Левенштейна
- •Количество информации. Энтропия.
- •Энтропия по Хартли.
- •Энтропия по Шеннону.
- •Математическая модель: алфавитное кодирование случайного источника.
- •Энтропия по Шеннону
- •Энтропия по Шеннону и энтропия по Хартли.
- •Теорема Шеннона
- •Алгоритмы кодирования
- •Алгоритм Шеннона (Фано).
- •Алгоритм Хаффмана
- •Блочное кодирование Хаффмена.
- •Алгоритм арифметического кодирования
- •Блочное кодирование и теорема Шеннона.
- •Раздел 3. Передача информации. Защита от искажений.
- •Передача информации по каналу с шумом.
- •Модели каналов.
- •Необходимые определения.
- •Пример кода для канала с выпадением.
- •Передача информации по двоичному симметричному каналу с шумом
- •Принципы построения кодов, исправляющих ошибки.
- •Декодирование на основе таблицы декодирования.
- •Корректирующие способности кодов. Границы мощности.
- •Теорема Шеннона для канала с шумом.
- •Факты из теории вероятности.
- •XI → канал → y
- •Вторая теорема Шеннона.
- •Комбинаторное доказательство теоремы.
- •Примеры кодов, исправляющих ошибки. Линейные коды.
- •Линейные коды.
- •Спектр кода.
- •Код Хэмминга.
- •Вопросы для самопроверки.
- •Примеры билетов для контрольных работ.
- •Приложение.
- •Рекомендованная литература
Код Левенштейна
В коде Элайеса мы сэкономили по сравнению с тривиальным кодом за счет уменьшения префикса. В коде Левенштейна эта идея доведена до определенного истощения: от двоичной записи числа мы сначала переходим к двоичной записи длины BIN(n) (это было и в коде Элайеса), но затем мы переходим к длине длины, длине длины длины и т.д.
Введем для удобства формальной записи этой идеи некоторые обозначения. Пусть λ0(n) = [log n]. А далее по аналогии до λk0(n) = λ0 (λk-10(n)) = [log…[log n]].
Для любого n существует S такое, что: λS0(n) = 0, λS-10(n) = 1.
Положим Lev(0)=0, Lev(1) =10. Пусть n > 1. Тогда для такого сила вышеупомянутый параметр S>1. Если в префиксе кода мы ставим S подряд идущих единиц, а затем ноль (чтобы показать, где эта цепочка единиц заканчивается), то это не может быть ни кодом 0, ни кодом 1. А так как λS0(n) = 0, λS-10(n) = 1, то эти соотношения никакой информации для кодирования не содержа, и в код надо включать информацию о длинах, начиная с B(λS-20(n). Отсюда и следует формула для кода Левенштейна.
Lev(n) = 11…10 B(λS-20(n))…B(λ0(n))B(n),
где 11…10 – слово из S единиц и одного нуля.
Утверждение. Длина кода Левенштейна задается соотношением
|Lev(n)| = log n + log log n + o(log log n).
Утверждение. Код Левенштейна префиксный.
Пример (пробелы только для иллюстрации):
Lev(75) = 11110 0 11 001011
S = 4
Lev(5)=1110 0 01. Lev(62)=11110 0 01 11110.
Количество информации. Энтропия.
Известно несколько подходов к определению количества информации. Мы рассмотрим только самые простейшие и известные.
Энтропия по Хартли.
Определение. Энтропия
по Хартли множества
,
есть число
.
Если мы хотим закодировать элементы множества битовыми последовательностями, то энтропия по Хартли определяет максимальную длину последовательности, необходимой для такого кодирования.
Понятие «информационного бита» связано с энтропией по Хартли. «Информационный бит» - это количество информации, необходимое для различения двух элементов. И энтропия по Хартли M(2)=1.
Энтропия по Хартли применяется тогда, когда все элементы множества одинаково часто используются, имеют одинаковую «информативность» для пользователя. В более сложном случае используется следующий подход.
Энтропия по Шеннону.
Этот теоретический предел возможного сжатия и определяется количеством информации в том слове (множестве слов) с помощью которых информация представлена.
Математическая модель: алфавитное кодирование случайного источника.
Рассмотрим следующую модель. Имеется источник, который поочередно генерирует буквы алфавита A=(a1…an) с вероятностями p1…pn. То есть имеет место следующая ситуация.
Каждая буква ai генерируется с некоторой вероятностью pi. Эта вероятность pi не зависит от того, что выдал источник ранее и что он будет выдавать потом. Она также не зависит от очередности выдачи букв источником и от того, какой по счету от начала выдачи выдана данная буква. Такой источник называется источником Бернулли, что является частным случаем стационарного источника. На практике встречаются и другие источники. Для них приведенный ниже результаты неверны, но могут быть получены их аналоги.
