Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Сибирский федеральный университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Лекция 3, КТ.doc

Скачиваний:

Добавлен:

24.11.2019

Размер:

18.19 Mб

Скачать

☆

1 / 31 2 3 > Следующая >>>

Постоянная тенденция в современной наукоемких областях науки и техники, таких, как экспериментальная физика, космические исследования, оборонные исследования, медицина – рост объемов двоичной информации. Зачастую недопустимы потери даже части данных.

Это приводит к появлению проблем, связанных с увеличением нагрузок на средства хранения и передачи данных.

Эти проблемы не могут быть решены только за счет увеличения объемов памяти (памяти всегда не хватает), поэтому применяются методы кодирования информации, устраняющие статистическую избыточность сообщений.

Как правило, в реальном эксперименте статистические характеристики исследуемого объекта известны не полностью, а на объем оборудования устройств реализующих кодирование наложены ограничения. В таких случаях невозможно применить основной принцип статистического кодирования, когда менее вероятному событию ставится в соответствие более длинное кодовое слово и за счет этого удается передать исходную информацию меньшим количеством двоичных символов.

В конце 60-x годов, 20 – го века, Колмогоровым была доказана возможность построения кодирования, получившего название универсального кодирования.

Отличительным свойством универсального кодирования является то, что для данного класса источников, оно устраняет избыточность из исходного потока двоичных данных за счет увеличения длины блоков, на которые разбивается исходная последовательность, без знания статистических характеристик конкретного источника.

Основным препятствием на пути практического применения универсального кодирования являлась высокая трудоемкость его реализации, связанная с необходимостью кодирования не отдельных символов, а достаточно длинных их блоков. При прямом использовании для кодирования таблиц соответствия исходных блоков и кодовых слов трудоемкость растет по экспоненте с ростом длины исходных блоков. Очевидно, что эффективная реализация кодирования с такой трудоемкостью невозможна.

Существуют следующие пути преодоления трудностей реализации.

Создание новых методов универсального кодирования.
Разработка методики оптимального выбора длины исходных блоков.
Разработка менее трудоемких способов нумерации кодовых элементов.
Использование достижений современной элементной базы (флэш - технологии, ЭВМ на одном кристалле и т.д.).

В данной лекции рассмотрим результаты работы по созданию и исследованию конкретного метода универсального кодирования (УК).

Одним из путей преодоления трудностей реализации является поиск новых методов нумерации элементов подмножеств, после разбиения всего множества исходных двоичных комбинаций по каким - либо признакам.

Допустим, что известны какой-либо параметры n - блока. В этом случае после исходного разбиения по признаку соответствия n - блока этим параметрам, в подмножествах окажется меньше элементов, чем 2ⁿ. Но тогда можно предположить, что трудоемкость кодирования уменьшится, за счет уменьшения количества элементов в подмножествах и не будет носить экспоненциальный характер.

В связи с этим сформулируем метод УК и в дальнейшем исследуем его эффективность и трудоемкость.

Пусть источник порождает последовательность статистически независимых символов «1» и «0» с вероятностями p и q, нам неизвестными.

Разобьем всю последовательность двоичных символов, порождаемую источником на блоки длиной n(n - блоки).

Под избыточностью, приходящейся на символ исходной последовательности, будем понимать величину:

Rn (p) = n_ср /n - Н (p) , где (1)

n_ср - средняя длина кодового слова - это

сумма произведений всех возможных кодовых слов на вероятности их появления.

Н (p) - энтропия источника, минимальная теоретически возможная избыточность:

Н (р) =-(p log₂p+q log₂q)

Качество кодирования будет определяться величиной R_n - избыточностью кодирования:

R_n = Sup R_n (p), где 0‹p‹1 (2).

Данный код является универсальным, если для него выполняется условие:

ℓim R_n= 0 (3).

n → ∞

Перейдем к определению кодирования. Рассмотрим множество n , элементами которого являются

все возможные двоичные числа, разрядностью n, всего 2ⁿ

элементов. На Рис. 1 представлены элементы множества N для n = 5, расположенные в порядке возрастания.

Рис.1. Элементы множества N для n = 5, расположенные в порядке возрастания

Определим на N подмножества, обозначим их M_k,L_s.

Элементами М_К являются все элементы множества N , содержащие k единиц (0 ≤ k ≤ n). Элементами L_s являются все элементы множества N , сумма номеров позиций единиц которых равна S (0 ≤ S≤ n(n+1)/2). На Рис. 1 показаны эти подмножества для n = 5.

Определим R_k_,s , как пересечение M_k,L_s.

Обозначим r(n,k,s) количество элементов множества R_k_,s.

Поставим в соответствие каждому элементу множества R_k_,sномер b(n,k,s), причем 0 ≤ b(n,k,s) ≤ r(n,k,s) – 1.

Определим кодовое слово w соответствующее n -блоку, как упорядоченную тройку двоичных наборов (k, s, b(n,k,s)). Длина кодового слова (в битах) будет равна:

L=]log ₂(n+1)[+ ]log ₂(n(n+1)/2+1 [+]log ₂r(n,k,s)[ (4).

Код определим, как множество W элементами которого являются все кодовые слова w. Из построения следует, что W - префиксное множество, а, следовательно, между n -блоками и кодовыми словами w существует взаимо однозначное соответствие.

Данное кодирование назовем кодированием тройками двоичных наборов (сокращенно КТ).

Теорема 1. КТ облает свойством универсальности для бернуллиевских источников.

Доказательство. Обозначим η(n,k,s) вероятность появления n -блока содержащего k единиц и при этом имеющего сумму номеров позиций единиц равную S .

η(n,k,s)=r(n,k,s)p.

Запишем выражение для средней длины кодового слова - n_ср.

n s_max(k)

n_ср=]log₂(n+1)[+]log₂(n(n+1)/2+1[+∑∑ η(n,k,s)]log₂r(n,k,s)[

K=0 s=s_min(k)(5)

S _min(k)= k(k+1)/2;

S _max(k)=kn - k(k+1)/2 (6)

n_ср≤log₂(n+1)+ log₂(n(n+1)/2+1)+∑∑ η(n,k,s)log₂r(n,k,s)+2 (7)

K s

Учтем, что:

n(n+1)/2+1=(n²+n+2)/2≤(n²+2n+1)/2=(n+1)²/2 для любого n.

Тогда: n_ср≤3log₂(n+1)+∑∑ η(n,k,s)log₂r(n,k,s) +2

K s

Проведем некоторые тождественные преобразования.

∑∑ η(n,k,s)log₂r(n,k,s)=∑∑ η(n,k,s)log₂η(n,k,s)-

K s K s

- ∑∑ η(n,k,s)log₂p^kq^n-k=H′- ∑∑ η(n,k,s)k log₂p -

K s K s

-∑∑ η(n,k,s) (n-k) log₂q

K s

Из комбинаторных соображений ясно (Рис. 1), что:

∑r (n,k,s)= C^k_n

Тогда:

∑∑ η(n,k,s)k log₂p=∑ C^k_n p^kq^n-k k log₂p ≤ n log₂p

K s K

Аналогично:

∑∑ η(n,k,s) (n-k) log₂q= ∑C^k_n p^kq^n-k(n-k) log₂q≤ n log₂q

K s K

Следовательно:

n_ср≤3log₂(n+1) + H′+ nH(p)+2

Rn (p) = n_ср /n - Н (p) ≤ (3log₂(n+1))/n+ H′/n+ Н (p)+2/n-H(p)

Так как: H′≤0

Rn (p) ≤ (3log₂(n+1))/n+2/n (8)

Следовательно: ℓim R_n= 0

ⁿ^{→ ∞}

Теорема доказана.

На Рис. 2 представлены графики иллюстрирующие свойства сформулированного метода кодирования. Значения избыточности кодирования были вычислены на ЭВМ в соответствии с формулами (1) и (7) с точностью до трех знаков. Показана так же верхняя граница избыточности, вычисленная по формуле (8).

Рис. 2. Зависимости избыточности кодирования

1 / 31 2 3 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
04.06.201573.48 Кб422Лекция 2.docx Физическая культура.docx
#
01.05.20252.14 Mб11Лекция 3 (Эксплуатация инструмента и оборудован...docx
#
04.06.2015417.28 Кб93Лекция 3 ГМ.doc
#
01.05.2025162.98 Кб6Лекция 3 Основные документы управления.docx
#
21.11.201973.22 Кб21Лекция 3 Эндогенные процессы и рельеф.doc
#
24.11.201918.19 Mб23Лекция 3, КТ.doc
#
04.06.2015252.42 Кб58Лекция 4 ГМ.doc
#
21.08.2019863.96 Кб32Лекция 4 опер.docx
#
04.06.2015181.25 Кб54Лекция 5 ГМ.doc
#
04.06.20151.03 Mб34Лекция 5 Графики нагрузки энергосистемы.docx
#
01.07.202582.87 Кб1Лекция 5. основы деловой этики и корпор.культур...docx