31.4. Алгоритм Хаффмана

Розглянемо декілька властивостей оптимальних кодів.

Теорема 31.4. В оптимальному коді букву з меншою ймовірністю її появи не можна закодувати коротшим словом. Інакше кажучи, для оптимального коду з того, що p_i<p_j випливає, що l_i l_j.

Доведення. Припустимо протилежне: нехай є дві букви a_i та a_j такі, що p_i<p_j і l_i< l_j. Поміняємо місцями _i та _j у схемі кодування. Тоді середня довжина елементарних кодів змінить на

тобто зменшиться, що суперечить оптимальності коду. ►

Очевидно, що якщо код оптимальний, то можна перенумерувати букви алфавіту А і відповідні елементарні коди _i, що p₁  p₂ … p_n та l₁ l₂  …  l_n. Далі ми будемо розглядати схеми кодування, де коди впорядковані таким чином.

Теорема 31.5. В оптимальному коді є два елементарні коди з найбільшою довжиною l_n, які відрізняються лише останніми символами.

Доведення. Припустимо, що це не так. Тоді можна відкинути останній символ елементарного коду _n, не порушуючи властивості префіксності. При цьому, очевидно, зменшиться середня довжина елементарного коду. Це суперечить твердженню, що код оптимальний. ►

Теорема 31.6. Існує такий оптимальний код, у якому елементарні коди двох найменш імовірних букв a_n та a_n-1 відрізняються лише останніми символами.

Доведення. За теоремою 31.5 знайдеться елементарний код _t, який має ту саму довжину, що й _n, і відрізняється від нього лише останнім символом. Із теореми 31.4 випливає, що l_t = l_t+1 = … = l_n. Якщо t  n-1, то можна поміняти місцями _t та _n_-1, не порушуючи нерівності l₁ l₂  …  l_n. ►

Теорема 31.6 дає змогу розглядати лише такі схеми алфавітного кодування, у яких елементарні коди _n_-1 та _n (для двох найменш імовірних букв a_n-1 та a_n) мають найбільшу довжину й відрізняються тільки останніми символами. Це означає, що листки _n_-1 та _n кодового дерева оптимального коду мають бути з'єднані в одній вершині попереднього рівня.

Розглянемо новий алфавіт A₁ = {a₁, …, a_n-2, a} із розподілом ймовірностей P₁ = {p₁, …, p_n-2, p}, де p = p_n-1 + p_n. Його одержано з алфавіту А об'єднанням двох найменших букв a_n-1 та a_n в одну букву а з ймовірністю p = p_n-1 + p_n. Говорять, що А₁ отримано стисненням алфавіту А.

Нехай для алфавіту А₁ побудовано схему ₁ з елементарними кодами ₁, ₂, …, _n-2, . Схемі ₁ можна поставити у відповідність схему  з елементарними кодами ₁, ₂, …, _n-2, _n-1, _n для початкового алфавіту А, узявши _n-1 = 0, _n = 1 (тобто елементарні коди _n-1 та _n одержують з елементарного коду  приписуванням справа відповідно 0 та 1). Процедуру переходу від ₁ до  називають розщепленням.

Теорема 31.7 (без доведення). Якщо схема ₁ оптимальна для алфавіту А₁, то схема  оптимальна для алфавіту А.

З цієї теореми випливає такий метод побудови оптимальної схеми алфавітного кодування. Спочатку послідовно стискають алфавіт А до отримання алфавіту з двох букв, оптимальна схема кодування для якого очевидна: першу букву кодують символом 0, другу – символом 1. Потім послідовно розщеплюють одержану схему. Очевидно, що отримана в результаті схема префіксна.

Цей метод кодування запропоновано 1952 р. американським математиком Д. Хаффманом.

Розглянемо використання цього алгоритму для попереднього прикладу з розділу 31.3. У процесі побудуємо так зване дерево Хаффмана. Це є бінарне дерево, що відповідає оптимальному коду, яке будується знизу вгору, починаючи з |А| = n листків за n – 1 крок (злиття). Під час кожного кроку (злиття) дві вершини з найменшими ймовірностями об'єднуються однією вершиною вищого рівня, яка буде мати ймовірність, що дорівнює сумі ймовірності початкових двох вершин. При цьому нові ребра позначають 0 та 1.

Збудоване дерево зображено на рис. 31.2.

Після застосування алгоритму отримуємо таку схему кодування:

Буква	Код
a	00
b	010
c	111
d	10
e	011
f	110

Середня довжина побудованого коду, як і у випадку алгоритму Шенона-Фано, становить 0,232 + 0,183 + 0,083 + 0,232 + 0,163 + 0,123 = 2,54.

Рис. 31.2

<<< < Предыдущая 1 2 34 / 44

Соседние файлы в папке Lectures

#
12.05.2015181.25 Кб154Лекція 26. Застосування дерев.doc
#
12.05.2015254.46 Кб138Лекція 27. Алгоритми пошуку найкоротших шляхів.doc
#
12.05.2015143.87 Кб159Лекція 28. Ейлерові та гамільтонові цикли.doc
#
12.05.2015142.85 Кб147Лекція 29. Планарні графи. Розфарбування графів.doc
#
12.05.2015200.7 Кб116Лекція 30. Паросполучення в графах. Теорема Холла.doc
#
12.05.2015178.69 Кб140Лекція 31. Кодування.doc
#
12.05.2015162.82 Кб148Лекція 32. Граматики.doc
#
12.05.2015160.77 Кб90Лекція 32. Стиск даних.doc
#
12.05.2015185.34 Кб151Лекція 33. Скінченні автомати.doc
#
12.05.201579.36 Кб94Лекція 33. Шифрування.doc