Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Национальный технический университет Украины «Киевский политехнический институт»

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Lectures / Лекція 31. Кодування.doc

Скачиваний:

143

Добавлен:

12.05.2015

Размер:

178.69 Кб

Скачать

☆

<<< < Предыдущая 12 / 42 3 4 > Следующая >>>

6 0110, 70111, 81000, 91001,

відома під назвою «двійково-десяткове кодування», допускає однозначне декодування.

Рівномірне кодування з параметрами k й r задають так. Повідомлення  розбивають на блоки довжиною k:

 = (x₁…x_k)(x_k+1…x_2k)…(x_mk+1…x_pk+s),

де sk (останній блок може бути коротшим, у такому разі спосіб його кодування спеціально обумовлюють), x_iA, i = 1,…, pk + s. Блоки довжиною k розглядають як «букви» якогось алфавіту (таких блоків, очевидно, n^k, бо алфавіт А складається з n букв) і кодують словами в алфавіті В довжиною r за схемою рівномірного кодування _k,r:

₁  ₁,

₂  ₂,

…

Надлишковістю схеми _k_,_r на символ повідомлення називають величину .

31.2. Роздільні схеми

Розглянемо схему алфавітного кодування  та різні слова, складені з елементарних кодів.

Означення 31.5. Схему  називають роздільною, якщо з рівності випливає, щоk = l та i_t = j_t для кожного t = 1,…, k, тобто будь-яке слово, складене з елементарних кодів, можна єдиним способом розкласти на елементарні коди.

Алфавітне кодування з роздільною схемою вможливлює однозначне декодування.

Означення 31.6. Схему  називають префіксною, якщо для будь-яких i та j (i, j = 1,…,n, ij) елементарний код _i не є префіксом елементарного коду _j.

Теорема 31.1(без доведення). Префіксна схема є роздільною.

Властивість префіксності достатня, але не необхідна умова роздільності схеми. Наприклад, нехай A = {a, b}, B = {0, 1},  =  a  0, b  01. Схема  не префіксна, але роздільна. Справді, перед кожним входженням 1 в слові ₂ безпосередньо є 0. Це дає змогу виділити всі пари (01). Частина слова, що залишилась, складається із символів 0.

Щоби схема алфавітного кодування була роздільною, необхідно , щоби довжини елементарних кодів задовольняли певному співвідношенню, відомому як нерівність Мак-Міллана.

Теорема 31.2 (нерівність Мак-Міллана, без доведення). Якщо схема алфавітного кодування роздільна, то

, деl_i= |_i|.

Теорема 31.3 (без доведення). Якщо числа l₁,…,l_nзадовольняють нерівність

(нерівність Мак-Міллана),

то існує префіксна схема алфавітного кодування :

a₁  ₁,

…

a_n  _n,

де l_i = |_i|.

Наслідок 1. Нерівність Мак-Міллана – необхідна й достатня умова існування алфавітного кодування з префіксною схемою та довжинами елементарних кодів, що дорівнюють l₁,…, l_n.

Наслідок 2.Якщо існує роздільна схема алфавітного кодування із заданими довжинами елементарних кодів, то існує й префіксна схема з тими самими довжинами елементарних кодів.

31.3. Оптимальне кодування

Для практики важливо, щоби коди повідомлень мали по можливості найменшу довжину. Алфавітне кодування придатне для довільних повідомлень, тобто S = A*. Якщо більше про множину S не відомо нічого, то точно сформулювати задачу оптимізації важко. Однак на практиці часто доступна додаткова інформація. Наприклад, для текстів на природних мовах відомо розподілення ймовірностей (частот) появи букв у повідомленні. Використання такої інформації дозволяє строго поставити та розв’язати задачу побудови оптимального алфавітного кодування.

Нехай задано алфавіт А = {a₁,…,a_n} і ймовірності появи букв у повідомленні P = (p₁,…,p_n); тут p_i – ймовірність появи букви a_i (ймовірність можна розглядати як частоту і обчислювати у вигляді формули f(a_i)/l, де f(a_i) – кількість разів появи букви a_i у повідомленні, а l – загальна кількість букв у повідомленні, тобто довжина повідомлення). Не втрачаючи загальності, можна вважати, що p₁p₂…p_n> 0, тобто можна одразу вилучити букви, які не можуть з’явитись у повідомленні, і впорядкувати букви за спаданням ймовірностей їх появи. Крім того, p₁+ p₂+ …+ p_n= 1.

Означення 31.7. Для кожної роздільної схеми алфавітного кодування величина, деl_i = |_i|, i = 1,…, n називають середньою довжиною або ціною кодування за схемою  для розподілу ймовірностей Р.

Наприклад, для алфавітів A = {a, b}, B = {0, 1} та роздільної схеми  =  a  0, b  01 при розподілі ймовірностей (0.5, 0.5) ціна кодування складає 0.51 + 0.52 = 1.5, а при розподілі ймовірностей (0.9, 0.1) вона дорівнює 0.91 + 0.12 = 1.1.

Уведемо величину , де нижню грань беруть за всіма роздільними схемами. Легко довести, що

де верхю оцінку дає схема з елементарними кодами з однаковою довжиною . Звідси випливає, що для побудови кодів, у яких величинаl_близька до l_*, можна не враховувати коди з більшим l_, ніж . Отже, будемо розглядати лише схеми з.Позначимо p_*=min(p₁,…,p_n), тоді

для всіх i = 1,…, n.

Звідси випливає, що є лише скінченна кількість варіантів значень l_, для яких . Отже, значенняl_* досягається на якійсь схемі ; його можна визначити як

Означення 31.8. Коди, визначені схемою  з l_= l_*, називають кодами з мінімальною надлишковістю або оптимальними кодами для розподілу ймовірностей Р.

За наслідком 2 з теорем 31.2 та 31.3 існує алфавітне кодування з префіксною схемою, яке дає оптимальні коди. У зв’язку з цим, будуючи коди, можна обмежитися префіксними схемами.

<<< < Предыдущая 12 / 42 3 4 > Следующая >>>

Соседние файлы в папке Lectures

#
12.05.2015181.25 Кб159Лекція 26. Застосування дерев.doc
#
12.05.2015254.46 Кб144Лекція 27. Алгоритми пошуку найкоротших шляхів.doc
#
12.05.2015143.87 Кб164Лекція 28. Ейлерові та гамільтонові цикли.doc
#
12.05.2015142.85 Кб151Лекція 29. Планарні графи. Розфарбування графів.doc
#
12.05.2015200.7 Кб120Лекція 30. Паросполучення в графах. Теорема Холла.doc
#
12.05.2015178.69 Кб143Лекція 31. Кодування.doc
#
12.05.2015162.82 Кб151Лекція 32. Граматики.doc
#
12.05.2015160.77 Кб93Лекція 32. Стиск даних.doc
#
12.05.2015185.34 Кб153Лекція 33. Скінченні автомати.doc
#
12.05.201579.36 Кб97Лекція 33. Шифрування.doc