Тема 8. Основні алгоритми стискання інформації з втратами. Стискання відео та аудіо інформації. Алгоритм стискування зображень jpeg. Архівація даних у комп’ютерних системах. Лекція 15.

15.1. Алгоритми rle

Кодування довжин повторів (Run Length Encoding – RLE) – загальна назва методів стиснення даних, зокрема архівування зображень (графіки), без втрат, при якому серії однакових символів замінюються простою структурою, в якій вказується код даних та коефіцієнт повторення. Зазвичай, метод RLE є одним з кроків багатокрокового алгоритму стиснення, у якому додатково проводиться статистичне або словникове стиснення.

Приклад 15.1. Нехай потрібно закодувати такі дані

Аааааббббббббббвваддддкк5

довжиною 25 байт. У результаті роботи алгоритму отримуємо кодове слово

5А10бвва4дкк5

довжиною 12 байт.

Як видно з прикладу, послідовності (ланцюжки) з п'яти символів 'А', десяти символів 'Б' та чотирьох символів 'Д' кодуються двома символами '5' та 'А', '10' та 'Б' і '4' та 'Д', відповідно. Послідовності 'ВВ', 'КК' та окремі символи 'А' та '5' не перекодовуються, оскільки не має виграшу від заміни таких об'єктів на послідовності типу ''довжина''+''символ''.

При реалізації стиснення за цим методом виникають труднощі такого характеру: як декодер відрізнить управляючу інформацію у стисненому файлі від нестиснених даних ? Наприклад, як у прикладі 15.1, декодер відрізнить управляючий символ '5' перед символом 'А' від символа даних з таким самим кодом (останній символ – '5')

Існує декілька варіантів розв'язання цієї проблеми

15.1.1. Перший варіант алгоритму rle

В основі першого варіанту алгоритму RLE лежить ідея виявлення послідовностей даних, що повторюються, та заміни цих послідовностей структурою, яка складається з управляючого символу, коду даних та коефіцієнту повторення. Для зручності управляючий символ називають префіксом. За префікс береться символ, який найменше зустрічається у даних, що стискаються або не зустрічається взагалі. Він записується на початку стисненого файлу для того, щоб декодер знав, який байт є префіксом.

Тепер послідовність 'ААААА' з прикладу 15.1 кодером буде закодована у префікс (8 біт), символ 'А' (8 біт), коефіцієнт повторення '5', тобто 5 байт будуть закодовані трьома. Якщо у вхідному файлі при стисканні кодер зустріне байт з кодом префікса, то у результуючий файл запише два байти з кодом префікса і за цим признаком декодер визначить де префікс є символом даних, а де – управляючим символом.

Отже, у результаті роботи алгоритму отримуємо кодове слово

Нна5нб10вванд4кк5.

Коефіцієнт стиснення .

У кодовому слові перший байт 'Н' – це байт префікса, щоб декодер знав, який байт є префіксом.

Можливі модифікації даного варіанту, наприклад, кодувати послідовності символів та одиничні символи двома байтами типу ''довжина''+''символ'', де префіксом повторюваності служать одиниці у двох старших бітах байту ''довжини'', тобто

11 6 Біт Символ

Отже, на саму довжину ланцюжка виділяється 6 біт, яка може приймати значення від 1 до 63, тобто накладається обмеження на кількість повторюваних символів у ланцюжку. Якщо у ланцюжку більше ніж 63 символи, то кодуються ланцюжки по 63 символи плюс остача. Таким чином, у цьому випадку послідовність з 63 байт однакових символів стискається у 2 байти, тобто стискається у 32 рази.

Такий варіант алгоритму розрахований на ділову графіку – зображення з великими ділянками кольору, що повторюється. Він реалізований у форматі PCX.

1 / 41 2 3 4 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.05.2025222.72 Кб0Т3 Ор шт ст МБ (ТБ).doc
#
01.05.2025147.97 Кб0Т3.Зан2.doc
#
01.05.2025221.18 Кб0Т4-2 испр.doc
#
01.05.202560.21 Кб1Т5.docx
#
01.05.2025576 Кб1Т8 Скл поб тов ТКД ТЕМ друк.doc
#
01.07.2025458.24 Кб0ТІ_л15-16.doc
#
30.10.20185.68 Mб110Тіло.docx
#
01.03.20253.29 Mб1ТІМС Фінал.docx
#
17.09.2019125.78 Кб7ТІМС.docx
#
01.07.202574.73 Кб0ТІМС.docx
#
01.04.2025179.71 Кб0Таблиці з методичних вказівок.doc