Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
7-Архівація даних-1.doc
Скачиваний:
0
Добавлен:
01.04.2025
Размер:
202.75 Кб
Скачать

Тема 6

Лекція

Архівація даних

Як зберігання, так і передача інформації обходяться учасникам інформаційного процесу недешево. Знаючи вартість носія і його місткість (Мбайт, Гбайт), неважко підрахувати, в що обходиться зберігання одиниці інформації, а знаючи пропускну спроможність каналу зв'язку (Мбіт/с) і вартість його оренди, можна визначити витрати на передачу одиниці інформації. Одержані результати звичайно складають цілком значущі величини як для корпоративних користувачів, так і для індивідуальних. У зв'язку з цим, регулярно виникає необхідність стискати дані перед тим, як розміщувати їх в архівах або передавати по каналах зв'язку. Відповідно, існує і зворотна необхідність відновлення даних із заздалегідь ущільнених архівів.

1. Теоретичні основи стиснення даних

Характерною особливістю більшості «класичних» типів даних, з якими традиційно працюють люди, є певна надмірність. Ступінь надмірності залежить від типу даних. Наприклад, біля відеоданих ступінь надмірності звичайно у декілька разів більше, ніж біля графічних даних, а ступінь надмірності графічних даних у декілька разів більше, ніж текстових. Крім того, ступінь надмірності даних залежить від прийнятої системи кодування. Так, наприклад, можна сказати, що кодування текстової інформації засобами російської мови (з використанням російської азбуки) дає в середньому надмірність на 20-30% більше, ніж кодування адекватної інформації засобами англійської мови.

Для людини надмірність інформації нерідко пов'язана з уявленням про її якість, оскільки надмірність, як правило, покращує сприйняття, особливо в несприятливих умовах (проглядання телепередач за наявності перешкод, відновлення пошкодженого графічного матеріалу, читання текстів в умовах недостатньої освітленості і т. п.).

14.1. Теоретичні основи стиснення даних

При обробці інформації надмірність також грає важливу роль. Так, наприклад, при перетворенні або селекції інформації надмірність використовують для підвищення її якості (репрезентативності, актуальності, адекватності і т. п.). Проте, коли мова заходить не про обробку, а про зберігання готових документів або їх передачу, то надмірність можна зменшити, що дає ефект стиснення даних.

Якщо методи стиснення інформації застосовують до готових документів, то нерідко термін стиснення даних підміняють терміном архівація даних, а програмні засоби, що виконують ці операції, називають архіваторами.

Об'єкти стиснення

Залежно від того, в якому об'єкті розміщені дані, що піддаються стисненню, розрізняють:

• ущільнення (архівацію) файлів;

• ущільнення (архівацію) тек;

• ущільнення дисків.

Ущільнення файлів застосовують для зменшення їх розмірів при підготовці до передачі по каналах електронних мереж або до транспортування на зовнішньому носії малої місткості, наприклад на гнучкому диску.

Ущільнення тек використовують як засіб архівації даних перед тривалим зберіганням, зокрема, при резервному копіюванні.

Ущільнення дисків служить цілям підвищення ефективності використовування їх робочого простору і, як правило, застосовується до дисків, що мають недостатню місткість.

Оборотність стиснення

Не дивлячись на достаток алгоритмів стиснення даних, теоретично є тільки три способи зменшення їх надмірності. Це або зміна змісту даних, або зміна їх структури, або і то і інше разом.

Якщо при стисненні даних відбувається зміна їх змісту, метод стиснення необоротній і при відновленні даних із стислого файлу не відбувається повне відновлення початкової послідовності. Такі методи називають також методами стиснення з регульованою втратою інформації. Вони застосовні тільки для тих типів даних, для яких формальна втрата частини змісту не приводить до значного зниження споживацьких властивостей. В першу чергу, це відноситься до мультимедійних даних: відеорядам, музичним записам, звукозаписам і малюнкам. Методи стиснення з втратою інформації звичайно забезпечують набагато більш високий ступінь стиснення, ніж оборотні методи, але їх не можна застосовувати до текстових документів, базам даних і, тим більше, до програмного коду. Характерними форматами стиснення з втратою інформації є:

• JPG для графічних даних;

• . М PG для відеоданих;

• . М РЗ для звукових даних.

Якщо при стисненні даних відбувається тільки зміна їх структури, то метод стиснення обернемо. З результуючого коду можна відновити початковий масив шляхом вживання зворотного методу. Оборотні методи застосовують для стиснення будь-яких типів даних. Характерними форматами стиснення без втрати інформації є:

  • .GIF, .TIP, .PCX і багато інших для графічних даних;

  • .AVI для відеоданих;

  • .ZIP, .ARJ, .PAR, .LZH, .LH, .CAB і багато інших для будь-яких типів даних.

наступних доведених теорем.

  1. Для будь-якої послідовності даних існує теоретична межа

  2. стиснення, який не може бути перевищений без втрати частини інформації.

  3. Для будь-якого алгоритму стиснення можна вказати таку послідовність

  4. даних, для якої він забезпечить кращий ступінь стиснення, ніж інші методи.

  5. Для будь-якого алгоритму стиснення можна вказати таку послідовність

  6. даних, для якої даний алгоритм взагалі не дозволить одержати стиснення.

Таким чином, обговорюючи різні методи стиснення, слід мати у вигляді, що щонайвищу ефективність вони демонструють для даних різних типів і різних об'ємів.

Існує достатньо багато оборотних методів стиснення даних, проте в їх основі лежить порівняно невелика кількість теоретичних алгоритмів, представлених в таблиці 14.1.

Таблиця 14.1. Властивості алгоритмів стиснення

Алгоритм

Вихідна структура

Сфера вживання

Примітка

RLE (Run-Length Encoding

Список (вектор даних)

Графічні дані

Ефективність алгоритму не залежить від об'єму даних

KWE (Keyword Encoding)

Таблиця даних (словник)

Текстові дані

Ефективний для масивів великого об'єму

Алгоритм Хафмана

Ієрархічна структура (дерево кодування)

Будь-які дані

Ефективний для масивів великого об'єму