5. Сжатие данных

Два типа сжатия данных.

Все методы сжатия данных делятся на два основных класса:

Сжатие без потерь
Сжатие с потерями

При использовании сжатия без потерь возможно полное восстановление исходных данных, сжатие с потерями позволяет восстановить данные с искажениями, обычно несущественными с точки зрения дальнейшего использования восстановленных данных. Сжатие без потерь обычно используется для передачи и хранения текстовых данных, компьютерных программ, реже — для сокращения объёма аудио- и видеоданных, цифровых фотографий и т. п., в случаях, когда искажения недопустимы или нежелательны. Сжатие с потерями, обладающее значительно большей, чем сжатие без потерь, эффективностью, обычно применяется для сокращения объёма аудио- и видеоданных и цифровых фотографий в тех случаях, когда такое сокращение является приоритетным, а полное соответствие исходных и восстановленных данных не требуется.

Классификация алгоритмов сжатия данных.

Методы сжатия данных можно разделить на два типа:

Неискажающие (loseless) методы сжатия (называемые также методами сжатия без потерь) гарантируют, что декодированные данные будут в точности совпадать с исходными;
Искажающие (lossy) методы сжатия (называемые также методами сжатия с потерями) могут искажать исходные данные, например за счет удаления несущественной части данных, после чего полное восстановление невозможно.

Первый тип сжатия применяют, когда данные важно восстановить после сжатия в неискаженном виде, это важно для текстов, числовых данных и т. п. Полностью обратимое сжатие, по определению, ничего не удаляет из исходных данных. Сжатие достигается только за счет иного, более экономичного, представления данных.

Второй тип сжатия применяют, в основном, для видео изображений и звука. За счет потерь может быть достигнута более высокая степень сжатия. В этом случае потери при сжатии означают несущественное искажение изображения (звука) которые не препятствуют нормальному восприятию, но при сличении оригинала и восстановленной после сжатия копии могут быть замечены.

Кроме того, можно выделить:

методы сжатия общего назначения (general-purpose), которые не зависят от физической природы входных данных и, как правило, ориентированы на сжатие текстов, исполняемых программ, объектных модулей и библиотек и т. д., т. е. данных, которые в основном и хранятся в ЭВМ;
специальные (special) методы сжатия, которые ориентированы на сжатие данных известной природы, например, звука, изображений и т. д. И за счет знания специфических особенностей сжимаемых данных достигают существенно лучшего качества и/или скорости сжатия, чем при использовании методов общего назначения.

По определению, методы сжатия общего назначения – неискажающие; искажающими могут быть только специальные методы сжатия. Как правило, искажения допустимы только при обработке всевозможных сигналов (звука, изображения, данных с физических датчиков), когда известно, каким образом и до какой степени можно изменить данные без потери их потребительских качеств.

Алгоритм Лемпеля-Зива.

В 1977 году Абрахам Лемпель и Якоб Зив предложили алгоритм сжатия данных, названный позднее LZ77. Этот алгоритм используется в программах архивирования текстов compress, lha, pkzip и arj. Модификация алгоритма LZ78 применяется для сжатия двоичных данных. Эти модификации алгоритма защищены патентами США. Алгоритм предполагает кодирование последовательности бит путем разбивки ее на фразы с последующим кодированием этих фраз. Позднее появилась модификация алгоритма LZ78 – Lempel-Ziv Welsh (использует словарь для байтов для потоков октетов).

Суть алгоритма заключается в следующем:

Если в тексте встретится повторение строк символов, то повторные строки заменяются ссылками (указателями) на исходную строку. Ссылка имеет формат <префикс, расстояние, длина>. Префикс в этом случае равен 1. Поле расстояние идентифицирует слово в словаре строк. Если строки в словаре нет, генерируется код символ вида <префикс, символ>, где поле префикс =0, а полесимвол соответствует текущему символу исходного текста. Отсюда видно, что префикс служит для разделения кодов указателя от кодов символ. Введение кодов символ, позволяет оптимизировать словарь и поднять эффективность сжатия. Главная алгоритмическая проблема здесь заключатся в оптимальном выборе строк, так как это предполагает значительный объем переборов.

Рассмотрим пример с исходной последовательностью (см. также http://geeignetra.chat.ru/lempel/lempelziv.htm)

U=0010001101 (без надежды получить реальное сжатие для столь ограниченного объема исходного материала).

Введем обозначения:

P[n] - фраза с номером n.

C - результат сжатия.

Разложение исходной последовательности бит на фразы представлено в таблице ниже.

N фразы	Значение	Формула	Исходная последовательность U
0	-	P[0]	0010001101
1	0	P[1]=P[0].0	0. 010001101
2	01	P[2]=P[1].1	0.01.0001101
3	010	P[3]=P[1].0	0. 01.00.01101
4	00	P[4]=P[2].1	0. 01.00.011.01
5	011	P[5]=P[1].1	0. 01.00. 011.01

P[0] - пустая строка. Символом . (точка) обозначается операция объединения (конкатенации).

Формируем пары строк, каждая из которых имеет вид (A.B). Каждая пара образует новую фразу и содержит идентификатор предыдущей фразы и бит, присоединяемый к этой фразе. Объединение всех этих пар представляет окончательный результат сжатия С. P[1]=P[0].0 дает (00.0), P[2]=P[1].0 дает (01.0) и т.д. Схема преобразования отражена в таблице ниже.

Формулы	P[1]=P[0].0	P[2]=P[1].1	P[3]=P[1].0	P[4]=P[2].1	P[5]=P[1].1
Пары	00.0=000	01.1=011	01.0=010	10.1=101	01.1=011
С	000.011.010.101.011 = 000011010101011

Все формулы, содержащие P[0] вовсе не дают сжатия. Очевидно, что С длиннее U, но это получается для короткой исходной последовательности. В случае материала большего объема будет получено реальное сжатие исходной последовательности.

Литература: [1], [3], [5].

<<< < Предыдущая 16 17 18 19 20 21 22 23 24 25 26 2728 / 5228 29 30 31 32 33 34 35 36 37 38 39 40 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
11.09.201962.46 Кб5Вопросы 15 и 40.doc
#
18.04.201949.15 Кб3вопросы 17 18 43 44.doc
#
07.09.201980.9 Кб4вопросы 20, 47, 50.doc
#
19.07.201946.23 Кб5Вопросы в английском.docx
#
31.12.201958.37 Кб0ВОПРОСЫ ГАК, 2007.doc
#
12.04.20155.76 Mб342ВОПРОСЫ ГОСУДАРСТВЕННОГО ЭКЗАМЕНА.docx
#
12.04.20154.23 Mб28ВОПРОСЫ ГОСУДАРСТВЕННОГО ЭКЗАМЕНА.pdf
#
12.04.201531.74 Кб19вопросы госы.doc
#
12.04.201521.89 Кб37вопросы дизартрия .docx
#
12.04.2015332.74 Кб45Вопросы для ГЭ 2015 НО.docx
#
28.12.201922.79 Кб0Вопросы для подготовки к МДЭ.docx