2.3 Алгоритм унарного кодирования

Один из очевидных способов сжатия информации, в особенности текстовой, основывается на том, что вероятность использования в тексте разных символов сильно различна. В частности, в русском языке чаще всего используются буквы “о”, “а”, редко – “ъ”, ”щ” и т.д. Поэтому, предлагается использовать для частых символов более короткий код, для редких – более длинный. Трудность заключается в том, что коды получаются переменной длины и в общем потоке выходных данных трудно обнаружить конец одного кода и начало другого.

Однако, существуют коды, для которых задача определения длины легко решается (так называемые неравномерные коды со свойством однозначного декодирования). Например, унарный код (в двоичной системе), где:

“о”-1

“а”-01

“и”-001

...

“щ”-00....1

т.е. для самой частой буквы длина кода составляет 1 бит, для самой редкой - 33 бита (32 нуля и единица). Этот код очень прост, но далеко не эффективен. Однако, он может пригодиться для построения кодов целых переменной длины (Variable Length Integers (VLI) codes). VLI-коды состоят из двух частей: сначала следует унарный код, определяющий группу чисел определенной длины, а затем само число указанной длины. Таким образом, унарный код выполняет роль префикса, указывающего какой длины будет следующее число. Для записи VLI-кодов используют три числа: (start, step, stop), где start определяет начальную длину числа, step – приращение длины для следующей группы, stop – конечную длину.

Например, код (3,2,9) задает четыре группы чисел: 0ххх – числа от 0 до 7, группа 0, 10ххххх – числа от 8 до 39, группа 1, 110ххххххх – числа от 40 до 167, группа 2, 111ххххххххх – числа от 168 до 679, группа 3.

Унарный код для n-ой группы – n единиц, затем ноль; для последней группы – только n единиц, так как это не вносит неопределенности. Размер числа из n-ой группы равен start+n*step. VLI-коды удобно применять для кодирования монотонных источников, для которых вероятность появления меньших чисел выше, чем больших. При отсутствии кодирования любое число представлялось бы десятью битами.

Заключение

В данной расчетно-графической работе были рассмотрены три алгоритма сжатия данных:

алгоритм “RLE”;
алгоритм “LZ77”;
алгоритм “Унарное кодирование”.

Эффективность всех без исключения алгоритмов зависит от типа входных данных. С одним типом входных данных алгоритм под номером один получит более высокий коэффициент сжатия, в то время как, с другим типом входных данных, алгоритм под номером два покажет результат лучше.

Сжатие и восстановление данных затрачивают определенное время, но взамен вы получаете чуть больше свободного пространства на вашем носителе информации. На сегодняшний день, носители информации довольно дешевые, что нельзя сказать о затраченном времени. Стоит ли тратить лишнее время пользователя на сжатие информации или нет, решать вам!

Литература

http://mf.grsu.by/UchProc/livak/en/po/comprsite/theory_rle.html#rle
http://allforcplus.narod.ru/code/algoritm/coder.html
http://ru.wikipedia.org
Д. Ватолин, А. Ратушняк, М. Смирнов, В. Юкин. Методы сжатия данных. Устройство архиваторов, сжатие изображений и видео. — Диалог-МИФИ, 2002. — С. 384. — ISBN 5-86404-170-X 3000 экз.
Д. Сэломон. Сжатие данных, изображения и звука. — М.: Техносфера, 2004. — С. 368. — ISBN 5-94836-027-X 3000 экз.

<<< < Предыдущая 1 2 3 4 56 / 66

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.05.2025393.73 Кб3Raschet_rasseivania_tekhnogennykh_pollyutantov_...doc
#
16.09.201971.17 Кб8referatbank-7832.doc
#
01.03.202581.92 Кб0referat_istoricheskie_lichnosti_vasil3.doc
#
01.03.202599.65 Кб0Referat_po_filosofii.docx
#
22.04.2019624.13 Кб19Rescue.asd.doc
#
01.03.202561.85 Кб1RGR1 saod.docx
#
01.03.2025154.4 Кб2RGR2 saod.docx
#
14.11.2019188.42 Кб2RGR4_Linii_i_ploskosti.doc
#
06.05.2019145.41 Кб4Risk-MNT_investitsii_bankrotstvo_RED.doc
#
26.09.2019103.42 Кб7RLB_L1.DOC
#
26.09.2019225.79 Кб14RLB_L10.DOC