5.5.4. Алгоритмы сжатия данных без потери информации

Метод кодирования длины серий даёт наилучшие результаты, если сжимаемые данные состоят из длинных последовательностей одних и тех же значений (алгоритмы RLE, KWE).
Метод относительного кодирования. В некоторых случаях информация может состоять из блоков данных, каждый из которых может немного отличаться от предыдущего. Примером могут служить последовательные кадры видеоизображения. Каждый блок кодируется с точки зрения его взаимосвязи с предыдущим блоком.

[54 слайд]

Метод частотно-зависимого кодирования, при котором длина битовой комбинации, представляющей элемент данных, обратно пропорциональна частоте использования этого элемента (коды Хоффмана).
Методы кодирования Lempel-Ziv являются наиболее универсальными для сжатия данных общего назначения. Системы кодирования по методу Lempel-Ziv используют технологию кодирования с применением адаптивного словаря. В данном контексте словарь означает набора строительных блоков, из которых создаётся сжатое сообщение. Строительными блоками могут быть символы алфавита, блок данных (нулей и единиц), хранящихся в компьютере.

[55 слайд]

5.5.4.1. Алгоритм rle

В основу алгоритмов кодирования длины серий RLE (Run-Length Encoding) положен принцип выявления повторяющихся последовательностей данных и замены их простой структурой, в которой указывается код данных и коэффициент повтора.

Например, для последовательности: 0; 0; 0; 127; 127; 0; 255; 255; 255; 255 (всего 10 байтов) образуется следующий вектор:

Значение	Коэффициент повтора
0	3
127	2
0	1
255	4

При записи в строку он имеет вид:

0; 3; 127; 2; 0; 1; 255; 4 (всего 8 байтов).

В данном примере коэффициент сжатия равен 8/10 (80 %).

Программные реализации алгоритмов RLE отличаются простотой, высокой скоростью работы, но в среднем обеспечивают недостаточное сжатие. Наилучшими объектами для данного алгоритма являются графические файлы, в которых большие одноцветные участки изображения кодируются длинными последовательностями одинаковых байтов. Этот метод также может давать заметный выигрыш на некоторых типах файлов баз данных, имеющих таблицы с фиксированной длиной полей. Для текстовых данных методы RLE, как правило, неэффективны.

[56 слайд]

5.5.4.2. Алгоритм kwe

В основу алгоритмов кодирования по ключевым словам (Keyword Encoding) положено кодирование лексических единиц исходного документа группами байтов фиксированной длины. Примером лексической единицы может служить слово (последовательность символов, справа и слева ограниченная пробелами или символами конца абзаца). Результат кодирования сводится в таблицу, которая прикладывается к результирующему коду и представляет собой словарь. Обычно для англоязычных текстов принято использовать двухбайтную кодировку слов. Образующиеся при этом пары байтов называют токенами.

Эффективность данного метода существенно зависит от длины документа, поскольку из-за необходимости прикладывать к архиву словарь длина кратких документов не только не уменьшается, но даже возрастает. Данный алгоритм наиболее эффективен для англоязычных текстовых документов и файлов баз данных. Для русскоязычных документов, отличающихся увеличенной длиной слов и большим количеством приставок, суффиксов и окончаний, не всегда удается ограничиться двухбайтными токенами, и эффективность метода заметно снижается.

[57 слайд]

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 1011 / 1511 12 13 14 15 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.05.2025118.11 Кб0ТЗ_Группа 3.docx
#
01.03.202582.53 Кб2Типовик№1.docx
#
20.04.2015271.87 Кб31Типовой расчет [Статистика].doc
#
21.11.2019794.11 Кб10ТОИ - Лекция 1 Основы информатики.doc.doc
#
20.04.2015169.47 Кб21ТОИ - Лекция 3 Системы счисления.doc.doc
#
21.11.2019464.38 Кб7ТОИ - Лекция 5 Файлы и файловая структура.doc.doc
#
20.04.2015904.6 Кб7ТОМД.docx
#
20.04.2015904.59 Кб8ТОМД.docx
#
01.03.2025373.25 Кб0точно.doc
#
20.04.2015282.62 Кб42ТП самолетов шпоры (1).doc
#
20.04.2015801.28 Кб16ТПвС_ответы.doc