Методы сжатия rle, kwe.

В основу алгоритмов Run Length Encoding положен принцип выявления повторяющихся последовательностей данных и замены их простой структурой, в которой указывается код данных и коэффициент повтора. Программные реализации алгоритмов RLE отличается простотой, высокой скоростью работы, но в среднем обеспечивает недостаточное сжатие. Наилучшими объектами для данного алгоритма являются графические файлы, в которых большие одноцветные участки изображения кодируются длинными последовательностями одинаковых байтов. Этот метод может давать заметный выигрыш на некоторых типах файлов баз данных, имеющих таблицы с фиксированной длиной полей. Для текстовых данных методы RLE, как правило, неэффективны.

В основу алгоритмов кодирования Keyword Encoding положено кодирование лексических единиц исходного документа группами байтов фиксированной длины. Примером лексической единицы может служить слово. Результат кодирования сводится в таблицу, которая прикладывается к результирующему коду и представляет собой словарь. Обычно для англоязычных текстов принято использовать двухбайтную кодировку символов. Эффективность данного метода существенно зависит от длины документа, поскольку из-за необходимости прикладывать к архиву словарь длины кратких документов не только не уменьшается, но даже возрастает. Данный алгоритм наиболее эффективен для англоязычных текстовых документов и файлов баз данных. Для русскоязычных документов, отличающихся увеличенной длиной слов и большим количеством приставок, суффиксов и окончаний, не всегда удается ограничиться двухбайтовыми кодировками, и эффективность метода значительно снижается.

Метод сжатия Хаффмана

В основе алгоритма Хаффмана лежит кодирование не байтами, а битовыми группами. Перед началом кодирования производится частотный анализ кода документа и выявляется частота повторения каждого из встречающихся символов. Чем чаще встречается тот или иной символ, тем меньшим количеством битов он кодируется. Образующаяся в результате кодирования иерархическая структура прикладывается к сжатому документу в качестве таблицы соответствия.

В связи с тем, что к каждому архиву необходимо прикладывать таблицу соответствия, на файлах малых размеров алгоритм Хаффмана мало эффективен. Практика также показывает, что его эффективность зависит от заданной предельной длины кода.

Синтетические алгоритмы

Рассмотренные выше алгоритмы в «чистом виде» на практике не применяются из-за того, что эффективность каждого из них сильно зависит от начальных условий. В связи с этим современные средства архивации данных используют наиболее сложные алгоритмы, основанные на комбинации нескольких теоретических методов. Общим принципом в работе таких синтетических алгоритмах является предварительный просмотр и анализ исходных данных для индивидуальной настройки на особенности обрабатываемого материала.

<<< < Предыдущая 12 / 22

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
18.09.201928.94 Кб1What place does sociology occupy among th...docx
#
22.03.201613.11 Кб12What makes consumers so loyal to brands.docx
#
27.10.20181.46 Mб30Wiktor ostroga.doc
#
31.08.2019185.34 Кб1Windows Лабораторная работа №2.doc
#
10.12.201845.66 Кб3Windsurfing-1.docx
#
26.11.201858.88 Кб4WinRAR.doc
#
23.09.201984.99 Кб4WIPO Administered Treaties +PCT.doc
#
15.08.201985.5 Кб1WK.doc
#
08.11.2019247.81 Кб2Wolfish life New beginning.doc
#
16.11.201959.39 Кб2woprosy.doc
#
29.10.2018770.56 Кб3word 1-4.doc