11. Сжатие данных. Алгоритм Лемпела-Зива.

Процесс записи файла в архивный файл называется архивированием, а извлечение файла из архива - разархивированием. Упакованный файл называется архивом. Архивация информации - это такое преобразование информации, при котором объем информации уменьшается, а количество информации остается прежним. Степень сжатия информации зависит от типа файла, а также от выбранного метода упаковки. Качество сжатия файлов характеризуется коэффициентом сжатия К_с, определяемым как отношение объема сжатого файла V_c к объему исходного файла V₀, выраженное в процентах: K_c=V_c/V₀*100%. Чем меньше величина К_с, тем выше степень сжатия информации. Методы сжатия информации делят на: упаковка без потерь информации (обратимый алгоритм) и упаковка с потерей информации (необратимый алгоритм). В первом случае исходную информацию можно точно восстановить по имеющейся упакованной информации. Во втором случае распакованное сообщение будет отличаться от исходного сообщения.

В основу алгоритмов кодирования по ключевым словам (KWE) положено кодирование лексических единиц исходного документа группами байтов фиксированной длины. Результат кодирования сводится в таблицу, которая прикладывается к результирующему коду и представляет собой словарь. На практике используется адаптивное сжатие. За один проход по тексту одновременно строится словарь и кодируется текст. При этом словарь не хранится из-за того, что при декодировании используется тот же самый алгоритм построения словаря, словарь динамически восстанавливается. Реализации этой идеи, известна как алгоритм Лимпела-Зива. Вначале словарь содержит пустое слово, имеющее код 0, Далее в тексте последовательно выделяются слова. Выделяемое слово - это максимально длинное слово из уже имеющегося в словаре плюс еще один символ. В сжатое представление записывается найденный код слова и расширяющая буква, а словарь пополняется расширенной комбинацией.

1. исходное сообщение разбиваем на последовательность символов, называемых словами.

2. полученное множество слов будем считать буквами нового алфавита. Для этого алфавита строится разделимая схема алфавитного кодирования (оптимального), полученная схема называется словарем.

3. код строится как пара значение: сначала код словаря, а затем последовательность кодов слов из данного словаря.

4. при декодировании исходное сообщение восстанавливается путем замены кодов слов на слова из словаря

Код Липме-ла-Зива

D: array [int] of string;

Вход: исходный текст, заданный массивом кодов символов f: array [1..n] of char.

Выход: сжатый текст, представленный последовательностью пар <p,q>, где p – номер слова в словаре, q – код дополняющей буквы.

D[0]:=””; d:=0; (начальное состояние словаря)

k:=1; (номер текущей буквы в исходном тексте)

while k<=n do

p:=FD(k); (р – индекс найденного слова в словаре)

l:=length(D[p]); (l – длина найденного слова в словаре)

yield <p,f[k+l]>; (код найденного слова и еще одна буква)

d:=d+1; D[d]:=D[p]f[k+l]; (пополнение словаря, здесь  – конкатенация - + )

k:=k+l+1; (передвижение вперед по исходному тексту) end;

Слово в словаре ищется с помощью не сложной функции FD

Вход: k – номер символа в исходном тексте, начиная с которого нужно искать в тексте слова из словаря.

Выход: p – индекс самого длинного слова в словаре, совпадающего с символами.

f[k]..f[k+l]; (если такого слова в словаре нет, то р=0)

l:=0; p:=0; (начальное состояние)

for i from 1 to d do

if D[i]=f[k..k+ length(D[i])-1] and length(D[i])>l then

p:=i; l:= length(D[i]); (нашли наиболее подходящее слово)

end;

return p;

<<< < Предыдущая 1 2 3 4 5 6 7 8 910 / 1810 11 12 13 14 15 16 17 18 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
21.08.2019361.25 Кб191_chast_IUS_Matmodeli.docx
#
27.04.2019101.64 Кб01й и 2й разделы отчета готово.docx
#
30.08.20193.42 Mб0235568.rtf
#
21.08.2019374.98 Кб32_chast_KT_IM.docx
#
04.09.2019559.62 Кб23 ПМИ молекулярная физика и электричество.doc
#
21.08.2019940.3 Кб203_chast_Proektirovanie_IS_TIPiS.docx
#
23.09.201923.68 Кб24.Мантаж электро питания.docx
#
27.09.2019264.38 Кб04.Мантаж электро питания.docx
#
24.04.201928.8 Mб204200.01.01;РУ.01;1 микро ю1.doc
#
24.04.20194.34 Mб24201.01.01;РУ.01;1 макро ю1.doc
#
27.04.20196.21 Mб34201.02.01;РУ.01;1 макро ю2.doc