Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Методические указания по дискретной математике.doc
Скачиваний:
81
Добавлен:
22.11.2018
Размер:
4.5 Mб
Скачать

4.2.7. Сжатие данных

При алфавитном кодировании наблюдается некоторый баланс между временем и памятью. Затрачивая дополнительные усилия при кодировании и декодировании можно экономить память, и, наоборот, пренебрегая оптимальным использованием памяти, можно существенно выиграть во времени кодирования и декодирования. Конечно, этот баланс имеет место только в определенных пределах, и нельзя сократить расход памяти до нуля или построить мгновенно работающие алгоритмы. Для алфавитного кодирования пределы возможного установлены оптимальным алгоритмом, рассмотренным выше. Для достижения дальнейшего прогресса нужно рассмотреть неалфавитное кодирование.

Определение. Методы кодирования, которые позволяют построить (без потери информации) коды сообщений, имеющие меньшую длину по сравнению с исходным сообщением, называются методами сжатия (или упаковки) информации. Качество сжатия обычно определяется коэффициентом сжатия, измеряется в процентах и показывает, на сколько сжатое сообщение короче исходного.

Допустим, имеется некоторое сообщение, которое закодировано каким-то общепринятым способом и хранится в памяти ЭВМ. Например, текст в кодах ASCII. Заметим, что равномерное кодирование, используемое в кодах ASCII, не является оптимальным для текстов, так как в текстах обычно используется существенно меньше, чем 256 символов. Обычно это 60–70 символов, в зависимости от языка.

Если вероятности появления различных букв различны и известны, то можно, воспользовавшись алгоритмом Хаффмена, построить для того же самого сообщения схему оптимального алфавитного кодирования (для заданного алфавита и языка). Расчеты показывают, что такое кодирование будет иметь цену несколько меньше 6, т.е. даст выигрыш по сравнению с кодом ASCII примерно на 25%. Известно, однако, что практические архиваторы (программы сжатия) имеют гораздо лучшие показатели (до 70% и более). Это означает, что в них используется не алфавитное кодирование.

Рассмотрим следующий способ кодирования.

  1. Исходное сообщение по некоторому алгоритму разбивается на последовательности символов, называемых словами (слово может иметь одно или несколько вхождений в текст сообщения).

  2. Полученное множество считается буквами нового алфавита. Для этого алфавита строится разделимая схема алфавитного кодирования (равномерного или оптимального). Полученная схема обычно называется словарем, так как сопоставляет слову код.

  3. Далее код сообщения строится как пара – код словаря и последовательность кодов слов из данного словаря.

  4. При декодировании исходное сообщение восстанавливается путем замены кодов слов на слова из словаря.

Пример. Требуется сжать текст на русском языке. В качестве алгоритма деления на слова примем обычные правила языка: слова отделяются друг от друга пробелами или знаками препинания. Можно принять допущение, что в каждом конкретном тексте имеется не более различных слов (обычно гораздо меньше). Таким образом, каждому слову можно сопоставить код – целое число из двух байт (равномерное кодирование). Учитывая, что каждый символ в ASCII кодируется одним байтом, полученный код слова по объму эквивалентен кодам двух букв русского алфавита. Поскольку в среднем слова русского языка состоят более чем из двух букв, такой способ позволяет сжать текст на 75% и более. При больших текстах расходы на хранение словаря относительно невелики.

Данный метод попутно позволяет решить задачу полнотектового поиска, причем для этого не нужно просматривать весь текст, достаточно просмотреть словарь.

Указанный способ можно усовершенствовать, по крайней мере, в двух отношениях. На шаге 2 можно использовать алгоритм оптимального кодирования, а на шаге 1 – решить экстремальную задачу такого разбиения сообщения на слова, чтобы цена кодирования на шаге 2 была минимальной. Однако, на практике, такая экстремальная задача весьма трудоемка и временные затраты оказываются слишком большими.