Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
06 - Лекция 06 - Системы резервного копирования...doc
Скачиваний:
1
Добавлен:
01.04.2025
Размер:
192.51 Кб
Скачать

17

ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ИНФОРМАЦИОННО-КОММУНИКАЦИОННЫХ ТЕХНОЛОГИЙ

Кафедра систем защиты информации

Н.Н. Блавацкая

СИСТЕМЫ РЕЗЕРВНОГО КОПИРОВАНИЯ

(Лекция № 6 для студентов )

(Время - 2 часа)

Форма обучения: дневная

Лекция рассмотрена и одобрена

на заседании кафедры систем защиты информации.

Протокол № ___ от «___» ___________ 2009 года

Киев – 2009

Тема лекции:

«Системы резервного копирования»

ПЛАН

Введение

  1. Этапы развития методов оптимального представления информации

  2. Определения, аббревиатуры и классификации методов сжатия

  3. Методы сжатия без потерь литература

  1. Ватолин Д., Ратушняк А., Смирнов М., Юкин В.Методы сжатия данных. Устройство архиваторов, сжатие изображений и видео. - М.: ДИАЛОГ-МИФИ, 2003. - 384 с.

Введение

В настоящее время человечество переживает период информационного бума. Объем получаемой и перерабатываемой информации удваивается каждые пять лет. Сохранять, передавать и обрабатывать информацию становится все сложнее и сложнее, несмотря на быстрое совершенствование технических средств, предназначенных для решения указанных задач. Поэтому весьма актуальной является разработка методов, позволяющих уменьшить объем данных без потери содержащейся в них информации.

Процесс оптимизации представления информации за счет уменьшения избыточности ее кодирования называется сжатием информации, а методы реализации этого процесса – методами сжатия информации.

В настоящее время информационные компьютерные системы проникают во все сферы деятельности человека. Системы цифровой связи (ISDN, цифровая сотовая связь, цифровое телевидение и пр.) также получили всеобщее признание и прогрессируют очень быстро. Информационная инфраструктура разрастается и усложняется. Ценность хранимой информации весьма велика, поэтому применяются различные методы ее защиты. Одним из самых распространенных является резервное копирование, применение которого еще более увеличивает объем хранимой информации. Все это обуславливает лавинообразное увеличение количества хранимой, передаваемой и обрабатываемой информации. Рост количественных и качественных характеристик современных технических средств передачи и хранения информации не успевает за потребностями человечества в таких средствах. Ввод в действие новых высокопроизводительных коммуникационных систем обходится достаточно дорого.

Поэтому важно с максимальной эффективностью использовать имеющиеся системы хранения и передачи информации. Для этого нужно представлять накопленные данные оптимально, за счет их кодирования с минимальной информационной избыточностью. Это позволит хранить больше информации на тех же носителях, передавать больше информации в единицу времени по каналу связи с той же пропускной способностью. Таким образом, экономическая выгода от оптимального представления информации и актуальность разработки методов оптимального кодирования очевидны.

Теоретической основой сжатия данных служит теория информации, в первую очередь – такой ее раздел, как теория кодирования. Родоначальником теории информации является К.Шеннон, который, в частности, определил как рассчитывается количество информации через понятия априорной и апостериорной энтропии и обосновал пропускную способность канала связи.

1. Этапы развития методов оптимального представления информации

Теоретической основой оптимального представления информации являются теория информации и теория кодирования. Эти два раздела математики возникли сравнительно недавно из практических задач теории связи и получили свое развитие лишь в последние годы.

В XIX веке в связи с появлением новых средств связи возникла необходимость перекодирования сообщений на естественных языках в удобный для передачи вид. Для этого С. Морзе в 1838 г. предложил код, пригодный для передачи по любым каналам с двумя состояниями. Длины кодовых последовательностей для букв Морзе выбрал исходя из частоты встречаемости в языке соответствующих букв. Подобный прием характерен для всех статистических методов сжатия информации. В 1877 году, Ж. Бодо предложил для применения в телеграфии другой код. В отличии от кода Морзе код Бодо является равномерным (каждая буква в нем кодируется пятью сигналами).

В 1948 г. Американский математик и инженер К. Шеннон в своей фундаментальной работе подвел общую теоретическую основу под задачу передачи сообщений по различным линиям связи. Шеннон дал количественные характеристики процессам получения, преобразования и передачи информации. Он рассмотрел все основные понятия теории информации: ввел формализованные понятия информации, источника информации и передающего канала (как с шумом, так и без него), применил понятие энтропии как меры степени неопределенности случайного процесса и меры количества информации, сформулировал и доказал основную теорему о кодировании, которая определяет теоретический предел пропускной способности канала.

Почти одновременно с работой Шеннона вышла монография Н. Винера, положившая начало кибернетике. В этой работе Винер (независимо от Шеннона) также вводит понятие информации и энтропии, причем таким же методом, что и Шеннон.

В середине 50-х годов XX в. появилось множество работ по теории информации.

Успехи в теоретических исследованиях процессов передачи информации и не конструктивность многих теорем в теории информации обусловили необходимость развития прикладных аспектов передачи и хранения информации. Эти исследования составили предмет отдельного раздела математики – теории кодирования.

Различают два основных направления исследований по теории кодирования:

    • помехоустойчивое (корректирующее) кодирование;

    • оптимальное кодирование.

Мы рассмотрим методы оптимального кодирования в данной лекции.

Первый теоретически обоснованный метод оптимального кодирования был предложен в 1949 г. независимо друг от друга Шенноном и Фано . В 1952 г. Д.Хаффман предложил код, основанный на тех же соображениях, но способ построения которого кардинально отличался. Эти коды, соответственно, получили название кодов Шеннона-Фано и Хаффмана.

До конца 70-х годов XX столетия все работы по оптимальному кодированию связаны с исследованием различных вариантов схемы Хаффмана.

Арифметическое кодирование, как метод оптимального кодирования, было предложено в 1976 г. Д. Риссаненом. Оно обладает важными преимуществами перед кодированием Хаффмана, однако в первоначальном виде было неприменимо на практике и представляло лишь теоретический интерес. В 1979 г. было предложено новую методику, позволяющую практически реализовать арифметическое кодирование. С тех пор арифметическое кодирование стало весьма популярным.

Словарные методы кодирования были предложены математиками Дж. Зивом и Э. Лемпелом.

Одним из важных теоретических достижений в теории оптимального кодирования явилась впервые высказанная в 1981 г. идея разделения процесса оптимального кодирования на две части:

    • моделирование, которое служит для построения модели источника и оценивания вероятностей появления символов на основании построенной модели;

    • собственно кодирование.

Это дало толчок к развитию методов моделирования источников, базирующихся на рассмотрении источника как конечного автомата (finite state machine – FSM) с памятью или без памяти. Также были предложены методы моделирования, основанные на марковских моделях состояний случайного процесса, методы контекстуального моделирования источника и некоторые другие методы. Алгоритмы, реализующие эти методы, нетривиальны, используют эмпирически установленные факты, но обеспечивают высокое качество сжатия. Некоторые из них ради получения дополнительного выигрыша по оптимальности сжатия ориентированы только на определенные виды информации.

В последние годы были предложены несколько оригинальных методов сжатия информации, основанных на блочно-сортирующем преобразовании М.Барроуза и Д. Уиллера.