Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Национальный Технический Университет Харьковский Политехнический Институт

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Конспект лекций ДМ.doc

Скачиваний:

Добавлен:

16.11.2019

Размер:

3.29 Mб

Скачать

☆

<<< < Предыдущая 18 19 20 21 22 23 24 25 26 27 28 2930 / 4730 31 32 33 34 35 36 37 38 39 40 41 42 > Следующая >>>

5.1.4 Китайская теорема об остатках

Любое неотрицательное целое число, не превосходящее произведения модулей, можно однозначно восстановить, если известны его вычеты по этим модулям. Этот результат был известен еще в древнем Китае и носит название китайской теоремы об остатках. Теорема была предложена китайским математиком первого века Сун Це. Китайская теорема об остатках является мощным криптографическим инструментом.

Она формулируется следующим образом.

Пусть m₁, m₂, … , m _t – модули (целые числа, большие 1), которые являются попарно взаимно простыми, т.е. НОД (m_i, m_j,) = 1 при i  j.

Пусть а₁, а₂, … , а _t– тоже целые числа, такие, что 0 ≤ а _i≤ m _i.

Пусть М = m₁• m₂• … • m _t – произведение всех m _i . Обозначим М _i = M / m _i.

И пусть N _i будет обратным к М _i (mod m _i), i = 1, 2, … , t, т.е.

М _i• N _i 1 (mod m _i).

Так как НОД (М _i, m _i) = 1, то обратный элемент N _i существует и легко находится по алгоритму Евклида из соотношения

М _i• N _i + m _i• n _i = 1, i = 1, 2, … , t.

Сравнения х  а _i (mod m _i), i = 1, 2, … , t, имеют в интервале

[0, M – 1] единственное общее решение

х = a _i • N _i • М _i (mod M).

Рассмотрим частный случай. Пусть М = m₁• m₂, где m₁и m₂– взаимно простые числа. Тогда для произвольных целых а₁< m ₁ и а ₂< m ₂существует единственное число х, х < М, такое, что

х  а ₁ (mod m ₁) и х  а ₂ (mod m ₂).

Чтобы найти значение решения х, сначала используют алгоритм Евклида для вычисления значений N ₁ и N ₂, таких, что

М ₁• N ₁ 1 (mod m ₁) и М ₂• N ₂ 1 (mod m ₂).

Здесь M m ₁• m ₂ M

M ₁ = = = m ₂; M ₂ = = m ₁.

m ₁ m ₁m ₂

Затем вычисляют значение

х = (a ₁ • N ₁ • М ₁+ a ₂ • N ₂ • М ₂) (mod M).

Пример. Решить систему из двух сравнений

х  1 (mod 5),

х  10 (mod 11)

и найти общее решение х по модулю 55.

Здесь: m ₁= 5;m ₂ = 11; M = m ₁• m ₂ = 5 • 11 = 55;

а ₁ = 1; а ₂ = 10; M ₁ = М / m ₁= m ₂ = 11; M ₂ = М / m ₂= m ₂ = 5.

Найдем значения N ₁ и N ₂, обратные к M ₁ и M ₂ сответственно по mod m ₁ и mod m ₂:

М ₁• N ₁ 1 (mod m ₁), 11• N ₁ 1 (mod 5)  N ₁= 1,

М ₂• N ₂ 1 (mod m ₂), 5• N ₂ 1 (mod 11)  N ₂= 9.

Вычислим общее значение

х = (a ₁ • N ₁ • М ₁+ a ₂ • N ₂ • М ₂) (mod M) =

= (1 • 11 • 1+ 10 • 5 • 9)(mod 55) = (11 + 450) (mod 55) =

= 461 (mod 55) = 21 (mod 55).

Итак, х = 21 (mod 55).

5.2 Кодирование

5.2.1 Оптимальное кодирование

Оптимальным кодированием называется процедура преобразования символов первичного алфавита m₁в кодовые слова во вторичном алфавите m₂, при котором средняя длина сообщений во вторичном алфавите имеет минимально возможную длину.

Коды, представляющие первичные алфавиты с неравномерным распределением символов, имеющие среднюю минимальную длину кодового слова во вторичном алфавите, называются оптимальными неравномерными кодами (ОНК).

Эффективность ОНК оценивают при помощи двух коэффициентов:

1. коэффициента статического сжатия

который характеризует уменьшение количества двоичных знаков на символ сообщения при применении ОНК по сравнению с применением методов нестатистического кодирования.

2. коэффициента относительной эффективности

который показывает, насколько используется статическая избыточность передаваемого сообщения.

Из свойств оптимальных кодов вытекают принципы их построения:

выбор каждого кодового слова необходимо производить так, чтобы содержащееся в нем количество информации было максимальным,
буквам первичного алфавита, имеющим большую вероятность, присваиваются более короткие кодовые слова во вторичном алфавите.

Принципы оптимального кодирования определяют методики построения оптимальных кодов.

Построение ОНК по методике Шеннона-Фано для ансамбля из M сообщений сводится к следующей процедуре:

множество из M сообщений располагают в порядке убывания вероятностей;
первоначальный ансамбль кодируемых сигналов разбивают на две группы таким образом, чтобы суммарные вероятности сообщений обеих групп были по возможности равны;
первой группе присваивают символ 0, второй группе символ 1;
каждую из подгрупп делят на две группы так, чтобы их суммарные вероятности были по возможности равны;
первым подгруппам каждой из групп вновь присваивают 0, а вторым - 1, в результате чего получают вторые цифры кода. Затем каждую из четырех подгрупп вновь делят на равные (с точки зрения суммарной вероятности) части и т. д. До тех пор, пока в каждой из подгрупп останется по одной букве.

Функция Med находит медиану указанной части массива Р [b..e], т.е. определяет такой индекс m (b ≤ m < e), что сумма элементов Р [b..m] наиболее близка к сумме элементов Р [m + 1..e].

Примечание. При каждом удлинении кодов в одной части коды удлиняются нулями, а в другой части – единицами. Таким образом, коды одной части не могут быть префиксами другой. Удлинение кода заканчивается тогда и только тогда, когда длина части равна 1, то есть остается единственный код. Таким образом, схема построения префиксная, а потому разделимая, т.е. коды не требуют разделителя.

Пример: Построим оптимальный код сообщения, состоющего из восьми равновероятных букв.

Решение. Так вероятности данного ансамбля сообщений равны p₁ = = p₂ = ...= p₈ = 2^-3 и порядок их расположения не играет роли, то расположим их так, как показано в таблице 2.1.1. Затем разбиваем данное множество на две равновероятные группы. Первой группе в качестве первого символа кодовых слов присваиваем 0, а второй - 1. Во второй колонке таблицы записываем четыре нуля и четыре единицы. После чего разбиваем каждую из групп еще на две равновероятные подгруппы. Затем каждой первой подгруппе присваиваем 0, а второй - 1 и записываем в третью колонку таблицы. Далее каждую из четырех подгрупп разбиваем на две равновероятные части и первой из них присваиваем 0, а второй - 1. Таким образом в четвертой колонке появится значение третьего символа кодовых слов.

Таблица 5.4 – Оптимальный код равновероятных букв

Буква

Кодовое слово полученное после разбиения

первого

второго

третьего

А₁

А₂

А₃

А₄

А₅

А₆

А₇

А₈

Проверка оптимальности кода осуществляется путем сравнения энтропии кодируемого (первичного) алфавита со средней длиной кодового слова во вторичном алфавите.

Для рассматриваемого примера энтропия источника сообщений

H = log₂N = log₂8=3 бит/символ

а среднее число двоичных знаков на букву кода

бит

где l_i - длина i-ой кодовой комбинации; p_i - вероятность появления i-го символа комбинации длиной в l_i.

Таким образом, H = L, т. е. код является оптимальным для данного ансамбля сообщений.

Вывод: Для ансамблей равновероятных сообщений оптимальным является равномерный код. Если число исходных элементов ансамбля равно целой степени двух, то всегда H = L.

Пример. Первичный алфавит состоит из 8 символов со следующими вероятностями появления: a₁= 0,5; a₂= 0,25; a₃= 0,098; a₄= = 0,052; a₅= 0,04; a₆= 0,03; a₇= 0,019; a₈= 0,011. Построить ОНК по методу Шеннона - Фано и подсчитать коэффициенты.

Решение проиллюстрируем в таблице 5.5.

Таблица 5.5 – Оптимальный код неравновероятных букв

a_i	p_i	Кодовое слово после разбиения						Знаков	l_ip_i
		1	2	3	4	5	6
1	0,5	0	-	-	-	-	-	1	0,5
2	0,25	1	0	-	-	-	-	2	0,5
3	0,098	1	1	0	0	-	-	4	0,392
4	0,052	1	1	0	1	-	-	4	0,208
5	0,04	1	1	1	0	-	-	4	0,16
6	0,03	1	1	1	1	0	-	5	0,15
7	0,019	1	1	1	1	1	0	6	0,114
8	0,011	1	1	1	1	1	1	6	0,066

Недостатком методики Шеннона – Фано является неоднозначность построения ОНК. В методике Хаффмена этого недостатка нет.

ІІ. Хаффмен предложил следующий метод построения ОНК:

Символы первичного алфавита выписываются в порядке убывания вероятностей.
Последние n₀ символов, где 2  n₀  m и N - n₀/ m - 1 - целое число, объединяют в некоторый новый символ с вероятностью, равной сумме вероятностей объединяемых символов.
Последние символы с учетом образованного символа вновь объединяют и получают новый, вспомогательный, символ.
Опять выписывают символы в порядке убывания вероятноьстей с учетом вспомогательного символа и т. д. До тех пор, пока вероятности m оставшихся символов после N - n₀/m - 1-го выписывания не дадут в сумме 1.

На практике обычно не производят многократного выписывания вероятностей символов, а обходятся элементарными геометрическими построениями, суть которых для кодов с числом качественных признаков m = 2 сводится к тому, что символы кодируемого алфавита попарно объединяются в новые символы, начиная с символов, имеющих наименьшую вероятность, а затем, с учетом вероятностей вновь образованных символов, опять производят попарное объединение символов с наименьшими вероятностями и таким образом строят двоичное кодовое дерево, в вершине которого стоит символ с вероятностью 1.

П ример.

Построить методом Хаффмена оптимальный код для алфавита со следующим распределением вероятностей появления букв в тексте: A = 0,5; B = 0,15; C = 0,12; D = 0,1;

E =0,04; F = 0,04; G = 0,03;

H = 0,02.

Решение.

Сначала находят буквы с наименьшими вероятностями 0,02 (H) и 0,03 (G), затем проводят от них линию к точке, в которой вероятность появления буквы G равна 0,05. Затем берут две наименьшие вероятности 0,04 (F) и 0,04 (E) и получают новую точку с вероятностью 0,08.

Теперь наименьшими вероятностями обладают точки, соответствующие вспомогательным символам с вероятностями 0,05 и 0,08. Соединяем их линией с новой точкой, соответствующей вспомогательному символу с вероятностью 0,13.

Продолжаем алгоритм до тех пор, пока линия от основных и вспомогательных символов не сольются в точке, дающую суммарную вероятность, равную 1.

Обозначим каждую верхнюю линию (см. рисунок 2.1.1) цифрой 1, а нижнюю - цифрой 0. Получим ОНК, который для каждого слова представляет собой последовательность нулей и единиц, которые встречаются по пути к данному слову от конечной точки (1,00).

Полученные коды представлены в таблице 5.6.

Таблица 5.6 – Двоичный код Хаффмена для восьми сообщений

Буква

Вероятность

ОНК

Число знаков в кодовом слове

p_il_i

0,50

0,15

0,12

0,10

0,04

0,03

0,02

0 0 1

0 1 1

0 1 0

0 0 0 1 1

0 0 0 1 0

0 0 0 0 1

0 0 0 0 0

0,50

0,45

0,36

0,30

0,20

0,15

0,10

Пример.

Построить код Хаффмена для передачи сообщений при помощи трех частот f₁, f₂, f₃, если символы первичного алфавита встречаются в сообщениях со следующими вероятностями: А = 0,24; Б = 0,18; В = 0,38;

Г = 0,1; Д = 0,06; Е = 0,02; Ж = 0,02.

Решение.

Таблица 5.7 – Троичный код Хаффмена для семи сообщений

Буква

Вероятность

Дерево

Код

0,38

0,24

0,18

0,1

0,06

0,02

f₁

f₂

f₃f₁

f₃f₂

f₃f₃f₁

f₃f₃f₂

f₃f₃f₃

Полученный код легко декодируется, так как ни один код не начинается с f₁ и f₂, кроме одного одноразрядного кода.

К недостаткам алгоритма относятся:

Необходимость при кодировании двукратного прочтения файла первый раз для подсчета частоты вхождения символов,

второй – непостредственно для кодирования.

Необходимость хранения вместе с сжатым файлом декодирующего дерева для возможности восстановления файла.

<<< < Предыдущая 18 19 20 21 22 23 24 25 26 27 28 2930 / 4730 31 32 33 34 35 36 37 38 39 40 41 42 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
02.02.2015317.45 Кб131Компьютерная лингвистика.pdf
#
01.02.2015531.46 Кб18конспект 2 по Нир.doc
#
01.02.2015969.73 Кб64Конспект лекцій - Історія України.doc
#
24.04.20191.42 Mб7Конспект лекцій-12.04.11.doc
#
16.08.2019456.19 Кб13Конспект лекций для студентов.doc
#
16.11.20193.29 Mб25Конспект лекций ДМ.doc
#
01.02.2015366.59 Кб62Конспект лекций по курсу Мн_ст_анализ.doc
#
02.02.2015423.94 Кб189КОНСПЕКТ ЛЕКЦИЙ ПО КУРСУ ОПЕРАЦИОННЫЕ СИСТЕМЫ.doc
#
02.02.20151.13 Mб41Конспект лекций по курсу УПИ.pdf
#
20.03.2016390.14 Кб44КОНСПЕКТ ЛЕКЦИЙ ПО ОБЩЕЙ ХИМИИ.doc
#
01.02.2015594.94 Кб48Конспект лекций по Социологии русский.doc