Добавил:
Здесь представлены мои работы, надеюсь они Вам помогут, всех благ! Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
20
Добавлен:
14.01.2022
Размер:
96.29 Кб
Скачать

Министерство цифрового развития, связи и массовых коммуникаций

Федеральное государственное бюджетное образовательное учреждение высшего образования

«Поволжский государственный университет телекоммуникаций и информатики»

Факультет Базового телекоммуникационного образования

Направление

(специальность) Инфокоммуникационные технологии и системы связи

Предмет Общая теория связи

Лабораторная работа

Кодирование дискретных источников

Выполнил студенты группы ИКТп – 91 Ядринцев С.М.

Махов Н. С.

Самара 2021г.

Цель работы: целью работы является изучение методов кодирования дискретных источников на примере сжатия текстов на русском языке.

Исследование энтропийных методов кодирования

По Шеннону-Фано

Коэффициент сжатия: r = 88,3 %.

Дерево

Словарь:

Кол-во Символ Код Длина Вес

4013 _ 000 3 0,5346

1887 о 001 3 0,2514

1533 а 0100 4 0,2723

1490 е 0101 4 0,2647

1348 т 0110 4 0,2394

1183 и 0111 4 0,2101

953 в 1000 4 0,1693

951 с 10010 5 0,2111

914 н 10011 5 0,2029

888 р 1010 4 0,1577

871 л 10110 5 0,1934

682 д 10111 5 0,1514

592 к 11000 5 0,1314

573 у 110010 6 0,1527

534 м 110011 6 0,1423

461 п 11010 5 0,1024

453 ь 110110 6 0,1207

439 я 110111 6 0,1170

399 б 111000 6 0,1063

374 г 111001 6 0,0996

315 з 111010 6 0,0839

306 ы 111011 6 0,0815

275 й 111100 6 0,0733

222 ч 1111010 7 0,0690

204 х 1111011 7 0,0634

189 ц 1111100 7 0,0587

168 ж 1111101 7 0,0522

154 ш 1111110 7 0,0479

96 ю 11111110 8 0,0341

37 щ 111111110 9 0,0148

13 э 1111111110 10 0,0058

3 ф 1111111111 10 0,0013

n`=4,42

Модифицированный текст

Статистика модифицированного текста:

Длина текста: L = 22520 [символов].

Объём алфавита: K = 32 [символов].

Энтропия: H(A) = 4,36 [бит/символ].

H(A) ~= n`

Сжатый текст

Статистика сжатого (двоичного) текста:

Длина текста: L = 99463 [бит].

Объём алфавита: K = 2 [символов].

Энтропия: H(A) = 1,00 [бит/символ].

Энтропия сжатого текста равна 1, так как в алфавите всего 2 символа

Восстановленный текст имеет ошибки, это связано с тем, что мы добавили шум.

Длина восстановленного текста: 22547 [символов].

Длина несжатого текста: 22520 [символов].

Код Хаффмана

Коэффициент сжатия: r = 88,0 %.

Дерево

Словарь

Кол-во Символ Код Длина Вес

4013 _ 11 2 0,3564

1887 о 0001 4 0,3352

1533 а 0101 4 0,2723

1490 е 0110 4 0,2647

1348 т 1000 4 0,2394

1183 и 1010 4 0,2101

953 в 00001 5 0,2116

951 с 00100 5 0,2111

914 н 00101 5 0,2029

888 р 00111 5 0,1972

871 л 01000 5 0,1934

682 д 01111 5 0,1514

592 к 10011 5 0,1314

573 у 10111 5 0,1272

534 м 000000 6 0,1423

461 п 000001 6 0,1228

453 ь 001100 6 0,1207

439 я 001101 6 0,1170

399 б 010011 6 0,1063

374 г 011100 6 0,0996

315 з 100100 6 0,0839

306 ы 100101 6 0,0815

275 й 101101 6 0,0733

222 ч 0100100 7 0,0690

204 х 0100101 7 0,0634

189 ц 0111010 7 0,0587

168 ж 0111011 7 0,0522

154 ш 1011000 7 0,0479

96 ю 10110010 8 0,0341

37 щ 101100110 9 0,0148

13 э 1011001110 10 0,0058

3 ф 1011001111 10 0,0013

n` = 4,40

Модифицированный текст

Статистика модифицированного текста:

Длина текста: L = 22520 [символов].

Объём алфавита: K = 32 [символов].

Энтропия: H(A) = 4,36 [бит/символ].

Н(А) ~= n`

Сжатый текст

Статистика сжатого (двоичного) текста:

Длина текста: L = 99066 [бит].

Объём алфавита: K = 2 [символов].

Энтропия: H(A) = 0,99 [бит/символ].

Восстановленный текст имеет ошибки, это связано с тем, что мы добавили шум.

Длина восстановленного текста: 22555 [символов].

Длина несжатого текста: 22520 [символов].

Вывод: код Шеннона-Фано имеет меньше ошибок, чем код Хаффмана, но оба кода не устойчивы к шуму.

Исследование словарных методов кодирования

LZ78

Оптимальный размер словаря: 4096

Длина кодового слова: n = 17 [бит].

Коэффициент сжатия: r = 86,1 %.

Длина восстановленного текста: 22520 [символов].

Длина несжатого текста: 22520 [символов].

Текст был восстановлен без потерь

Словарь:

Максимальный размер словаря: 4096 [записей].

Реальный размер словаря: 4096 [записей].

Длина наибольшего фрагмента: 12 [символов].

Длина кодового слова: n = 17 [бит].

При добавлении шума, появляются ошибки:

Восстановление сжатого текста с использованием алгоритма Лемпела-Зива (LZ78).

Длина восстановленного текста: 22895 [символов].

Длина несжатого текста: 22520 [символов].

LZW

Оптимальный размер словаря: 4096

Длина кодового слова: n = 12 [бит].

Коэффициент сжатия: r = 80,6 %.

Восстановление сжатого текста с использованием алгоритма Лемпела-Зива-Уэлша (LZW).

Длина восстановленного текста: 22520 [символов].

Длина несжатого текста: 22520 [символов].

Текст был восстановлен без потерь.

Словарь:

Максимальный размер словаря: 4096 [записей].

Реальный размер словаря: 4096 [записей].

Длина наибольшего фрагмента: 11 [символов].

Длина кодового слова: n = 12 [бит].

При добавлении шума, появляются ошибки:

Восстановление сжатого текста с использованием алгоритма Лемпела-Зива-Уэлша (LZW).

Длина восстановленного текста: 23073 [символов].

Длина несжатого текста: 22520 [символов].

LZ77

Оптимальный размер словаря: 8192

Длина кодового слова: n = 22 [бит].

Длина наибольшего фрагмента: 31 [символов].

Коэффициент сжатия: r = 71,2 %.

Восстановление сжатого текста с использованием алгоритма Лемпела-Зива (LZ77).

Длина восстановленного текста: 22520 [символов].

Длина несжатого текста: 22520 [символов].

Текст был восстановлен без потерь.

Словарь: отсутствует

При добавлении шума, появляются ошибки:

Восстановление сжатого текста с использованием алгоритма Лемпела-Зива (LZ77).

Длина восстановленного текста: 23229 [символов].

Длина несжатого текста: 22520 [символов].

Вывод: наиболее эффективным способом сжатия является LZ77, однако он в нём наблюдается наибольшее расхождение между исходным и восстановленным текстами. Наименьшее расхождение было получено при использовании кодов Шеннона-Фано и Хаффмана.

Соседние файлы в папке ОТС 2 курс 2 семестр