Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
0
Добавлен:
29.05.2025
Размер:
343.06 Кб
Скачать

Министерство науки и высшего образования Российской Федерации

Федеральное государственное автономное образовательное учреждение высшего образования

«ТОМСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ СИСТЕМ УПРАВЛЕНИЯ И РАДИОЭЛЕКТРОНИКИ» (ТУСУР)

Кафедра комплексной информационной безопасности электронно-вычислительных систем (КИБЭВС)

ПОСТРОЕНИЕ ПРЕФИКСНОГО КОДА НА ПРИМЕРЕ ТЕКСТА

Отчет по практической работе

по дисциплине «Теория информации»

Студент гр. 712–2

_________ Л.С. Болтушкин

________ 2025

Руководитель

Преподаватель каф. КИБЭВС

________ А.Д. Псарев

________ 2025

Содержание

Введение

Целью данной практической работы является получение навыков в построении префиксных кодов, используя в качестве исходных данных частотный анализ текста, а также получение навыков в расчете количественных характеристик алфавитов и кодов.

1 ХОД РАБОТЫ

Для анализа были выбраны такие тексты: художественный – отрывок из произведения «1984» Джорджа Оруэлла [1], научный – научная статья «МЕТОД УВЕЛИЧЕНИЯ ПРОИЗВОДИТЕЛЬНОСТИ ИНТЕРНЕТ-ОРИЕНТИРОВАННЫХ КЛИЕНТ-СЕРВЕРНЫХ ПРИЛОЖЕНИЙ»[2]. Оба текста написаны на русском языке.

1.1 Анализ художественного текста

На рисунке 1.1 отмечены следующие пункты: общее количество анализируемых символов (без учёта знаков препинания), частоты встречаемых символов.

Самый встречающийся символ – буква «о» с количеством появлений «2673». Наименее встречающийся символ – буква «ъ» с количеством появлений «2».

Рисунок 1.1 – Частотный анализ художественного текста

На рисунке 1.2 построен код Шеннона-Фано для художественного текста. Самый короткий код у буквы «о» – «000», самый длинный у букв «ф» и «ъ» - «1111111110» и «1111111111» соответственно.

Рисунок 1.2 – Код Ш-Ф для художественного текста

1.2 Анализ научного текста

На рисунке 1.3 отмечены следующие пункты: общее количество анализируемых символов (без учёта знаков препинания), частоты встречаемых символов.

Самый встречающийся символ – буква «о» с количеством появлений «1074». Наименее встречающийся символ – буква «э» с количеством появлений «10».

Рисунок 1.3 – Частотный анализ научного текста

На рисунке 1.4 построен код Шеннона-Фано для научного текста. Самая короткий код у букв «о» и «а» – «000» и «010», самый длинный у букв «ъ», «э» –«111111110», «111111111» соответственно.

Рисунок 1.4 – Код Ш-Ф для научного текста

1.3 Расчёт количественных характеристик

1.3.1 Формулы для расчёта

Формула для вычисления средней длины кодового слова:

(1.1)

где – длина кодового слова -й буквы;

- вероятность вхождения -й буквы.

Формула для вычисления энтропии :

(1.2)

Формула для вычисления избыточности алфавита :

(1.3)

где – количество букв в алфавите.

Формула для вычисления избыточности кода :

(1.4)

Формула для вычисления эффективности кода :

(1.5)

Формула для проверки неравенства Крафта:

(1.6)

1.3.2 Характеристики для текстов

По формулам, представленным выше, были рассчитаны средняя длина, энтропия, избыточность алфавита, избыточность кода и эффективность кода для двух текстов, а также проверено неравенство Крафта. Результаты представлены на рисунке 1.5.

Рисунок 1.5 – Характеристики для художественного текста

Избыточность данного алфавита составляет 0,113807.

Те же действия были проделаны для научного текста. Результаты представлены на рисунке 1.6.

Рисунок 1.6 – Характеристики для научного текста

Избыточность данного алфавита составляет 0,115366.

Заключение

В ходе выполнения практической работы были построены префиксные коды, в качестве исходных данных для которых был использован частотный анализ двух художественного и научного текстов. Были рассчитаны характеристики и определена эффективность обычного кодирования.

Отчет составлен согласно ОС ТУСУР 01-2021 [3].

Список использованных источников

  1. Оруэлл Джордж. 1984. URL: https://opentextnn.ru/man/orujell-dzhordzh-1984/ (дата обращения: 18.03.2024).

  2. «МЕТОД УВЕЛИЧЕНИЯ ПРОИЗВОДИТЕЛЬНОСТИ ИНТЕРНЕТ-ОРИЕНТИРОВАННЫХ КЛИЕНТ-СЕРВЕРНЫХ ПРИЛОЖЕНИЙ» URL: https://svyatoslav.biz/education/scientific_text_example/

(дата обращения: 18.03.2024).

  1. Образовательный стандарт вуза ОС ТУСУР 01–2021. Работы студенческие по направлениям подготовки и специальностям технического профиля. Общие требования и правила оформления от 25.11.2021 [Электронный ресурс]: сайт Томского Государственного Университета систем управления и радиоэлектроники. URL: https://regulations.tusur.ru/storage/150499/%D0%9E%D0%A1_%D0%A2%D0%A3%D0%A1%D0%A3%D0%A0_01-2021_(%D1%81%D0%BE%D0%B3%D0%BB%D0%B0%D1%81%D0%BE%D0%B2%D0%B0%D0%BD%D0%BE).pdf?1642386839 (дата обращения: 18.03.2024).

Томск 2025

Соседние файлы в папке Итоговый проект