
Итоговый проект / Отчет
.docx
Министерство науки и высшего образования Российской Федерации
Федеральное государственное автономное образовательное учреждение высшего образования
«ТОМСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ СИСТЕМ УПРАВЛЕНИЯ И РАДИОЭЛЕКТРОНИКИ» (ТУСУР)
Кафедра комплексной информационной безопасности электронно-вычислительных систем (КИБЭВС)
ПОСТРОЕНИЕ ПРЕФИКСНОГО КОДА НА ПРИМЕРЕ ТЕКСТА
Отчет по практической работе
по дисциплине «Теория информации»
Студент гр. 712–2
_________ Л.С. Болтушкин
________ 2025
Руководитель
Преподаватель каф. КИБЭВС
________ А.Д. Псарев
________ 2025
Содержание
Введение
Целью данной практической работы является получение навыков в построении префиксных кодов, используя в качестве исходных данных частотный анализ текста, а также получение навыков в расчете количественных характеристик алфавитов и кодов.
1 ХОД РАБОТЫ
Для анализа были выбраны такие тексты: художественный – отрывок из произведения «1984» Джорджа Оруэлла [1], научный – научная статья «МЕТОД УВЕЛИЧЕНИЯ ПРОИЗВОДИТЕЛЬНОСТИ ИНТЕРНЕТ-ОРИЕНТИРОВАННЫХ КЛИЕНТ-СЕРВЕРНЫХ ПРИЛОЖЕНИЙ»[2]. Оба текста написаны на русском языке.
1.1 Анализ художественного текста
На рисунке 1.1 отмечены следующие пункты: общее количество анализируемых символов (без учёта знаков препинания), частоты встречаемых символов.
Самый встречающийся символ – буква «о» с количеством появлений «2673». Наименее встречающийся символ – буква «ъ» с количеством появлений «2».
Рисунок 1.1 – Частотный анализ художественного текста
На рисунке 1.2 построен код Шеннона-Фано для художественного текста. Самый короткий код у буквы «о» – «000», самый длинный у букв «ф» и «ъ» - «1111111110» и «1111111111» соответственно.
Рисунок 1.2 – Код Ш-Ф для художественного текста
1.2 Анализ научного текста
На рисунке 1.3 отмечены следующие пункты: общее количество анализируемых символов (без учёта знаков препинания), частоты встречаемых символов.
Самый встречающийся символ – буква «о» с количеством появлений «1074». Наименее встречающийся символ – буква «э» с количеством появлений «10».
Рисунок 1.3 – Частотный анализ научного текста
На рисунке 1.4 построен код Шеннона-Фано для научного текста. Самая короткий код у букв «о» и «а» – «000» и «010», самый длинный у букв «ъ», «э» –«111111110», «111111111» соответственно.
Рисунок 1.4 – Код Ш-Ф для научного текста
1.3 Расчёт количественных характеристик
1.3.1 Формулы для расчёта
Формула для вычисления средней длины кодового слова:
|
(1.1) |
где
– длина кодового слова
-й
буквы;
-
вероятность вхождения
-й
буквы.
Формула
для вычисления энтропии
:
|
(1.2) |
Формула
для вычисления избыточности алфавита
:
|
(1.3) |
где
– количество букв в алфавите.
Формула
для вычисления избыточности кода
:
|
(1.4) |
Формула
для вычисления эффективности кода
:
|
(1.5)
|
Формула для проверки неравенства Крафта:
|
(1.6)
|
1.3.2 Характеристики для текстов
По формулам, представленным выше, были рассчитаны средняя длина, энтропия, избыточность алфавита, избыточность кода и эффективность кода для двух текстов, а также проверено неравенство Крафта. Результаты представлены на рисунке 1.5.
Рисунок 1.5 – Характеристики для художественного текста
Избыточность данного алфавита составляет 0,113807.
Те же действия были проделаны для научного текста. Результаты представлены на рисунке 1.6.
Рисунок 1.6 – Характеристики для научного текста
Избыточность данного алфавита составляет 0,115366.
Заключение
В ходе выполнения практической работы были построены префиксные коды, в качестве исходных данных для которых был использован частотный анализ двух художественного и научного текстов. Были рассчитаны характеристики и определена эффективность обычного кодирования.
Отчет составлен согласно ОС ТУСУР 01-2021 [3].
Список использованных источников
Оруэлл Джордж. 1984. URL: https://opentextnn.ru/man/orujell-dzhordzh-1984/ (дата обращения: 18.03.2024).
«МЕТОД УВЕЛИЧЕНИЯ ПРОИЗВОДИТЕЛЬНОСТИ ИНТЕРНЕТ-ОРИЕНТИРОВАННЫХ КЛИЕНТ-СЕРВЕРНЫХ ПРИЛОЖЕНИЙ» URL: https://svyatoslav.biz/education/scientific_text_example/
(дата обращения: 18.03.2024).
Образовательный стандарт вуза ОС ТУСУР 01–2021. Работы студенческие по направлениям подготовки и специальностям технического профиля. Общие требования и правила оформления от 25.11.2021 [Электронный ресурс]: сайт Томского Государственного Университета систем управления и радиоэлектроники. URL: https://regulations.tusur.ru/storage/150499/%D0%9E%D0%A1_%D0%A2%D0%A3%D0%A1%D0%A3%D0%A0_01-2021_(%D1%81%D0%BE%D0%B3%D0%BB%D0%B0%D1%81%D0%BE%D0%B2%D0%B0%D0%BD%D0%BE).pdf?1642386839 (дата обращения: 18.03.2024).
Томск 2025