Добавил:
Developer Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Сборник лабораторная работ СТвИСиС.docx
Скачиваний:
4
Добавлен:
29.08.2023
Размер:
441.39 Кб
Скачать

Расчет для дополненного текста

Таблица 3 - Кодирование дополненного текста методом Шеннона

Символ

Вероятность

Двоичный код

Пробел

0,163963964

000

А

0,08333333333

0010

Б

0,02477477477

100100

В

0,03198198198

10000

Г

0,008558558559

1111010

Д

0,03828828829

01111

Е

0,06621621622

0100

Ж

0,01036036036

1010111

З

0,01891891892

100111

И

0,04369369369

01110

Й

0,01396396396

1010101

К

0,0545045045

01010

Л

0,02477477477

100101

М

0,02297297297

100110

Н

0,04684684685

01101

О

0,07252252252

0011

П

0,02252252252

100110

Р

0,02837837838

01111

С

0,02972972973

100010

Т

0,0527027027

01011

У

0,0490990991

01100

Ф

0,0004504504505

101110000100

Х

0,009009009009

1011001

Ц

0,001801801802

1011100000

Ч

0,01666666667

101001

Ш

0,009459459459

1011000

Щ

0,002702702703

101101111

Ы

0,01441441441

1010100

Ь

0,01216216216

1010110

Э

0,003603603604

101101110

Ю

0,004504504505

10110110

я

0,01756756757

101000

Энтропия на символ

Средняя длина закодированной комбинации

Среднее количество информации на символ сообщения

Заключение

После выполнения работы, мы вычислили энтропию на символ, среднюю длину закодированной комбинации и среднее количество информации на элементарный символ.

Задание 5. Вычисление количества информации для текста и матрицы

Вычислить количество информации для каждого узла и связи в семантических сетях для исходного и дополненного текста. Нанести полученные данные на сети

Для этого необходимо умножить энтропию на количество символов в тексте.

Расчет для исходного текста

Количество символов = 616

Энтропия на символ = 4.00755 бит

Количество информации на текст 616*4.00755=2468.6508 бит.

Таблица 4 - Распределение текста по узлам и связям семантической сети исходного текста

Репка

Дед

Бабка

Внучка

Жучка

Кошка

Мышь

Репка

выросла репка сладка крепка большаяпребольшая

Посадил репку

Расти расти репка сладка Расти расти репка крепка

Дедка за репку

Тянутпотянут вытянуть не могут

Дедка за репку

Тянутпотянут вытянуть не могут

Дедка за репку

Тянутпотянут вытянуть не могут

Дедка за репку

Тянутпотянут вытянуть не могут

Дедка за репку тянутпотянут и вытянули репку

Дед

Дед говорит

Пошел дед

Бабка за дедку

Тянутпотянут вытянуть не могут

Бабка за дедку

Тянутпотянут вытянуть не могут

Бабка за дедку

Тянутпотянут вытянуть не могут

Бабка за дедку

Тянутпотянут вытянуть не могут

Бабка за дедку тянутпотянут и вытянули репку

Бабка

Позвал дед бабку

Внучка за бабку

Тянутпотянут вытянуть не могут

Внучка за бабку

Тянутпотянут вытянуть не могут

Внучка за бабку

Тянутпотянут вытянуть не могут

Внучка за бабку тянутпотянут и вытянули репку

Внучка

Позвала бабка внучку

Жучка за внучку

Тянутпотянут вытянуть не могут

Жучка за внучку

Тянутпотянут вытянуть не могут

Жучка за внучку

Тянутпотянут — и вытянули репку

Жучка

Позвала внучка Жучку

Кошка за жучку

Тянутпотянут вытянуть не могут

Кошка за жучку

Тянутпотянут — и вытянули репку

Кошка

Позвала жучка кошку

Мышка за кошку

Тянутпотянут — и вытянули репку

Мышь

Позвала кошка мышку

Перемножаем энтропию на количество символов в каждой ячейке

Таблица 5 - Распределение количества информации на узлы и связи семантической сети исходного текста

Репка

Дед

Бабка

Внучка

Жучка

Кошка

Мышь

Репка

180,33975

1214,28765

0

0

0

0

0

Дед

0

88,1661

945,7818

0

0

0

0

Бабка

0

64,1208

0

769,4496

0

0

0

Внучка

0

0

80,151

0

585,1023

0

0

Жучка

0

0

0

80,151

0

380,71725

0

Кошка

0

0

0

0

76,14345

0

188,35485

Мышь

0

0

0

0

0

76,14345

0

Общее количество информации на матрицу равно 4728.909 бит.

Разница обусловлена отношением одной и той же информации к разным узлам и связям.

Рисунок 3 - Семантическая сеть для исходного текста с нанесенными весами узлов и связей