
- •Исходный текст
- •Задание 1. Описание закрытой информационной экосистемы
- •Дополненный текст
- •Заключение
- •Задание 2. Построение семантических сетей
- •Семантическая сеть по исходному тексту
- •Семантическая сеть по дополненному тексту
- •Заключение
- •Задание 3. Построение матрицы по семантической сети (фреймворк Захмана)
- •Матрица по семантической сети по дополненному тексту
- •Заключение
- •Задание 4. Вычисление количества информации на элементарный символ
- •Расчет для исходного текста
- •Расчет для дополненного текста
- •Заключение
- •Задание 5. Вычисление количества информации для текста и матрицы
- •Расчет для исходного текста
- •Расчет для дополненного текста
- •Заключение
- •Задание 6. Поиск кратчайшего маршрута методом Дейкстры
- •Расчет для исходного текста
- •Расчет для дополненного текста
- •Заключение
Расчет для дополненного текста
Таблица 3 - Кодирование дополненного текста методом Шеннона
Символ |
Вероятность |
Двоичный код |
Пробел |
0,163963964 |
000 |
А |
0,08333333333 |
0010 |
Б |
0,02477477477 |
100100 |
В |
0,03198198198 |
10000 |
Г |
0,008558558559 |
1111010 |
Д |
0,03828828829 |
01111 |
Е |
0,06621621622 |
0100 |
Ж |
0,01036036036 |
1010111 |
З |
0,01891891892 |
100111 |
И |
0,04369369369 |
01110 |
Й |
0,01396396396 |
1010101 |
К |
0,0545045045 |
01010 |
Л |
0,02477477477 |
100101 |
М |
0,02297297297 |
100110 |
Н |
0,04684684685 |
01101 |
О |
0,07252252252 |
0011 |
П |
0,02252252252 |
100110 |
Р |
0,02837837838 |
01111 |
С |
0,02972972973 |
100010 |
Т |
0,0527027027 |
01011 |
У |
0,0490990991 |
01100 |
Ф |
0,0004504504505 |
101110000100 |
Х |
0,009009009009 |
1011001 |
Ц |
0,001801801802 |
1011100000 |
Ч |
0,01666666667 |
101001 |
Ш |
0,009459459459 |
1011000 |
Щ |
0,002702702703 |
101101111 |
Ы |
0,01441441441 |
1010100 |
Ь |
0,01216216216 |
1010110 |
Э |
0,003603603604 |
101101110 |
Ю |
0,004504504505 |
10110110 |
я |
0,01756756757 |
101000 |
Энтропия на символ
Средняя длина закодированной комбинации
Среднее количество информации на символ сообщения
Заключение
После выполнения работы, мы вычислили энтропию на символ, среднюю длину закодированной комбинации и среднее количество информации на элементарный символ.
Задание 5. Вычисление количества информации для текста и матрицы
Вычислить количество информации для каждого узла и связи в семантических сетях для исходного и дополненного текста. Нанести полученные данные на сети
Для этого необходимо умножить энтропию на количество символов в тексте.
Расчет для исходного текста
Количество символов = 616
Энтропия на символ = 4.00755 бит
Количество информации на текст 616*4.00755=2468.6508 бит.
Таблица 4 - Распределение текста по узлам и связям семантической сети исходного текста
|
Репка |
Дед |
Бабка |
Внучка |
Жучка |
Кошка |
Мышь |
Репка |
выросла репка сладка крепка большаяпребольшая
|
Посадил репку Расти расти репка сладка Расти расти репка крепка Дедка за репку Тянутпотянут вытянуть не могут Дедка за репку Тянутпотянут вытянуть не могут Дедка за репку Тянутпотянут вытянуть не могут Дедка за репку Тянутпотянут вытянуть не могут Дедка за репку тянутпотянут и вытянули репку
|
|
|
|
|
|
Дед |
|
Дед говорит Пошел дед
|
Бабка за дедку Тянутпотянут вытянуть не могут Бабка за дедку Тянутпотянут вытянуть не могут Бабка за дедку Тянутпотянут вытянуть не могут Бабка за дедку Тянутпотянут вытянуть не могут Бабка за дедку тянутпотянут и вытянули репку
|
|
|
|
|
Бабка |
|
Позвал дед бабку |
|
Внучка за бабку Тянутпотянут вытянуть не могут Внучка за бабку Тянутпотянут вытянуть не могут Внучка за бабку Тянутпотянут вытянуть не могут Внучка за бабку тянутпотянут и вытянули репку
|
|
|
|
Внучка |
|
|
Позвала бабка внучку
|
|
Жучка за внучку Тянутпотянут вытянуть не могут Жучка за внучку Тянутпотянут вытянуть не могут Жучка за внучку Тянутпотянут — и вытянули репку
|
|
|
Жучка |
|
|
|
Позвала внучка Жучку
|
|
Кошка за жучку Тянутпотянут вытянуть не могут Кошка за жучку Тянутпотянут — и вытянули репку |
|
Кошка |
|
|
|
|
Позвала жучка кошку |
|
Мышка за кошку Тянутпотянут — и вытянули репку |
Мышь |
|
|
|
|
|
Позвала кошка мышку |
|
Перемножаем энтропию на количество символов в каждой ячейке
Таблица 5 - Распределение количества информации на узлы и связи семантической сети исходного текста
|
Репка |
Дед |
Бабка |
Внучка |
Жучка |
Кошка |
Мышь |
Репка |
180,33975 |
1214,28765 |
0 |
0 |
0 |
0 |
0 |
Дед |
0 |
88,1661 |
945,7818 |
0 |
0 |
0 |
0 |
Бабка |
0 |
64,1208 |
0 |
769,4496 |
0 |
0 |
0 |
Внучка |
0 |
0 |
80,151 |
0 |
585,1023 |
0 |
0 |
Жучка |
0 |
0 |
0 |
80,151 |
0 |
380,71725 |
0 |
Кошка |
0 |
0 |
0 |
0 |
76,14345 |
0 |
188,35485 |
Мышь |
0 |
0 |
0 |
0 |
0 |
76,14345 |
0 |
Общее количество информации на матрицу равно 4728.909 бит.
Разница обусловлена отношением одной и той же информации к разным узлам и связям.
Рисунок 3 - Семантическая сеть для исходного текста с нанесенными весами узлов и связей