
- •1.1. Повідомлення та інформація
- •1.2. Моделі інформаційних систем
- •1.4. Предмет теорії інформації та кодування
- •2.2. Кількісна міра інформації
- •2.3. Ентропія та її властивості
- •2.4. Безумовна ентропія
- •2.5. Умовна ентропія
- •2.6. Ентропія об'єднання двох джерел
- •3.1. Продуктивність дискретного джерела та швидкість передачі інформації
- •4.1. Квантування сигналів
- •4.2. Інформаційні втрати
- •4.3. Продуктивність неперервного джерела та швидкість передачі інформації
- •IhlilhM
- •4.4. Пропускна здатність . . . .
- •5.1. Класифікація кодів і характеристики їх
- •5.4. Способи подання кодів
- •5.6. Основні теореми кодування для каналів
- •6.1. Класифікація первинних кодів
- •6.2. Нерівномірні двійкові первинні коди
- •6.2.1. Код морзе
- •6.2.2. Число-імпульсні коди
- •6.3. Рівномірні двійкові первинні коди
- •6.3.1. Числові двійкові коди
- •6.3.2. Двійково-десяткові коди
- •6.3.4. Двійково-шістнадцятковий код ;;.-,-.
- •6.3.5. Рефлексні коди
- •7.1. Двійкові коди,
- •7.1.2. Код із перевіркою на непарність
- •7.1.3. Код із простим повторенням
- •7.2. Недвійкові коди, що виявляють помилки
- •7.2.1. Код із перевіркою за модулем q
- •7.2.2. Код із повторенням
- •8"6 90472 "100562 І' • шТрИховє зОбраЖєння кодового сло-
- •8.1. Двійкові групові коди
- •8.1.1. Лінійний систематичний груповий (блоковий) код
- •8.1.2. Коди хеммінга
- •8.1.4. Коди боуза - чоудхурі - хоквінгема
- •8.1.5. Код файра
- •8.1.6. Код із багатократним повторенням
- •8.3.2. Узагальнений код хеммінга
- •8.3.3. Коди боуза - чоудхурі - хоквінгема
- •8.3.4. Коди ріда - соломона
- •8.3.6. Недвійковий ланцюговий код
- •9.1. Вірогідність передачі кодованих повідомлень
- •9.2. Стиснення інформації"
- •9.2.1. Способи стиснення даних при передачі
- •9.2.2. Способи стиснення даних при архівації
- •Збіжного рядка
- •9.3. Збільшення основи коду
- •0Сзезс99е8с0е1с10d1c242d5c3d2c6d8cbd6e8c0
- •VosooooooooooooooooOvJvJ
2.3. Ентропія та її властивості
Уже йшлося про те, що здобуття інформації від джерела знімає певною мірою невизначеність стану спостережуваного об'єкта. Якщо за час формування джерелом нового повідомлення
28
об'єкт не змінює свій стан (тобто джерелом вибирається попереднє повідомлення з множини А), можна уточнити відомості про попередній стан об'єкта, включивши до цієї множини нові можливі повідомлення та перенормувавши ймовірності з множини Р.
Взагалі з самого початку до складу множини А слід включати такі повідомлення та таку кількість їх, щоб одним повідомленням можна було б визначити стан об'єкта з потрібною точністю. Це означає, що, формуючи модель джерела повідомлень (його ансамбль), треба заздалегідь передбачити всі необхідні повідомлення.
Інша справа, що кожне таке повідомлення може бути відображене певною кількістю символів, знаків тощо, переносячи певну кількість інформації. При цьому множина повідомлень А є алфавітом повідомлень, а множина символів, знаків тощо, за допомогою яких спостерігач подає кожне повідомлення у формі, зручній для одержувача, — алфавітом джерела. В літературі перше іноді називають первинним, а друге — вторинним алфавітами [42].
Ми вже бачили вище, що немає ніякого значення, в якому алфавіті подаються повідомлення. Модель джерела (ансамбль) враховує лише склад їх і розподіл імовірностей (поки що йдеться про статистично незалежні повідомлення).
Розглянемо, наприклад, дискретне джерело повідомлень з ансамблем, наведеним у табл. 2.1. Обчислимо, яку кількість інформації несе кожне таке повідомлення, й занесемо ці дані в табл. 2.1. Третій рядок її підтверджує, що кількість інформації
Таблиця 2.1
а. є А |
аі |
аі |
аг |
а4 |
as |
аь |
Ріе Р І (а.), біт |
0,4 1,322 |
0,3 1,737 |
0,15 2,737 |
0,1 3,322 |
0,03 5,059 |
0,02 5,644 |
при прийнятому її визначенні відображує міру неочікуваності кожного повідомлення.
Розглянемо, яку кількість інформації несуть більш-менш довгі послідовності таких повідомлень:
• перша послідовність
av а{, я4, я4, я2, я2, а]9 я3> а\> аі> а5, а{9 а{, а2, av a2, а{, а2, ах, а{, av a2, av av я,, а2, а2, а3, я4, а3;
29
•
ііруги поелідонністі*
' **' U2> (і\> а3» а* а2* а\* а2* а\* аУ а\> а4>
Д2> а4, л,, в,, д3> а\у а2> а\і а5-
У першій послідовності є ЗО повідомлень, а в другій — 20. Розподіл імовірностей з ансамблю (див. табл. 2.1) настільки нерівномірний, що ні до першої, ні до другої послідовностей не ввійшло повідомлення ав. Справа в тому, що його за законами статистики можна було б помітити в послідовності повідомлень при довжині останньої, значно більшій від п = 11 р6 = 50. Отже, кількість інформації в першій послідовності
зо h=ZH<tl) = l2I(al) + 9I(a2) + 5I(a3) + 3I(a4) + I(a5) =
= 15,864 +15,633 +13,685 + 9,966 + 5,059 = 60,207 біт, а в другій
20
і2=1І(аі) = Ща1) + 6І(а2) + ЗІ(а3) + 2І(а4) + /(а5) = і=і
= 10,576 + 10,422 + 8,211 + 6,644 + 5,059 = 40,912 біт.
Як бачимо, ці послідовності різняться не тільки кількістю повідомлень, а й кількістю інформації в кожній з них. Однак, якщо обчислити кількість інформації, яка припадає на одне повідомлення в одній послідовності та в іншій, то виявиться, що /,/30 = 2,0069 біт/повідомлення та /2/20 = 2,0456 біт/повідомлення. Це означає, що середня кількість інформації, яка припадає на одну літеру алфавіту повідомлень (це те саме, що й на одне повідомлення), не залежить від конкретних повідомлень і довжини послідовності їх.
Деяка різниця тут між /,/30 та /2/20 пояснюється лише недостатньою довжиною послідовностей повідомлень. Відповідно до статистичного закону великих чисел ці відношення збігатимуться краще, чим більшими будуть довжини порівнюваних послідовностей.
Можна сказати, що це відношення (тобто кількість інформації, яка припадає на одне повідомлення) характеризує дискретне джерело повідомлень в цілому. Інше джерело з іншим ансамблем повідомлень матиме зовсім іншу питому кількість інформації. Ця загальна характеристика джерела повідомлень називається його ентропією Н (А). Вона має фізичний зміст середньостатистичної міри невизначеності відомостей спостерігача А (див. рис. 2.1) відносно стану спостережуваного об'єкта.
Точно ентропію можна визначити як математичне сподівання питомої кількості інформації
ЯИ) = ХМ)%) = -ІМ)^М)- (2.6)
Згідно з даними табл. 2.1 маємо Н (А) = 0,4 • 1,322 + 0,3 х х 1,737 + 0,15 • 2,737 + 0,1 • 3,322 + 0,03 • 5,059 + 0,02 - 5,644 = = 2,0573 біт/повідомлення.
Бачимо, що точне значення ентропії Н(А)не дуже відрізняться від значень, здобутих у наведених вище прикладах послідовностей повідомлень.
Для полегшення розрахунків ентропії за (2.6) удод. 2 вміщено фрагмент таблиці значень функції -р log2 p.
У виразі (2.6) усереднення (як обчислення математичного сподівання) виконується по всьому ансамблю повідомлень. При цьому потрібно враховувати всі ймовірнісні зв'язки між різними повідомленнями. З цього виразу випливає, що чим вища ентропія, тим більшу кількість інформації в середньому закладено в кожне повідомлення даного джерела, тим важче запам'ятати (записати) або передати таке повідомлення по каналу зв'язку.
Необхідні витрати енергії на передачу повідомлення пропорційні його ентропії (середній кількості інформації на одне повідомлення). Виходить, що кількість інформації в послідовностях визначається кількістю повідомлень N у послідовності та ентропією Н (А) джерела, тобто
i(N) = NH(A). (2.7)
Наприклад,
/,= 30 • 2,0573 = 61,719 біт; /2 = 20 • 2,0573 = 41,146 біт.
Ці точні дані можна порівняти з наведеними вище розрахунками /j та /2 стосовно двох послідовностей з N = 30 і 20 й ансамблю повідомлень із табл. 2.1. Розбіжність тут пояснюється невеликими значеннями N, адже ймовірності р. обчислюються, як (Правило, за умови TV—> «>. і Розглянемо вироджене дискретне джерело з єдиним повідомленням а є А з р (а) = 1. Тоді Н(А) = 0 згідно з (2.6). Якщо р (а) = 0, то Н {А) теж дорівнюватиме нулю. Таким чином, ентропія завжди додатна або дорівнює нулю, тобто невід'ємна. Це перша її властивість.
Друга властивість ентропії випливає з виразу (2.6), згідно з яким вона є величиною адитивною. Якщо Л^-вимірні послідовності повідомлень аиа2, ...,aN розглядати як збільшені повідомлення нового джерела, то його ентропія буде в TV разів більшою від початкової.
30
31
Якщо
алфавіт А = {av
а2, ..., ак}
має к різних
повідомлень, то Н (А) < log
к. Тут
рівність стосується тільки
рівноймовірних і статистично незалежних
повідомлень аі є А.
Число к називається
обсягом алфавіту повідомлень.
У розглядуваному прикладі А = {av ..., а6}. Вважаючи повідомлення статистично незалежними за умови рівноймовір-ності їх із р. = р =1/6 для / = 1, ..., 6, матимемо
б і і
Н(А) = -Yjт-log2 7"= lo§2 6 = 2>585 біт/повідомлення. І=16 6
У дійсності нерівноймовірність повідомлень призводить до зменшення деяких складових у виразі (2.6). Тому ми й дістали для джерела повідомлень з ансамблем, наведеним у табл. 2.1, значення Н(А) = 2,0573 біт/повідомлення як розплату за нерівноймовірність повідомлень.