Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Глава 1. Основні поняття інформатики та комп'ют...doc
Скачиваний:
7
Добавлен:
19.09.2019
Размер:
275.97 Кб
Скачать

1.5. Одиниці виміру інформації

Кожний предмет або явище людина намагається охарактеризувати певною величиною, для того щоб мати змогу порівняти з подібним предметом або явищем. Однак, це не завжди можна просто й однозначно зробити. Навіть характеристики фізичних предметів можна оцінювати за об'ємом, вагою, масою, кількістю складових елементів, вартістю тощо. Тому, навіть на просте запитання: „Що більше, кілограмова гиря, чи дитяча повітряна кулька?”– відповідь може бути різною. Чим явище більш складне і багатопланове, і чим більше властивостей у цього явища, тим сутужніше підібрати для нього задовольняюче усіх, хто займається дослідженням цього явища, визначення його величин, які характеризують це явище. Наприклад, кількість інформації можна вимірювати різним чином: в екземплярах книг, кількості сторінок, знаків, метрах кіноплівки, тоннах архівних матеріалів, кілобайтах оперативної пам'яті комп’ютера, а також оцінювати за емоційним сприйняттям людиною, за отриманою користю від володіння інформацією, за необхідними витратами на обробку, систематизацію інформації тощо.

А чи можливо взагалі об'єктивно виміряти кількість інформації?

Найважливішим результатом теорії інформації є висновок: у певних, досить широких умовах, можна зневажити якісними особливостями інформації і виразити її кількість числом, а також порівняти кількість інформації, яка міститься у різних групах даних.

Ці кількісні міри мають різні вирази і можуть різним чином інтерпретуватись, залежно від форми (критерію) адекватності. Кожній формі адекватності відповідає своя кількісна міра інформації (рис. 1.1.)

Синтаксична

Семантична

Прагматична

Об’єм даних Vд

Тезаурус користувача

Кількість інформації

Іβ(α) = Н(β) – Н(α),

де Н(α) - ентропія

Кількість інформації Іс = С Vд,

де С – коефіцієнт

змістовності

Ступінь лаконічності повідомлення

Рис. 1.1. Міри інформації

Спробуйте оцінити, де більше інформації: у формулі Ейнштейна E=mc2, яка лежить в основі фізики водневої бомби, або у картині Айвазовського „Дев'ятий вал”, чи у щоденній телевізійній передачі „Новини”? Яка кількість інформації міститься, наприклад у тексті роману „Війна і мир”, у фресках Рафаеля або в генетичному коді людини? Відповіді на ці питання наука не дає, і мабуть дасть не скоро.

1.5.1. Синтаксична міра інформації

Для виміру інформації використовуються параметри: кількість інформації І, об’єм даних Vд, та ступінь лаконічності.

Об’єм даних Vд. у повідомленні вимірюються кількістю символів (розрядів). Одиниця виміру залежить від системи числення. У різних системах числення один розряд має різну вагу і відповідно змінюється одиниця виміру даних.

З розвитком ЕОМ єдиним способом стало двійкове кодування інформації за допомогою цифр 1 і 0. Під кодуванням розуміють перезапис інформації з одного способу подання в інший.

Кількість позицій у яких знаходяться тільки цифри 1 або 0, необхідних для прямого запису повідомлення є одним з критеріїв кількості інформації і називається об'ємом інформації в бітах. У двійковій системі одиницею виміру є біт (bitbinary digit – двійковий розряд) у десятковій – діт. Абревіатура „bit” запропонована у 1946 р. видатним американським вченим-статистиком Джоном Тьюкі.

Однак, біт – занадто дрібна одиниця виміру. На практиці найчастіше застосовується більша величина виміру – байт, яка дорівнює восьми бітам. Byte, це скорочене від BinarY term. Ну а для звичайного восьмибітного байта є спеціальний термін „октет” (Octet), хоча він застосовується досить рідко. Існує ще й екзотичний „карлик” – чотирьохбітний ніббл (Nibble). Саме вісім біт потрібно для того, щоб закодувати кожний з 256 символів алфавіту клавіатури комп'ютера (256=28).

Кількість інформації (І), на синтаксичному рівні неможливо визначити без розгляду поняття невизначеності стану (ентропії) системи, тобто інформацію, яка міститься у повідомленні можна трактувати у контексті її новизни, або зменшенні невизначеності знань про об'єкт.

Нехай до отримання інформації, користувач має певні попередні (апріорні) відомості про систему α. Мірою його непоінформованості про систему є функція Н(α), яка одночасно є й мірою невизначеності стану системи. Після отримання певного повідомлення β, користувач отримує додаткову інформацію Іβ(α), яка зменшує його апріорну непоінформованість таким чином, що апостеріорна (після отримання повідомлення β) невизначеність стану системи стає Нβ(α).

Тоді кількість інформації Іβ(α) про систему, яке отримане у повідомлені β, визначається як:

Іβ(α) = Н(α) – Нβ(α),

тобто кількість інформації вимірюється зменшенням невизначеності стану системи. Якщо кінцева невизначеність Нβ(α) перетвориться у нуль, то первісне неповне знання (неповна інформованість) зміниться повним знанням (повною інформованістю):

Іβ(α)= Нβ(α)

Іншими словами, ентропія системи Н(α) може розглядатися як міра відсутньої інформації.

У 1928 р. американський інженер Р. Хартлі (рис.1.2) запропонував процес отримання інформації розглядати, як вибір одного повідомлення з кінцевої, заздалегідь заданої множини N рівноймовірних повідомлень, а кількість інформації I, яка міститься у обраному повідомленні, визначати, як двійковий логарифм N:

I = log2N

Припустимо, потрібно вгадати одне число з набору чисел від одиниці до ста. За формулою Хартлі можна обчислити, яка кількість інформації для цього потрібна:

I = log2100 = 6,644.

Тобто, повідомлення про правильно вгадане число містить таку кількість інформації, яка приблизно дорівнює 6,644 одиниць інформації.

Рис.1.2. Ральф Вінтон Лайон Хартлі (англ. Ralph Vinton Lyon Hartley, народився 30.11.1888 р. в Єлф, штат Невада, – 1.05.1970 р. Американський учений-електронщик, запропонував генератор Хартлі, перетворення Хартлі і зробив вклад в теорію інформації.

З наведеної формули видно, що чим більше була невизначеною ситуація до отримання повідомлення, тобто чим більшу кількість станів міг приймати об'єкт, тим більшу кількість інформації несе дане повідомлення.

Наведемо інші приклади рівноймовірних повідомлень – при киданні монети: „випала решка”, „випав орел”; на сторінці книги: „кількість букв парне”, „кількість букв непарне”.

Визначимо тепер, чи є рівноімовірними повідомлення „першою з дверей будинку вийде жінка” і „першим вийде з дверей будинку чоловік”. Однозначно відповісти на це питання неможливо. Все залежить від того, про який саме будинок йде мова. Якщо це, наприклад, станція метро, то імовірність вийти з дверей першим однакова для чоловіка і жінки, а якщо це військова казарма, то для чоловіка ця імовірність значно вище, чим для жінки.

Зазвичай, рівноімовірні повідомлення – частковий випадок нерівноімівірних, які у житті зустрічаються значно частіше.

Для визначення ентропії систем, які мають N можливих станів, американський вчений Клод Шеннон (рис.1.3) запропонував у 1948 р. іншу формулу визначення кількості інформації, яка враховує можливу неоднакову імовірність повідомлень у наборі сигналів.

I = – pi log2 pi

де I – кількість інформації; pi – імовірність появи i-го сигналу; N – кількість можливих сигналів.

Рис.1.3. Клод Елвуд Шеннон (англ. Claude Elwood Shannon) (30.04.1916 р. – 24.02.2001 р.) – американський інженер – електрик і математик, „батько теорії інформації”.

Формула показує залежність кількості інформації від кількості подій, та від імовірності появи цих подій. Інформація дорівнює нулю, якщо можлива тільки одна подія. З ростом числа подій, інформація збільшується. Кількість інформації у тому чи іншому випадку, залежить від імовірності її отримання: чим більш ймовірним є повідомлення, тим менше інформації міститься у ньому.

Коефіцієнт (ступінь) інформованості (лаконічність) повідомлення визначається відношенням кількості інформації до об’єму даних, тобто:

, причому 0<Y<1.

Зі збільшенням Y зменшується об’єми роботи з перетворення інформації (даних) у системі. Тому прагнуть до підвищення інформативності, для чого розроблюються спеціальні методи оптимального кодування інформації.