
- •Номінативна інформація 64
- •Номінативна інформація 73
- •Від автора
- •1. Вступ
- •2. Інформація та її теорії
- •2.1. Імовірнісна теорія інформації
- •2.2. Алгоритмічна теорія інформації
- •2.3. Семантична теорія інформації
- •3. Образи та інформація в кібернетичних системах
- •3.1. Кібернетичні системи
- •3.2. Образи та їх види
- •3.3. Інформація як образ
- •3.5. Види інформації
- •3.4. Одиниці вимірювання кількості інформації
- •4. Інформаційна структура повідомлення
- •4.1. Загальна структура повідомлення
- •4.2. Структура знакового (вербального) повідомлення
- •4.2.1. Інформаційні одиниці й рівні
- •4.2.2. Структура номена
- •4.2.3. Структура сентенції
- •4.2.4. Структура сюжету
- •4.3. Структура незнакового повідомлення
- •5. Вимірювання кількості інформації
- •5.1. Принципи вимірювання
- •5.2. Загальна методика вимірювання
- •5.3. Вимірювання кількості інформації у знакових (вербальних) повідомленнях
- •5.3.1. Номінативна інформація
- •5.3.2. Сентенційна інформація
- •5.3.3. Сюжетна інформація
- •5.3.4. Повна кількість інформації
- •5.4.1. Методика вимірювання
- •5.4.2. Типові програми розпізнавання
- •5.4.3. Надлишкова інформація
- •5.5. Ескпериментальна перевірка методу вимірювання
- •5.7. Ентропія повідомлення
- •5.8. Наслідки
- •5.9. Практичне застосування
- •6.2. Оцінювання кількості знакової (вербальної) інформації
- •6.2.1. Номінативна інформація
- •6.2.2. Сентенційна інформація
- •6.2.3. Сюжетна інформація
- •6.3. Оцінювання кількості незнакової інформації
- •7.1. Поняття новизни інформації
- •7.2. Інструменти оцінювання новизни інформації
- •7.3. Види нової інформації
- •7.4.2. Сентенційна інформація
- •7.4.3. Контекстна інформація
- •7.4.4. Реципієнтська інформація
- •7.4.5. Суспільна інформація
- •7.5. Оцінювання новизни незнакової інформації
- •7.6. Практичне застосування
- •8.1. Реальна, нереальна й невизначена інформація
- •8.2. Псевдоінформація, параінформація та метаінформація1
- •9.1. Поняття цінності інформації
- •9.4. Інформаційний шум
- •9.5. Практичне застосування
- •10.1. Сутність компресування
- •10.3. Компресування знакової (вербальної) інформації
- •10.5. Ступінь компресування інформації
- •10.4. Компресування незнакової інформації
- •10.6. Практичне застосування
- •12. Висновки
5.9. Практичне застосування
Вимірювання кількості номінативної інформації. На практиці визначити й підрахувати кількість кодової, відображеної та значеннєвої інформації в номенах, що позначають конкретні_слова [об’єкти (іменники), стани (прикметники)], — це інженерна задача, яка полягає в розробленні сканерів відповідного типу1. Складніше питання про визначення кількості інформації в словах, які позначають процеси (дієслова). Зазначимо, що процеси не існують самі по собі. Вони проходять лише в об’єктах чи відбуваються лише з об’єктами та їх станами. Тому кожен процес імпліцитно включає в себе інформацію про ті об’єкти, зміни в яких він описує. При цьому кількість об’єктів, що входять у процес, дорівнює валентності слова, що позначає цей процес (наприклад, для слова пливти кількість валентностей дорівнює шести2). Тому для дієслів у їх образах обов’язково слід враховувати ще і їх валентність.
1 Прикладами таких сканерів можуть бути сист еми оптичного читання, які розпізнають тексти, найрізноманітніші радарні системи, які вже зараз використовують у режимі промислової експлуатації, і т. д.
2 Опишемо валентності слова пливти на прикладі речення: Об’єкт М пливе по об’єкті L засобом К з пункту А в пункт Б упродовж часу Т. У цьому реченні слово пливе має такі вален тності: 1) існує об’єкт М, що має свій образ (наприклад, людина); 2) існує об’єкт L, що має свій образ (наприклад, вода); 3) існує засіб плавання L, що має свій образ (наприклад, катер); 4) іс нують пункти А і Б, що мають свої образи (наприклад, Київ та Канів); 5) існує траєкторія (шлях у двомірному просторі) плавання з А в Б (наприклад, з Києва до Канева по Дніпру); 6) існує відрізок часу Т, за який об’єкт М переміщається від А до Б (шкала часу, на якій виділено, напри клад, дві години).
57
Не сумніваємося, що зі створенням усе більшої кількості сканерів вимірювання кількості номінативної інформації ставатиме все реальнішим. Цьому явно сприяють і досягнення в галузі просторової комп’ютерної графіки.
Вимірювання кількості сентенційної інформації. Для вимірювання в простих реченнях кількості сентенційної інформації слід застосувати програми-розпізнавачі їх синтаксичної структури. Як відомо, такі програми зараз використовують досить широко (наприклад, у системах комп’ютерного перекладу, комп’ютерного редагування тощо), хоча в ряді випадків вони мають ще недостатньо високу імовірність правильного розпізнавання. Проте вже на основі й цих програм без особливих труднощів за вказаною методикою можна визначати кількість наявної в сентенції сентенційної інформації.
Вимірювання кількості сюжетної інформації. Для вимірювання у повідомленні кількості сюжетної інформації слід застосувати програму-розпізнавач, яка визначає границі сентенцій та виявляє і розпізнає види сполучників.
Незважаючи на, здавалось би, очевидну простоту вирішення першої із двох вказаних задач (розпізнавання границь сентенцій), навіть для того випадку, коли речення розділені крапками, ця задача має лише ймовірнісне (не точне!) вирішення, оскільки крапки можуть стояти і всередині речення поряд із скороченнями. Значно складнішим є випадок, коли речення складається з кількох сентенцій, тобто є складнопідрядним чи складносурядним. Тут правильне розпізнавання може бути виконане зі ще нижчим ступенем точності. Дослідження з виявлення границь сентенцій для повідомлень, у яких на границях сентенцій не стоять ні коми, ні крапки з комами, ні крапки, нам не відомі1. При дешифруванні текстів, як правило, таких завдань не ставлять: границі речень визначають на власний розсуд.
Що стосується програм-розпізнавачів, які аналізують наявність номенів-сполучників та розпізнають їх види, то такі роботи нам також не відомі. Розв’язок цієї задачі в дуже наближеному вигляді полягає, на нашу думку, в тому, щоби розробити таблицю перекладу сполучників природної мови на мову логічних операцій. Сподіваємося, що рано чи пізно така задача буде поставлена і, звичайно, з певною ймовірністю, розв’язана.
Таким чином, виміряти кількість сюжетної інформації, незважаючи на зовнішню простоту цієї задачі, можна лише частково — для інформації, закладеної в границях сентенцій. Визначити ж кількість сюжетної інформації, закладеної в номе-нах-сполучниках, не є можливим.
Приклад (для знакової інформації). Нехай для визначення кількості інформації надійшло повідомлення: На столі лежить кубик. Кубик є червоний. Імовірнісна (Шеннонівська) теорія інформації за одним із найпростіних методів встановлює, що кількість інформації в цих реченнях дорівнює сумі логарифмів від імовірностей появи літер у поданих словах (за іншим методом це може бути також сума логарифмів від імовірностей появи наявних у повідомленні номенів — слів). На цьому визначення кількості інформації в Шеннонівській теорії інформації завершується.
На відміну від сказаного, образна теорія інформації встановлює, що в поданому повідомленні найперше треба виміряти кількість кодової інформації, а далі відповісти на запитання, який світ описує це повідомлення: реальний чи нереальний? Якщо реальний, то вимірювання кількості образної та значеннєвої інформації слід проводити на основі відображених та еталонних образів, а коли нереальний, — то з використанням лише еталонних образів. Після цього необхідно перейти до вимірювання кількості сентенційної інформації, сформувавши граф синтаксичних залежностей між словами. Далі треба виміряти сюжетну інформацію, тобто розпізнати, де є границя речень (у нашому випадку там стоїть крапка) і кінець повідомлення (після другого речення), а також розпізнати, що між першим та другим реченням стоїть сполучник /. Після цього належить підрахувати суму номінативної, сентенційної та сюжетної інформації.
Приклад (для незнакової інформації). Кількість інформації незнакового повідомлення (за Шенноном) дорівнює його довжині, в байтах.
Кількість інформації за нашою методикою при обраній імовірності правильного розпізнавання дорівнюватиме, наприклад, довжині цього повідомлення в кількості байтів, помноженій на довжину мінімальної програми, що правильно розпізнає один байт повідомлення.
Прикладами таких текстів є Біблія й Талмуд, які в оригіналі написані без розділових
58
59
6.
ОЦІНЮВАННЯ КІЛЬКОСТІ ІНФОРМАЦІЇ
6.1. Загальні принципи оцінювання
Під час опрацювання найрізноманітніших повідомлень часто застосовують методи не вимірювання, а оцінювання кількості інформації, які є порівняно простішими.
Методи оцінювання мають свою специфіку: по-перше, вони різні, тобто не мають спільної одиниці вимірювання; по-друге, завжди є відносними й наближеними1 ; по-третє, можуть бути як суб’єктивними, так і об’єктивними. Звичайно, під час опрацювання, яке здійснює людина чи комп’ютер, бажано спиратися лише на об’єктивні методи. Це означає, що методи оцінювання повинні давати такі ж результати, як і одна з теорій інформації, але у відносному й наближеному вигляді. У цій роботі як базову будемо використовувати образну теорію інформації, викладену в розділі 5.
Як досліджено, не існує одного-єдиного методу оцінювання кількості інформації, прийнятного одночасно для всіх її видів, а тому використовують різні методи.
Загальні принципи оцінювання полягають у тому, що:
оцінювання в деяких випадках може бути відносним (порівнювати потрібно як мінімум дві одиниці інформації);
порівнювати можна лише одиниці одного й того ж рівня;
оцінювати слід такими відносними оцінками як „більше”, „менше”, „дорів нює” чи „не дорівнює”;
в окремих випадках можливе й кількісне оцінювання інформації (в кіль кості номенів, сентенцій чи повідомлень).