- •Модульний конспект лекцій з курсу «Системний аналіз та проектування комп’ютерних інформаційних систем»
- •Часть 3. Информация и экспертные знания в Системном анализе (модуль 3)
- •Лекция 9
- •Лекция 10
- •Основы теории информации (динамическая теория информации)
- •1.Определение понятия информации
- •2.Количество информации
- •3.Ценность информации
- •Лекция 11
- •Лекция 12
- •Вербальный анализ решений
- •Модульний контроль: запитання та задачі Модуль 3. Інформація та експертні знання у системному аналізі
1.Определение понятия информации
Существует ряд определений, но до сих пор нет общепризнанного. Вместе с тем информация играет в науке все более фундаментальную роль: в кибернетике, компьютерных науках, системных науках, биологии, даже в таких науках как физика (кибернетическая физика) и механика.
Прикладное значение информации очевидно. Перейдем к существующим определениям.
«Информация есть информация, а не материя и не энергия» (Н.Винер).
«Материя и энергия – сохраняемые сущности реального объекта, а информация – несохраняемая сущность, она связана со структурой объекта и её изменениями, процессами (Жилин).
В гуманитарных науках часто используется тавтологическое определение: «информация есть сведения, знания, переданные кем-то другим или приобретенные собственным путем исследования или изучения…»
«Информация – это сведения, содержащиеся в сообщении, объекте передачи, хранении, обработке».
Иногда информацию связывают с упорядоченностью:
«Информация означает порядок, создания порядка из беспорядка, увеличение степени порядка после построения сообщения».
Философы часто определяют информацию как отражение
«Информация – это отражения в сознании людей причинно-следственных связей в окружающем мире».
«Информация – это содержание процессов отражения».
Информацию определяют и как алгоритм:
«Информация есть некий алгоритм, совокупность примеров правил и сведений».
Можно сделать вывод, что общепринятого определения информации всё ещё нет.
Синергетика (наука о процессах самоорганизации) внесла свой вклад, поскольку в ней информация: а) используется в исследовании процессов самоорганизации; б) здесь актуален вопрос о возникновении и эволюции ценной информации.
Понятие ценной информации является очень важным и для системного анализа. Его мы рассмотрим позже, а сейчас – два определения информации, важные именно для синергетики и системного анализа.
Определение Г. Кастлера:
«Информация есть случайный и заполненный выбор одного варианта из нескольких возможных и равноправных».
Но это определение не исчерпывает всех случаев, и поэтому Д.С. Чернавский уточнил определение Кастлера.
Определение информации по Д.С. Чернавскому:
«Информация - есть запомненный выбор одного варианта из нескольких возможных и равноправных».
Здесь исчезло слово «случайный», поскольку выбор может быть как случайным, так и неслучайным, сделанным, например, под внешним воздействием. Или, добавим от себя, выбор как результат решения проблемы: решил – и сделал выбор.
Согласно Д.С. Чернавскому, неслучайный выбор – это рецепция (приём) информации, а случайный выбор – генерация информации. В любом из этих случаев если информация не запоминается, то это – микроинформация, а запомненный выбор - макроинформация.
Возможный и равноправный выбор – это значит, что варианты выбора принадлежат одному множеству (например, слов одного языка, букв одного алфавита) и априорные (заранее предполагаемые) различия между ними невелики.
2.Количество информации
Понятие «количество информации» сформулировано в работах американских учёных Хартли и (особенно) Шеннона. Оно является центральным в «классической» теории информации, основная проблема которой – изучение передачи информации по каналам связи, хранения её, кодирования и декодирования, борьбы с шумами и помехами. Отметим – безотносительно к смыслу (семантике) передаваемых сообщений. В настоящее время развиваются и другие разделы теории информации – динамическая теория информации, семантическая теория информации, теория квантовой информации. Но в их основе находится теория информации Шеннона и её методы измерения количества информации. Мы рассмотрим основные формулы, относящиеся к передаче информации в дискретном (цифровом, алфавитном) виде. Сейчас – это основной метод работы с информацией. Да и формулы проще, чем в «непрерывной» теории.
По К. Шеннону количество информации IN в сообщении, содержащем N символов определяется по формуле:
IN= -N pi log2pi (1)
M - число букв (символов) в используемом алфавите;
pi - частота (статистическая вероятность) появления i-той буквы в языке сообщения;
минус – чтобы величина IN была неотрицательной.
Двоичные логарифмы используются в теории информации исходя из естественного требования, чтобы в минимальном сообщении содержалось количество информации, равное 1. Минимальный алфавит состоит из двух символов, например 0 и 1 (меньше нельзя): M=2, минимальное сообщение – из одного символа N=1, частоты символов равны: Pi= .
Подставив эти значения в формулу (1) действительно получим 1:
I2= -1 ( (-1) + (-1)) = 1.
Это минимальное количество информации I=1, получило название «бит» (от английских слов binary digit – двоичный знак). Если в (1) использовать натуральные логарифмы, то единица информации называется «нат». Между битами и натами существуют соотношения:
1 бит = 1.44 ната; 1нат= 0.69 бита;
Поскольку в компьютере, калькуляторе содержится стандартная функция для вычисления натуральных логарифмов, то в практическом плане удобнее сначала вычислить количество информации в натах, а затем перевести в биты, умножив на 1.44.
Рассмотрим иную ситуацию – выбор варианта (напомним, что в системном анализе варианты называются альтернативами).
Если делаем выбор одного из n возможных вариантов (с известными вероятностями этих вариантов pi, i= 1;2;…n) то количество информации, то количество информации определяется по формуле:
I = - pi log2pi (2)
Если все варианты равновероятны:
= n pi =1; pi=1/n;
И тогда формула (2) принимает вид:
I = log2n (3).
Это – исторически первая формула теории вероятностей, формула Хартли.
В частном случае бинарного алфавита (M=2; 0 и 1) число вариантов равно 2N; pi = E-N; log2pi = -N; I=N; (4)
Это совпадает с (1) при бинарном равновероятном алфавите и N символах в сообщении.
Формулы (1) и (2) отражают количество информации, но не ее ценность. Количество информации в сообщении, определяемое формулой Шеннона, не зависит от сочетания букв: переставив (случайным образом или кодированием) буквы мы можем делать сообщение бессмысленным. Количество информации по Шеннону сохранится, а ценность информации может исчезнуть.
Эта информация (по Шеннону) полезна в статистической теории связи, но бесполезна в системном анализе и других дисциплинах, занимающихся знаниями.
Количество и ценность информации – разные понятия и не стоит подменять одно другим.
Допустим, что любое сочетание букв в тексте является ценным. В этом умозрительном, нереальном случае количество ценной информации совпадает с полным количеством, определяемым формулой (2) и не может превышать его. По жизни ценной информации в тексте меньше, иногда её нет вообще. Поэтому максимальное количество информации в (2) названо информационной тарой [Корогодин]. Это понятие играет существенную роль при рецепции (приеме/ передаче) информации и при ее перекодировке.
Текст на русском языке содержит Nr букв кириллицы (алфавит содержит 32 буквы; Mr =32;). Английский перевод содержит Na букв; Ma=26; Русский текст – результат выбора определенного варианта из Na = 32Na возможных. Английский перевод – выбор (преопределенный русским текстом) одного варианта из Na = 26 Na возможных. Если смысл не искажён , то количество ценной информации одинаково, а количество информации по Шеннону различно. Процессы генерации, рецепции обработки сопровождаются «переливаем» информации из одной тары в другую. При этом, как правило, количество информации по Шеннону уменьшается, а количество ценной информации сохраняется и, даже, возрастает.
Таким образом, информационная тара – это мощность множества, из которого могут быть выбраны варианты (алфавит, слова, тексты). Информационная емкость – свойство информационных систем (например, информационная емкость компакт-диска равна 720 МБ).