Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
лекции ТИПиС.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
1.67 Mб
Скачать

Количественное определение информации

Широкий интерес к информационным процессам и многообразие этих процессов породили много толкований, определений понятия “информация”.

Информация – общенаучная категория, являющаяся общей мерой любой интерпретации, осуществляемой субъектом по отношению к любому воспринятому сигналу (стимулу) как из внешнего, так и внутреннего (организменного) мира. Такое определение понятия информации, мы с вами можем дать на основе вышерассмотренных положений.

С эти перекликается определение информации данное Норбертом Винером – "Информация – это обозначение содержания, полученного из внешнего мира в процессе нашего приспособления к нему и приспособления к нему наших чувств".

А вот так это определяется российским законодательством – "Информация – сведения (сообщения, данные) независимо от формы их представления " (ФЗ РФ " N 149-ФЗ от 27.07.2006г. "Об информации, информационных технологиях и защите информации").

Или такие определения, которые с точки зрения их авторов, являются наиболее удачными и точными:

  1. Информация есть сущность, сохраняющаяся при вычислимом изоморфизме.

  2. Информация о какой-либо предметной области (ее объектах, явлениях и пр.) есть результат гомоморфного (т. е. сохраняющего основные соотношения) отображения элементов этой предметной области в некоторые отторжимые от этих элементов сущности – сигналы, характеристики, описания.

  3. Информация – это содержательное описание объекта или явления.

  4. Информация, заключенная в сообщении, есть сущность, определяющая изменение знаний при получении сообщения.

Определение Винера является слишком философским, чтобы оно могло быть применено на практике.

Второе определение использует категории, которые сами требуют определения в каждом конкретном случае юридической практики.

Из четырех других определений, очевидно, что первое – годится для достаточно формального (математического) описания моделей реальных объектов, полученных с помощью развитого математического аппарата. Второе определение отражает процесс формализации информационных характеристик объекта с помощью формальных сигналов. Третье определение связывают с процессом передачи сведений о каком-либо объекте, явлении или событии. При этом обычно подчеркивают содержательность этих сведений. Наконец, четвертое определение подчеркивает новизну этих сведений для получателя сообщения. Столь широкое многообразие характерно не только для качественного определения понятия “информация”, большое разнообразие существует и при определении количества информации. Условно все подходы к определению количества информации можно разделить на пять видов:

1. Комбинаторный.

2. Энтропийный

3. Алгоритмический.

4. Семантический.

5. Прагматический.

Первые три вида дают количественное определение сложности описываемого объекта или явления. Четвертый – описывает содержательность и новизну передаваемого сообщения для получателя (пользователя) сообщения. Наконец, пятый вид обращает внимание на полезность полученного сообщения для пользователя.

1.1. Комбинаторный подход

Комбинаторное определение количества информации дано американским инженером Р. Хартли. Это определение предполагает модель с детерминированной связью (помехи отсутствуют) между дискретными состояниями двух систем без их вероятностного описания.

Каждое передаваемое слово из п букв, записанное в алфавите, содержащем т букв, можно рассматривать как отдельное «укрупненное» состояние источника сообщений. Всего таких состояний (слов) будет тn.

Тогда количество информации, которое несет слово из п букв, равно I=logamn=nlogam. Отсюда следует, что одна буква несет logam а-ичных единиц информации. Если единица измерения информации а=т, то количество информации в слове (I=п) измеряется количеством содержащихся в нем букв, а единица измерения информации определяется размером алфавита т. Таким образом, одна a-ичная единица содержит logam a-ичных единиц информации.

1.2. Энтропийный подход

Исторически первым возник энтропийный подход, в том смысле, что еще в XIX-м веке физики ввели понятие “энтропия” для определения величины, характеризующей процессы перехода тепловой энергии в механическую. В какой-то мере эта величина характеризовала меру хаотичности (неопределенности) движения молекул. Наверное поэтому К. Шеннон назвал энтропией количество информации, испускаемой источником. Энтропией, или неопределенностью, называется вещественно-значная функция, зависящая от вероятностей событий и удовлетворяющая следующим условиям:

1. Событие, наступающее с вероятностью единица, имеет нулевую неопределенность.

2. Если одно событие имеет меньшую вероятность чем другое, то неопределенность первого события больше неопределенности второго.

3. Неопределенность одновременного наступления двух событий равна сумме их неопределенностей.

Принятой мерой неопределенности системы  является энтропия, обозначаемая H(). При получении сообщения  энтропия системы - Н(). Как мы заметили, может быть, что Н() Н(), Н() Н() и Н() Н() – все зависит от того, что за сообщение  получено. Интересно, что именно разность Н()- Н() оказывается важной характеристикой полученного сообщения .

Этой важной характеристикой сообщения  о системе  является количество информации I(), содержащееся в сообщении  о системе :

I()= Н ()- Н()

Понятно, что I() может быть положительной – тогда сообщение уменьшает неопределенность, отрицательной – когда неопределенность растет и нулевой, когда сообщение не несет информации, полезной для принятия решения. В последнем случае

Н ()= Н():

т.е. неопределенность системы по получении сообщения  не изменилась и количество информации в  равно нулю.

Другим крайним случаем является ситуация, когда сообщение  полностью снимает неопределенность и Н() = 0. В этом случае сообщение  содержит полную информацию о системе  и I()= Н ().

Теперь для определения количества информации нам надо понять, как оценивать энтропию системы.

В общем случае, энтропия системы, имеющей k возможных состояний, H(), согласно формуле Шеннона, равна:

,

где Pi – вероятность того, что система находится в i-м состоянии.

Вывод формулы Шеннона.

Нам необходимо научиться оценивать степень неопределенности различных ситуаций, опытов. Для самых простых опытов, имеющих k равновероятных исходов, степень неопределенности измеряется с помощью самого числа k: при k = 1 никакой неопределенности нет, т.к. исход предопределен, но не случаен. При росте числа возможных исходов предсказание результата опыта становится все более затруднительным, так что естественно предположить, что мера степени неопределенности является функцией k – f(k), причем f(1)=0, и f(k) монотонно растет с ростом k.

Кроме того, надо научиться оценивать неопределенность нескольких опытов. Рассмотрим два независимых опыта α и β (т.е. такие два опыта, что любые сведения об исходе первого из них никак не меняют вероятностей исходов второго). Если опыт α имеет p равновероятных исходов, а опыт β – q равновероятных исходов, то сложный опыт αβ, состоящий в одновременном выполнении опытов α и β, очевидно обладает неопределенностью большей, чем каждый опыт α или β в отдельности.

Пример сложного опыта

Пусть в одной урне находятся таблички с буквами русского алфавита в количестве 32 штук (е и ё будем считать неразличимыми), а в другой – таблички с арабскими цифрами 0, 1, …, 9. Опыт α состоит в извлечении из первой урны одной буквы, а опыт β – в извлечении из второй урны одной цифры. В первом случае у нас – 32 равновероятных исхода, а во втором – 10. При этом извлечение какой бы то ни было буквы из первой урны никак не влияет на то, какая будет извлечена цифра. В сложном опыте αβ – 320 исходов и степень неопределенности этого опыта больше, чем исходных двух.

Очевидно, что в сложном опыте степень неопределенности опыта α дополняется степенью неопределенности β. Можно считать, что степень неопределенности опыта αβ равна сумме неопределенностей опытов α и β. Так как опыт αβ имеет pq равновероятных исходов, то мы можем формировать условие, которому должна удовлетворять функция f(k): f(pq)= f(p)+ f(q).

Последнее условие вместе с требованием f(1)=0 и условием монотонного роста наталкивает на мысль, что в качестве меры неопределенности опыта, имеющего k равновероятных исходов, можно взять число log k. Формально доказывается, что логарифмическая функция является единственной функцией аргумента k, удовлетворяющей условиям f(pq)= f(p)+f(q), f(1)=0 и f(p)>f(q) при p>q.

При определении конкретной оценки меры неопределенности обычно используют логарифм по основанию два, т.е. f(k)=log2k. Это означает, что за единицу измерения степени неопределенности здесь принимается неопределенность, содержащаяся в опыте, имеющем два равновероятных исхода (как в опыте подбрасывания монеты). Такая единица измерения неопределенности называется БИТ (bit – binary digit – двоичный разряд). В случае использования десятичных логарифмов в качестве единицы степени неопределенности принималась бы неопределенность опыта с десятью равновероятными исходами – ДИТ. Чаще всего именно бит принимается в качестве единицы измерения: - мы соглашаемся оценивать неопределенность системы в самых мелких возможных единицах. Неопределенность десятичного набора – гораздо крупнее - дит почти в 3, 3 раза больше бита (т.к. log210 ≈ 3,32).

Вероятности исходов опыта могут задаваться в виде таблицы и при k равновероятных исходах это может выглядеть так:

Исходы опыта

А1

А2

Аk

Вероятность

1/k

1/k

1/k

Поскольку общая неопределенность такого опыта по нашему условию равна logk, то можно считать, что каждый исход вносит неопределенность 1/k*log k = - 1/k*log 1/k. Если таблица вероятностей будет иной, например,

Исходы опыта

А1

А2

А3

А4

Вероятность

½

1/4

1/8

1/8

естественно считать, что в результате опыта исходы А1, А2, А3 и А4 вносят неопределенность, равную:

- ½ * log ½; - ¼ * log ¼ ; - ⅛* log ⅛ и - ⅛* log ⅛, так что общая степень неопределенности этого опыта равна: - ½ *log ½ - ¼* log ¼ - ⅛* log ⅛ - ⅛*log ⅛ =7/4.

Тогда в самом общем случае для опыта α с таблицей вероятностей

Исходы опыта

А1

А2

Аi

Аk

Вероятность

p(А1)

p(А2)

p(Аi)

p(Аk)

степень неопределенности равна

- p(А1) log p(А1) - p(А2) log p(А2) - … - p(Аi) log p(Аi) - … - p(Аk) log p(Аk).

Клод Шеннон предложил в качестве меры неопределенности системы α с k состояниями энтропию H(α):

Энтропия равна нулю, только в одном случае, когда все вероятности P равны нулю, кроме одной, которая равна единице. Это точно описывает отсутствие неопределенности: система находится всегда в одном и том же состоянии.

Энтропия – максимальна, когда все вероятности равны.

Если все исходы равновероятны pi = 1/k, то

k

H(α) = - 1/k ∑ log1/k = log k.

1

Например, энтропия нашего алфавита из 32 букв: H= log32 = 5 бит. Энтропия десятичного набора цифр: H=log10=3.32 бит. Энтропия системы, в которой отдельно хранятся 32 буквы и 10 цифр: H=log(32*10)= 5 + 3.32 = 8.32 бит.

1.3. Алгоритмический подход

Энтропийный подход в теории информации позволяет ответить на вопрос “Сколько информации содержит объект Y относительно объекта X?” В рамках другого подхода – алгоритмического – можно ответить и на вопрос “Сколько нужно информации, чтобы воссоздать (описать) объект X?” Этот подход, разработанный А. Н. Колмогоровым основан на теории алгоритмов и предполагает наличие априорной вероятностной меры на множестве сигналов.

В алгоритмическом подходе количество информации, содержащейся в слове (последовательности нулей и единиц), по существу, измеряется минимальной длиной программы, необходимой для воспроизведения этого слова (последовательности).

1.4. Семантический подход

Основное достоинство трех перечисленных подходов к определению количества информации состоит в том, что они опираются на строгие системы аксиом и поддерживаются развитым математическим аппаратом для исследования свойств определяемого так количества информации. Основной недостаток этих подходов состоит в том, что в рамках этих формальных моделей не удается оценить содержательную сущность каждого сообщения, его семантику. Этот недостаток был замечен исследователями в скором времени после появления работы Шеннона. Предпринимались многочисленные попытки формального описания сущности интеллектуальных процессов в информационном взаимодействии “источник – приемник”. Однако большинство из них нельзя назвать удачными. В последние годы интерес к построению формальных моделей смысла, содержащегося в сообщении, необычайно возрос в связи с созданием систем автоматического перевода с одного естественного языка на другой. Для того чтобы построить систему автоматического перевода, необходимо создать формализованную процедуру построения моделей “Текст ,Смысл”, “Смысл ,Текст”.

Для измерения смыслового содержания информации, т.е. её количества на семантическом уровне, введем понятие тезаурус получателя информации.

Тезаурус – это совокупность сведений, и связей между ними, которыми располагает получатель информации. Можно сказать, что тезаурус – это накопленные знания получателя.

В очень простом случае, когда получателем является техническое устройство - персональный компьютер –тезаурус формируется «вооружением» компьютера - заложенными в него программами и устройствами, позволяющими принимать, обрабатывать и представлять текстовые сообщения на разных языках, использующих разные алфавиты, шрифты, а также аудио- и видеоинформацию с локальной или всемирной сети. Если компьютер не снабжен сетевой картой, нельзя ожидать получения на него сообщений из сети ни в каком виде. Отсутствие драйверов с русскими шрифтами не позволит работать с сообщениями на русском языке и т.д.

Если получателем является человек, его тезаурус – это тоже своеобразное интеллектуальное вооружение человека – арсенал его знаний. Он также образует своеобразный фильтр для поступающих сообщений. Поступившее сообщение обрабатывается с использованием имеющихся знаний с целью получения информации. Если тезаурус очень богат – арсенал знаний глубок и многообразен, он позволит извлекать информацию из практически любого сообщения. Маленький тезаурус, содержащий скудный багаж знаний, может стать препятствием для понимания сообщений, требующих лучшей подготовки.

Заметим однако, что одного понимания сообщения для влияния на принятие решения мало – надо, чтобы в нем содержалась нужная для этого информация, которой нет в нашем тезаурусе и которую мы в него хотим включить. Если полученное сообщение изменяет наш тезаурус, может измениться и выбор решения. Такое изменение тезауруса и служит семантической мерой количества информации – своеобразной мерой полезности полученного сообщения.

Формально – количество семантической информации Is , включаемой в дальнейшем в тезаурус, определяется соотношением тезауруса получателя Si и содержанием передаваемой в сообщении  информации S0.

При Si = 0 получатель не воспринимает поступающую информацию;

При 0SiS0 получатель воспринимает, но не понимает поступившую в сообщении информацию;

При Si   получатель имеет исчерпывающие знания и поступающая информация не может пополнить его тезауруса.

При тезаурусе SiS0 количество семантической информации Is получаемое из вложенной в сообщение  информации S вначале быстро растет с ростом собственного тезауруса получателя, а затем – начиная с некоторого значения Si - падает. Падение количества полезной для получателя информации происходит от того, что багаж знаний получателя стал достаточно солидным и удивить его чем-то новым становится все труднее.

Это можно проиллюстрировать на примере студентов, изучающих, например, материалы по корпоративным ИС. Вначале при формировании первых знаний об информационных системах чтение мало что дает – много непонятных терминов, аббревиатур – даже заголовки не все понятны. Настойчивость в чтении книг, посещении лекций и семинаров, общении с профессионалами – помогают пополнить тезаурус. Со временем чтение становится полезным и даже приятным, а к концу профессиональной карьеры – после написания многих статей и книг – получение новых полезных сведений будет случаться намного реже.

Можно говорить об оптимальном для данной информации S тезаурусе получателя, при котором им будет получена максимальная информация Is , а также – оптимальной информации в сообщении  для данного тезауруса Si. В нашем примере, когда получателем является компьютер, оптимальный тезаурус означает, что его аппаратная часть и установленное программное обеспечение воспринимают и правильно интерпретируют для пользователя все содержащиеся в сообщении  символы, передающие смысл информации S. Если в сообщении есть знаки, которые не соответствуют содержимому тезауруса – часть информации будет утрачена и величина Is уменьшится.

С другой стороны, если мы знаем, что получатель не имеет возможности получать тексты на русском (его компьютер не имеет нужных драйверов), а иностранных языков на которых наше сообщение может быть послано – ни он ни мы не изучали, для передачи необходимой информации мы можем прибегнуть к транслитерации – написанию русских текстов, с использованием букв иностранного алфавита, хорошо воспринимаемого компьютером получателя. Так мы приведем в соответствие нашу информацию с имеющимся в распоряжении получателя тезаурусом компьютера. Сообщение будет выглядеть некрасиво, но всю необходимую информацию получателю удастся прочитать.

Итак, максимальное количество семантической информации Is из сообщения  получатель приобретает при согласовании ее смыслового содержания S с тезаурусом Si (при Si = Siopt).

И нформация из одного и того же сообщения может иметь смысловое содержание для компетентного пользователя и быть бессмысленной для пользователя некомпетентного.

Количество семантической информации в сообщении, получаемом пользователем, является величиной индивидуальной, персонифицированной – в отличие от синтаксической информации. Однако измеряется семантическая информация также как синтаксическая – в битах и байтах.

Для простоты изложения, будем считать, что получаемые сообщения отправлены не с целью ввести нас в заблуждение и наши тезаурусы сформированы только из верной информации.

Относительной мерой количества семантической информации cлужит коэффициент содержательности C, который определяется как отношение количества семантической информации к её объёму данных Vd, содержащихся в сообщении :

.

1.5. Прагматический подход

При этом подходе количество информации, получаемой приемником, предлагается оценивать степенью ее полезности для достижения поставленной цели. Такой подход особенно привлекателен для оценки количества информации в системах управления, в которых применяется более сложная схема информационного взаимодействия “источник – приемник”, чем в концепции Шеннона. В них информация рассматривается не сама по себе, а как средство, с помощью которого управляющий объект A может влиять на управляемый объект B с целью получения желательного поведения этого объекта, оцениваемого критериями качества. В этом случае рассматривается двойная схема информационного взаимодействия. С одной стороны, передается управляющая информация от A к B о том, как должны меняться состояния B (прямая связь). С другой стороны, передается информация от B к A о том, насколько реальные изменения состояний B соответствуют должным (обратная связь). В этой схеме количество получаемой информации как в прямой, так и в обратной связи можно оценивать степенью её полезности для достижения цели, стоящей перед системой управления.

Приведем два показателя, оценивающих прагматическую меру информации.

  1. Приращение вероятности достижения цели.

Если до получения сообщения  вероятность достижения цели была p0 , а после получения - р1 , то ценность информации, полученной из сообщения  можно оценить с помощью показателя Ip:

Ip = log1/ р0).

Если сообщение не изменило вероятность достижения цели и р1= р0, ценность полученной с ним информации – нулевая.

В центре города, Вы спрашиваете у прохожего, который выглядит как местный житель - о том, как пройти к искомому Вами Старокоромысловскому переулку. Самостоятельно его найти Вы не можете и до получения ответа вероятность достижения цели ненулевая, но близка к нулю р0  0.01. Может быть, что из полученного ответа Вы ровно ничего не поняли и, поблагодарив, пошли дальше, имея прежнюю вероятность достижения цели: р1= р0 и Ip = 0. Позже Вам вдруг повезло и следующий встречный так хорошо объяснил путь до Старокоромысловского, что Вы даже поняли, что доберетесь за 5 минут. р1 стала практически равной единице р1  0.99. Так что прагматическая мера информации, ее ценность в данной модели измерения равна log (0.99/0.01)= log 99  6.63 бит или почти 2 дита.

  1. Прагматическая мера (ценность) информации оценивается величиной изменения целевой функции, обусловленным получением информации. Измеряется в тех же самых единицах, в которых измеряется целевая функция.

Целевая функция служит для определения экономического результата принятия решения (экономического эффекта) или проще – для количественной оценки конкретного варианта решения. Она может оценивать величину прибыли (в рублях, долларах, евро и т.д.), получаемой в случае принятия данного решения или измерять величину соответствующих данному решению расходов имеющегося набора ресурсов (в килограммах, метрах, штуках и т.д.).

Желаемым результатом принятия решения должна быть либо наибольшая из всех возможных при данном наборе ресурсов прибыль, либо наименьшие расходы ресурсов, соответствующие выбранному решению.

Тогда прагматическую меру (ценность) информации I(), содержащейся в сообщении  можно оценить по величине изменения целевой функции:

I()= С(/) – С(),

где I() – ценность информационного сообщения  для системы ,

С() – значение целевой функции, оценивающей экономический эффект функционирования системы  до получения сообщения ,

С(/) – значение целевой функции, оценивающей эффект функционирования системы  при условии, что будет использована информация, содержащаяся в сообщении .

Термин «целевая функция» активно используется в линейном программировании и исследовании операций, изучающими способы получения оптимальных решений. На практике мы пользуемся методами оптимизации постоянно, когда сталкиваемся с проблемой выбора, например, маршрута следования (длина пути должна быть минимальной по времени или деньгам). Например, готовясь к ремонту квартиры, мы составляем длинный перечень необходимых для него материалов и инструментов, которые необходимо закупить: обои, клей, краска, кисти, гвозди, шурупы и т.д. По каждому названию известно требуемое количество: q1– обоев, q2 - клея,… и т.д. – всего n названий. В соседнем магазине есть все n необходимых названий по ценам с1, с2, …, сn (в рублях за единицу измерения) и поэтому существует разумное решение: закупить все необходимое здесь. Цена этого решения определится так:

C(c,q) = с1*q1 + с2*q2 + ….+ сn*qn = С0

Пусть С0 = 15000 руб. С0 = C(c,q) представляет суммарную стоимость необходимых для ремонта материалов. Это и есть наша целевая функция. Естественно стремление каждого нормального хозяина минимизировать расходы на ремонт, в частности – на закупаемые материалы. Полученный по почте каталог принес сообщение о ценах на стройматериалы в других магазинах города. С помощью этого каталога удалось найти магазины, в которых цены на требуемые материалы минимальны и равны с1, с2, …, сn . Затраты на материалы изменятся, величина новой целевой функции теперь равна:

C(c,q) = с1*q1 + с2*q2 + ….+ сn*qn = С1

Пусть С1=10000 руб. Тогда изменение величины целевой функции и представляет прагматическую оценку информации, полученную из сообщения в каталоге:

I(c,c,q)= С0 - С1

В нашем примере ценность полученной из каталога информации равна 5000. Заметим, что измеряется она не в битах или дитах, а в рублях.