Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ТОИС.docx
Скачиваний:
60
Добавлен:
26.03.2015
Размер:
201.59 Кб
Скачать

2. Количество информации, ее определение. Единица информации. Понятие энтропии в теории информации.

КОЛИЧЕСТВО ИНФОРМАЦИИ, ЕЕ ОПРЕДЕЛЕНИЕ. ЕДИНИЦА ИНФОРМАЦИИ.

Количество информации – в теории информации – мера информации, сообщаемой появлением события определённой вероятности; или мера оценки информации, содержащейся в сообщении или мера , характеризующая уменьшение неопределённости, содержащейся в одной случайной величине относительно другой.

Предположим, что какое-то событие имеет m равновероятных исходов. Таким событием может быть, например, появление любого символа из алфавита, содержащего m таких символов. Как изме­рить количество информации, которое может быть передано при помощи такого алфавита? Это мож­но сделать, определив число N возможных сообщений, которые могут быть переданы при помощи этого алфавита. Если сообщение формируется из одного символа, то N = m, если из двух, то N = m*m = m2. Если сообщение содержит n символов (n- длина сообщения), то N = mn Казалось бы, ис­комая мера количества информации найдена. Ее можно понимать как меру неопределенности опыта, если под опытом подразумевать случайный выбор какого-либо сообщения из некоторого числа воз­можных. Однако эта мера не совсем удобна. При наличии алфавита, состоящего из одного символа, т.е. когда m = 1, возможно появление только этого символа. Следовательно, неопределенности в этом случае не существует, и появление этого символа не несет никакой информации. Между тем, значение N при m = 1 не обращается в нуль. Для двух независимых источников сообщений (или ал­фавита) с N1 и N2 числом возможных сообщений общее число возможных сообщений N = N1N2, в то время как логичнее было бы считать, что количество информации, получаемое от двух независимых источников, должно быть не произведением, а суммой составляющих величин. Выход из положения был найден Р.Хартли, который предложил информацию I, приходящуюся на одно сообщение, определять логарифмом общего числа возможных сообщений N: I(N)=logN (1)

Если-же все множество возможных сообщений состоит из одного (N = m = 1), то I(N) = log 1 = 0, что соответствует отсутствию информации в этом случае. При наличии независимых источников информации с N1 и N2 числом возможных сообщений

I(N) = logN = log N1N2 = log N1 + logN2, т.е. количество информации, приходящееся на одно сообщение, равно сумме количеств информации, которые были бы получены от двух независимых источников, взятых порознь. Формула, предложен­ная Хартли, удовлетворяет предложенным требованиям. Поэтому ее можно использовать для изме­рения количества информации.

Если возможность появления любого символа алфавита равновероятна (а мы до сих пор пред­полагали, что это именно так), то эта вероятность р = 1/m. Полагая, что N=m,

I = logN = logm = logl/p = -log p, (2) т.е. количество информации на каждый равновероятный сигнал равно минус логарифму вероятности отдельного сигнала.

Полученная формула позволяет для некоторых случаев определить количество информации. Однако для практических целей необходимо задаться единицей его из­мерения. Для этого предположим, что информация - это устраненная неопределен­ность. Тогда в простейшем случае неопределенности выбор будет производиться между двумя взаимоисключающими друг друга равновероятными сообщениями, на­пример между двумя качественными признаками: положительным и отрицатель­ным импульсами, импульсом и паузой и т.п. Количество информации, переданное в этом простейшем случае, наиболее удобно принять за единицу количества информа­ции. Именно такое количество информации может быть получено, если применить формулу (2) и взять логарифм по основанию 2. Тогда I = -log2p = -logl/2 = log22 = 1

Полученная единица количества информации, представляющая собой выбор из двух равновероятных событий, получила название двоичной единицы, или бита. На­звание bit образовано из двух начальных и последней букв английского выражения binary digit, что значит двоичная единица. Бит является не только единицей количества информации, но и единицей измерения степени неопределенности. При этом имеется в виду неопределенность, которая содержится в одном опыте, имеющем два равноверо­ятных исхода.

На количество информации, получаемой из сообщения, влияет фактор неожиданности его для получения того или иного сообщения. Чем меньше эта вероятность, тем сообщение более неожидан­но и, следовательно, более информативно. Сообщение, вероятность которого высока и, соответст­венно, низка степень неожиданности, несет немного информации.

Р. Хартли понимал, что сообщения имеют различную вероятность и, следова­тельно, неожиданность их появления для получателя неодинакова. Но, определяя ко­личество информации, он пытался полностью исключить фактор "неожиданности". Поэтому формула Хартли позволяет определить количество информации в сообщении только для случая, когда появление символов равновероятно и они статистически не­зависимы. На практике эти условия выполняются редко. При определении количества информации необходимо учитывать не только количество разнообразных сообщений, которые можно получить от источника, но и вероятность их получения.

Наиболее широкое распространение при определении среднего количества ин­формации, которое содержится в сообщениях от источников самой разной природы, получил подход К. Шеннона. Рассмотрим следующую ситуацию.

Источник передает элементарные сигналы k различных типов. Проследим за достаточно длин­ным отрезком сообщения. Пусть в нем имеется N1 сигналов первого типа, N2 сигналов второго типа, …, Nk сигналов k-го типа, причем N1 + N2 + ... + Nk = N - общее число сигналов в наблюдаемом от­резке, f1, f2,..., fk- частоты соответствующих сигналов.

При возрастании длины отрезка сообщения каждая из частот стремится к фиксированному пре­делу, т.е.

lim fi = pi (i = 1,2,..., k), где pi можно считать вероятностью сигнала. Предположим, получен сигнал i-того типа с вероятностью pi, содержащий -logpi единиц информации. В рассматриваемом отрезке i-й сигнал встретится примерно Npi раз (будем считать, что N достаточно велико), и общая информация, доставленная сигналами этого типа, будет равна произведению -Npilogpi. То же отно­сится к сигналам любого другого типа, поэтому полное количество информации, доставленное от­резком из N сигналов, будет примерно равно

Чтобы определить среднее количество информации, приходящееся на один сигнал, т.е. удель­ную информативность источника, нужно это число разделить на N. При неограниченном росте числа сигналов приблизительное равенство перейдет в точное. В результате будет получено асим­птотическое соотношение - формула Шеннона:

В последнее время она стала не менее распространенной, чем знаменитая формула Эйнштейна Е=mс2. Оказалось, что формула, предложенная Хартли, представляет собой частный случай более общей формулы Шеннона. Если в формуле Шеннона принять, что p1= p2 = ... = pi = ... pn = 1/N,

то

Знак минус в формуле Шеннона не означает, что количество информации в сообщении - отри­цательная величина. Объясняется это тем, что вероятность р, согласно определению, меньше едини­цы, но больше нуля. Так как логарифм числа, меньшего единицы, т.е. logpi - величина отрицательная, то произведение вероятности на логарифм числа будет положительным.

ПОНЯТИЕ ЭНТРОПИИ В ТЕОРИИ ИНФОРМАЦИИ.

В результате развития теории информации и ее приложений идеи Шеннона быст­ро распространяли свое влияние на самые различные области знаний. Было замечено,

что формула Шеннона очень похожа на используемую в фи­зике формулу энтропии, выведенную Больцманом.

Энтропия (информационная) – мера хаотичности информации, неопределённость появления какого-либо симовала первичного алфавита. При отсутствии информационных потерь численно равна количеству информации на симовл передаваемого сообщения. Энтропия обозначает степень не­упорядоченности статистических форм движения молекул. Энтропия максимальна при равновероятном распределении параметров движения молекул (направлении, ско­рости и пространственном положении). Значение энтропии уменьшается, если дви­жение молекул упорядочить. По мере увеличения упорядоченности движения энтро­пия стремится к нулю (например, когда возможно только одно значение и направление скорости). При составлении какого-либо сообщения (текста) с помощью энтропии можно характеризовать степень неупорядоченности движения (чередования) симво­лов. Текст с максимальной энтропией — например: ИХЗЦЗЦЩУЩУШКШГЕНЕ-ЭФЖ.

Используя различие формул количества информации Шеннона и энтропии Больцмана (разные знаки), Л. Бриллюэн охарактеризовал информацию как отрица­тельную энтропию, или негэнтропию. Так как энтропия является мерой неупорядо­ченности, то информация может быть определена как мера упорядоченности матери­альных систем.

3. СЕМАНТИЧЕСКАЯ КОНЦЕПЦИЯ ИНФОРМАЦИИ. ПОНЯТИЕ ТЕЗАУРУСА. ЗАКОНОМЕРНОСТИ ВОСПРИЯТИЯ ИНФОРМАЦИИ РЕЦИПИЕНТОМ В РАМКАХ ТЕЗАУРУСНОЙ МОДЕЛИ КОММУНИКАЦИИ.

СЕМАНТИЧЕСКАЯ КОНЦЕПЦИЯ ИНФОРМАЦИИ.

Семантика изучает знаковые системы как средства выражения смысла, опреде­ленного содержания, т. е. правила интерпретации знаков и их сочетаний, смысловую сторону языка.

Основная идея семантической концепции информации заключается в возмож­ности измерения содержания (предметного значения) суждений. Но содержание все­гда связано с формой, поэтому синтаксические и семантические свойства информа­ции взаимосвязаны, хотя и различны. Получается, что содержание все-таки можно из­мерить через форму, т. е. семантические свойства информации выразить через синтак­сические. Поэтому и исследования семантики базировались на понятии информации как уменьшении или устранении неопределенности, с которым мы уже знакомы.

Сразу же заметим, что методы точного количественного определения смыслового содержания информации в настоящее время еще не разработаны, поэтому мы ограни­чимся только кратким описанием подходов к решению этой проблемы.

Первую попытку построения теории семантической информации предприняли Р. Карнап и И. Бар-Хиллел. Они предложили определять величину семантической ин­формации посредством так называемой логической вероятности, которая представ­ляет собой степень подтверждения той или иной гипотезы. Таким образом, семантико-информационное содержание высказывания определяется не тем, что содержит данное высказывание, а тем, что оно исключает.

Однако, несмотря на определенные достижения, концепция Карнапа — Бар-Хиллела оказалась малопригодной для анализа содержания естественного языка. Эта теория, основанная на вероятностной логике, неприменима к анализу основного мас­сива научного знания — достоверного знания. С точки зрения указанной теории, на­пример, высказывание «На Луне есть нефть» содержит информацию, а высказывание «На Земле есть нефть» лишено информации, поскольку это достоверное знание. Та­кая ситуация представлялась довольно парадоксальной!

ПОНЯТИЕ ТЕЗАУРУСА.

Все здание человеческого знания, согласно этой модели, можно рассматривать в виде совокупности смысловыражающих элементов и смысловых отношений между ними. Множество смысловыражающих элементов и смысловых отношений на нем на­зывается тезаурусом. Слово «тезаурус» происходит от греческого — сокровище, со­кровищница, все огромное множество понятий и отношений между ними, иными сло­вами, тезаурус составляет главное сокровище человека — его знания. Таким обра­зом, ТЕЗАУРУС это знание, представленное в виде понятий и отношений меж­ду ними, т. е. определенным образом структурированное знание.

В широком смысле Тезаурус интерпретируют как описание системы знаний о действительности, которыми располагает индивидуальный носитель информации или группа носителей. Этот носитель может выполнять функции приёмника дополнительной информации, вследствие чего изменяется и его Тезаурус. Исходный тезаурус определяет при этом возможность приёмника при получении им семантической информации. Тезаурус фактически содержит не только информацию о действительности, но и метаинформацию (сведения об информации), обеспечивающую возможность приёма новых сообщений.

ЗАКОНОМЕРНОСТИ ВОСПРИЯТИЯ ИНФОРМАЦИИ РЕЦИПИЕНТОМ В РАМКАХ ТЕЗАУРУСНОЙ МОДЕЛИ КОММУНИКАЦИИ.

Обратимся в этой связи к модели семантической информации, в основе которой лежит понятие тезау­руса. Основы этой модели, состоят в следующем. Знания предлагается рассматривать в виде совокупности смысловыражающих элементов и смысловых связей между ними - тезауруса. Информация есть то, что воз­действуя на тезаурус, изменяет его. Отсутствие изменений в тезаурусе при получении сообщения означает отсутствие информации в сообщении - для данного реципиента. Зависимость информации, воспринимаемой получателем из сообщения, от величины тезауруса имеет примерно такой вид:

Приведенная зависимость, выражающая ключевую идею "тезаурусной" модели коммуникации, позво­ляет отметить важное обстоятельство: предварительное увеличение запаса знаний в тезаурусе ("операция расширения тезауруса) может не только уменьшать, но и увеличивать величину информации, извлекаемой из сообщения. Эта особенность модели семантической теории информации существенно отличает ее от классиче­ской теории информации.

Понятие тезауруса в приведенной модели семантической информации не определено строго (понятия "смысловыражающий элемент", "смысл"}, однако его введение позволяет:

  • оперировать с новой единицей информации - понятием (смысловыражающим элементом, отношени­ем) как элементом тезауруса;

  • учитывать релятивность (сопоставление) семантической информации как функцию объемов тезаурусов источника и реципиента.

Принятие единицы семантической информации - понятия - делает заманчивым понятие энтропии. В этой связи обращает на себя внимание внешнее сходство представленной на рис.1 кривой с графиком энтро­пии для двух зависимых случайных событий.

В семантической модели информации вероятность появления того или иного понятия в сообщении -достаточно важная характеристика процесса коммуникации, но принципиальное значение имеет другое: из­вестно ли это понятие реципиенту информации, иными словами, содержится оно уже в его тезаурусе, или нет. По этому, основному для тезаурусной модели признаку множество понятий, составляющих сообщение, разбивается на два подмножества - известных и не известных реципиенту до коммуникации, и существенны именно вероятности появления понятий из этих подмножеств. Тогда коммуникация (в рамках семантической ее модели!) может рассматриваться как традиционный для теории информации опыт с двумя возможными исходами (появление известного или не известного реципиенту элемента), причем случайные события, соот­ветствующие этим исходам - зависимы. Это означает, что сумма вероятностей их появления равна единице.

Эту аналогию можно интерпретировать следующим образом. До коммуникации существует некоторое характерное именно для данной пары "источник - реципиент" соотношение известных и не известных реци­пиенту элементов источника. Математическим ожиданием этой вероятности и является энтропия. Энтропия максимальна при равновероятности появления известных или неизвестных элементов. Сопоставим теперь этот результат с зависимостью эффективности коммуникации от соотношения тезаурусов источника и ре­ципиента. Воспользовавшись тем, что в тезаурусной модели коммуникации фигурирует единица информации ("элемент" тезауруса - понятие), можно сделать шаг к формализации этой зависимости, характеризуя относи­тельную "величину" тезаурусов, их "объем" вероятностями появления в них тех или иных элементов (поня­тий).

Прежде чем перейти к формальным рассуждениям, сделаем несколько замечаний, касающихся содержа­тельности самого понятия тезауруса Перейдем теперь к анализу тезаурусной модели коммуникации

В первом случае коммуникация невозможна {источник и реципиент информации не располагают об­щими для них понятиями), в третьем - бессмысленна (информация источника уже имеется у реципиента). Полезная коммуникация соответствует второй из перечисленных ситуаций, когда тезаурусы источника и реципиента пересекаются (Рис. 2).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]