- •1. Основные подходы в определении понятия информации (характеристика информации как устранённой неопределённости, снятой неразличимости, отражённого разнообразия)
- •2. Количество информации, ее определение. Единица информации. Понятие энтропии в теории информации.
- •1) 2) 3)
- •5. Барьеры в информационном взаимодействии. Общие понятие виды.
- •6. Понятие системы. Системные принципы. Классификация систем
- •9. Специфика информационных потребностей ученых, специалистов, инженеров менеджеров и способы их изучения.
2. Количество информации, ее определение. Единица информации. Понятие энтропии в теории информации.
КОЛИЧЕСТВО ИНФОРМАЦИИ, ЕЕ ОПРЕДЕЛЕНИЕ. ЕДИНИЦА ИНФОРМАЦИИ.
Количество информации – в теории информации – мера информации, сообщаемой появлением события определённой вероятности; или мера оценки информации, содержащейся в сообщении или мера , характеризующая уменьшение неопределённости, содержащейся в одной случайной величине относительно другой.
Предположим, что какое-то событие имеет m равновероятных исходов. Таким событием может быть, например, появление любого символа из алфавита, содержащего m таких символов. Как измерить количество информации, которое может быть передано при помощи такого алфавита? Это можно сделать, определив число N возможных сообщений, которые могут быть переданы при помощи этого алфавита. Если сообщение формируется из одного символа, то N = m, если из двух, то N = m*m = m2. Если сообщение содержит n символов (n- длина сообщения), то N = mn Казалось бы, искомая мера количества информации найдена. Ее можно понимать как меру неопределенности опыта, если под опытом подразумевать случайный выбор какого-либо сообщения из некоторого числа возможных. Однако эта мера не совсем удобна. При наличии алфавита, состоящего из одного символа, т.е. когда m = 1, возможно появление только этого символа. Следовательно, неопределенности в этом случае не существует, и появление этого символа не несет никакой информации. Между тем, значение N при m = 1 не обращается в нуль. Для двух независимых источников сообщений (или алфавита) с N1 и N2 числом возможных сообщений общее число возможных сообщений N = N1N2, в то время как логичнее было бы считать, что количество информации, получаемое от двух независимых источников, должно быть не произведением, а суммой составляющих величин. Выход из положения был найден Р.Хартли, который предложил информацию I, приходящуюся на одно сообщение, определять логарифмом общего числа возможных сообщений N: I(N)=logN (1)
Если-же все множество возможных сообщений состоит из одного (N = m = 1), то I(N) = log 1 = 0, что соответствует отсутствию информации в этом случае. При наличии независимых источников информации с N1 и N2 числом возможных сообщений
I(N) = logN = log N1N2 = log N1 + logN2, т.е. количество информации, приходящееся на одно сообщение, равно сумме количеств информации, которые были бы получены от двух независимых источников, взятых порознь. Формула, предложенная Хартли, удовлетворяет предложенным требованиям. Поэтому ее можно использовать для измерения количества информации.
Если возможность появления любого символа алфавита равновероятна (а мы до сих пор предполагали, что это именно так), то эта вероятность р = 1/m. Полагая, что N=m,
I = logN = logm = logl/p = -log p, (2) т.е. количество информации на каждый равновероятный сигнал равно минус логарифму вероятности отдельного сигнала.
Полученная формула позволяет для некоторых случаев определить количество информации. Однако для практических целей необходимо задаться единицей его измерения. Для этого предположим, что информация - это устраненная неопределенность. Тогда в простейшем случае неопределенности выбор будет производиться между двумя взаимоисключающими друг друга равновероятными сообщениями, например между двумя качественными признаками: положительным и отрицательным импульсами, импульсом и паузой и т.п. Количество информации, переданное в этом простейшем случае, наиболее удобно принять за единицу количества информации. Именно такое количество информации может быть получено, если применить формулу (2) и взять логарифм по основанию 2. Тогда I = -log2p = -logl/2 = log22 = 1
Полученная единица количества информации, представляющая собой выбор из двух равновероятных событий, получила название двоичной единицы, или бита. Название bit образовано из двух начальных и последней букв английского выражения binary digit, что значит двоичная единица. Бит является не только единицей количества информации, но и единицей измерения степени неопределенности. При этом имеется в виду неопределенность, которая содержится в одном опыте, имеющем два равновероятных исхода.
На количество информации, получаемой из сообщения, влияет фактор неожиданности его для получения того или иного сообщения. Чем меньше эта вероятность, тем сообщение более неожиданно и, следовательно, более информативно. Сообщение, вероятность которого высока и, соответственно, низка степень неожиданности, несет немного информации.
Р. Хартли понимал, что сообщения имеют различную вероятность и, следовательно, неожиданность их появления для получателя неодинакова. Но, определяя количество информации, он пытался полностью исключить фактор "неожиданности". Поэтому формула Хартли позволяет определить количество информации в сообщении только для случая, когда появление символов равновероятно и они статистически независимы. На практике эти условия выполняются редко. При определении количества информации необходимо учитывать не только количество разнообразных сообщений, которые можно получить от источника, но и вероятность их получения.
Наиболее широкое распространение при определении среднего количества информации, которое содержится в сообщениях от источников самой разной природы, получил подход К. Шеннона. Рассмотрим следующую ситуацию.
Источник передает элементарные сигналы k различных типов. Проследим за достаточно длинным отрезком сообщения. Пусть в нем имеется N1 сигналов первого типа, N2 сигналов второго типа, …, Nk сигналов k-го типа, причем N1 + N2 + ... + Nk = N - общее число сигналов в наблюдаемом отрезке, f1, f2,..., fk- частоты соответствующих сигналов.
При возрастании длины отрезка сообщения каждая из частот стремится к фиксированному пределу, т.е.
lim
fi
= pi
(i = 1,2,...,
k),
где pi
можно считать вероятностью сигнала.
Предположим, получен сигнал i-того
типа с вероятностью pi,
содержащий -logpi
единиц информации. В рассматриваемом
отрезке i-й
сигнал встретится примерно Npi
раз (будем считать, что N
достаточно велико), и общая информация,
доставленная сигналами этого типа,
будет равна произведению -Npilogpi.
То же относится к сигналам любого
другого типа, поэтому полное количество
информации, доставленное отрезком
из N
сигналов, будет примерно равно
Чтобы
определить среднее количество информации,
приходящееся на один сигнал, т.е. удельную
информативность источника, нужно это
число разделить на N.
При
неограниченном росте числа сигналов
приблизительное равенство перейдет в
точное. В
результате будет получено асимптотическое
соотношение - формула Шеннона:![]()
В последнее время она стала не менее распространенной, чем знаменитая формула Эйнштейна Е=mс2. Оказалось, что формула, предложенная Хартли, представляет собой частный случай более общей формулы Шеннона. Если в формуле Шеннона принять, что p1= p2 = ... = pi = ... pn = 1/N,
то
Знак минус в формуле Шеннона не означает, что количество информации в сообщении - отрицательная величина. Объясняется это тем, что вероятность р, согласно определению, меньше единицы, но больше нуля. Так как логарифм числа, меньшего единицы, т.е. logpi - величина отрицательная, то произведение вероятности на логарифм числа будет положительным.
ПОНЯТИЕ ЭНТРОПИИ В ТЕОРИИ ИНФОРМАЦИИ.
В результате развития теории информации и ее приложений идеи Шеннона быстро распространяли свое влияние на самые различные области знаний. Было замечено,
что
формула Шеннона
очень
похожа на используемую в физике
формулу энтропии, выведенную Больцманом.
Энтропия (информационная) – мера хаотичности информации, неопределённость появления какого-либо симовала первичного алфавита. При отсутствии информационных потерь численно равна количеству информации на симовл передаваемого сообщения. Энтропия обозначает степень неупорядоченности статистических форм движения молекул. Энтропия максимальна при равновероятном распределении параметров движения молекул (направлении, скорости и пространственном положении). Значение энтропии уменьшается, если движение молекул упорядочить. По мере увеличения упорядоченности движения энтропия стремится к нулю (например, когда возможно только одно значение и направление скорости). При составлении какого-либо сообщения (текста) с помощью энтропии можно характеризовать степень неупорядоченности движения (чередования) символов. Текст с максимальной энтропией — например: ИХЗЦЗЦЩУЩУШКШГЕНЕ-ЭФЖ.
Используя различие формул количества информации Шеннона и энтропии Больцмана (разные знаки), Л. Бриллюэн охарактеризовал информацию как отрицательную энтропию, или негэнтропию. Так как энтропия является мерой неупорядоченности, то информация может быть определена как мера упорядоченности материальных систем.
3. СЕМАНТИЧЕСКАЯ КОНЦЕПЦИЯ ИНФОРМАЦИИ. ПОНЯТИЕ ТЕЗАУРУСА. ЗАКОНОМЕРНОСТИ ВОСПРИЯТИЯ ИНФОРМАЦИИ РЕЦИПИЕНТОМ В РАМКАХ ТЕЗАУРУСНОЙ МОДЕЛИ КОММУНИКАЦИИ.
СЕМАНТИЧЕСКАЯ КОНЦЕПЦИЯ ИНФОРМАЦИИ.
Семантика изучает знаковые системы как средства выражения смысла, определенного содержания, т. е. правила интерпретации знаков и их сочетаний, смысловую сторону языка.
Основная идея семантической концепции информации заключается в возможности измерения содержания (предметного значения) суждений. Но содержание всегда связано с формой, поэтому синтаксические и семантические свойства информации взаимосвязаны, хотя и различны. Получается, что содержание все-таки можно измерить через форму, т. е. семантические свойства информации выразить через синтаксические. Поэтому и исследования семантики базировались на понятии информации как уменьшении или устранении неопределенности, с которым мы уже знакомы.
Сразу же заметим, что методы точного количественного определения смыслового содержания информации в настоящее время еще не разработаны, поэтому мы ограничимся только кратким описанием подходов к решению этой проблемы.
Первую попытку построения теории семантической информации предприняли Р. Карнап и И. Бар-Хиллел. Они предложили определять величину семантической информации посредством так называемой логической вероятности, которая представляет собой степень подтверждения той или иной гипотезы. Таким образом, семантико-информационное содержание высказывания определяется не тем, что содержит данное высказывание, а тем, что оно исключает.
Однако, несмотря на определенные достижения, концепция Карнапа — Бар-Хиллела оказалась малопригодной для анализа содержания естественного языка. Эта теория, основанная на вероятностной логике, неприменима к анализу основного массива научного знания — достоверного знания. С точки зрения указанной теории, например, высказывание «На Луне есть нефть» содержит информацию, а высказывание «На Земле есть нефть» лишено информации, поскольку это достоверное знание. Такая ситуация представлялась довольно парадоксальной!
ПОНЯТИЕ ТЕЗАУРУСА.
Все здание человеческого знания, согласно этой модели, можно рассматривать в виде совокупности смысловыражающих элементов и смысловых отношений между ними. Множество смысловыражающих элементов и смысловых отношений на нем называется тезаурусом. Слово «тезаурус» происходит от греческого — сокровище, сокровищница, все огромное множество понятий и отношений между ними, иными словами, тезаурус составляет главное сокровище человека — его знания. Таким образом, ТЕЗАУРУС — это знание, представленное в виде понятий и отношений между ними, т. е. определенным образом структурированное знание.
В широком смысле Тезаурус интерпретируют как описание системы знаний о действительности, которыми располагает индивидуальный носитель информации или группа носителей. Этот носитель может выполнять функции приёмника дополнительной информации, вследствие чего изменяется и его Тезаурус. Исходный тезаурус определяет при этом возможность приёмника при получении им семантической информации. Тезаурус фактически содержит не только информацию о действительности, но и метаинформацию (сведения об информации), обеспечивающую возможность приёма новых сообщений.
ЗАКОНОМЕРНОСТИ ВОСПРИЯТИЯ ИНФОРМАЦИИ РЕЦИПИЕНТОМ В РАМКАХ ТЕЗАУРУСНОЙ МОДЕЛИ КОММУНИКАЦИИ.
Обратимся в этой связи к модели семантической информации, в основе которой лежит понятие тезауруса. Основы этой модели, состоят в следующем. Знания предлагается рассматривать в виде совокупности смысловыражающих элементов и смысловых связей между ними - тезауруса. Информация есть то, что воздействуя на тезаурус, изменяет его. Отсутствие изменений в тезаурусе при получении сообщения означает отсутствие информации в сообщении - для данного реципиента. Зависимость информации, воспринимаемой получателем из сообщения, от величины тезауруса имеет примерно такой вид:
Приведенная
зависимость, выражающая ключевую
идею
"тезаурусной"
модели
коммуникации,
позволяет отметить важное обстоятельство:
предварительное
увеличение запаса знаний в тезаурусе
("операция расширения тезауруса)
может не только уменьшать, но и увеличивать
величину информации, извлекаемой из
сообщения.
Эта особенность модели семантической
теории информации существенно отличает
ее от классической теории информации.
Понятие тезауруса в приведенной модели семантической информации не определено строго (понятия "смысловыражающий элемент", "смысл"}, однако его введение позволяет:
оперировать с новой единицей информации - понятием (смысловыражающим элементом, отношением) как элементом тезауруса;
учитывать релятивность (сопоставление) семантической информации как функцию объемов тезаурусов источника и реципиента.
Принятие единицы семантической информации - понятия - делает заманчивым понятие энтропии. В этой связи обращает на себя внимание внешнее сходство представленной на рис.1 кривой с графиком энтропии для двух зависимых случайных событий.
В семантической модели информации вероятность появления того или иного понятия в сообщении -достаточно важная характеристика процесса коммуникации, но принципиальное значение имеет другое: известно ли это понятие реципиенту информации, иными словами, содержится оно уже в его тезаурусе, или нет. По этому, основному для тезаурусной модели признаку множество понятий, составляющих сообщение, разбивается на два подмножества - известных и не известных реципиенту до коммуникации, и существенны именно вероятности появления понятий из этих подмножеств. Тогда коммуникация (в рамках семантической ее модели!) может рассматриваться как традиционный для теории информации опыт с двумя возможными исходами (появление известного или не известного реципиенту элемента), причем случайные события, соответствующие этим исходам - зависимы. Это означает, что сумма вероятностей их появления равна единице.
Эту аналогию можно интерпретировать следующим образом. До коммуникации существует некоторое характерное именно для данной пары "источник - реципиент" соотношение известных и не известных реципиенту элементов источника. Математическим ожиданием этой вероятности и является энтропия. Энтропия максимальна при равновероятности появления известных или неизвестных элементов. Сопоставим теперь этот результат с зависимостью эффективности коммуникации от соотношения тезаурусов источника и реципиента. Воспользовавшись тем, что в тезаурусной модели коммуникации фигурирует единица информации ("элемент" тезауруса - понятие), можно сделать шаг к формализации этой зависимости, характеризуя относительную "величину" тезаурусов, их "объем" вероятностями появления в них тех или иных элементов (понятий).
Прежде чем перейти к формальным рассуждениям, сделаем несколько замечаний, касающихся содержательности самого понятия тезауруса Перейдем теперь к анализу тезаурусной модели коммуникации
В первом случае коммуникация невозможна {источник и реципиент информации не располагают общими для них понятиями), в третьем - бессмысленна (информация источника уже имеется у реципиента). Полезная коммуникация соответствует второй из перечисленных ситуаций, когда тезаурусы источника и реципиента пересекаются (Рис. 2).
