Информатика все семинары и лекции / Лекция 2
.docxЛекція № 2: Основные понятия теории информации (ПС, ЮП)
1. Предмет теории информации и основные виды информационных процессов.
Важнейшим предметом ТИ является оценка количества и качества информации. Классификация теоретических направлений в зависимости от видов информационных мер иллюстрируется на рис.1.
Рис.1.
Структурная ТИ – рассматривает дискретное построение массивов информации и ее измерение простым комбинаторным расчетом порций (квантов) информации. Наиболее часто используются количественные оценки, носящие характер геометрических, комбинаторных или аддитивных вычислений. Пример – двоичная аддитивная мера Хартли, рассмотренная на предыдущей лекции.
Статистическая ТИ – рассматривает понятие энтропии, как меры статистической (вероятностной) неопределенности информации, представленной в виде систематизированных видов сообщений. Математическим аппаратом статистической ТИ является теория вероятностей. Основоположником статистической ТИ является К.Шеннон. Эта теория является основной во всех технических приложениях информатики.
Семантическая ТИ – рассматривает ценность, полезность или сущность информации. Семантическая ТИ базируется на понятиях семиотики (науки про знаки, слова и языки).
Каждое из рассмотренных трех направлений ТИ имеет свою специфическую область применения.
Основными элементарными информационными процессами, изучаемыми ТИ, являются:
1. Восприятие информации процесс целенаправленного получения и анализа информации о каких-либо процессах, явлениях и т.д. Этапами восприятия являются:
- первичное восприятие;
- анализ объекта исследования;
- выявление и распознавание семантических признаков;
- прогнозирование ситуаций.
2. Переработка информации – это логическое, аналитическое или эвристическое преобразование информации человеком или средствами ВТ с целью наиболее эффективного ее дальнейшего использования.
3. Представление информации – это процесс преобразования ее в форму, наиболее благоприятную для восприятия и переработки человеком или техническими средствами.
4. Передача информации в пространстве или времени. Передача в пространстве между объектами информационного процесса называется телекоммуникацией. Передача во времени составляет суть процесса хранения информации.
Основной формой представления некоторой "порции" информации является сообщение. Сообщения всегда представляются в виде материально-энергетической формы, т.е. в виде символов или сигналов – материальных технических носителей информации, являющихся переменными физическими величинами. В технике известны следующие виды сигналов: электрические; электромагнитные; акустические; механические; оптические и др.
Сущность информации определяет ее основные свойства:
-
количественное содержание И;
-
качественное содержание И (ценность):
-
достоверность – степень соответствия полученной информации (данных) ее первоначальному содержанию;
-
адекватность – степень соответствия информации реальным процессам, которые она отображает;
-
полнота – как свойство достаточности для принятия решений на основе полученной информации;
-
ценность – свойство полезности содержащейся в данных информации. В динамических системах ценность является убывающей функцией времени в результате "старения" информации;
-
избыточность – свойство, обеспечивающее сохранение среднего количества информации в данных при их частичных потерях. Избыточность используется для создания методов защиты от ошибок, т.е. для повышения достоверности.
-
2. Количественное описание информации. Понятие энтропии.
Количественное описание И. является основным проблемным вопросом теории информации. Мера информации должна быть: во-первых, интуитивно понятной; во-вторых, быть объективной и удобной при расчетах.
Первая попытка измерения количества информации была предпринята в 1921 г. американским ученым Р. Хартли. Он попытался связать количество информации с числом возможных сообщений (исходов) и ввел определение логарифмической меры:
,
где – число возможных исходов (значений) некоторого опыта (сигнала);
– основание логарифма, измеряющего информацию, которое определяет единицу меры следующим образом:
(двоичный логарифм)– единица измерения Бит (Binary Digital);
(натуральный логарифм) – единица измерения Нат;
(десятичный логарифм)– Дит (Decimal Digital).
Более строгую и объективную количественную меру информации предложил американский ученый Клод Элвуд Шеннон. В основополагающей работе "Математическая теория связи" (1948 г.) он утверждал, что семантические аспекты неуместны для измерения количества информации в технических системах. Шеннон связал количественную меру с вероятностями появления сообщений, являющихся своеобразными информационными квантами (порциями). При этом целесообразным оказалось применение логарифмической меры Хартли. Количество информации, содержащееся в произвольном сообщении источника, которое появляется с вероятностью в соответствии с мерой Шеннона
, (1)
где – основание логарифма, как и ранее определяющее единицу измерения информации. В современной теории информации и информатике используется, в основном, логарифм по основанию 2, поэтому наиболее привычной является единица измерения информации, называемая Битом.
Основными свойствами количественной меры (1) являются:
1. Непрерывность
Действительно, если вероятность события (сообщения) равна 1 (известное сообщение), в соответствии с (1) количество информации равно 0. Если вероятность сообщения , то . Это свойство количественной меры иллюстрируется графиком:
2. Аддитивность: количество информации, получаемой от независимых источников, равно сумме количества информации, получаемой от каждого из этих источников:
.
Покажем это на примере двух () независимых сообщений, имеющих вероятность совместного появления . Действительно: , однако, из теории вероятностей известно, что вероятность появления двух независимых событий равна произведению их вероятностей, т.е. . Поэтому
.
Обобщенной характеристикой информативности произвольного источника информации (сообщений) или некоторого потока данных является энтропия, которая определяется, как математическое ожидание количества информации в произвольном сообщении. Если источник может выдавать различных сообщений с вероятностями , соответственно, то энтропия такого источника определяется:
. (2)
Понятие энтропии заимствовано из термодинамики. Так энтропия Больцмана характеризует степень неопределенности некоторого объема газа, возникающую в результате хаотического теплового движения молекул. Формула (2) показывает, что энтропия является функцией только от распределения вероятностей появления различных сообщений источников . С использованием определения энтропии, количество информации в произвольном сообщении может быть определено, как убывание степени неопределенности источника, т.е.
,
где – априорная (до опыта) энтропия (неопределенность);
– апостериорная (после опыта) степень неопределенности.
Пример. Пусть учебная дисциплина подразумевает прослушивание 8 лекций, в случае если студент прослушал только 7 лекций, то количество полученной им информации может быть оценено, как убыль степени неопределенности :
Основные свойства энтропии:
1. Непрерывность и ограниченность: энтропия любого источника информации – непрерывная величина, ограниченная в диапазоне
,
где – число различных сообщений источника, называемое мощностью алфавита источника.
2. Энтропия принимает максимальное значение, если сообщения являются взаимно независимыми и равновероятными. Действительно, при равновероятных сообщениях , . Тогда
Это значит, что мера Хартли является частным случаем меры Шеннона для равновероятных сообщений.
Пример: энтропия двоичного источника. Пусть источник может генерировать два сообщения с вероятностью и – с вероятностью . Тогда
при .
3. Энтропия детерминированных (известных) сообщений, а также энтропия невозможных сообщений равна нулю:
при и .
4. Свойство аддитивности. совместная энтропия независимых сообщений равна сумме их энтропий. Это свойство, также как аналогичное свойство количества информации является следствием логарифмического измерения: логарифм произведения равен сумме логарифмов:
.
(далее выдача заданий на КР)