Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
учебник по информатике.doc
Скачиваний:
29
Добавлен:
20.11.2018
Размер:
11.68 Mб
Скачать

1.2. Понятие информации. Характеристики информации.

Информация - это сведения об объектах и явлениях окружающей среды, их параметрах, свойствах и состояниях, которые уменьшают имеющуюся о них степень неопределенности, неполноты знаний.

Информатика рассматривает информацию как связанные между собой сведения, изменяющие наши знания (представления) о явлении или объекте окружающего мира. С этой точки зрения (эта точка зрения излагается в науке под названием семиотика) информацию можно рассматривать как совокупность специфических знаний о фактических данных и зависимостях между ними.

В контексте трактовки информации как специфического явления отражения окружающего нас мира (предметной области) в нашем сознании (т.е. в виде специфических знаний) можно говорить о том, что информация может иметь структуру и форму.

Это отражение достигается с помощью, так называемых, естественных и формальных языков. Как известно из семиотики описание предметной области первоначально дается на естественном языке. Язык характеризуется набором знаков. Набор знаков это множество отличимых друг от друга и легко воспроизводимых объектов («вещей»), которые используются для обозначения других объектов или явлений (эти явления, в отличии от знаков, называются денотат). Разумеется, все они могут отражаться в нашем сознании в виде свойств этих объектов. Это отражение называется концепт. Именно эта тройка (отношения между денотатам, знаком и концептом) и формирует то, что, мы называем понятием (так называемый треугольник Фреге). Знаки, в свою очередь, подразделяются на иконы («рисунки» графически похожие на явление, которое они представляют), индексы и символы (это «рисунки» которые совсем не похожи на те объекты, которые они представляют и они выбираются согласно всеобщим соглашениям между людьми). Разумеется можно создавать различные системы знаков.

И так язык состоит из последовательности знаков или символов, которые дают описание отдельных явлений с помощью понятий. Причинно следственные связи между явлениями отражаются в языке в виде предложений (суждений) этого языка. Суждения представляют собой отношения между понятиями. Предложения естественного языка есть утверждение о том, что между конкретными объектами существуют определенные взаимоотношения (взаимодействия). Правила определения понятий и правила организации предложений в естественных языках весьма сложны и не однозначны. Для преодоления этой трудности еще Аристотелем были предложены наборы строгих правил, которые получили название законов формальной логики. Язык, построенный на основе этих законов, получил название формального языка.

Такие языки, обеспечивающие предельную конкретность в описании окружающего нас мира, нашли широкое применение в естественных науках и в технике. В частности именно формальные языки послужили основой при создании компьютеров, систем связи и управления. Компьютерные программы, которые составляют неотъемлемую часть ЭВМ написаны на подобных специализированных формальных языках.

Таким образом, под описанием предметной области на формальном языке предполагается соотнесение с ее описанием на естественном языке. В любом случае явление информации, понимаемое как специфическое явление отражения окружающего нас мира (предметной области) в нашем сознании (т.е. в виде специфических знаний) может быть представлено в виде текста на формальном или естественном языке.

Признаком наличия структуры информации является существование элементов информации и их взаимосвязь.

В качестве элементов информации могут выступать логически неделимые структуры языка – символы или их объединения в виде суждений.

Формы представления информации в нашем сознании могут быть различны. Основными из них являются: символьная (основана на использовании различных символов), текстовая (текст - это символы, расположенные в определенном порядке), графическая (различные виды рисунков или изображений), звуковая, тактильная.

Следует особо отметить, что явление информация представленное в виде фрагментов формального языка готово для манипуляции с ним с помощью компьютеров. Поэтому явление информации, преобразованное во фрагменты формального языка, получила специальное название – данные. Если такие фрагменты текстов формального или естественного языка предполагается перемещать в пространстве, то они называются сообщениями. В повседневной практике, однако, такие понятия, как информация и данные, часто рассматриваются как синонимы. На самом деле между ними имеются принципиальные различия. И так более кратко.

Данные – это информация, представленная в удобном для обработки виде.

Более строго - данные в информатике это совокупность символов, соглашений и правил, используемых для общения, отображения, передачи информации в электронном виде.

Одной из важнейших характеристик информации является ее адекватность.

Адекватность информации - это уровень соответствия образа, создаваемого в сознании с помощью информации, реальному объекту, процессу, явлению. От степени адекватности информации зависит правильность принятия решения.

Согласно идеям семиотики, адекватность информации может выражаться в трех формах: синтаксической, семантической и прагматической.

Синтаксическая адекватность отображает формально-структурные характеристики информации, не затрагивая ее глубокого семантического (смыслового) содержания.

На синтаксическом уровне учитываются физический и математический способ описания такого явления как информация (физический тип носителя и физический способ представления информации, скорость ее передачи и обработки, размеры кодов представления информации, надежность и точность преобразования этих кодов и т.д.). Здесь уточняется система представления информации в виде символов или знаков. Информацию, рассматриваемую с таких позиций, обычно определяют как сообщения, данные.

Поскольку возможны различные формы представления символьной информации, то существуют специальные алгоритмы ее преобразования из одной знаковой системы в другую. Такие преобразования получили название кодирование. Результат преобразования называется кодом. Обратные операции называются декодированием.

Если предполагается транспортировка сообщений и данных на большие расстояния, то для этого используется специальное физическое преобразование сообщения в другую физическую форму, более удобную для транспортировки на большие расстояния. Такая форма получила специальное название - сигнал. Процедура такого преобразования получила название модуляции. Обратная операция получила название демодуляция или детектирование.

В рамках синтаксического подхода возможно дать чисто естественно научное описание информации как природного явления суть которого сводится к понижению неопределенности состояния открытых термодинамических систем любой природы. С этой точки зрения информационные явления возможны (при определенных условиях) в открытых термодинамических системах на физическом, химическом и биологическом уровне. Эти явления описываются в рамках второго обобщенного закона термодинамики и теоремы Пригожина. Специфика информационных явлений применительно к человеку определяется таким фундаментальным явлением как сознание человека. Достаточно полное естественно научное описание этого явления пока не получено. И поэтому приходится здесь ограничиваться менее полными описаниями, которые разработаны в семиотике и теории познания (гносеологии). Этот уровень описания дается в семиотике в ее разделе под названием семантика.

Семантическая адекватность определяет степень соответствия образа объекта в сознании самому объекту. Здесь учитывается смысловое содержание информации. На этом уровне человеком анализируются сведения, отражаемые информацией, рассматриваются смысловые связи. Таким образом, семантическая адекватность проявляется при наличии единства информации и пользователя. Эта форма служит для формирования понятий и представлений, выявления смысла, содержания информации и ее обобщения.

Прагматическая адекватность отражает соответствие информации цели управления, реализуемой на ее основе. Прагматические свойства информации проявляются при наличии единства информации, пользователя и цели управления. На этом уровне анализируются потребительские свойства информации, связанные с практическим использованием информации, с соответствием ее целевой функции деятельности системы.

Каждой форме адекватности соответствует своя мера количества информации.

Рис.1. Меры информации

Синтаксическая мера информации

Для количественной меры в символьном представлении данных используется количественная характеристика (физическая или математическая величина) называемая объем данных в сообщении. Объем данных в сообщении измеряется количеством символов в этом сообщении.

Сообщение состоит из последовательности символов. Число символов в сообщении конечно и равно n. Здесь говорят о длине сообщения или объеме данных в сообщении. Символы могут быть разного типа. Число типов символов обозначается как m. Полный набор типов символов называется алфавитом сообщения.

Итак - объем данных Vд – в сообщении измеряется количеством символов (разрядов) n в этом сообщении. В различных системах счисления один разряд имеет различный вес и соответственно меняется единица измерения данных.

Для введения количественной меры синтаксической информации, которая получила название количество информации по Шеннону потребуется рассмотреть вероятностную математическую модель данных или сообщений. Кроме того, количество информации I на синтаксическом уровне невозможно определить без рассмотрения понятия неопределённости состояния системы (энтропии системы). Рассмотрим это понятие подробнее. Для этого введем понятие источника сообщений.

Пусть источник сообщений есть явление, которое порождает последовательность символов Xk,i длиной n (i=1,n). Сообщением можно считать каждый символ в этой последовательности. Иногда удобнее под сообщением понимать фрагмент этой последовательности. В этом случае отдельный символ в этом фрагменте будет называться элементом сообщения.

Согласно математической модели сообщения каждый символ типа k появляется случайно из алфавита объемом m. Фактически речь идет о появлении символа, как случайном событии. Вероятность появления этого символа равна: . Мера неопределенности появления именно данного символа количественно описывается математической величиной получившей название удельная энтропия на один элемент сообщения:

Можно считать эту неопределенность сообщения априорной (до опыта). Однако если получено (это и есть опыт) другое случайное событие (сообщение) содержащее некий символ Yr,i , которое статистически связано с появлением символа Xk,i то возможно вычисление апостериорной энтропии (после опыта) :

Здесь – вероятность появления символа Xk,i ; это условная вероятность появления символа Xk,i при условии что символ Yr,i уже появился.

Теперь можно определить количество информации по Шеннону как уменьшение степени неопределенности появления конкретного символа Xk,i сообщения, после того как появился символ Yr,i в виде разности априорной и апостериорной энтропий.

I = H(x) - H (x/y)

Можно дать несколько более обобщенную формулировку с учетом выше изложенного, если под источником сообщений понимать явление (систему) любой природы (конечный автомат) состояния которой трактуются как символы определенного типа. Тогда априорная энтропия системы H(), имеющая N возможных состояний равна:

где Pi – вероятность того, что система находится в i-м состоянии.

После того как появилось некоторое явление , связанное с системой причинно-следственными связями (сообщение ) неопределенность (апостериорная энтропия системы) H(/), уменьшилась. Тогда количество информации I() о системе, полученной в сообщении , определяется как

I () = H() – H(/),

т.е. количество информации измеряется (уменьшением) неопределённости состояния системы.

Если апостериорная неопределённость H(/), обратится в нуль, то первоначальная апостериорная, неопределенность заменится полной определенностью и количество информации I () = H(). Это частная ситуация в литературе трактуется как негэнтропия Бриллюэна.

Для случая, когда все состояния системы равновероятны, т. е. их вероятности равны, а число состояний равно N имеем:

, где энтропия системы определяется соотношением

Если источник сообщения имеет алфавит размером m, а число возможных символов в сообщении равно n, то число возможных оригинальных сообщений будет равно :

M=mn .

Примером сообщения является текст. Любой текст состоит из конечного числа символов (букв). Полный набор букв называется алфавитом. Отметим, что от символов букв легко прейти к числам. Этот процесс и называется кодированием. При кодировании происходит преобразование букв в соответствующие числа (кодовые символы). Сами числа могут задаваться в разных системах счисления. Естественно, что одно и то же количество разрядов в разных системах счисления может передать разное число состояний отображаемого объекта, что можно представить в виде соотношения

M=mn

где M – число всевозможных отображаемых состояний;

m – основание системы счисления (разнообразие символов, применяемых в алфавите),

n – число разрядов (символов) в сообщении.

Если m =2 то это двоичная система счисления. Именно эта система счисления и является основной для архитектуры ЭВМ. Поэтому в современных ЭВМ минимальной единицей измерения данных является бит - один двоичный разряд. Широко используются также более крупные единицы измерения: байт, равный 8 битам; килобайт, равный 1024 байтам; мегабайт, равный 1024 килобайтам и т.д.

Семантическая мера информации используется для измерения смыслового содержания информации. Наибольшее распространение здесь получила тезаурусная мера, связывающая семантические свойства информации со способностью пользователя понимать поступившее сообщение.

ТЕЗАУРУС - множество смысловыражающих единиц некоторого языка с заданной на нём системой семантических отношений. В широком смысле тезаурус интерпретируют как описание системы знаний о действительности, которыми располагает индивидуальный носитель информации или группа носителей.

Максимальное количество семантической информации потребитель получает при согласовании ее смыслового содержания со своим тезаурусом, когда поступающая информация понятна пользователю и несет ему ранее неизвестные сведения. С семантической мерой количества информации связан коэффициент содержательности, определяемый как отношение количества семантической информации к общему объему данных.

I c== CVд

Относительной мерой количества семантической информации может служить коэффициент содержательности С

Прагматическая мера информации определяет ее полезность, ценность для процесса управления. Обычно ценность информации измеряется в тех же единицах, что и целевая функция управления системой.