
Глава 3. Измерение и представление информации.
Информация и данные Формы информации и адекватность Меры информации Качество информации
Глава 4. Виды информационных технологий и виды их обеспечения
Информационная технология обработки данных Информационная технология управления Автоматизация офиса Информационная технология поддержки принятия решений Информационная технология экспертных систем
Глава 5. Стандарты в области информационных технологий
стандарты ISO 9000-9004
Capability Maturity Model
Глава 3. Измерение и представление информации.
■ Информация и данные
■ Формы адекватности информации ■ Меры информации
■ Качество информации
■ Информация и данные
Существование области и предмета информатики немыслимо без ее основного ресурса — информации. Понимая информацию как один из основных стратегических ресурсов общества, необходимо уметь его оценивать как с качественной, так и с количественной стороны. На этом пути существуют большие проблемы из-за нематериальной природы этого ресурса и субъективности восприятия конкретной информации различными людьми.
Цель главы — ознакомить с тем, что информацию можно оценивать как на качественном, так и на количественном уровне, и для этого вводятся специальные меры; что для успешной обработки информацию необходимо систематизировать, проводя ее классификацию и кодирование.
При работе с информацией всегда имеется ее источник и потребитель (получатель). Пути и процессы, обеспечивающие передачу сообщений от источника информации к ее потребителю, называются информационными коммуникациями.
В настоящее время существуют два различных взгляда на то, что принято называть информацией [1].
Один взгляд, и его, по-видимому, придерживается большая часть специалистов, сводится к тому, что существует как бы два сорта информации. Первый из них – это информация техническая, например та, которая передается по телеграфным линиям или отображается на экранах радиолокаторов. Количество такой информации может быть точно вычислено, и процессы, происходящие с такой информацией, подчиняются физическим законам.
Другой сорт информации – информация семантическая, т.е. смысловая. Это та самая информация, которая содержится, к примеру, в литературном произведении. Для такой информации тоже предлагаются различные количественные оценки и даже строятся математические теории. Но общее мнение скорее сводится к тому, что оценки здесь весьма условны и приблизительны и «алгеброй гармонию» все-таки не поверишь.
Второй взгляд состоит в том, что информация – это физическая величина, такая же, как, например, энергия, скорость или масса. Определенным образом и при определенных условиях информация равным образом описывает как процессы, протекающие в естественных физических системах, так и процессы в системах, искусственно созданных.
Как всегда при наличии двух резко противоположных мнений существует и третье, примиряющее. Ее сторонники полагают, что информация едина, но вот количественные оценки должны быть разными. Отдельно нужно измерять количество информации. Но параллельно нужно измерять еще и её ценность. А вот с ценностью информации происходит то же самое, что и с понятием семантической информации. С одной стороны её можно померить и даже вычислить, а с другой стороны, все эти вычисления справедливы лишь в ограниченном числе случаев.
Здесь мы только прикоснулись к основам современной теории информации, которая представляет собой фундаментальную научную дисциплину, значение которой возможно до конца не понято даже теми, кто её развивает.
Три этапа возникновения и преобразования информации:
1) Человек наблюдает некоторый факт. Факт отражается в его сознании в виде набора данных. Им учитываются тип носителя и способ представления информации, скорость передачи и обработки, размеры кодов представления информации, надежность и точность преобразования этих кодов и т.п. Это проявление синтаксического аспекта информации. Информацию, рассматриваемую только с синтаксических позиций, обычно называют данными, так как при этом не имеет значения смысловая сторона. Эта форма способствует восприятию внешних структурных характеристик, т.е. синтаксической стороны информации.
Синтаксический аспект информации определяется способом представления и хранения информации. Представляется он в виде сообщения.
Сообщения – информация, предназначенная для передачи.
Хранится в виде данных.
Данные – информация, предназначенная для хранения
2) После структуризации этих данных человек формирует знание о наблюдаемом факте. Это проявление семантического (смыслового) аспекта информации. Семантический аспект предполагает учет смыслового содержания информации. На этом уровне анализируются те сведения, которые отражает информация, рассматриваются смысловые связи. В информатике устанавливаются смысловые связи между кодами представления информации. Эта форма служит для формирования понятий и представлений, выявления смысла, содержания информации и ее обобщения.
3) Использование знаний, полученных в результате воспринятой информации, для достижения поставленных целей - это проявление прагматического аспекта информации. Прагматический аспект рассмотрения связан с ценностью, полезностью использования информации при выработке потребителем решения для достижения своей цели. С этой точки зрения анализируются потребительские свойства информации.
■ Формы адекватности информации
Для потребителя информации очень важной характеристикой является ее адекватность.
А
декватность
информации
—
это определенный уровень соответствия
создаваемого с помощью полученной
информации образа реальному объекту,
процессу, явлению и т.п.
Адекватность информации может выражаться в трех формах: семантической, синтаксической, прагматической.
Синтаксическая адекватность. Она отображает формально-структурные характеристики информации и не затрагивает ее смыслового содержания. На синтаксическом уровне учитываются тип носителя и способ представления информации, скорость передачи и обработки, размеры кодов представления информации, надежность и точность преобразования этих кодов и т.п. Информацию, рассматриваемую только с синтаксических позиций, обычно называют данными, так как при этом не имеет значения смысловая сторона. Эта форма способствует восприятию внешних структурных характеристик, т.е. синтаксической стороны информации.
Семантическая (смысловая) адекватность. Эта форма определяет степень соответствия образа объекта и самого объекта. Семантический аспект предполагает учет смыслового содержания информации. На этом уровне анализируются те сведения, которые отражает информация, рассматриваются смысловые связи. В информатике устанавливаются смысловые связи между кодами представления информации. Эта форма служит для формирования понятий и представлений, выявления смысла, содержания информации и ее обобщения.
Прагматическая (потребительская) адекватность. Она отражает отношение информации и ее потребителя, соответствие информации цели управления, которая на ее основе реализуется. Проявляются прагматические свойства информации только при наличии единства информации (объекта), пользователя и цели управления. Прагматический аспект рассмотрения связан с ценностью, полезностью использования информации при выработке потребителем решения для достижения своей цели. С этой точки зрения анализируются потребительские свойства информации. Эта форма адекватности непосредственно связана с практическим использованием информации, с соответствием ее целевой функции деятельности системы.
■ Меры информации
К
лассификация
мер
Рис. 4.1. Меры информации.
Для измерения информации вводятся два параметра: количество информации I и объем данных Vд.
Эти параметры имеют разные выражения и интерпретацию в зависимости от рассматриваемой формы адекватности. Каждой форме адекватности соответствует своя мера количества информации и объема данных (рис. 4.1).
Синтаксическая мера информации
Эта мера количества информации оперирует с обезличенной информацией, не выражающей смыслового отношения к объекту.
Объем данных УД в сообщении измеряется количеством символов (разрядов) в этом сообщении. В различных системах счисления один разряд имеет различный вес и соответственно меняется единица измерения данных:
■ в двоичной системе счисления единица измерения — бит (bit — binary digit — двоичный разряд);
Примечание. В современных ЭВМ наряду с минимальной единицей измерения данных "бит" широко используется укрупненная единица измерения "байт", ратая 8 бит.
■ в десятичной системе счисления единица измерения — дит (десятичный разряд).
Пример 2.3. Сообщение в двоичной системе в виде восьмиразрядного двоичного кода 10111011 имеет объем данных Уд = 8 бит.
Сообщение в десятичной системе в виде шестиразрядного числа 275903 имеет объем данных Кд = 6 дит.
Количество информации I на синтаксическом уровне невозможно определить без рассмотрения понятия неопределенности состояния системы (энтропии системы). Действительно, получение информации о какой-либо системе всегда связано с изменением степени неосведомленности получателя о состоянии этой системы. Рассмотрим это понятие.
Пусть
до получения информации потребитель
имеет некоторые предварительные
(априорные)
сведения о системе α.
Мерой его неосведомленности о системе
является функция H(α),
которая в то же время служит и мерой
неопределенности состояния системы.
После получения некоторого сообщения β получатель приобрел некоторую дополнительную информацию Iβ(α), уменьшившую его априорную неосведомленность так, что апостериорная (после получения сообщения β) неопределенность состояния системы стала Hβ(α)
Тогда количество информации Iβ(α) о системе, полученной в сообщении β, определится как
Iβ(α) = H(α)- Hβ(α),
т.е. количество информации измеряется изменением (уменьшением) неопределенности состояния системы.
Если конечная неопределенность Hβ(α обратится в нуль, то первоначальное неполное знание заменится полным знанием и количество информации Iβ(α) = H(α). Иными словами, энтропия системы H(α) может рассматриваться как мера недостающей информации.
Энтропия системы H(α), имеющая N возможных состояний, согласно формуле Шеннона, равна:
где
— вероятность того, что система находится
в i-м
состоянии.
Д
ля
случая, когда все состояния системы
равновероятны, т.е. их вероятности равны
ее энтропия определяется соотношением
Часто информация кодируется числовыми кодами в той или иной системе счисления, особенно это актуально при представлении информации в компьютере. Естественно, что одно и то же количество разрядов в разных системах счисления может передать разное число состояний отображаемого объекта, что можно представить в виде соотношения
N=mn,
где N — число всевозможных отображаемых состояний;
т — основание системы счисления (разнообразие символов, применяемых в алфавите);
п — число разрядов (символов) в сообщении.
Пример 2.4. По каналу связи передается «-разрядное сообщение, использующее т различных символов. Так как количество всевозможных кодовых комбинаций будет N=m", то при равновероятности появления любой из них количество информации, приобретенной абонентом в результате получения сообщения, будет I=logN = = п log m — формула Хартли.
Если в качестве основания логарифма принять т, то / = п. В данном случае количество информации (при условии полного априорного незнания абонентом содержания сообщения) будет равно объему данных I = Vд, полученных по каналу связи. Для неравновероятных состояний системы всегда I < Vд = п.
Наиболее часто используются двоичные и десятичные логарифмы. Единицами измерения в этих случаях будут соответственно бит и дит.
■ Качество информации.
Коэффициент {степень) информативности (лаконичность) сообщения определяется отношением количества информации к объему данных, т.е.
1/Vд
С увеличением Y уменьшаются объемы работы по преобразованию информации (данных) в системе. Поэтому стремятся к повышению информативности, для чего разрабатываются специальные методы оптимального кодирования информации.