Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Математика и информатика.docx
Скачиваний:
21
Добавлен:
16.11.2018
Размер:
13.11 Mб
Скачать

Лекция 5 Количество информации

Так называют числовую характеристику сигнала, которая не зависит от его формы и содержания и характеризует степень неопределенности, которая исчезает после выбора (получения) сообщения в виде данного сигнала.

Поясним эту идею на простом примере. Пусть имеется колода карт, содержащая 32 различные карты. Чтобы выбрать одну из карт, существует 32 возможности, которые характеризуют исходную неопределенность ситуации.

Если при равной вероятности уже выбрана какая-то из них (например, король червей), то неопределенности нет. Таким образом, число 32 в рассматриваемом примере можно было бы считать количеством информации, заложенным в одном выборе из 32 возможностей. Р. Хартли предложил в качестве меры неопределенности логарифм от числа возможностей:

Н = k loga m. (1)

Здесь Н — количество информации, k — коэффициент пропорциональности, т - число возможных выборов, а — основание логарифма. Чаще всего принимают k = 1 и а = 2. Тогда стандартной единицей количества информации будет выбор из двух возможностей. Такая единица носит наименование бита и представляется одним символом двоичного алфавита. (Наиболее распространенный двоичный алфавит -множество {О, 1}.)

Бит выбран в качестве единицы количества информации потому, что принято считать, что двумя двоичными словами исходной длины т или словом длины можно передать в два раза больше информации, чем одним исходным словом. Число выборов при этом увеличивается в 2m раз, тогда как значение Н в соотношении (1) просто удваивается.

Интересно, что в соотношении (1) Н характеризует число вопросов (двоичных), ответы на которые позволяют выбрать одну из альтернатив. Так, в примере с колодой карт из 32 карт необходимо и достаточно получить ответы "да" и" нет" на пять вопросов. Ответ на каждый вопрос вдвое сокращает область дальнейшего выбора. Пусть, например, необходимо выбрать даму пик. Такими вопросами будут:

1. Карта красной масти? Ответ: "нет".

2. Трефы? Ответ: "нет".

3. Одна из четырех старших? Ответ: "да".

4. Одна из двух старших? Ответ: "нет".

5. Дама? Ответ: "да".

Таким образом, выбрана дама пик. Этот выбор можно описать последовательностью из пяти двоичных символов 00101, в которой 0 соответствует "нет", а 1 соответствует "да".

До сих пор предполагалось, что выборы равновероятны и число их конечно. К, Шеннону принадлежит обобщение Н на случай, когда Н зависит не только от т, но и от вероятностей выбора символов и вероятностей связей между ними.

Так, для количества собственной или индивидуальной информации он предложил соотношение:

где Pi — вероятность выбора i-го символа алфавита.

Удобнее в качестве меры количества информации пользоваться не значением hi, а средним значением количества информации, приходящейся на один символ алфавита:

Значение Н достигает максимума при равенстве всех Pi т. е. при .В этом случае соотношение (3) превращается в формулу Р. Хартли (1):

При наличии вероятностных связей между символами соотношение (3) несколько усложняется.

Представление символьной (текстовой) информации в компьютере

Символьная (текстовая) информация вводится в компьютер, хранится и обрабатывается в нем в виде цифрового двоичного кода.

Необходимый набор символов, которые нужно закодировать в двоичном виде обычно включают в себя:

  • Буквенные знаки алфавита языка, на котором написан текст;

  • Цифры;

  • Знаки препинания, пробел, скобки, кавычки;

  • Знаки математических операций;

  • Специальные знаки (№, $ и т.д);

  • Символы разметки текста (знак конца строки, знак конца абзаца, знак табуляции и т.д.

  • Символы псевдографики (используются в алфавитно-цифровых дисплеях)

Среди различных кодировок наибольшее распространение получила англоязычная кодировка ASCII (American Standard Code for Information Interchange). Для кодировки одного знака используется 7 двоичных разрядов, всего 128 различных битовых комбинаций. Расширенная кодировка использует 8 битов (1 байт) для кодирования символа, всего 256 символов. Символы 128-255 кодируют символы европейских языков, которые используют латинский алфавит в своей основе, а также содержат коды псевдографики и коды различных специальных символов. Коды 128-255 могут кодировать и другие символы, в частности символы русского алфавита.

Для представления букв русского алфавита в кодах ASCII ,был разработан код КОИ-7 (Код Обмена Информацией 7-значный), неудачный, затем была введена ГОСТ-альтернативная кодировка, затем была разработана кодировка КОИ-8(код обмена информацией восьмизначный). КОИ-8 используется сейчас в электронной почте и других службах российского Интернета.

Наиболее широко применяется сейчас кодировка русского алфавита Windows-1251.

Кодировки записаны в виде таблиц кодировок.

В последнее время внедряется 16-битная международная кодировка UNICODE. На код символа отводится 16 двоичных разрядов, что дает возможность закодировать 65536 различных символов. Это достаточно для кодирования символов алфавитов всех используемых языков. При работе с различными кодировками важно, чтобы программа работала с текстом в той же кодировке, в которой этот текст был закодирован.

Представление графической информации в компьютере

Для представления графической информации в компьютере существуют два метода: растровый и векторный.

При растровом методе изображение строится из некоторых минимальных элементов одного размера – пикселей прямоугольной формы. Каждый пиксель окрашен в один цвет.

Чем меньше размер пикселей, тем более качественным будет выглядеть изображение, выведенное на экран дисплея или напечатанное на бумаге.

Каждый пиксель кодируется некоторым набором битов в двоичной системе счисления. Для кодирования черно-белого изображения достаточно одного бита: белый пиксель 1 ,черный пиксель – 0. Если мы отведем для кодирования цвета пикселей 8 битов, то мы сможем закодировать 256 цветов. Эта кодировка используется для работы с черно-белыми полутоновыми изображениями, содержащими 256 градаций серого цвета.

Те же 256 цветов можно использовать и при работе с цветными рисованными изображениями, закодировав последовательными номерами цвета, записанные в некоторой таблице – палитре. Это так называемые индексные цвета.

Для работы с изображениями фотографического качества используется кодировка модели RGB, в которой любой цвет представляется смешением трех цветов – красного, зеленого, синего разной интенсивности. Под кодировку каждого цвета отводится 8 бит (256 градаций), в сумме код пикселя занимает 24 бита, что дает в итоге примерно16,5 цветов, что близко к чувствительности тренированного человеческого глаза (японской женщины).

Для перевода графического изображения в растровый вид используются процедуры

  • дискретизации – разбиения изображения на мелкие прямоугольники и замену цветов квадратика одним цветом по некоторым правилам;

  • Квантования – вычисления стандартного цвета, ближайшего к выбранному цвету пикселя при дискретизации.

  • Кодирования – замену цвета пикселей стандартными кодами.

В итоге получается двоичный массив. Если записать массив во внешнюю память без сжатия, он станет файлом формата BMP ( bit map – битовой картой).

При использовании в процедурах квантования и кодирования кодов индексных цветов (256), а также сжав массив алгоритмом LZW при записи во внешнюю память можно получить файл формата GIF – часто используется в интернет и электронных энциклопедиях.

При использовании модели RGB и алгоритма сжатия JPEG получим файл формата JPG – используется в интернет для представления изображений фотографического качества.

Формат записи графических файлов TIFF используется для вывода файлов на печать и переноса файлов на другие модели компьютеров.

При векторном методе записи графических изображений изображение представляется набором математических кривых и графических примитивов (круг, эллипс, прямоугольник и т.д.) и заливок внутренней части замкнутых кривых. В файле изображение кодируется командами рисования данных кривых и примитивов. Каждая команда, как и команда процессора, кодируется в двоичной виде.

Надо помнить, что экран дисплея представляет собой матрицу из пикселов, поэтому при выводе на экран векторное изображение должно быть представлено в растровом виде. Этим объясняется неровность изображения наклонных прямых и окружностей.

Размер пиксела определяет разрешение дисплея. Измеряеися количеством пикселов на одном дюйме и называется dpi. Стандарт сегодняшнего дня 70-120 dpi. Иногда разрешение дисплея указывают в виде двух чисел –количество пикселов по горизонтали и вертикали. Например 640*480, 800*600, 1024*768.