Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Metodichka_3_-_PF_Informatika

.pdf
Скачиваний:
17
Добавлен:
12.04.2015
Размер:
202.65 Кб
Скачать

Федеральное агентство по рыболовству Федеральное государственное образовательное учреждение

высшего профессионального образования «Астраханский государственный технический университет»

Образовательная деятельность в сфере высшего и дополнительного профессионального образования сертифицирована DQS по ISO 9001

Кафедра «Информатика»

МЕТОДИЧЕСКИЕ РЕКОМЕНДАЦИИ И ПРАКТИЧЕСКИЕ ЗАДАНИЯ

по курсу «Информатика»

для студентов подготовительного факультета ФГБОУ ВПО «АГТУ»

Тема:

Информация и её двоичное кодирование. Количество информации.

Астрахань 2012 г.

2

Количество информации. Измерение информации

В информатике, как правило, измерению подвергается информация, представленная дискретным сигналом. Для измерения информации используются различные подходы (содержательный, алфавитный) и методы,

например, с использованием меры информации по Р. Хартли и К. Шеннону.

При содержательном подходе информация – это сведения, знания, которые человек получает из различных источников.

Содержательный подход основывается на том, что получение информации, ее увеличение, означает уменьшение незнания или информационной неопределенности.

Информационная неопределенность о некотором событии – это количество возможных результатов события.

Степень неопределенности принято характеризовать с помощью понятия «вероятность».

Вероятность – величина, которая может принимать значения в диапазоне от 0 до 1. Она может рассматриваться как мера возможности наступления какого-либо события, которое может иметь место в одних случаях и не иметь место в других.

Количество информации – мера уменьшения неопределенности знаний. Количество информации – это количество бит в сообщении.

Сообщение о том, что произошло одно событие из двух равновероятных, несет 1 бит информации.

Пусть в некотором сообщении содержатся сведения о том, что произошло одно из N равновероятных событий. Тогда количество информации, заключенное в этом сообщении, - x бит и число N связаны формулой:

2x = N, где x – количество информации или информативность события (в битах); N – число равновероятных событий (число возможных выборов).

Данная формула является показательным уравнением относительно неизвестной x. Решая уравнение, получим формулу определения количества информации: x = log2N «логарифм от N по основанию 2».

Американский инженер Р. Хартли в 1928г. процесс получения информации рассматривал как выбор одного сообщения из конечного наперёд заданного множества из N равновероятных сообщений, а количество информации I, содержащееся в выбранном сообщении, определял как двоичный логарифм N.

Формула Хартли: I = log2N

Существует множество ситуаций, когда возможные события имеют различные вероятности реализации. Количество информации в сообщении о некотором событии зависит от его вероятности. Чем меньше

вероятность события, тем больше информации оно несёт.

P = K/N, где К – количество случаев реализации одного из исходов события; N – общее число возможных исходов одного из событий 2I = log2(1/p), где I – количество информации, p – вероятность события.

Американский учёный Клод Шеннон предложил в 1948г. другую формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе.

Формула Шеннона: I = - (p1log2p1 + p2log2p2 +…+ p N log2 pN),

I = −

N

p i log 2 p i

 

i = 1

 

где Pi

– вероятность i-го события, N – количество возможных событий

Алфавитный подход позволяет измерять информационный объём текста на некотором языке, не

связанный с содержанием этого текста.

Алфавит

это набор знаков (символов), в котором определен их порядок.

Мощность алфавита – это полное число символов в алфавите. Обозначим эту величину буквой M. Каждый символ несет x бит информации. Количество информации x, которое несет один символ в тексте,

зависит от мощности алфавита M, которые связаны формулой 2x = M.

При алфавитном подходе считается, что каждый символ текста имеет определенный информационный вес. Информационный вес символа зависит от мощности алфавита символа. С увеличением мощности алфавита увеличивается и информационный вес символов этого алфавита.

N

2

4

8

16

b

1 бит

2 бит

3 бит

4 бит

Разрядность двоичного кода – это и есть информационный вес символа. Информационный вес каждого символа, выраженный в битах (b) и мощность алфавита (N) связаны между собой формулой N = 2b

В качестве единицы информации Клод Шеннон предложил принять один бит (англ. bit binary digit — двоичная цифра).

Бит - это наименьшая единица измерения информации. На практике чаще применяется более крупная единица — байт, равная восьми битам. Именно восемь битов требуется для того, чтобы закодировать любой из 256 символов алфавита клавиатуры компьютера (256=28).

Единицы измерения информации:

1.1 байт = 8 бит

2.1 Килобайт (Кбайт) = 1024 байт = 210 байт,

3.1 Мегабайт (Мбайт) = 1024 Кбайт = 220 байт,

3

4.1 Гигабайт (Гбайт) = 1024 Мбайт = 230 байт.

Впоследнее время в связи с увеличением объёмов обрабатываемой информации входят в употребление такие производные единицы, как:

5.1 Терабайт (Тбайт) = 1024 Гбайт = 240 байт,

6.1 Петабайт (Пбайт) = 1024 Тбайт = 250 байт.

За единицу информации можно было бы выбрать количество информации, необходимое для различения, например, десяти равновероятных сообщений. Это будет не двоичная (бит), а десятичная (дит) единица информации.

Практическая работа «Количество информации. Измерение информации»

Задание №1. Решите задачи.

Задача №1

Для записи письма был использован алфавит мощностью в 16 символов. Письмо состояло из 25 строк. В каждой строке вместе с пробелами было 64 символа. Сколько байт информации содержало письмо?

Задача №2

В колоде содержится 32 карты. Из колоды случайным образом вытянули карту. Сколько информации несет сообщение о том, что вытянутая карта - туз?

Задача №3

Письмо состояло из 30 строк. В каждой строке вместе с пробелами по 48 символов. Письмо содержало 900 байт информации. Какова мощность алфавита (количество символов), которым было написано письмо?

Задача №4

Для шифрования информации был использован код, состоящий из 64 различных знаков. Какое количество байт содержит шифровка, состоящая из 110 групп по 12 знаков в каждой группе?

Задача №5

Шифровка состояла из 36 групп символов по 6 символов в группе и содержала 81 байт информации. С помощью скольких различных знаков была закодирована шифровка?

Задача №6

Черно-белое изображение имеет 8 градаций яркости. Размер изображения 10*15 см. Разрешение 300 точек на дюйм (1 дюйм = 2,5 см). Сколько Кбайт памяти требуется для хранения изображения в несжатом виде?

Задание №2. Заполнить пропуски числами.

1)5 Кбайт = __ байт = __ бит,

2)__ Кбайт = __ байт = 12288 бит;

3)__ Кбайт = __ байт = 213 бит;

4)__ Гбайт =1536 Мбайт = __ Кбайт;

5)512 Кбайт = 2__ байт = 2__ бит.

6)16x бит = 32 Мбайт;

7)8x Кбайт = 16 Гбайт.

Двоичное кодирование информации

Очевидно, что для кодирования информации достаточно использовать любые два различных значения, например, цифры 0 и 1 (да и нет, истина и ложь и т. п.). В этом случае применительно к кодировке чисел мы имеем дело с так называемой двоичной системой счисления. В общем случае, необходимо говорить о кодировке любых символов (не чисел!), не смешивая эти две разные задачи.

Для измерения количества информации используют 1 бит – один символ двухбуквенного алфавита, состоящего из нулей и единиц {0, 1}.

Код – система условных обозначений или сигналов.

Длина кода – количество знаков, используемых для представления кодируемой информации. Кодирование данных – это процесс формирования определенного представления информации. Декодирование – расшифровка кодированных знаков, преобразование кода символа в его изображение. Двоичное кодирование – кодирование информации в виде 0 и 1.

Кодировка символов

Кодировка символов применительно к компьютерным приложениям базируется обычно на системе кодировки ASCII (Американский стандартный код для обмена информацией) — 256 различных, упорядоченных по коду (номеру) символов. Значения кода — целые числа от 0 до 255.

Для кодирования одного символа используется 8 битов, или 1 байт. В этом легко убедиться, если записать значения кодов в двоичной системе.

Кода от 0 до 32 соответствуют не символам, а операциям (перевод строки, ввод пробела, и др.).

4

Коды от 33 до 127 являются интернациональными и соответствуют символам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания.

Коды от 128 до 255 являются национальными, то есть в национальных кодировках одному и тому же коду соответствует различные символы.

Для разных типов ЭВМ и операционных систем используются различные таблицы кодировки, отличающиеся порядком размещения символов алфавита в кодовой таблице.

Существует пять различных кодовых таблиц для русских букв КОИ8, СР1251, СР866, Мас, ISO, поэтому тексты, созданные в одной кодировке, не будут правильно отображаться в другой.

В70-х годах прошлого века на компьютерах появилась операционная система UNIX. Естественно, ее адаптировали к русскому языку. Именно тогда и возникла первая кодировка, получившая название KOI-8. С тех пор она стала стандартом для всех UNIX-подобных операционных систем — например для Linux.

Международным стандартом на персональных компьютерах является таблица кодировки ASCII.

Принцип последовательного кодирования алфавита заключается в том, что в кодовой таблице ASCII латинские буквы (прописные и строчные) располагаются в алфавитном порядке. Расположение цифр также упорядочено по возрастанию значений.

Альтернативная кодировка не подошла для ОС Windows. Пришлось передвинуть русские буквы в таблице на место псевдографики, и получили кодировку Windows 1251 (Win-1251).

Внастоящее время широкое распространение получил новый международный стандарт Unicode, который отводит на каждый символ не один байт, а два, поэтому с его помощью можно закодировать 65536 = 216 различных символов.

Этого хватит на латинский алфавит, кириллицу, иврит, африканские и азиатские языки, различные специализированные символы: математические, экономические, технические и многое другое. Главный недостаток Unicode состоит в том, что все тексты в этой кодировке становятся в два раза длиннее. В настоящее время стандарты ASCII и Unicode мирно сосуществуют.

Для кодирования букв и других символов, используемых в печатных документах, необходимо закрепить за каждым символом числовой номер – код. В англоязычных странах используются 26 прописных и 26 строчных букв (A … Z, a … z), 9 знаков препинания (. , : ! " ; ? ( ) ), пробел, 10 цифр, 5 знаков арифметических действий (+,- ,*, /, ^) и специальные символы (№, %, _, #, $, &, >, <, |, \) – всего чуть больше 100 символов. Таким образом, для кодирования этих символов можно ограничиться максимальным 7-разрядным двоичным числом (от 0 до 1111111,

вдесятичной системе счисления – от 0 до 127).

Кодировка изображений

Под изображением будем понимать прямоугольную область, закрашенную непрерывно изменяющимся цветом. Поэтому для представления изображений в целых числах необходимо отдельно дискретизировать прямоугольную область и цвет.

Для описания области она разбивается на множество точечных элементов – пикселов. Само множество называется растром, а изображения, которые формируются на основе растра, называются растровыми.

Для представления графической информации растровым способом используется так называемый точечный подход. На первом этапе вертикальными и горизонтальными линиями делят изображение. Чем больше при этом получилось элементов (пикселей), тем точнее будет передана информация об изображении.

Как известно из физики, любой цвет может быть представлен в виде суммы различной яркости красного, зеленого и синего цветов. Поэтому надо закодировать информацию о яркости каждого из трех цветов для отображения каждого пикселя. В видеопамяти находится двоичная информация об изображении, выводимом на экран. Таким образом, растровые изображения представляют собой однослойную сетку точек, а код пикселя содержит информацию об его цвете.

Число пикселов называется разрешением. Часто встречаются значения 640х480, 800х600, 1024х768, 1280х1024. Каждый пиксел нумеруется, начиная с нуля слева направо и сверху вниз.

В противоположность растровой графике векторное изображение состоит из геометрических примитивов: линия, прямоугольник, окружность и т.д. Каждый элемент векторного изображения является объектом, который описывается с помощью специального языка (математических уравнения линий, дуг, окружностей). Сложные объекты (ломаные линии, различные геометрические фигуры) представляются в виде совокупности элементарных графических объектов.

Объекты векторного изображения, в отличие от растровой графики, могут изменять свои размеры без потери качества.

Для представления цвета используются цветовые модели.

Цветовая модель это правило, по которому может быть вычислен цвет. Самая простая цветовая модель – битовая. В ней для описания цвета каждого пиксела (чёрного или белого) используется всего один бит. Для представления полноцветных изображений используются несколько более сложных моделей.

Известно, что любой цвет может быть представлен как сумма трёх основных цветов: красного, зелёного и синего. Если интенсивность каждого цвета представить числом, то любой цвет будет выражаться через набор из трёх чисел. Так определяется наиболее известная цветовая RGB-модель. На каждое число отводится один байт. Так можно представить 224 цвета, то есть примерно 16,7 млн. цветов. Белый цвет в этой модели представляется

5

как (1,1,1), чёрный – (0,0,0), красный (1,0,0), синий (0,0,1). Жёлтый цвет является комбинацией красного и зелёного и потому представляется как (1,1,0).

Цветовая модель RGB была стандартизирована в 1931 г. и впервые использована в цветном телевидении. Модель RGB является аддитивной моделью, то есть цвет получается в результате сложения базовых цветов. Существуют и другие цветовые модели, которые для ряда задач оказываются более предпочтительными, чем RGB-модель.

R

G

B

цвет

0

0

0

черный

0

0

1

синий

0

1

0

зеленый

0

1

1

голубой

1

0

0

красный

1

0

1

пурпурный

1

1

0

желтый

1

1

1

белый

Для представления цвета в принтере используется субтрактивная CMY-модель, цвет в которой получается в результате вычитания базовых цветов из белого цвета. Белому цвету в этой модели соответствует (0,0,0),

чёрному - (1,1,1), голубому - (1,0,0), сиреневому - (0,1,0), жёлтому - (0,0,1).

В цветовой модели HSV цвет представляется через цвет, насыщенность и значение, а в модели HLS через оттенок, яркость и насыщенность. Современные графические редакторы, как правило, могут работать с несколькими цветовыми моделями.

Наиболее популярными являются графические форматы: BMP, PCX, GIF, TIFF, JPEG, которые по существу различаются между собой используемыми методами сжатия. Форматы BMP и PCX используют RLEалгоритм, форматы GIF и TIFF – LZWалгоритм, JPEG использует одноимённый алгоритм сжатия.

Кодирование звука

На компьютере работать со звуковыми файлами начали в 90-х годах. В основе цифрового кодирования звука лежит – процесс преобразования колебаний воздуха в колебания электрического тока и последующая дискретизация аналогового электрического сигнала. Кодирование и воспроизведение звуковой информации осуществляется с помощью специальных программ (редактор звукозаписи).

Временная дискретизация – способ преобразования звука в цифровую форму путем разбивания звуковой волны на отдельные маленькие временные участки, где амплитуды этих участков квантуются (им присваивается определенное значение).

Это производится с помощью аналого-цифрового преобразователя, размещенного на звуковой плате. Таким образом, непрерывная зависимость амплитуды сигнала от времени заменяется дискретной последовательностью уровней громкости. Современные 16-битные звуковые карты кодируют 65536 различных уровней громкости или 16-битную глубину звука (каждому значению амплитуды звукового сигнала присваивается 16-битный код)

Качество кодирование звука зависит от:

1.глубины кодирования звука - количество уровней звука

2.частоты дискретизации – количество изменений уровня сигнала в единицу

Шифрование - это способ изменения сообщения, обеспечивающее сокрытие его содержимого. Кодирование - это преобразование обычного, понятного, текста в код. При этом подразумевается, что существует взаимно однозначное соответствие между символами текста и символьного кода - в этом принципиальное отличие кодирования от шифрования.

Практическая работа «Двоичное кодирование информации в ЭВМ»

 

Задание №1. Создать таблицу символов для десятичной ASCII-кодировки.

 

Методика выполнения работы

 

 

 

1.

Десятичный код символа набирается с помощью калькуляторного набора клавиш на клавиатуре при

нажатой клавише Alt.

 

 

000

 

032

 

064 @

 

 

 

 

224 р

 

001

 

033

!

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

031

 

063

?

 

 

 

 

 

255

 

 

2. Создать таблицу символов для десятичной ASCII-кодировки обычного текста. Указать

соответствующий Юникод. Использовать команду вставки символа.

 

 

6

 

 

 

Рисунок 4. Вставка символа

 

 

 

 

 

 

032(0020) (пробел)

064(0040) @

 

 

 

224() р

033(0021) !

 

 

 

 

 

3.Создать таблицу символов для десятичной ASCII-кодировки кириллического шрифта. Указать соответствующий Юникод. Использовать команду вставки символа.

4.Создать таблицу символов для десятичной ASCII-кодировки греческого шрифта. Указать соответствующий Юникод. Использовать команду вставки символа.

5.Создать таблицу символов для десятичной ASCII-кодировки шрифта Symbol. Указать соответствующий Юникод. Использовать команду вставки символа.

6.Используя пункт меню «Пуск» → «Программы» → «Стандартные» → «Служебные» → «Таблица символов» привести таблицы символов обычного шрифта MS Sans Serif и шрифта Microsoft Sans Serif, помеченного в списке шрифтов овалом. Сравните таблицы и сделайте выводы.

Рисунок 5. Таблица символов 7. Используя пункт меню «Пуск» → «Программы» → «Стандартные» → «Служебные» → «Таблица

символов» привести таблицы символов шрифта Times New Roman Cyr, помеченного в списке шрифтов символами ТТ, и шрифта Times New Roman, помеченного в списке шрифтов овалом. Сравните таблицы и сделайте выводы.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]