
- •Информатика
- •1. Что изучает информатика. Понятие интерфейса
- •2. Понятие информации и ее измерение Данные и информация
- •Свойства информации
- •Измерение информации
- •Кодирование данных в компьютере
- •Кодирование целых и действительных чисел
- •Кодирование текстовых данных
- •Кодирование графических данных
- •Кодирование звуковой информации
- •Форматы кодирования видеоинформации
- •2. Вычислительная техника Принципы фон Неймана и работа компьютера
- •Принцип двоичного кодирования
- •Принцип программного управления
- •Принцип однородности памяти
- •Принцип адресности
Свойства информации
запоминаемость — возможность хранения информация;
передаваемость — способность информации к копированию;
воспроизводимость — неиссякаемость: при копировании информация остается тождественной самой себе;
преобразуемость — преобразование информации связанное с ее уменьшением;
стираемость — преобразование информации, когда ее количество становится равным нулю;
объективность и субъективность — информация объективна, если она не зависит от чьего-либо мнения, суждения;
достоверность — информация достоверна, если она отражает истинное положение дел;
полнота — характеризует качество информации и определяет достаточность данных для принятия решений или для создания новых данных на основе имеющихся;
адекватность — степень соответствия реальному объекту;
доступность — мера возможности получить ту или иную информацию;
актуальность — степень соответствия информации текущему моменту времени.
Информация может быть непрерывной и дискретной.
Измерение информации
Существует несколько способов измерения информации:
Объемный (технический). Каждый символ языка кодируется определенной последовательностью бит, и затем подсчитывается полное количество бит в сообщении. Смысловое содержание сообщения в этом случае не играет никакой роли. В прикладной информатике практически всегда количество информации понимается в объемном смысле.
Единицей информацией в этом случае является бит (от английского binary digit – двоичное число, разряд). Бит также можно определить как единицу представления информации в компьютере.
Бит принимает два значения: 0 или 1. Именно эти два значения (0 и 1) используются как цифры (и числа) в двоичной позиционной системе счисления, которая используется в компьютере.
Бит — слишком мелкая единица измерения. На практике чаще применяется более крупная единица — байт, равная восьми битам. Байт используется для кодирования информации в компьютере.
Поэтому байт можно определить как двоичное слово длиной в 8 бит, используемое для кодирования информации, и как единицу обработки информации в компьютере.
В теории информации доказывается следующая лемма.
Лемма 1. Число различных двоичных слов длины I равно 2I.
Если число различных слов обозначить N, то получаем формулу:
N = 2I (1)
Если I = 8, то байтами можно закодировать 28 = 256 символов, так как согласно лемме 1 именно столько существует двоичных слов (байт) длиной в 8 бит.
Широко используются также ещё более крупные производные единицы информации:
1 Килобайт (Кбайт) = 1024 байт = 210 байт,
1 Мегабайт (Мбайт) = 1024 Кбайт = 220 байт,
1 Гигабайт (Гбайт) = 1024 Мбайт = 230 байт.
В последнее время в связи с увеличением объёмов обрабатываемой информации входят в употребление такие производные единицы, как:
1 Терабайт (Тбайт) = 1024 Гбайт = 240 байт,
1 Петабайт (Пбайт) = 1024 Тбайт = 250 байт.
Алгоритмический. В данном методе количественная характеристика сообщения (информации) определяется сложностью программы, воспроизводящей это сообщение: компьютерная программа, воспроизводящая сообщение из одних нулей крайне проста: печатать один и тот же символ; для получения сообщения 010101…01 нужна чуть более сложная программа, печатающая символ, противоположный только что напечатанному; случайная, не обладающая никакими закономерностями, последовательность не может быть воспроизведена никакой короткой программой (длина программы близка к длине этой последовательности). То есть количество информации в сообщении можно определить сложностью программы, воспроизводящей это сообщение. Так как имеется много разных вычислительных машин и разных языков программирования, то для определенности задаются некоторой вычислительной машиной, например, машиной Тьюринга, а количество информации в сообщении определяется как минимальное число внутренних состояний машины Тьюринга, необходимое для воспроизведения этого сообщения.
Вероятностный. Вероятностный способ измерения информации основан на том, что количество информации, содержащееся в сообщении, определяют как величину уменьшения неопределённости наших знаний об объекте без учета какого-либо смысла сообщения. Эти подходы используют математические понятия вероятности и логарифма.
Американский инженер Р. Хартли в 1928 г. процесс получения информации рассматривал как выбор одного сообщения из конечного наперёд заданного множества N равновероятных сообщений, а количество информации I, содержащееся в выбранном сообщении, определял как двоичный логарифм N:
I = log2 N , (2)
где N - количество равновероятных событий; I - количество бит в сообщении о событии, которое произошло из N событий. Тогда после потенцирования из формулы (2) получаем:
N=2I (3)
Сравните эту формулу с формулой (1). Формулы полностью идентичны. И получается, что длина двоичного слова, которым может быть закодирована информация, у Хартли – количество информации, содержащееся в сообщении.
Иногда формулу Хартли записывают так:
I = log2 N = log2 (1/р) = – log2 р,
т. к. каждое из N событий имеет равновероятный исход р = 1/N, то N=1/р.
В 1948 г. американский инженер и математик К. Шеннон предложил формулу для вычисления количества информации для событий с различными вероятностями:
I
= –
Она стала не менее распространенной, чем знаменитая формула Эйнштейна Е = mc2. Оказалось, что формула, предложенная Хартли, представляет собой частный случай более общей формулы Шеннона. Если в формуле Шеннона принять, что р1 = p2 = ... = рi = ... =pN = 1/N, то
I
= –
(4)
В качестве единицы информации Клод Шеннон предложил принять один бит.
Обосновать эту единицу информации можно так. Из формулы (4) следует, что количество информации I уменьшается с уменьшением количества возможных событий N. Если принять N =1, то количество информации равно 0, т. к. мы априори (заранее) знаем, что произойдет только это одно событие. И из формулы (4) при N = 1 при любом основании логарифма I = 0.
При N = 2 оно не будет равно нулю и будет наименьшим. То есть в этом случае имеем два разных равновероятных события. При совершении одного из них наше незнание уменьшится в два раза. И мы, действительно, получим единицу информации I = 1, если в формуле (4) при N = 2 за основание логарифма примем 2, так как log2 2 = 1.
Отсюда следует такое определение бита как единицы количества информации:
Бит – это такое количество информации, которое содержит сообщение, уменьшающее неопределенность знания в два раза. Это и есть единица информации.