AlgStr / Библиотека / ЛЕКЦИИ / PZ00 / Ткаченко Юра
.docПонятие данных
Кодирование информации
Кодирование информации – это запись информации по определенным правилам. Передача информации определяется следующими параметрами:
- Объем информации
- Время передачи информации
- Защита от помех
- Технические удобства передачи информации
- защита от несанкционированного доступа
Данные – это застывшая информация, информация после кодирования.
Этапы преобразования информации при решении задач на ЭВМ
Предметная область – это выделение из окружающего мира объектов и их свойств, важных для решения данной задачи. Предметная область описывается на языке предметной области. Наиболее эффективным языком предметной области есть язык математики.
Информационная модель предметной области – это изображение предметной области с точки зрения решаемой задачи.
База данных – описание предметной области с точки зрения решения нескольких задач.
При переходе к предметной области свойства объектов переходят в атрибуты.
Атрибут – элемент информационной модели, описывающий соответствующие свойства объекта. Каждому атрибуту соответствует множество допустимых значений. Атрибут – это неделимый элемент информации.
Классы атрибутов:
-
Входные атрибуты X: с их помощью среда воздействует на объект, и он выдает выходные атрибуты;
-
Выходные атрибуты Y;
-
Внутренние атрибуты C .
Ключевой атрибут - атрибут, однозначно идентифицирующий объект в совокупности.
Вектор Вектор выходных
входных атрибутов (Y)
атрибутов (Х)
Вектор внутренних атрибутов
(С) – состояние объекта в определенный момент времени.
Возникает необходимость связать значения этих атрибутов с устойчивыми состояниями объектов. Так мы приходим к понятию «данные»
Данные – это изображение информации, описание состояния некоторого носителя. Иногда данные называют «застывшая информация». Информация – активна, данные – пассивны.
С каждым объектом связан способ преобразования, язык интерпретации данных. Язык интерпретации данных имеет свой алфавит С помощью символов этого алфавита сообщение представляется в виде строки S= , где каждое - это какое-то . Строка естественным образом разбивается на фрагменты (слова). Каждое слово является изображением какого-то атрибута. Именно это слово называется элемент данных.
Элемент данных – простейший неделимый элемент данных. Строка S называется логическим уровнем представления данных. Каждый символ изображается в виде определенного состояния некоторой физической среды носителя. можно рассматривать как коды. Если значение слов зафиксировать в соответствии с кодом , то получим физический уровень представления данных.
Механизм представления данных в виде состояний некоторой устойчивой среды.
Рассмотрим среду, в которой каждый элемент может находится в k устойчивых состояниях. Выберем среду, в которой m таких элементов.
Числа, которые могут быть отображены в такой среде, находятся в интервале от 0 до N-1, где . Зафиксируем N и попытаемся найти такое m, чтобы представить числа от 0 до N-1. Такое (наименьшее целое, которое больше либо равно выражению в скобках). Тогда число устойчивых состояний среду для заданного N равно Q(k)=m*k=k*.
Найдем такое k, при котором число необходимых состояний среды было бы минимальным. Для этого
Поэтому наиболее экономная среда – среда с тремя устойчивыми состояниями.
В компьютере используется среда с двумя устойчивыми состояниями.
Число состояний можно понимать как число каких-то деталей(например зубчиков), которые нужно изготовить, чтобы представить число. Понятно, что среда тем надежнее, чем меньше количество деталей (меньшая вероятность сбоя, повреждения детали)
Пример. Сколько нужно зубчиков, чтобы представить числа от 0 до 999 при k=10,2,3
Решение.
Q(10) = 3*10=30 зубчиков.
Q(2): (1000<1024=) => Q(2)=2*10=20 зубчиков
Q(3): (1000<2187=) => Q(3)=3*7=21 зубчиков, но диапазон представления чисел – в 2 раза больше чем при k=2
Системы кодирования с фиксированным числом разрядов
- телеграфный код М2 – 6 двоичных разрядов (64 значений )
- КОИ7 - 7 двоичных разрядов (128 значений )
- ДКОИ - 8 двоичных разрядов (хватало 128 значений )
- ASCII - 8 двоичных разрядов (256 значений )
- UNICODE - 16 двоичных разрядов ( значений )
- USC2 - 16 двоичных разрядов
- USC4 - 16 двоичных разрядов
Системы кодирования с переменным числом разрядов
Код Хофмана – система с переменным числом, при которой ни у каких двух кодов нет общего начала. Символы кодируются в зависимости от частоты их в исходной строке.
Например. Закодировать строку
enndeddeqe
-
Сортируем символы по частоте: e,d,n,q
-
Строим бинарное дерево, как показано на рисунке
Тогда:
e |
n |
n |
d |
e |
d |
d |
e |
q |
e |
1 |
001 |
001 |
01 |
1 |
01 |
01 |
1 |
000 |
1 |