- •Лекция 3. Формулы Шеннона и Хартли. Расчёт количества информации. Кодирование символьных, графических и звуковых данных. Структуры данных Формула Шеннона
- •Формула Хартли
- •Количество информации, получаемой в сообщении
- •Кодирование символьных (текстовых и числовых) данных
- •Кодирование графических данных
- •Кодирование звуковых данных
- •Структуры данных
Кодирование звуковых данных
Звуковые волны при помощи микрофона превращаются в аналоговый переменный электрический сигнал. Он проходит через звуковой тракт и попадает в аналого-цифровой преобразователь (АЦП) - устройство, которое переводит сигнал в цифровую форму (двоичный код).
Звуковая информация в двоичном коде представляется с помощью различных корпоративных стандартов (форматов).
Формат WAV использует дискретизацию 22 кГц и 8-разрядную запись. Разрядность показывает, с какой точностью происходят изменения амплитуды аналогового сигнала. При этом на каждую секунду записи требуется около 22 Кбайт или 176 Кбит. И это лишь удовлетворительное качество для записи голоса, шумов, немузыкальных звуковых эффектов.
В современных преобразователях принято использовать 20-битное кодирование амплитуды сигналов, что позволяет получать качественную оцифровку звука.
Формат Audio DVD использует разрядность 24 бита и частоту дискретизации (семплирования) 96 кГц. В этом случае для несжатой записи требуется уже звуковой поток более 10 Мбайт/мин.
Поэтому для сокращения объема звуковых файлов применяется их сжатие, основанное на вырезании части, звукового диапазона, не влияющего на слуховое восприятие. В настоящее время наиболее употребляемыми форматами такого сжатия являются MP3, MP4 и Windows Media Audio (WMA-файлы). При таком сжатии достаточно высокое качество звучания достигается при 1 Мбайт/мин.
Форматы MP3 и MP4 наиболее универсальны, но формат WMA (частный стандарт компании Microsoft), обеспечивая удовлетворительное качество, широко применяется в операционных системах Windows по умолчанию, т. к. входит в комплект Windows и не требует установки дополнительной программы (внешнего кодека).
Структуры данных
Для автоматизации работы с данными их объединяют в структуры. Существует три основных типа структур:
-
линейная (или список), в которой адрес элемента задается его уникальным номером, в частности, номером строки. Т. е., уже в линейной структуре данных, в результате ее упорядочивания, возникают адресные данные – номер строки;
-
табличная (матрица) — элемент определяется адресом ячейки - номером каждого измерения (многомерные матрицы могут иметь более 2-х измерений);
-
иерархическая - адрес каждого элемента определяется путем доступа (маршрутом), ведущим от вершины структуры к данному объекту.
Достоинства и недостатки структур
Линейная и табличная - это простые структуры.
Недостаток структур - при изменении количества элементов происходит изменение адресов остальных элементов.
Иерархическая структура легко развивается путем создания новых уровней. Проблем с обновлением адресов нет, т. к. каждый элемент имеет уникальный адрес, не зависящий от остальных элементов. (Примеры: оглавление в книге, почтовый адрес).
Недостаток - относительная трудоемкость записи адреса. Примеры: оглавление в книге, почтовый адрес.
Важная характеристика структур: каждый элемент данных в них приобретает новое свойство – адрес. Адрес элемента – это тоже данные, которые хранятся, преобразуются и т. п.
Файловая структура
Восемь двоичных разрядов (28) составляют 1 байт (1 B), что является наименьшей единицей измерения данных.
Целесообразно использовать для кодирования 16 двоичных разрядов (2 байта), это - слово, 32 разряда - удвоенное слово, 64 разряда - учетверенное слово.
Килобайт - 1000 байтов (точнее - 1024 байта, т. к. 1 KB = 210 байт), о погрешности 3% "забывают". Для сведения: одна страница неформатированного машинописного текста составляет около 2 KB.
1 МВ (мегабайт) =1024 KB = 220 В
1 GB (гигабайт) = 1024 MB = 230 В
1 ТВ (терабайт) = 1024 GB = 240 В
1 PВ (петабайт) = 1024 TB = 250 В
Файл - это последовательность произвольного числа байтов, обладающая собственным именем.
Полное имя файла - это собственное имя с путем доступа к файлу и расширением файла, определяющим его формат.
Оно является уникальным, т. е. на одном компьютере не может быть не может быть 2-х файлов с одинаковыми полными именами.
Регистр символов в полном имени значения не имеет.
В интернете также не может быть 2-х файлов с одинаковыми полными именами, при этом в путь доступа входит уникальный адрес компьютера. Для интернета регистр символов в полном имени файла может иметь значение
ИТОГИ
-
Данные различаются типами в соответствии с физической природой сигналов (аналоговые и дискретные).
-
С целью унификации приемов и методов работы с данными в вычислительной технике применяется универсальная система кодирования данных - двоичный код, элементарной единицей которого является 1 бит.
-
Наименьшей единицей измерения данных является 8-ми разрядное двоичное число - 1 байт.
-
Основной единицей хранения данных является файл. Полное имя файла, включающее собственное имя файла, путь доступа к нему и расширение файла, является уникальным.
-
Для удобства работы с данными их структурируют (структуры: линейная, табличная и иерархическая различаются методом адресации). При сохранении данных в структуре возникают данные нового типа - адресные.