- •Лекция 2. Представление (кодирование) данных
- •Представление чисел в двоичном коде
- •Системы счисления
- •Преобразование чисел из одной системы счисления в другую
- •Представление чисел в двоичном коде
- •Представление символьных и текстовых данных
- •Представление звуковых данных в двоичном коде
- •Представление графический данных в двоичном коде
- •Понятие сжатия информации
Представление символьных и текстовых данных
Рассмотрим последовательно, как кодируются символы, элементы текстов, текстовые документы.
Символы. Двоичное кодирование символьных данных производится заданием кодовых таблиц, согласно которым каждому символу ставят в соответствие одно- или двухбайтовый код. Помимо этого, кодовая таблица ставит в соответствие кодам клавиши на клавиатуре и начертание символа на экране монитора. Обратная задача — интерпретация кодов осложнена тем, что в одном языке, как правило, существуют несколько кодовых таблиц. Это связано с тем, что кодовые таблицы разрабатывались в разных странах в разные времена.
Наиболее популярная таблица ASCII разработана институтом стандартизации США в 1981 г. Ее использовали, в частности, программные продукты, работающие под управлением операционной системы MS-DOS. Для представления одного символа используется один байт (8 бит), т.е. кодовая таблица описывает 28 = 256 различных кодов.
Коды с 0 до 127 составляют базовую (основную) таблицу; коды со 128 по 255 расширенную (дополнительную) таблицу.
В основной таблице располагаются управляющие команды для принтеров (коды 0—31 «перевод строки», «возврат каретки», им не соответствуют символы), затем спецсимволы, знаки арифметических действий и знаки препинания, цифры, латинские буквы — прописные и строчные.
Дополнительная таблица отдана национальным алфавитам, символам псевдографики (с помощью которых форматируются таблицы).
Позднее, при разработке операционной системы Windows, была создана кодовая таблица Windows-1251, в которой базовая таблица осталась прежней, а расширенная – изменилась. В целом, существование в нашей стране нескольких кодовых таблиц порождает задачу межсистемного преобразования данных.
Во многих странах Азии 256 кодов явно не хватило. В 1991 г. производители программных продуктов (Microsoft,IBM,Apple) и стандартизаторы пришли к соглашению о выработке единого стандартаISO10646-1 (он жеUnicode3.0). Код построен по 31-битной схеме, но используются только два байта для кодирования одного символа. Два байта (или 16 бит) создают 216=65536 кодов, которые описывают цифры, буквы латинского и многих национальных алфавитов, спецсимволы, знаки арифметических операций и т.д. Все текстовые документы в этой кодировке вдвое длиннее, что сначала задерживало ее внедрение, но современный уровень технических средств допускает такую возможность. В настоящее время распространенный текстовый редакторWord, начиная с версииWord8.0 (MicrosoftOffice97), использует шрифтыUnicode3.0.
Текстовые строки. Текстовая (символьная строки) – это конечная последовательность символов. Записывается в память символьная строка двумя способами: либо число, обозначающее длину текста, затем текст, либо текст, а затем разделитель строк.
Текстовые документы. Текстовые документы используются для хранения и обмена данными в информационных системах, но сплошной, не разбитый на логические фрагменты текст воспринимается тяжело.Структурирование теста достигаетсяформатированием – специфическим расположением текста при подготовке его к печати. Для анализа структуры текста были разработаны языки разметки, которые текстовые метки (маркеры или теги), используемые для обозначения частей документа, записывают вместе с основным текстом в текстовом формате. Программы, анализирующие текст, структурируют его, считывая теги.
