Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции / Лекции по информатике / ЛЕКЦИЯ02_Представление_данных.DOC
Скачиваний:
298
Добавлен:
27.06.2014
Размер:
157.18 Кб
Скачать
    1. Представление символьных и текстовых данных

Рассмотрим последовательно, как кодируются символы, элемен­ты текстов, текстовые документы.

Символы. Двоичное кодирование символьных данных производится заданием кодовых таблиц, согласно которым каждому символу ста­вят в соответствие одно- или двухбайтовый код. Помимо этого, ко­довая таблица ставит в соответствие кодам клавиши на клавиатуре и начертание символа на экране монитора. Обратная задача — интер­претация кодов осложнена тем, что в одном языке, как правило, су­ществуют несколько кодовых таблиц. Это связано с тем, что кодо­вые таблицы разрабатывались в разных странах в разные времена.

Наиболее популярная таблица ASCII разработана институтом стандартизации США в 1981 г. Ее использовали, в частности, про­граммные продукты, работающие под управлением операционной системы MS-DOS. Для представления одного символа используется один байт (8 бит), т.е. кодовая таблица описывает 28 = 256 различ­ных кодов.

Коды с 0 до 127 составляют базовую (основную) таблицу; коды со 128 по 255 расширенную (дополнительную) таблицу.

В основной таблице располагаются управляющие команды для принтеров (коды 0—31 «перевод строки», «возврат каретки», им не соответствуют символы), затем спецсимволы, знаки арифметических действий и знаки препинания, цифры, латинские буквы — пропис­ные и строчные.

Дополнительная таблица отдана национальным алфавитам, сим­волам псевдографики (с помощью которых форматируются таблицы).

Позднее, при разработке операционной системы Windows, была создана кодовая таблица Windows-1251, в которой базовая таблица осталась прежней, а расширенная – изменилась. В целом, существо­вание в нашей стране нескольких кодовых таблиц порождает задачу межсистемного преобразования данных.

Во многих странах Азии 256 кодов явно не хватило. В 1991 г. производители программных продуктов (Microsoft,IBM,Apple) и стандартизаторы пришли к соглашению о выработке единого стан­дартаISO10646-1 (он жеUnicode3.0). Код построен по 31-битной схеме, но используются только два байта для кодирования одного символа. Два байта (или 16 бит) создают 216=65536 кодов, которые описывают цифры, буквы латинского и многих национальных алфа­витов, спецсимволы, знаки арифметических операций и т.д. Все тек­стовые документы в этой кодировке вдвое длиннее, что сначала за­держивало ее внедрение, но современный уровень технических средств допускает такую возможность. В настоящее время распространенный текстовый редакторWord, начиная с версииWord8.0 (MicrosoftOffice97), использует шрифтыUnicode3.0.

Текстовые строки. Текстовая (символьная строки) – это конеч­ная последовательность символов. Запи­сывается в память символьная строка двумя способами: либо число, обозначающее длину текста, затем текст, либо текст, а затем разде­литель строк.

Текстовые документы. Текстовые документы используются для хранения и обмена данными в информационных системах, но сплош­ной, не разбитый на логические фрагменты текст воспринимается тяжело.Структурирование теста достигаетсяформатированием – спе­цифическим расположением текста при подготовке его к печати. Для анализа структуры текста были разработаны языки разметки, кото­рые текстовые метки (маркеры или теги), используемые для обозна­чения частей документа, записывают вместе с основным текстом в текстовом формате. Программы, анализирующие текст, структуриру­ют его, считывая теги.