Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Т5_Цифровое представление текстовой информации...doc
Скачиваний:
9
Добавлен:
17.08.2019
Размер:
256.51 Кб
Скачать

Тема 5: Цифровое представление текстовой информации мультимедийных маркетинговых продуктов

1 Стандарты кодирования символов ASCII, ANSI, КОИ-8 и UNICODE

2 Формат PDF

3 Формат разметки текста RTF

1 Стандарты кодирования символов ascii, ansi, кои-8 и unicode

Представление текстовой информации в электронных публикациях осуществляется с помощью стандартов кодирования текста (символов) и текстовых форматов. На данный момент их перечень весьма ограничен. В качестве стандартов кодирования символов используются ASCII, ANSI, UNICODE. Из множества известных форматов в электронных изданиях нашел применение формат PDF, предложенный фирмой Adobe Systems для программных средств создания и просмотра электронных изданий Adobe Acrobat. Стандартом де-факто является формат RTF, предложенный фирмой Microsoft для организации обмена текстовой и графической информацией. Однако его применение в электронных изданиях весьма ограничено.

Представление символов в электронных изданиях базируется на таблицах кодов, в которых каждому из отображаемых на экране символов соответствует код от 0 до 255. Первые 127 кодовых комбинаций используются для латинских букв и цифр, знаков пунктуации и т. д. и, как правило, строятся по единому принципу.

Стандарт представления символов ASCII - это 7-битовое описание кода символа. Поскольку в персональных компьютерах используются байты, состоящие из 8 бит, производители компьютеров часто определяют наборы символов, использующие 256 кодов вместо 128 кодов ASCII. В результате получается «расширенный набор символов» (extended character set), который включает в себя набор символов ASCII и до 128 других символов.

В начале 80-х годов производители IBM PC решили расширить набор символов ASCII так, как показано на рис. 3.1.

Коды от 20h до 7Ah - это выводимые на дисплей символы из набора символов ASCII. Оставшиеся символы являются нестандартными или, по крайней мере, на тот момент являлись нестандартными.

Этот набор символов закодирован в миллионах микросхем ПЗУ в видеоадаптерах, принтерах и микросхемах BIOS. Он был растиражирован в аппаратуре многочисленных производителей IBM-ориентированных компьютеров и периферии. Для множества программ, работающих в текстовом режиме и написанных не для MS Windows, требуется этот расширенный набор символов, поскольку в них для вывода информации на экран используются символы псевдографики - символы блоков и линий (коды от В0h до D0h).

Известно несколько вариантов кодирования символов IBM, которые называются «кодовые страницы» (code pages). Вариант, используемый в Соединенных Штатах Америки и большинстве европейских стран, называется Code Page 437. В системах, распространенных в Норвегии, Дании, Португалии и некоторых других странах Европы, используются другие специальные кодовые страницы, в которых содержится большее количество специальных символов, необходимых для языков этих стран. В последнее время некоторые страны начали применять кодовую страницу Code Page 850, в которой содержится меньшее количество псевдографических символов. За счет этого введены дополнительные символы, знаки ударения и другие специальные символы.

Расширенный набор символов, который Windows и программы для Windows в большинстве случаев используют, называется набор символов ANSI (ANSI character set), фактически он является международным стандартом ISO. Кодовая таблица стандарта ANSI представлена на рис. 3.2.

В нашей стране кодовые комбинации начиная со 128 используются для кодирования символов кириллицы, математических символов и другой информации. Причем для каждой платформы используется свое расположение символов в кодовой таблице. Так, известны кодировки Windows, Mac, DOS-OS/2, ISO (Dec) и КОИ-8. Поэтому приходится осуществлять перекодировки символов кириллицы электронных изданий в зависимости от используемой платформы.

Справедливости ради следует отметить, что существуют нормативы: «Основная кодировка ГОСТа», «Альтернативная кодировка ГОСТа» и кодировка КОИ-8. В последнем случае символы кириллицы имеют коды: А-Я - 224-254 (не в алфавитном порядке); а-я - 192-223 (не в алфавитном порядке).

По мнению специалистов, «Альтернативная кодировка ГОСТа» использует под кодировки символов кириллицы позиции, где в кодировке IBM расположены относительно редко используемые символы национальных алфавитов, греческие буквы и некоторые математические символы.

На рис. 3.3 приведена таблица кодировки символов кириллицы для «Альтернативной кодировки ГОСТа» (Alt), «Основной кодировки ГОСТа» (Mai), кодировки MIC и КОИ-8.

Стандарт кодировки символов UNICODE. Стандарт Unicode был предложен некоммерческой организацией Unicode Consortium, образованной в 1991 г. Для представления каждого символа в этом стандарте используются два байта: один байт для кодирования символа, другой для кодирования признака. Тем самым обеспечивается информационная совместимость данного способа кодирования со стандартом ASСII.

Двухбайтовое описание кодов символов позволяет закодировать очень большое число символов из различных письменностей. Так, в документах Unicode могут соседствовать русские, латинские, греческие буквы, китайские иероглифы и математические символы.

Кодовое пространство Unicode разделено на несколько областей. Область с кодами от 0000 до 007F содержит символы набора Latin 1 (младшие байты соответствуют кодировке ISO 8859-1). Далее идут области, в которых расположены знаки различных письменностей, а также знаки пунктуации и технические символы. Часть кодов зарезервирована для использования в будущем (29000). 6000 кодовых комбинаций оставлено программистам.

Символам кириллицы выделены коды в диапазоне от 0400 до 0451.

В документах Unicode используются различные шрифты. Как правило, файл шрифта Unicode содержит начертания не для всех символов, определенных в стандарте, а лишь для символов из некоторых областей.

Некоторые программы, например ядро Windows NT, ее графический интерфейс (GDI) и файловая система (NTFS), реализованы с использованием Unicode. Программы, запущенные в среде NT, могут работать также с однобайтовыми символами, кодировка которых в этом случае соответствует установленной по умолчанию кодовой странице ANSI (для России - Windows Cyrillic).

Перед вызовом некоторых функций программного интерфейса NT программы, работающие с кодовой страницей ANSI, преобразуют однобайтовые символы в Unicode. Чтобы преобразование выполнялось без ошибок, обычно указывается страна в приложении Regional Settings. Такой же подход используется для корректной работы с национальными символами программ в среде MS-DOS.

В отличие от Windows NT ядро и графический интерфейс Windows 7 не используют Unicode, а работают с кодовыми страницами. Однако в этой системе предусмотрена возможность динамического изменения наборов символов и раскладок клавиатуры, что позволяет создавать документы, содержащие одновременно символы из разных наборов. Буфер обмена Windows 7 способен хранить тексты в формате CF_UNICODETEXT. В составе Windows 7 и более поздних версий поставляется набор шрифтов Unicode, с которыми, в частности, могут работать программы Microsoft Office.

Выяснить, какие наборы символов присутствуют в том или ином шрифте Unicode, можно с помощью стандартной утилиты Character Map (таблица символов), включенной в состав Windows NT. Выбрав в списке Subset строку Cyrillic, вы увидите таблицу с символами кириллицы, соответствующую кириллической области Unicode.

Использование Unicode значительно упрощает создание многоязычных документов, публикаций и программных приложений. Поэтому следует ожидать его широкого применения в электронных изданиях.