Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Тема 4-глоб.doc
Скачиваний:
2
Добавлен:
17.08.2019
Размер:
156.67 Кб
Скачать

Тема 4. Форматы данных, доступных в компьютерных сетях [1,4,8,9]. Форматы для представления текста и документов: общие сведения о тексте, разметка текста, SGML – международный стандартный язык разметки документов, PostScript – не зависящий от устройств воспроизведения язык описания документов, PDF – язык описания документов для обмена ими в электронном виде, форматы данных текстовых процессоров.

О тексте

Текстовые файлы— наиболее распространенный тип данных не только в Internet, но и во всем компьютерном мире. Хотя на первый взгляд с ним не должно быть особых проблем, существуют два сильно осложняющих жизнь фактора. Первый— чрезвычайно большое количество символов, требующихся для поддержки различных языков. Американские программисты для работы со 128 символами используют набор символов US ASCII. Важно помнить, что бо­лее 250 символов необходимы только для того, чтобы управиться с парой десятков европейских языков, базирующихся на латинском алфавите. Для поддержки других алфавитов — кириллицы, греческого, иврита, арабского, санскрита и т. д. — дополнительно требуется еще более сотни символов, китайский, японский и корейский языки добавляют к этому списку еще более десяти тысяч иероглифов. Времена, когда в Internet преобладали англоязычные пользователи, проходят. Гибкие разработчики программного обеспечения использовали эту благоприятную возможность для создания многоязычных программ. В следующем разделе описывается история появления различных наборов символов. Кроме того, в нем вы найдете некоторые тонкости разработки и использования разноязычного программного обеспечения.

Другая сложность заключается в том, что чисто текстовые данные встречаются все реже и реже. Люди хотят, чтобы распечатываемые документы содержали графики, диаграммы, примечания, заголовки и чтобы при этом использовались различные шрифты. Онлайновые документы, в свою очередь, могут включать мультипликацию, ссылки на сетевые базы данных и звуковое сопровождение. В результате комбинации различных типов данных образуются документы мультимедиа. Текстовый формат — так как он обычно используется как базовый — является стартовой точкой многих форматов документов мультимедиа. Многие из тех форматов, о которых пойдет речь в следующих разделах, — не просто текстовые форматы, более корректно их следовало бы называть форматами документа. Подобные форматы предоставляют остов для комбинирования текстовых, графических и других форм данных.

Набор символов

Если вы критически посмотрите на разнообразные статьи о символах и наборах символов, то наверняка в конце концов придете к выводу, что опираться на понятие «символ» крайне сложно. Оно имеет так много различных смысловых оттенков, что я умышленно буду избегать слов «символ» и «набор символов» в тех случаях, когда возможно разночтение.

Большинство пользователей уверены в том, что А и А это один и тот же сим­вол, несмотря на то, что выглядят они по разному. Для уточнения внешнего вида да соответствующего символа типографы используют термин глиф. Так, несмотря на то, что все эти глифы А, А, А, А, А, А, представляют собой один и тот же символ, несложно заметить, что они разные. Говоря более точно, глиф — это специфическае визуальное представление символа.

Конечно, мало кого интересует вид отдельно взятого символа или глифа. Зачастую надо, чтобы смотрелся хорошо весь текст в целом, то есть имеет смысл говорить о подборке символов. Даже в американском английском она должна содержать пятьдесят две прописных и строчных симвода, десять цифр и разно-образные знаки пунктуации. Такую подборку называют репертуаром (repertoire), соответствующий набор глифов, по одному для каждого из символов, называют шрифтом.

Существует много различных репертуаров символов. Прежде всего, это многообразие вызвано особенностями алфавитов различных языков, а также особенностями приложений (например, издательских систем).

Конечно, в различных странах и языках используются различные репертуары символов. Удобнее всего использовать для кодирования символов числа от нуля до 255 (всевозможные значения одного байта). Правда, имея в распоряжении только 256 чисел, вы не сможете дать уникальный код любому символу. Поэтому были разработаны различные наборы кодов символов. Упомянутый выше набор кодов символов ISO Latin 1 был создан организацией ISO (International Organization for Standardization, Международная организация по стандартизации) для представления всех символов, необходимых для определенной группы языков (в данном случае — для тех языков Западной Европы, которые используют латинский алфавит). Прочие наборы кодов пытаются охватить другие группы символов. Наиболее популярные компьютерные системы, кроме того, имеют собственные специфические варианты наборов символов (так, например, в MS-DOS и Windows используются «кодовые страницы» фирмы IBM).

Самый простой способ кодирования символов базируется на едином наборе кодов символов, содержащим 256 (или менее) кодов. Если в вашем распоряжении имеется текстовый файл, закодированный таким образом, вы можете взять из него любой байт и посмотреть в таблице, какой символ соответствует этому значению байта. Если один текстовый файл использует сразу несколько наборов кодов символов, все несколько усложняется. В этом случае вы имеете специальные коды символов, информирующие программу просмотра файла о том, когда она должна переключиться на другой набор кодов символов. В другом международном стандарте, ISO 2022, описывается один из способов переключения между наборами кодов символов. Отметим, что при этом вы не можете просто посмотреть на байт из середины файла и узнать, что он означает. Чтобы увидеть, есть ли специальная последовательность, указывающая на замену кодовой страницы, необходимо прочесть весь файл целиком с самого начала. И только после этого можно будет определить, какой кодовой страницей пользоваться.

Такие языки, как китайский, содержат значительно больше 256 символов, поэтому для кодирования каждого из них используют несколько байтов. Причем при таком кодировании используются разнообразные подходы. В одном из вариантов каждому символу соответствует один байт, а для представления всего спектра символов используется несколько наборов кодов. При другом подходе каждому символу соответствует несколько байтов. Для экономии места зачас­тую эти два подхода комбинируются: некоторые символы кодируются с помощью одного байта, в то время как для других используются два или более байтов. Читать такие файлы (например, с текстом на китайском языке), конечно, сложнее, чем те, которые используют столь распространенный в западных про­граммах подход «один байт — один символ».

Одной из попыток обобщения этих подходов является стандарт Unicode (который так же известен, как ISO 10646). В Unicode для кодирования символов используется диапазон чисел от нуля до 65 536. Такой широкий диапазон позволяет представлять в численном виде символы языка людей из любого уголка планеты. Многие международные стандарты для обеспечения поддержки нескольких языков стремятся к соблюдению Unicode.

Оформление текста

Многие текстовые файлы передаются в виде простого текста (plain text). К несчастью, «простой» в данном случае вовсе не является синонимом слова несложный. Простой текст трудно сделать привлекательным и легкочитаемым, так как в нем нет шрифтов разных начертаний, графики, заголовков, подзаголовков, примечаний и т. п. Эти дополнительные особенности носят название разметки текста (markup).

Физическая и логическая разметка текста

Прежде всего необходимо разобраться в разнице между физической (physical) и логической (logical) разметкой текста. При использовании физической разметки указывается точный вид каждого фрагмента текста. Например, «центрованный текст, 14-м кеглем, жирный, сжатый, гарнитура Futura». При логической разметке текста указывается логическое значение данного фрагмента, например, «это заголовок главы».

Эти два способа разметки предназначаются для использования в разных ситуациях. Чтобы распечатать текст на принтере, необходимо использовать физическую разметку. То есть должно быть принято решение о размере полей, формате примечаний, а также о величине абзацного отступа в начале каждого параграфа. Ранние версии текстовых процессоров использовали только физический тип разметки. При этом вы должны были для каждого фрагмента текста указывать его шрифт, размер и стиль.

При обмене информацией с другими людьми на физическое оформление текста накладывается ряд ограничений. Например, стандартный лист бумаги в разных странах имеет различный размер. И то, что неплохо смотрелось на бумаге, соответствующей американским стандартам, будет выглядеть крайне неприглядно на более длинном и узком листе А4, используемом в Европе. С чисто электронными документами, например онлайновой документацией, ситуация обстоит еще хуже. Размер экрана, его разрешение, шрифты и поддержка графики — все эти параметры широко варьируют от системы к системе. Потому лучше всего, если документ можно будет подогнать под имеющийся дисплей, заново его отформатировав.

По этим причинам все чаще и чаще компьютерные приложения используют логическое оформление текста. При логическом оформлении каждая часть документа связывается с его логическим значением. Например, некоторые слова будут иметь пометку «выделить», либо реже «курсив». При распечатывании документа или выводе его на экран логический формат будет конвертироваться в соответствуюший данной ситуации физический формат. Слова, которые необходимо было выделить на системах, не поддерживающих курсив, будут подчеркнуты. В тех же странах, где принято использовать полужирный шрифт, отмеченные слова будут выделены с его помощью.

В некоторых ситуациях логическое оформление крайне важно. Например, в случае обмена электронными документами типа страниц World Wide Web или при создании и публикации объемных трудов (таких, как книги). Многие изда­тели хранят книги в электронном виде, используя SGML (Standard Generic Markup Language, стандартный обобщенный язык разметки документов). Такой подход помогает упростить процесс создания книги (не надо постоянно следить за тем, чтобы соблюдалась разметка страницы и сохранялись выбранные шриф­ты). Кроме того, он позволяет легко изменять размер книги и ее формат.

Преобразование логической разметки в физическую осуществляется с помощью таблицы стилей (style sheet). В таблице стилей просто перечисляются способы отображения каждого логического элемента. В различных системах управление процессом преобразования может различаться в деталях. В одних случаях логическая разметка задается с помощью текстовых команд, и входной документ обрабатывается для создания выходного документа, содержащего физическую разметку. В других— для логического представления используется двоичный формат текстового процессора, а пользователь редактирует окончательный вариант физически размеченного документа.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]