5.2 Символьные кодировки

То, что в данной спецификации называется "символьные кодировки" известно в других спецификациях под другими именами (это может стать причиной некоторой путаницы). Однако данная концепция в значительной степени типична для Интернет в целом. Таким же образом, заголовки протоколов, атрибутов и параметров ссылаются на символьные кодировки, имеющие то же самое имя -- "charset" -- и используют такие же значения из реестра [IANA] (смотрите полный список в [CHARSETS]).

Параметр "charset" определяет "символьную кодировку", которая является методом конвертирования последовательности байт в последовательность символов. Эта конверсия естественным образом подходит к схеме активности Сети: серверы посылают документы HTML средствам просмотра в виде потока байт; средства просмотра интерпретирует их как последовательность символов. Метод конверсии может простираться от простого соответствия "один к одному" до комплексного переключения схем или алгоритмов.

Простая технология кодирования "один байт -- один символ" не достаточна для текстовых строк относительно символьного репертуара описанного в [ISO10646]. Имеется несколько различных кодировок, являющихся частью [ISO10646] в дополнении к кодировкам вхождений набора символов (таких как UCS-4).

5.2.1 Выбор кодировки

Авторские инструменты (например, текстовые процессоры) могут кодировать документы HTML в символьных кодировках по их выбору, и выбор, в значительной степени, зависит от соглашений, используемых системным программным обеспечением. Эти инструменты могут применяться в любых удобных кодировках, которые "перекрывают" большинство символов, содержащихся в документе, предусмотренные кодировки корректно отмечены. Случайные символы, которые выпадают из конкретной кодировки, все равно могут быть представлены символьными ссылками. Последние всегда ссылаются на алфавит документа, а не на символьную кодировку.

Cерверы и прокси- серверы могут изменять кодировку документа на лету (это называется перекодировкой), встречая запросы от средств просмотра (смотрите раздел 14.2 в [RFC2068], заголовок "Accept-Charset" запроса HTTP). Серверы и прокси- серверы не будут полезны для документа созданного в символьной кодировке, которая перекрывает весь алфавит документа.

Обычно используемые символьные кодировки в Web включают: ISO-8859-1 (также называемую "Latin-1", применяется для большинства Западно-Европейских языков), ISO-8859-5 (Кириллица), SHIFT_JIS (Японская кодировка), EUC-JP (другая Японская кодировка) и UTF-8 (кодировка ISO 10646, использующая различные номера байт для представления различных символов). Имена кодировок являются нечувствительными к регистру, таким образом, "SHIFT_JIS", "Shift_JIS" и "shift_jis" полностью эквивалентные записи.

Данная спецификация не предписывает, какие кодировки должны поддерживаться средством просмотра.

Согласующиеся средства просмотра должны корректно отображать в Unicode все символы в любой символьной кодировке, которые они (средства) распознают (или должны вести себя так, как будто они их распознают).

<<< < Предыдущая 1 2 3 4 5 6 78 / 168 9 10 11 12 13 14 15 16 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
11.05.2015729.47 Кб202329-TCP_lekcii.pdf
#
11.05.20159.27 Mб24237-Inventor_11.pdf
#
11.05.20157.25 Mб262799-up_ch2.pdf
#
11.05.201571.73 Кб6729.docx
#
12.07.201987.55 Кб23 - Поведение потребителя.doc
#
22.11.2019330.75 Кб23 Об SGML и HTML.doc
#
11.05.20153.08 Mб473 Уч пособие МООЦСС_УМП_2007.pdf
#
11.05.20152.93 Mб863-192.DOC
#
10.05.20156.79 Mб3193-200.doc упос пособие.doc
#
29.04.2019167.94 Кб23-26.doc
#
10.05.2015945.15 Кб383-34.doc