Самосинхронизация и utf-16

Самосинхронизацию в UTF-8 можно рассмотреть когда вашей программе подаются случайные байты и вам нужно определить начало первого символа. Первичным признаком является сброшенный старший бит байта — это ASCII-символ. Если же он установлен, то пропускаем те байты, у которых сброшен бит перед старшим. В остальных случаях можно продолжать посимвольное поточное раскодирование.

UTF-8 обладает свойством самосинхронизации при обработке 8-битными байтами. Альтернативной UTF-8 является кодировка UTF-16, которая уже обрабатывается 16-битными словами. Возможно возникновение сомнения что UTF-16 не является самосинхронизирующейся. В настоящий момент передача данных в компьютере в подавляющем большинстве производится цельными октетами — 8 бит или ничего (см. IPv4, IPv6, SATA для современной аппаратуры и ATA с PATA для недавней). В данных условиях UTF-8 имеет преимущество в характеристике самосихронизации перед UTF-16, если речь касается аппаратной передачи данных или работы с байтовым потоком (чтение Unicode-данных с произвольной позиции). Если же работа осуществляется в оперативной памяти одной машины, то UTF-16 так же является самосинхронизирующейся (если аппаратура способна подавать цельные 16-битные слова).

Максимальный потенциал

До этого рассматривалось кодирование в UTF-8 лишь 32-битных целых без отрицательных значений. Следует отметить, что в стандарте Unicode используются символы лишь до кода 001FFFFF₁₆ включительно. Поэтому даже 32-битных значений может вполне хватить, но этот раздел был включён для полноты изложения в случае использования UTF-8 для кодирования несимвольных данных.

В первом байте количество установленных старших бит определяет количество байт на символ. Оставшиеся младшие биты хранят старшие биты значения кода символа. Мы можем сделать допущение о том, что первый байт не обязан содержать данные. При этом допускаем, что все биты за пределами байта равны нулю. Тогда данные будут содержать только 6 бит в последующих байтах. Получается 36 бит для семибайтового символа и 42 бита — для восьмибайтового.

Bom (сигнатура)

См. так же полную статью «Byte order mark».

Многие программы Windows (включая Блокнот) добавляют байты EF₁₆, BB₁₆, BF₁₆ в начале любого документа, сохраняемого как UTF-8. Это метка порядка байтов (англ. Byte Order Mark, BOM), также её часто называют сигнатурой (соответственно, UTF-8 и UTF-8 with Signature). По наличию сигнатуры программы могут автоматически определить, является ли файл закодированным в UTF-8, однако файлы с такой сигнатурой могут некорректно обрабатываться старыми программами, в частности xml-анализаторами. Такие редакторы, как Notepad++, Notepad2 и Kate, позволяют явно указывать, следует ли добавлять сигнатуру при сохранении UTF-файлов.

Например: В файле записана одна латинская буква «a».

Если кодировка этого файла UTF-8 with Signature, то он будет содержать: EF₁₆ BB₁₆ BF₁₆ 61₁₆
Если кодировка этого файла UTF-8 (без сигнатуры), то он будет содержать: 61₁₆

Если считывающая программа не поддерживает BOM, то эти три байта успешно раскодируются в один Unicode-символ FEFF₁₆. Это не разрывающий слова пробел нулевой ширины и поэтому он может не отобразиться. Этот же символ используется в BOM для кодировок UTF-16 и UTF-32.

См. также

UTF-16

Примечания

↑ Usage Statistics of Character Encodings for Websites, June 2011 (англ.)
↑ http://www.cl.cam.ac.uk/~mgk25/ucs/utf-8-history.txt (англ.)
↑ Well, I'm Back String Theory (англ.). Robert O'Callahan (1 March 2008). Архивировано из первоисточника 23 августа 2011. Проверено 1 марта 2008.
↑ Ростислав Чебыкин Всем кодировкам кодировка. UTF‑8: современно, грамотно, удобно.. HTML и CSS. Архивировано из первоисточника 23 августа 2011. Проверено 22 марта 2009.

Ссылки

UTF-8 encoding table and Unicode characters
UTF-8: Кодирование и декодирование на habrahabr
UTF-8, UTF-16, UTF-32 & BOM — Вопросы и ответы
Compatibility Encoding Scheme for UTF-16: 8-Bit (CESU-8)
Полное описание стандарта Unicode

<<< < Предыдущая 12 / 22

Соседние файлы в папке Кодировки

#
23.03.2015373.25 Кб62UNICODE.doc
#
23.03.2015103.63 Кб36UNICODE.docx
#
23.03.201583.46 Кб36UTF-16.doc
#
23.03.201527.44 Кб40UTF-16.docx
#
23.03.2015175.62 Кб40UTF-8.doc
#
23.03.201560.33 Кб35UTF-8.docx