Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
кп_лекция_06.doc
Скачиваний:
16
Добавлен:
16.05.2015
Размер:
254.98 Кб
Скачать

Двухбайтовые кодировки

Не следует думать, что все национальные кодировки являются байтовыми, т. е. следуют правилу: 1 символ = 1 байт. На самом деле, это справедливо только для алфавитных (буквенно-звуковых) систем письменности. С другой стороны, существуют силлабические системы письма, в которых каждый символ представляет не звук, а слог, например, индийские и дальневосточные слоговые азбуки. Поскольку слогов в языке намного больше, чем отдельных звуков, старших 128 байтов кодовой таблицы просто недостаточно для их представления. Это приводит к тому, что такие письменности используют двухбайтовые кодировки (DBCS, Double Byte Character Sets). Типичным примером такой кодировки является японская кодировка JIS, существующая в нескольких вариантах. Она охватывает латинские буквы и цифры, обе японские слоговые азбуки (катакану и хирагану) и важнейшие из китайских иероглифов. Но полноценное представление иероглифической письменности Китая, Японии и Кореи, насчитывающей несколько тысяч иероглифов, в рамках национальных кодировок остается невозможным.

Недостатки национальных кодировок

Несомненным достоинством традиционных кодовых таблиц является предельная краткость представления текстовой информации. Однако, эта краткость влечет за собой и несколько недостатков, органически с ней связанных:

  • Поскольку символы разных языков представляются одними и теми же значениями от 0 до 255, то для правильной их визуализации исполняющая система должна знать не только код символа, но и название кодовой таблицы. При этом, несмотря на все усилия стандартизаторов, разнобой в названии кодировок полный (например, ASCII может называться ANSI_X3.4-1968, ANSI_X3.4-1986, cp367, csASCII, IBM367, iso-ir-6, ISO646-US, ISO_646.irv:1991, ascii, us, us-ascii, us-ascii-1968, x-ansi; синонимы для других кодировок см. в WDH: Стандартные кодировки символов).

  • По этой же причине оказывается практически невозможным сочетание нескольких кодовых таблиц в одном документе. Это ведет к «типографской бедности» текстовых документов, поскольку громадное число полезных символов, не входящих в данную национальную кодировку, выбрасывается за борт.

  • Кодовые таблицы, ориентированные на алфавитные системы письма, не смогли решить проблему кодирования дальневосточных иероглифов и индийских слоговых азбук. Между прочим, это означает, что почти половина населения Земли лишена возможности работать с компьютером на родном языке.

По мере того, как компьютеры становились мощнее, Интернет — разветвленнее, а операционные системы — дружелюбнее к пользователю, перечисленные недостатки оказывались все более серьезным препятствием на пути к созданию естественных интерфейсов «человек-компьютер» и «компьютер-Сеть». Выход из ситуации был достигнут созданием стандарта Unicode, о котором пойдет речь на следующей странице.

Альтернативная кодировка

«Альтернативная кодировка»— основанная на CP437 кодовая страница, где все специфические европейские символы во второй половине заменены на кириллицу, оставляя псевдографические символы нетронутыми. Следовательно, это не портит вид программ, использующих для работы текстовые окна, а также обеспечивает использование в них символов кириллицы.

Исторически существовало много вариантов альтернативной кодировки, но все различия касаются только области 0xF0 — 0xFF (240—255). Окончательным стандартом стала кодировка IBM CP866, поддержка которой была добавлена в MS-DOS версии 6.22 (до этого использовались всевозможные «самопальные» русификаторы. Альтернативная кодировка всё ещё жива и чрезвычайно популярна в среде DOS и OS/2. Кроме того, в этой кодировке записываются имена в файловой системе FAT. CP866 до сих пор используется в консоли русифицированных систем семейства Windows NT.

CP866

 

.0

.1

.2

.3

.4

.5

.6

.7

.8

.9

.A

.B

.C

.D

.E

.F

  8.  

А 410

Б 411

В 412

Г 413

Д 414

Е 415

Ж 416

З 417

И 418

Й 419

К 41A

Л 41B

М 41C

Н 41D

О 41E

П 41F

  9.  

Р 420

С 421

Т 422

У 423

Ф 424

Х 425

Ц 426

Ч 427

Ш 428

Щ 429

Ъ 42A

Ы 42B

Ь 42C

Э 42D

Ю 42E

Я 42F

  A.  

а 430

б 431

в 432

г 433

д 434

е 435

ж 436

з 437

и 438

й 439

к 43A

л 43B

м 43C

н 43D

о 43E

п 43F

  B.  

░ 2591

▒ 2592

▓ 2593

│ 2502

┤ 2524

╡ 2561

╢ 2562

╖ 2556

╕ 2555

╣ 2563

║ 2551

╗ 2557

╝ 255D

╜ 255C

╛ 255B

┐ 2510

  C.  

└ 2514

┴ 2534

┬ 252C

├ 251C

─ 2500

┼ 253C

╞ 255E

╟ 255F

╚ 255A

╔ 2554

╩ 2569

╦ 2566

╠ 2560

═ 2550

╬ 256C

╧ 2567

  D.  

╨ 2568

╤ 2564

╥ 2565

╙ 2559

╘ 2558

╒ 2552

╓ 2553

╫ 256B

╪ 256A

┘ 2518

┌ 250C

█ 2588

▄ 2584

▌ 258C

▐ 2590

▀ 2580

  E.  

р 440

с 441

т 442

у 443

ф 444

х 445

ц 446

ч 447

ш 448

щ 449

ъ 44A

ы 44B

ь 44C

э 44D

ю 44E

я 44F

  F.  

Ё 401

ё 451

Є 404

є 454

Ї 407

ї 457

Ў 40E

ў 45E

° B0

∙ 2219

· B7

√ 221A

№ 2116

¤ A4

■ 25A0

  A0

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]