Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
11.DOC
Скачиваний:
20
Добавлен:
16.04.2015
Размер:
195.58 Кб
Скачать

1.3 Стандарты кодирования текстов:

Результатом необходимости стандартизации представления текстовой информации явилась кодировка ASCII (American Standard Code for Information Interchange) - стандартная американская кодировка для обмена информацией. Стандарт стандартом, а несовместимые или частично совместимые с ним варианты кодировок существовали и продолжают существовать. Сущим проклятием кодировки стали для компьютерщиков тогда, когда компьютеры распространились за пределы англоязычных стран, а затем и стран с латинским алфавитом. Появилась проблема совмещения латинского и национального алфавита в одной кодировке. Проблема состоит в том, что текст, который создан в одной кодировке, при использовании другой предстает набором символов, лишенных всякого смысла.

Программисты помнят машины линий СМ и ДВК (советские аналоги компьютеров американской фирмы DEC), в которых использовалась семибитовая кодировка KOI-7. Другими словами, с ее помощью можно было представить не более 128 символов, многие из которых нельзя было переопределить. В результате программист должен был выбирать один из трех вариантов одной и той же кодировки: А) латинский, со

строчными и заглавными буквами, Б) кириллический, со строчными и заглавными буквами, или В) смешанный, с заглавными латинскими и русскими буквами. Непосредственный перенос текста с ДВК (KOI-7 в трех вариациях) на PC (ASCII) был невозможен без специальных средств преобразования кодов.

Что касается принятой для PC восьмибитовой (256 символов) кодировки ASCII, то и здесь поначалу применялось не менее трех вариантов расположения букв кириллицы. В конце концов выжил вариант, известный как CP866, - кодовая страница N№866 MS DOS.

Появившиеся версии UNIX для IBM-совместимых персональных компьютеров. До того момента UNIX развивался на компьютерах VAX и PDP фирмы DEC. "Перепрыгнув" на PC, UNIX принес с собой кодировку DEC KOI-8 и ее кириллический вариант KOI-8r, который, кстати, считается фактическим стандартом для передачи русскоязычной информации и ее представления в Internet.

Простой пример отличие двух кодировок:

Пусть вместо 128 кодов в верхней половине кодовой таблицы имеется всего 5 кодов, а буквы занимают не 66 кодов, а 3. И пусть будет две кодировки этих трёх букв:

Кодировка 1

код

1

2

3

4

5

буква

А

Б

В

*

*


Кодировка 2

код

1

2

3

4

5

буква

*

А

*

Б

В

То есть, в первой кодировке код А - 1, а во второй код А - 2 и т.д.

Некоторые таблицы кодировок:

&

0

1

2

3

4

5

6

7

8

9

A

B

C

D

E

F

8x

А

Б

В

Г

Д

Е

Ж

З

И

Й

К

Л

М

Н

О

П

9x

Р

С

Т

У

Ф

Х

Ц

Ч

Ш

Щ

Ъ

Ы

Ь

Э

Ю

Я

Ax

а

б

в

г

д

е

ж

з

и

й

к

л

м

н

о

п

Bx

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Cx

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Dx

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Ex

р

с

т

у

ф

х

ц

ч

ш

щ

ъ

ы

ь

э

ю

я

Fx

Ё

ё

 

 

 

 

 

 

 

 

 

 

 

 

 

 


CP866 : Так называемый альтернативный вариант кодовая страница CP866 в MSDOS/IBM PCDOS. Буквы размещены так, чтобы сохранить место для графических рамок в приложениях DOS. Кодировка называется альтернативной, потому что была альтернативна другому набору, с русским алфавитом, занимавшими сплошной массив начиная с кода 128=0x80.

KOI-8r : KOI-8 RFC 1489 старый KOI-8 ГОСТ 19768-74 с добавленными «ё» и «Ё». Используется в эхо-кон KOI-8r : KOI-8 RFC 1489 = старый KOI-8 ГОСТ 19768-74 с добавленными «ё» и «Ё». Используется в эхо-конференциях и при пересылке электронной почты.

&

0

1

2

3

4

5

6

7

8

9

A

B

C

D

E

F

8x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

9x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Ax

 

 

 

ё

 

 

 

 

 

 

 

 

 

 

 

 

Bx

 

 

 

Ё

 

 

 

 

 

 

 

 

 

 

 

 

Cx

ю

а

б

ц

д

е

ф

г

х

и

й

к

л

м

н

о

Dx

п

я

р

с

т

у

ж

в

ь

ы

з

ш

э

щ

ч

ъ

Ex

Ю

А

Б

Ц

Д

Е

Ф

Г

Х

И

Й

К

Л

М

Н

О

Fx

П

Я

Р

С

Т

У

Ж

В

Ь

Ы

З

Ш

Э

Щ

Ч

Ъ

DKOI : DKOI-8 (русский EBCDIC) ГОСТ 19768-87, устарела.

&

0

1

2

3

4

5

6

7

8

9

A

B

C

D

E

F

0x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4x

 

 

Ё

 

 

 

 

 

 

 

 

 

 

 

 

 

5x

 

 

 

 

 

 

 

 

 

ё

 

 

 

 

 

 

6x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

7x

 

 

 

 

 

Ъ

ю

а

б

 

 

 

 

 

 

 

8x

ц

 

 

 

 

 

 

 

 

 

д

е

ф

г

х

и

9x

й

 

 

 

 

 

 

 

 

 

к

л

м

н

о

п

Ax

я

 

 

 

 

 

 

 

 

 

р

с

т

у

ж

в

Bx

ь

ы

з

ш

э

щ

ч

ъ

Ю

А

Б

Ц

Д

Е

Ф

Г

Cx

 

 

 

 

 

 

 

 

 

 

Х

И

Й

К

Л

М

Dx

 

 

 

 

 

 

 

 

 

 

Н

О

П

Я

Р

С

Ex

 

 

 

 

 

 

 

 

 

 

Т

У

Ж

В

Ь

Ы

Fx

 

 

 

 

 

 

 

 

 

 

З

Ш

Э

Щ

Ч

 

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]