2.3. Кодирование текстовых данных Имеется две системы кодирования: на основе ascii и Unicode.

В системе кодирования ASCII (American Standard Code for Information Interchange — стандартный код информационного обмена США) каждый символ представлен одним байтом, что позволяет закодировать 256 символов.

В ASCII имеется две таблицы кодирования — базовая и расширенная. Базовая таблица закрепляет значения кодов от 0 до 127, а расширенная относится к символам с номерами от 128 до 255. Этого хватит, чтобы выразить различными комбинациями восьми битов все символы английского и русского языков, как строчные, так и прописные, а также знаки препинания, символы основных арифметических действий и общепринятые специальные символы, которые можно наблюдать на клавиатуре.

Первые 32 кода базовой таблицы, начиная с нулевого, отданы производителям аппаратных средств (в первую очередь производителям компьютеров и печатающих устройств). В этой области размещаются так называемые управляющие коды, которым не соответствуют никакие символы языков, и, соответственно, эти коды не выводятся ни на экран, ни на устройства печати, но ими можно управлять тем, как производится вывод прочих данных. Начиная с кода 32 по код 127, размещены символы английского алфавита, знаки препинания, цифры, арифметические действия и вспомогательные символы, все их можно видеть на латинской части клавиатуры компьютера.

Вторая, расширенная часть отдана национальным системам кодирования. В мире существует много нелатинских алфавитов (арабский, еврейский, греческий и пр.), в число которых входит и кириллица. Кроме того, немецкая, французская, испанская раскладки клавиатуры отличаются от английской.

В английской части клавиатуры раньше было много стандартов, а теперь все они заменены на единый код ASCII. Для русской клавиатуры тоже существовало много стандартов: ГОСТ, ГОСТ-альтернативная, ISO (International Standard Organization — Международный институт стандартизации), но эти три стандарта фактически уже вымерли, хотя и могут где-то встретиться, в каких-то допотопных компьютерах или в компьютерных сетях.

Основная кодировка символов русского языка, которая используется в компьютерах с операционной системой Windows называется Windows-1251, она была разработана для алфавитов кириллицы компанией Microsoft. Естественно, что в Windows-1251 закодировано абсолютное большинство компьютерных текстовых данных. Кстати кодировки с другим четырехзначным номером разработаны Microsoft для других распространенных алфавитов: арабского, японского и прочих.

Другая распространенная кодировка носит название КОИ-8 (код обмена информацией, восьмизначный) — ее происхождение относится ко временам действия Совета Экономической Взаимопомощи государств Восточной Европы. Сегодня кодировка КОИ-8 имеет распространение в компьютерных сетях на территории России и в российском секторе Интернета. Бывает так, что какой-то текст письма или еще чего-то не читается, это значит, что надо перейти из КОИ-8 в Windows-1251.^¹⁰

В 90-х годах крупнейшие производители программного обеспечения: Microsoft, Borland, та же Adobe приняли решение о необходимости разработки другой системы кодировки текста, в которой каждому символу будет отводиться не 1, а 2 байта. Она получила название Unicode, и в ней можно закодировать 65 536 символов этого поля достаточно для размещения в одной таблице национальных алфавитов для всех языков планеты. Большую часть Unicode (около 70%) занимают китайские иероглифы, в Индии имеется 11 различных национальных алфавитов, есть множество экзотических названий, например: письменность канадских аборигенов.

Поскольку на кодирования каждого символа в Unicode отводится не 8, а 16 разрядов, объем текстового файла увеличивается в 2 раза. Когда-то это было препятствием для введения 16-разрядной системы. а сейчас при гигабайтных винчестерах, сотнях мегабайт оперативной памяти, гигагерцных процессорах удвоение объемов текстовых файлов, которые по сравнению, например, с графикой занимают очень немного места, большого значения не имеет.

Кириллица занимает в Unicode места с 768 по 923 (основные знаки) и с 924 по 1023 (расширенная кириллица, различные малораспространенные, национальные буквы). Если программа не адаптирована под кириллицу Unicode, то возможен вариант, когда символы текста распознаются не как кириллица, а как расширенная латиница (коды с 256 по 511). И в этом случае вместо текста на экране появляется бессмысленный набор различных экзотических символов.

Такое возможно, если программа устаревшая, созданная до 1995 года. Или малораспространенная, о русификации которой никто не позаботился. Еще возможен вариант, когда установленная на компьютере ОС Windows не полностью настроена под кириллицу. В этом случае надо сделать соответствующие записи в реестре.

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 1314 / 1814 15 16 17 18 > Следующая >>>

Соседние файлы в папке ИТ в Рекламе. Подорожный А.М.

#
10.05.201543.01 Кб31~WRL0001.tmp
#
10.05.201541.47 Кб37ВопросыИТВРеклЗачетОсень12.doc
#
10.05.2015280.58 Кб35Лаб№1HTML.doc
#
10.05.2015339.46 Кб46ЛекцииИнформКороткие.doc