4.4.2. Представление текстовых данных

Текстовые данные рассматриваются как последовательность отдельных символов, каждому из которых ставится в соответствие двоичный код некоторого неотрицательного целого числа.

Существуют разные способы кодирования символов.

Наиболее распространенной до последнего времени была кодировка ASCII (American Standard Code for Information Interchange). При использовании этой кодировки для представления каждого символа отводится ровно 8 разрядов (один байт). Таким образом, имеется возможность кодирования 256 символов (они получают коды от 0 до 255). С помощью такой кодировки можно хранить только символы текста (без элементов форматирования или оформления).

Для отображения текстового документа с разбивкой его на строки, с выравниванием и т.п. в него наряду с обычными символами, представляющими буквы, цифры, знаки препинания, разделители, включаются специальные (управляющие) символы (например: «перевод строки», «возврат каретки», «табуляция» и т.д.).

Соответствие символов и их кодов можно установить с помощью специальной таблицы. В России используются элементы таблицы альтернативной модифицированной кодировки, в первой части которой размещены символы ASCII (цифры, буквы латинского алфавита, знаки препинания, управляющие символы), а во второй – буквы русского алфавита, символы псевдографики, которые позволяют включить в текст простейшие рисунки и таблицы, составленные из вертикальных и горизонтальных линий).

ASCII позволяет закодировать только 256 символов. Это неудобно, так как существуют языки, в которых символов значительно больше. Поэтому разрабатываются другие коды (наборы символов). Пример – двухбайтовые наборы символов (DBCS – double-byte character sets). В этом двухбайтовом коде символы представляются одним и двумя байтами, что неудобно для организации обработки такой информации (для каждого символа сначала нужно определить длину его кода, а уж потом сам символ).

Наиболее перспективным для использования является Unicode – стандарт, разработанный несколькими фирмами (сначала – Apple и Xerox). В этом коде все символы состоят из 16 битов, что позволяет кодировать свыше 65 тыс. символов (2¹⁶). В этом коде для каждого алфавита определены свои кодовые позиции (code points), т.е. все 65 536 символов (кодов) разбиты на отдельные группы (например, 0100-017F – европейские латинские, 0180-01FF – расширенные латинские, 0250-02AF – стандартные фонетические, 0370-03FF – греческий, 0400-04FF – кириллица и т.д.). Около 29 000 кодовых позиций пока не заняты, но зарезервированы для использования. Таким образом, Unicode допускает обмен данными на разных языках – каждому коду соответствует единственный символ, коды не пересекаются для разных языков.

На Unicode целиком построена операционная система Windows NT. У Windows 95/98 16‑битное «наследство», поэтому вся внутренняя работа в этой ОС построена на использовании ANSI-строк (ANSI – American National Standards Institute), в которых каждый символ записан в один байт.

ANSI-текст (или текст ASCII) – это текст без форматирования (с ним работает, например, приложение «Блокнот» в Windows 9х).

Если для представления информации в разных информационных системах используются разные кодировки, эти программы «не поймут» друг друга, поэтому может оказаться, что данные, подготовленные в одной системе, не смогут прочитать в другой. Например, текст, введенный с помощью программы «Блокнот» в Windows, нельзя будет прочитать в MS‑DOS.

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 1112 / 9712 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
26.09.2019161.56 Кб22Jane Austin.docx
#
13.03.2016339.47 Кб118Kapremont.rtf
#
01.03.20258.99 Mб5Khimia_polimerov.doc
#
13.03.2016624.13 Кб233KIT_elektr_uchebno-metod_posobie_1.doc
#
17.04.2019280.6 Кб27kkkkk_1.docx
#
21.04.20192.84 Mб87Kniga_Osnovy_informatiki_i_informatsionnyh_tehn....doc
#
30.03.2015486.94 Кб47komentary_UK.docx
#
22.09.20193.26 Mб100komplexnyy_ekzamen.doc
#
01.05.2025295.94 Кб1KONSPEKTY_LEKCII_PO_DISCIPLINE.doc
#
29.03.20151.63 Mб273Konspekt_-_mikroekonomika.doc
#
09.12.2018758.78 Кб38Konstitutsionnoe_pravo.doc