2.2. Кодирование текстовой информации

Для кодирования текста в компьютер, используется самый простой способ кодировки: каждому символу ставится в соответствие двоичное число. Правила соответствия или правила кодировки записываются в таблицу, которая называется кодовой.

Кодовая таблица - это таблица, которая устанавливает соответствие между символами алфавита и двоичными числами. Эти числа называются кодами символов и отвечают внутреннему представлению символов в компьютере.

Кодовую таблицу называют также кодовой страницей. Как «работает» кодовая таблица? Когда вы нажимаете какую-либо клавишу, электронная схема I клавиатуры формирует определенный двоичный код. Так, при нажатии на клавишу «1» формируется двоичный код 00110001, а при нажатии на клавишу «2» -код 00110010. В зависимости от нажатой клавиши получается тот или иной двоичный код, задаваемый кодовой таблицей.

За основу кодировки символов в персональных компьютерах взята кодовая таблица ASCII (по-русски аббревиатура звучит как «а-с-ц-и», или просто «аски»). ASCII - это сокращение от American Standard Code for Information Interchange (американский стандарт кодов для обмена информацией). В этой таблице каждый символ кодируется двоичным числом, состоящим из 7 разрядов. Всего возможно перенумеровать 2⁷ = 128 символов. Этого достаточно для кодирования в таблице ASCII букв одного алфавита (английского), и остаются еще свободные коды для управляющих и различных специальных символов: %, #, &, :, -, ", *, $ и др.

Если в компьютере нужно поддерживать два алфавита, например, английский и русский, то семи разрядов кода (128 символов) уже недостаточно. Поэтому для кодирования символов используется код длиной 8 бит или 1 байт. Старшие разряды в кодовой таблице пробегают ряд значений от 0 до 15 (а не от 0 до 7, как в случае ASCII). Однобайтным кодом можно закодировать 2⁸ = 256 символов. Каждому символу ставится в соответствие своя уникальная последовательность из восьми нулей и единиц, которая может принимать значения от (00000000)₂до (11111111 )₂.

Обычно для каждого алфавита разрабатывается своя кодовая страница. Первые 128 кодов (первая половина таблицы) предназначаются для таблицы ASCII - эта часть кодов является стандартной и обязательной для всех кодовых страниц. Последующие коды, начиная с кода 128 до 255 (вторая половина таблицы), отдаются под национальный стандарт, то есть под алфавит того или иного языка.

В 90-х годах был разработан стандарт Unicode, согласно которому для представления каждого символа используются два байта. Это позволяет закодировать очень большое число символов из разных алфавитов (теоретически 2¹⁶ =65536 символов). В документах Unicode могут соседствовать, например, математические символы, кириллица, латинские, греческие буквы и даже китайские иероглифы. При использовании стандарта Unicode отпадает необходимость в кодовых страницах.

До сих пор шла речь о преобразовании символов (или текста) в двоичные коды, которое выполняется в устройстве ввода. При выводе информации из компьютера выполняется обратное преобразование: двоичный код каждого символа переводится в обычное (графическое) представление так, чтобы эта информация могла быть прочитана человеком. При этом под вывод символа отводится площадь 8*8 или 8*16 пикселей. Под выводимый символ отводится минимум 2 байта. 1 байт это атрибуты: бит мерцания ( 0- нет, 1 – есть), 3 бита фон, 4 бита цвет, 2 байт – это кодировка символа.

Текстовые файлы имеют расширение *.txt, *.doc и другие (*.раs, *.c, *.asm)/

<<< < Предыдущая 1 2 34 / 54 5 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.07.2025135.32 Кб09 клас дпа 15 варіантів математика.docx
#
01.03.2025168.23 Кб09-16.docx
#
01.07.202568.4 Кб09-17_skorocheno4_shpori.docx
#
01.05.2025130.05 Кб19-Охорона праці.doc
#
01.07.2025210.94 Кб090% курсак.doc
#
01.07.2025118.27 Кб0AC-Lection-PIC.doc
#
10.09.2019986.62 Кб2adazi_na_modglm_2.doc
#
01.05.20252.32 Mб2AHG posobie2_випр.doc
#
17.09.201972.7 Кб1algoritmi_pravo.doc
#
17.09.2019175.62 Кб3Algoritmi_skhami_ekz.doc
#
01.05.202578.1 Кб0All.docx