Представление текстовых данных в эвм. Понятие кодировки (ascii, ansi, Unicode). Сжатие данных при помощи алгоритма rle.

Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Московский государственный университет им. М.В. Ломоносова

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Мануал по скриптам.doc

Скачиваний:

Добавлен:

22.12.2018

Размер:

277.5 Кб

Скачать

☆

<<< < Предыдущая 1 23 / 83 4 5 6 7 8 > Следующая >>>

Представление текстовых данных в эвм. Понятие кодировки (ascii, ansi, Unicode). Сжатие данных при помощи алгоритма rle.

Символьная (текстовая) информация — самый простой тип данных с точки зрения его представления в памяти ЭВМ. Каждому символу текста в памяти соответствует байт с 8-разрядным кодом этого символа в том или ином стандарте. Кодировка букв латинского алфавита, цифр, знаков операций и различных разделителей (скобок, точек, запятых и т. п.) практически универсальна. Она предложена фирмой IBM и составляет первую половину большинства 8-разрядных кодировочных таблиц, используемых в разных странах. В терминологии IBM PC такие таблицы принято называть кодовыми страницами. Вторая половина кодовых страниц отведена под национальную символику.

ASCII (кодовая страница 866) - аббревиатура от American Standard Code for Information Interchange - Стандартный американский код обмена информацией. ASCII - это код для представления символов английского алфавита в виде чисел, каждой букве сопоставлено число от 0 до 127. В большинстве компьютеров код ASCII используется для представления текста, что позволяет передавать данные от одного компьютера на другой.

Текстовый файл, запомненный в формате ASCII, иногда называют ASCII-файлом. Текстовые редакторы и текстовые процессоры обычно могут сохранять данные в формате ASCII. Большинство файлов данных, особенно, если они содержат числовые данные, сохраняются не в ASCII формате. Исполняемые программы никогда не сохраняются в формате ASCII.

Стандартный набор символов ASCII использует только 7 битов для каждого символа. Есть несколько наборов символов, которые используют 8 бит, что дает дополнительно 128 символов. Дополнительные символы используются для отображения символов неанглийского алфавита, графических и математических символов. В операционной системе DOS используется надмножество ASCII, называемое расширенный ASCII. Вторая половина этой кодовой страницы отведена под национальную символику, расскажу про её русский вариант: заглавные русские буквы начинаются со 128-й позиции. Вплотную вслед за ними располагается цепочка строчных букв от буквы «а» (код — 160) до буквы «п» (код — 175). Далее следуют символы псевдографики, используемые для формирования таблиц с одинарными и двойными линиями (диапазон кодов от 176 до 223). Начиная с 224-й позиции, располагаются остальные буквы от «р» до «я». И наконец, вслед за ними, выбиваясь из алфавитного порядка, размещены буквы Ё (код -240) и ё (код — 241).

ANSI - институт национальных стандартов США, American National Standards Institute - организация, определяющая государственные стандарты в США. Этот институт разработал один из стандарт кодировок – ANSI.

В таблице ANSI (кодовая страница 1251) коды русских букв начинаются с позиции 192 (код буквы «А») и расположены сплошным интервалом до 255-й позиции (код буквы «я»). Символы псевдографики в графической оболочке Windows смысла не имеют и поэтому в таблице ANSI отсутствуют. Буквы «Ё» и «ё» здесь тоже не включены в общепринятую алфавитную последовательность и имеют, соответственно, коды 168 и 184. Более того, их обозначение на большинстве русифицированных клавиатур отсутствует, и для включения таких букв в набираемый текст приходится нажимать самую левую клавишу в верхнем ряду (на латинском регистре этой клавише соответствует символ "~").

Unicode – 16 разрядная кодировка. Представляет собой международный стандарт представления многоязычного текста, который требует, чтобы каждый символ кодировался 2мя байтами. Это даёт кодовую таблицу размером 256*256=65536 ячеек, что достаточно для размещения почти всех символов используемых в большинстве известных видов письменности. Предусмотрены так называемые области личных символов, которые разработчики шрифта заполняют по-своему.

Групповое кодирование - Run Length Encoding (RLE) - один из самых старых и самых простых алгоритмов архивации. Сжатие в RLE происходит за счет замены цепочек одинаковых байт на пары "счетчик, значение".

Одна из реализаций алгоритма такова: ищут наименее часто встречающийся байт, называют его префиксом и делают замены цепочек одинаковых символов на тройки "префикс, счетчик, значение". Если же этот байт встречается в исходном файле один или два раза подряд, то его заменяют на пару "префикс, 1" или "префикс, 2". Остается одна неиспользованная пара "префикс, 0", которую можно использовать как признак конца упакованных данных.

При кодировании exe-файлов можно искать и упаковывать последовательности вида AxAyAzAwAt..., которые часто встречаются в ресурсах (строки в кодировке Unicode)

К положительным сторонам алгоритма, можно отнести то, что он не требует дополнительной памяти при работе, и быстро выполняется. Алгоритм применяется в форматах РСХ, TIFF, ВМР. Интересная особенность группового кодирования в PCX заключается в том, что степень архивации для некоторых изображений может быть существенно повышена всего лишь за счет изменения порядка цветов в палитре изображения.

<<< < Предыдущая 1 23 / 83 4 5 6 7 8 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
24.11.2019489.47 Кб198Манипуляции - Гинекология.doc
#
13.12.201930.35 Кб6манипуляции в общении.docx
#
24.11.2019278.02 Кб118Манипуляции-Акушерство.doc
#
07.11.2018123.61 Кб52Манифест коммунистической партии.docx
#
15.11.20191.86 Mб169Мантек Чиа-Ци-нэйцзан.doc
#
22.12.2018277.5 Кб66Мануал по скриптам.doc
#
29.09.20192.02 Mб120Мар. этика.doc
#
26.04.2019215.04 Кб43мар.doc
#
08.01.202079.36 Кб1Марат и его борьба за углубление революции.doc
#
25.12.201978.22 Кб3Маргарита Наваррская.docx
#
06.11.2018449.54 Кб21Марина Петрова, о Бобринском.doc