Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
normalnye_shpory_ot_oti.doc
Скачиваний:
0
Добавлен:
30.12.2019
Размер:
619.01 Кб
Скачать

23. Кодирование информации, ascii

Кодирование информации - это процесс формирования определенного представления информации.

В более узком смысле под термином "кодирование" часто понимают переход от одной формы представления информации к др., более удобной для хранения, передачи или обработки.

Компьютер может обрабатывать только информацию, представленную в числовой форме. Вся другая информация (например, звуки, изображения, показания приборов и т. д.) для обработки на компьютере должна быть преобразована в числовую форму.

При обработке текстовой информации каждая буква кодируется определенным числом, а при выводе на внешние устройства (экран или печать) для восприятия человеком по этим числам строятся изображения букв. Соответствие м/у набором букв и числами называется кодировкой символов.

Представление информации в компьютере

В компьютерах используется двоичная система измерений, т.к. конструкция вычислительной техники тем проще и надежнее, чем меньше символов в системе исчисления, применяемых для кодирования информации.

В ЭВМ используют двоичную систему потому, что она имеет ряд преимуществ перед другими:

  • для ее реализации используются технические элементы с двумя возможными состояниями (есть ток -- нет тока, намагничен -- ненамагничен);

  • представление информации посредством только двух состояний надежно и помехоустойчиво;

  • возм. применение аппарата булевой алгебры для выполнения логических преобразований информации;

  • двоичная арифметика проще десятичной.

Единица измерения информации называется бит (bit) -- сокращение от английских слов binary digit, что означает двоичная цифра (0 или 1). Для передачи и хранения информации применяют 8-битовые коды (байты), кот. позволяют закодировать любой символ. 1Мб, 1 Гб, 1 Тб.

Для работы с большими числами используются слова - 16-битовые числа, двойные слова - 32-битовые числа.

Соответствие байтов и символов задается с помощью табл., в которой для каждого кода указывается свой символ. Так, например, в широко распространенной кодировке Koi8-R буква "М" имеет код 11101101, буква "И" -- код 11101001, а пробел - код 00100000.

В первых ЭВМ для кодирования текста отвели 7 бит. 27=128. Этого количества вполне хватало для кодирования всех строчных и прописных букв латинского алфавита, десяти цифр и различных знаков и скобок. Именно такой, 7-битной, является таблица символов ASCII (сокращение от American Standard Code for Information Intercange -- американский стандартный код для обмена информацией). В таком файле не могут быть представлены буквы, отличные от латиницы.

24. Кодирование русского текста

В первых ЭВМ для кодирования текста отвели 7 бит. 27=128. Этого кол-ва вполне хватало для кодирования всех строчных и прописных букв латинского алфавита, десяти цифр и различных знаков и скобок. Именно такой, 7-битной, является таблица символов ASCII (от American Standard Code for Information Intercange - американский стандартный код для обмена информацией). В таком файле не м.б. представлены буквы, отличные от латиницы.

Когда возникла необходимость кодировать национальные алфавиты, то 128 символов стало недостаточно. Было решено перейти на кодирование с помощью 8 бит (т. е. одного байта). В результате кол-во символов, кот. м. закодировать Т.О. стало равно 28=256. При этом символы национальных алфавитов располагались во второй половине кодовой табл.. Так появился стандарт ISO 8859, содержащий множество кодировок для наиболее распространенных языков. Среди них была и одна из первых таблиц для кодировки русских букв - ISO 8859-5.

Задачи передачи текс-й инф. по сети вынудили разработать еще одну кодировку для русских букв, названную Koi8-R (код отображения информации 8-битный, русифицированный). Рассмотрим ситуацию, когда письмо, содержащее русский текст, отправлено по электронной почте. Случалось, что в процессе путешествия по сетям письмо обрабатывалось программой, которая работала с 7-битной кодировкой и обнуляла восьмой бит. В результате такого преобразования код символа уменьшался на 128, превращаясь в код символа латинского алфавита. Возникла необходимость повысить устойчивость передаваемой текстовой информации к обнулению 8 бита. Значительное число букв кириллицы имеет фонетические аналоги в латинском алфавите. Например, Ф и F, Р и R. Есть несколько букв, совпадающих даже по начертанию. Расположив русские буквы в кодовой табл. Т.О., чтобы их код превышал код аналогичных латинских на число 128, добились того, что потеря 8-го бита превращала текст хотя и в состоящий из одной латиницы, но все равно понимаемый русскоязычным пользователем.

Далее наступила эра ПК и операционной системы MS DOS, а кодировка Koi8-R для нее не подходила (так же, как и ISO 8859-5), в ее табл. некот. русские буквы находились на тех местах, кот. многие программы предполагали заполненными псевдографикой (горизонтальные и вертикальные черточки, уголки и т. д.). Поэтому была придумана еще одна кодировка кириллицы, в табл. которой русские буквы "обтекали" со всех сторон графические символы. Назвали эту кодировку альтернативной (alt), поскольку она была альтернативой официальному стандарту -- кодировке ISO-8859-5. Неоспоримым достоинством этой кодировки является то, что русские буквы в ней расположены в алфавитном порядке.

После появления ОС Windows от фирмы Microsoft выяснилось, что альтернативная кодировка для нее не подходит. Снова передвинув русские буквы в табл., получили кодировку Windows 1251 (Win-1251).

В разл. ОС предпочтение отдается разным кодировкам. Для чтение и редактирования текста, набранного в др. кодировке, используются программы перекодирования русского текста. Некот. текстовые ред-ры содержат встроенные перекодировщики, позволяющие читать текст в различных кодировках (Word и др.).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]