Кодирование текстовых данных

Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Пермский государственный национальный исследовательский университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Информатика_методичка .doc

Скачиваний:

Добавлен:

08.11.2018

Размер:

1.07 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 8 910 / 4710 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Кодирование текстовых данных

Если каждому символу алфавита сопоставить определенное целое число (например, порядковый номер), то с помощью двоичного кода можно кодировать и текстовую информацию. Восьми двоичных разрядов достаточно для кодирования 256 различных символов. Этого хватит, чтобы выразить различными комбинациями восьми битов все символы английского и русского языков, как строчные, так и прописные, а также знаки препинания, символы основных арифметических действий и некоторые общепринятые специальные символы, например символ «§».

Для английского языка, захватившего де-факто нишу международного средства общения, противоречия уже сняты. Институт стандартизации США (ANSI — American National Standard Institute) ввел в действие систему кодирования ASCII (American Standard Code for In formation Interchange — стандартный код информационного обмена США). В системе ASCII закреплены две таблицы кодирования — базовая и расширенная. Базовая таблица закрепляет значения кодов от 0 до 127, а расширенная относится к символам с номерами от 128 до 255 (рис. 3).

Для кодирования русского языка, применяется кодировка Windows-1251, она была введена «извне» — компанией Microsoft, но, учитывая широкое распространение операционных систем и других продуктов этой компании в России, она глубоко закрепилась и нашла широкое распространение. Эта кодировка используется на большинстве локальных компьютеров, работающих на платформе Windows.

Другая распространенная кодировка носит название КОИ-8 (код обмена информацией, восьмизначный) — ее происхождение относится ко временам действия Совета Экономической Взаимопомощи государств Восточной Европы. Сегодня кодировка КОИ-8 имеет широкое распространение в компьютерных сетях на территории России и в российском секторе Интернета.

Международный стандарт, в котором предусмотрена кодировка символов русского алфавита, носит название кодировки ISO (International Standard Organization — Международный институт стандартизации). На практике данная кодировка используется редко.

Рисунок 3 – Таблица кодировки ASCII

Универсальная система кодирования текстовых данных

Если проанализировать организационные трудности, связанные с созданием единой системы кодирования текстовых данных, то можно прийти к выводу, что они вызваны ограниченным набором кодов (256).

Такая система, основанная на 16-разрядном кодировании символов, получила название универсальной — UNICODE. Шестнадцать разрядов позволяют обеспечить уникальные коды для 65536 различных символов — этого поля достаточно для размещения в одной таблице символов большинства языков планеты.

Единицы измерения данных

Наименьшей единицей измерения является байт. Поскольку одним байтом, как правило, кодируется один символ текстовой информации, то для текстовых документов размер в байтах соответствует лексическому объему в символах (пока исключение представляет рассмотренная выше универсальная кодировка UNICODE).

Более крупная единица измерения — килобайт (Кбайт). Условно можно считать, что 1 Кбайт примерно равен 1000 байт. Условность связана с тем, что для вычислительной техники, работающей с двоичными числами, более удобно представление чисел в виде степени двойки, и потому на самом деле 1 Кбайт равен 2¹⁰ байт (1024 байт). Однако всюду, где это не принципиально, с инженерной погрешностью (до 3 %) «забывают» о «лишних» байтах.

В килобайтах измеряют сравнительно небольшие объемы данных. Условно можно считать, что одна страница неформатированного машинописного текста составляет около 2 Кбайт.

В 1 Гб памяти можно хранить:

500000 страниц текста, или около 1500романов,

или свыше1500 цветных слайдов высочайшего качества,

или 100-минутную музыкальную стереозапись качества CD-аудио,

или аудиозапись 15-часовой ркчи,

или аудиозапись 1000-часовой речи "телефонного" качества,

или 150-секундный фильм высокого качества записи,

или 10000-летний протокол операций с банковским счетом крупной фирмы

Более крупные единицы измерения данных образуются добавлением префиксов мега; гига-, тера-; в более крупных единицах пока нет практической надобности.

1 Мбайт = 1024 Кбайт = 2²⁰ байт

1Гбайт =1024 Мбайт == 2³⁰ байт

1Тбайт = 1024 Гбайт = 2⁴⁰ байт

Особо обратим внимание на то, что при переходе к более крупным единицам «инженерная» погрешность, связанная с округлением, накапливается и становится недопустимой, поэтому на старших единицах измерения округление производится реже.

<<< < Предыдущая 1 2 3 4 5 6 7 8 910 / 4710 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
08.12.201850.58 Кб5Информатика Мосягина 01-11-М(И)-реферат.docx
#
01.12.20181.47 Mб10Информатика (ЛРEXCEL part1).docx
#
17.04.2019458.24 Кб6Информатика в психологииСамРабота.doc
#
08.11.2019124.42 Кб1Информатика в психологииСамРабота.doc
#
30.03.2015727.84 Кб31Информатика.docx
#
08.11.20181.07 Mб60Информатика_методичка .doc
#
04.11.201850.85 Кб8Информация,измерение, кодирование_тест.docx
#
23.09.2019241.07 Кб10ИОГП Мои ответы.docx
#
01.07.2025213.5 Кб0ИОП - 2017.doc
#
23.09.2019471.04 Кб6иппу.doc
#
16.12.2018365.57 Кб6ИППУ_Проограмма.doc

Кодирование текстовых данных

Универсальная система кодирования текстовых данных

Единицы измерения данных