Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Gmail / Лекция1.Дубль3..doc
Скачиваний:
55
Добавлен:
12.05.2015
Размер:
1.09 Mб
Скачать

Кодування текстових даних

Якщо кожному символу алфавіту поставити у відповідність певне ціле число - його код, то за допомогою двійкового коду можна кодувати і текстову інформацію. Вісьмох двійкових розрядів достатньо для кодування 256 різних символів. Цього вистачить, щоб закодувати усі символи англійської і російської мов (як рядкові, так і прописні), а також роздільні знаки, символи основних арифметичних операцій і деякі загальноприйняті спеціальні символи.

Технічно це виглядає досить просто, однак для того, щоб увесь світ однаково кодував текстові дані, потрібні єдині таблиці кодування.

Для англійської мови, яка захопила де-факто нішу міжнародного засобу спілкування, інститут стандартизації США (ANSI — American National Standard Institute) ввів у дію 8-розрядну систему кодування ASCII (American Standard Code for Information Interchange — стандартний код інформаційного обміну США), яка підтримує кодування 256 (28 ) незалежних значень.

Ця система складається з двох кодових таблиць – базової і розширеної (рис. 8). Базова таблиця закріплює значення кодів від 0 до 127, розширена – від 128 до 255. Перші 32 коди базової таблиці ASCII віддані виробникам апаратних засобів (у першу чергу виробникам комп'ютерів і друкувальних пристроїв). У цій області розміщаються так звані управляючі коди, яким не відповідають ніякі символи мов, і, відповідно, ці коди не виводяться ні на екран, ні на пристрої друку, але ними можна управляти виведенням інших даних. Коди з 32 до 127 - призначені для кодування символів англійського алфавіту, розділових знаків, цифр, арифметичних операцій і деяких допоміжних символів. Розширена частина системи кодування використовується національними системами шляхом завантаження потрібної кодової сторінки. Наприклад, Windows-1251 – кодування, що є стандартним 8- бітним кодуванням для всіх локалізованих українських і російських версій Microsoft Windows. Характерною рисою Windows-1251 ( Рисунок 3.2) є наявність практично всіх символів, що використовуються в слов'янській кириличній писемності для звичайного тексту. Windows-1251 містить всі символи для російської, української, білоруської, сербської і болгарської мов.

Серед недоліків кодування Windows-1251 слід зазначити відсутність символів псевдографіки, що однак може бути цілком виправдано для операційної системи з розвинутим графічним інтерфейсом.

Якщо кодувати символи не восьми розрядними, а 16-розрядними двійковими числами, то діапазон можливих значень кодів стане набагато більше. Тому для уніфікації кодування текстових даних була розроблена універсальна система UNICODE, в основі якої лежить 16-розрядне кодування символів. 16 розрядів дозволяють забезпечити унікальні коди для 65 536 (216) різних символів — цього досить для розміщення в одній таблиці символів більшості мов планети.

Незважаючи на тривіальну очевидність такого підходу, простий механічний перехід на дану систему довгий час стримувався через недостатню розвиненість ресурсів обчислювальної техніки (у системі кодування UNICODE усі текстові документи автоматично стають удвічі довшими). Зараз технічні засоби досягли необхідного рівня забезпеченості ресурсами і сьогодні спостерігається поступовий перехід документів і програмних засобів на універсальну систему кодування UNICODE.

Успіхи Unicode в уніфікації наборів символів призвели до його розповсюдження і домінуючого використання в інтернаціоналізації і локалізації програмного забезпечення комп’ютерів. Стандарт був використаний в багатьох нових технологіях, включаючи XML, мову програмування Java і сучасні операційні системи. Потужну підтримку кодування Unicode отримало з боку корпорації Microsoft. Windows NT була першою операційною системою, повністю побудованою на Unicode. Успіхи Unicode дозволяють зробити припущення, що в кінцевому підсумку всі існуючі сьогодні системи кодування символів в майбутньому замінить Unicode.

Соседние файлы в папке Gmail