Обработка документов

Кодирование информации -- это процесс формирования определенного представления информации.

В более узком смысле под термином "кодирование" часто понимают переход от одной формы представления информации к другой, более удобной для хранения, передачи или обработки.

Компьютер может обрабатывать только информацию, представленную в числовой форме. Вся другая информация (например, звуки, изображения, показания приборов и т. д.) для обработки на компьютере должна быть преобразована в числовую форму.

При обработке текстовой информации каждая буква кодируется определенным числом, а при выводе на внешние устройства (экран или печать) для восприятия человеком по этим числам строятся изображения букв. Соответствие между набором букв и числами называется кодировкой символов.

Представление информации в компьютере

В компьютерах используется двоичная система измерений, т.к. конструкция вычислительной техники тем проще и надежнее, чем меньше символов в системе исчисления, применяемых для кодирования информации.

В ЭВМ используют двоичную систему потому, что она имеет ряд преимуществ перед другими:

для ее реализации используются технические элементы с двумя возможными состояниями (есть ток -- нет тока, намагничен -- ненамагничен);
представление информации посредством только двух состояний надежно и помехоустойчиво;
возможно применение аппарата булевой алгебры для выполнения логических преобразований информации;
двоичная арифметика проще десятичной.

Единица измерения информации называется бит (bit) -- сокращение от английских слов binary digit, что означает двоичная цифра (0 или 1). Для передачи и хранения информации применяют 8-битовые коды (байты), которые позволяют закодировать любой символ. 1Мб, 1 Гб, 1 Тб.

Для работы с большими числами используются слова — 16-битовые числа, двойные слова — 32-битовые числа.

Соответствие байтов и символов задается с помощью таблицы, в которой для каждого кода указывается свой символ. Так, например, в широко распространенной кодировке Koi8-R буква "М" имеет код 11101101, буква "И" -- код 11101001, а пробел -- код 00100000.

Кодирование русского текста

В первых ЭВМ для кодирования текста отвели 7 бит. 2⁷=128. Этого количества вполне хватало для кодирования всех строчных и прописных букв латинского алфавита, десяти цифр и различных знаков и скобок. Именно такой, 7-битной, является таблица символов ASCII (сокращение от American Standard Code for Information Intercange -- американский стандартный код для обмена информацией). В таком файле не могут быть представлены буквы, отличные от латиницы.

Когда возникла необходимость кодировать национальные алфавиты, то 128 символов стало недостаточно. Было решено перейти на кодирование с помощью 8 бит (т. е. одного байта). В результате количество символов, которые можно закодировать таким образом стало равно 2⁸=256. При этом символы национальных алфавитов располагались во второй половине кодовой таблицы. Так появился стандарт ISO 8859, содержащий множество кодировок для наиболее распространенных языков.

Среди них была и одна из первых таблиц для кодировки русских букв -- ISO 8859-5.

Задачи передачи текстовой информации по сети вынудили разработать еще одну кодировку для русских букв, названную Koi8-R (код отображения информации 8-битный, русифицированный). Рассмотрим ситуацию, когда письмо, содержащее русский текст, отправлено по электронной почте. Случалось, что в процессе путешествия по сетям письмо обрабатывалось программой, которая работала с 7-битной кодировкой и обнуляла восьмой бит. В результате такого преобразования код символа уменьшался на 128, превращаясь в код символа латинского алфавита. Возникла необходимость повысить устойчивость передаваемой текстовой информации к обнулению 8 бита.

К счастью, значительное число букв кириллицы имеет фонетические аналоги в латинском алфавите. Например, Ф и F, Р и R. Есть несколько букв, совпадающих даже по начертанию. Расположив русские буквы в кодовой таблице таким образом, чтобы их код превышал код аналогичных латинских на число 128, добились того, что потеря 8-го бита превращала текст хотя и в состоящий из одной латиницы, но все равно понимаемый русскоязычным пользователем.

Далее наступила эра персональных компьютеров и операционной системы MS DOS. Как выяснилось, кодировка Koi8-R для нее не подходила (так же, как и ISO 8859-5), в ее таблице некоторые русские буквы находились на тех местах, которые многие программы предполагали заполненными псевдографикой (горизонтальные и вертикальные черточки, уголки и т. д.). Поэтому была придумана еще одна кодировка кириллицы, в таблице которой русские буквы "обтекали" со всех сторон графические символы. Назвали эту кодировку альтернативной (alt), поскольку она была альтернативой официальному стандарту -- кодировке ISO-8859-5. Неоспоримым достоинством этой кодировки является то, что русские буквы в ней расположены в алфавитном порядке.

После появления ОС Windows от фирмы Microsoft выяснилось, что альтернативная кодировка по некоторым причинам для нее не подходит. Снова передвинув русские буквы в таблице, получили кодировку Windows 1251 (Win-1251).

Но компьютерные технологии постоянно совершенствуются и в настоящее время все большее число программ начинает поддерживать стандарт Unicode, который позволяет кодировать практически все языки и диалекты жителей Земли. Для кодирования символов используется диапазон чисел от нуля до 65 536. Такой широкий диапазон позволяет представлять в численном виде символы языка людей из любого уголка планеты.

Итак, в различных ОС предпочтение отдается разным кодировкам. Для того чтобы стало возможным чтение и редактирования текста, набранного в другой кодировке, используются программы перекодирования русского текста. Некоторые текстовые редакторы содержат встроенные перекодировщики, позволяющие читать текст в различных кодировках (Word и др.).

Типы файлов

Все файлы условно можно разделить на две части -- текстовые и двоичные.

Текстовые файлы -- наиболее распространенный тип данных во всем компьютерном мире. Для хранения каждого символа чаще всего отводится один байт, а кодирование текстовых файлов выполняют с помощью специальных таблиц, в которых каждому символу соответствует определенное число, не превышающее 255.

Но чисто текстовые файлы встречаются все реже. Люди хотят, чтобы документы содержали рисунки и диаграммы и использовали различные шрифты. В результате появляются форматы, представляющие собой различные комбинации текстовых, графических и других форм данных.

Двоичные файлы, в отличие от текстовых, не так просто просмотреть и в них, обычно, нет знакомых нам слов -- лишь множество непонятных символов. Эти файлы не предназначены непосредственно для чтения человеком. Примерами двоичных файлов являются исполняемые программы и файлы с графическими изображениями.

Различают две основные группы программ подготовки текстовых документов: текстовые редакторы и текстовые процессоры.

Текстовыми редакторами, в основном, называют программы, создающие текстовые файлы без элементов форматирования (т. е. не позволяющие выделять части текста различными шрифтами и гарнитурами). Редакторы такого рода незаменимы при создании текстов компьютерных программ.

Текстовые процессоры умеют форматировать текст, вставлять в документ графику и другие объекты, не относящиеся к классическому понятию "текст".

Некоторые текстовые процессоры являются так называемыми WYSIWYG-редакторами. Название получено по первым буквам фразы What You See Is What You Get -- то, что ты видишь, есть то, что ты получишь. Когда говорят, что это WYSIWYG-редактор, то гарантируют полное соответствие внешнего вида документа на экране компьютера и его печатной копии. К редакторам такого типа относятся Word и StarWriter.

<<< < Предыдущая 1 2 3 4 56 / 216 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.07.2025138.2 Кб1НТЭ фарм.docx
#
26.03.201543.01 Кб260Нукл. кисл..doc
#
27.04.20194.3 Mб415Оборуд!.docx
#
01.07.2025242.18 Кб40Оборудование ТООП.doc
#
01.04.2025179.92 Кб188Обработка отверстий резанием.docx
#
01.03.20253.7 Mб191Обработка текстовой инф..doc
#
26.03.201546.47 Кб378Обратимая экзотермическая реакция.docx
#
26.03.201530.69 Кб390Обратимая эндотермическая реакция.docx
#
29.04.20193.16 Mб696Общая педагогика-Симоненко.doc
#
26.03.2015593.48 Кб493общая хим. технология.pdf
#
01.05.202529.74 Кб130общеинженерная.docx