- •Обработка текстовой информации
- •1. Развитие технологии наборного производства
- •Наборно-отливной способ набора
- •1.2. Наборно-фотографический способ набора
- •1.3. Компьютерный способ набора
- •1. Распределение и назначение
- •2. Планирование
- •3. Контроль
- •3. Виртуальная память
- •Операционная система ms dos
- •Операционная система Microsoft Windows
- •Обработка документов
- •Кодирование русского текста
- •Форматы текстовых файлов
- •Редакторы неформатированных текстов (NotePad, McEdit, kEdit, kWrite…). Редакторы, создающие текст с элементами разметки (Word, StarWriter, LyX, Netscape Composer).
- •Общие сведения о компьютерных сетях
- •2. Редакционно-техническая подготовка изданий
- •2.1. Издательско-полиграфическая система измерений
- •2.2. Выбор формата издания
- •2.3. Выбор полей и формата полосы набора
- •2.4. Выбор шрифтового оформления.
- •Другие шрифты
- •Внедрение шрифтов в PostScript-файл
- •2.5. Единицы измерения издательско-полиграфической продукции
- •2.6. Определение объема издания.
- •2.7. Основные правила набора и верстки
- •Бодро оперся, другой поднял меткую
- •I группа. Однострочные формулы:
- •II группа. Двустрочные формулы:
- •IV группа. Многострочные формулы:
- •3. Издательские текстовые оригиналы и требования к ним
- •4. Электронные издания
- •Краткий словарь основных издательско-полиграфических терминов
- •Литература
Обработка документов
Кодирование информации -- это процесс формирования определенного представления информации.
В более узком смысле под термином "кодирование" часто понимают переход от одной формы представления информации к другой, более удобной для хранения, передачи или обработки.
Компьютер может обрабатывать только информацию, представленную в числовой форме. Вся другая информация (например, звуки, изображения, показания приборов и т. д.) для обработки на компьютере должна быть преобразована в числовую форму.
При обработке текстовой информации каждая буква кодируется определенным числом, а при выводе на внешние устройства (экран или печать) для восприятия человеком по этим числам строятся изображения букв. Соответствие между набором букв и числами называется кодировкой символов.
Представление информации в компьютере
В компьютерах используется двоичная система измерений, т.к. конструкция вычислительной техники тем проще и надежнее, чем меньше символов в системе исчисления, применяемых для кодирования информации.
В ЭВМ используют двоичную систему потому, что она имеет ряд преимуществ перед другими:
для ее реализации используются технические элементы с двумя возможными состояниями (есть ток -- нет тока, намагничен -- ненамагничен);
представление информации посредством только двух состояний надежно и помехоустойчиво;
возможно применение аппарата булевой алгебры для выполнения логических преобразований информации;
двоичная арифметика проще десятичной.
Единица измерения информации называется бит (bit) -- сокращение от английских слов binary digit, что означает двоичная цифра (0 или 1). Для передачи и хранения информации применяют 8-битовые коды (байты), которые позволяют закодировать любой символ. 1Мб, 1 Гб, 1 Тб.
Для работы с большими числами используются слова — 16-битовые числа, двойные слова — 32-битовые числа.
Соответствие байтов и символов задается с помощью таблицы, в которой для каждого кода указывается свой символ. Так, например, в широко распространенной кодировке Koi8-R буква "М" имеет код 11101101, буква "И" -- код 11101001, а пробел -- код 00100000.
Кодирование русского текста
В первых ЭВМ для кодирования текста отвели 7 бит. 27=128. Этого количества вполне хватало для кодирования всех строчных и прописных букв латинского алфавита, десяти цифр и различных знаков и скобок. Именно такой, 7-битной, является таблица символов ASCII (сокращение от American Standard Code for Information Intercange -- американский стандартный код для обмена информацией). В таком файле не могут быть представлены буквы, отличные от латиницы.
Когда возникла необходимость кодировать национальные алфавиты, то 128 символов стало недостаточно. Было решено перейти на кодирование с помощью 8 бит (т. е. одного байта). В результате количество символов, которые можно закодировать таким образом стало равно 28=256. При этом символы национальных алфавитов располагались во второй половине кодовой таблицы. Так появился стандарт ISO 8859, содержащий множество кодировок для наиболее распространенных языков.
Среди них была и одна из первых таблиц для кодировки русских букв -- ISO 8859-5.
Задачи передачи текстовой информации по сети вынудили разработать еще одну кодировку для русских букв, названную Koi8-R (код отображения информации 8-битный, русифицированный). Рассмотрим ситуацию, когда письмо, содержащее русский текст, отправлено по электронной почте. Случалось, что в процессе путешествия по сетям письмо обрабатывалось программой, которая работала с 7-битной кодировкой и обнуляла восьмой бит. В результате такого преобразования код символа уменьшался на 128, превращаясь в код символа латинского алфавита. Возникла необходимость повысить устойчивость передаваемой текстовой информации к обнулению 8 бита.
К счастью, значительное число букв кириллицы имеет фонетические аналоги в латинском алфавите. Например, Ф и F, Р и R. Есть несколько букв, совпадающих даже по начертанию. Расположив русские буквы в кодовой таблице таким образом, чтобы их код превышал код аналогичных латинских на число 128, добились того, что потеря 8-го бита превращала текст хотя и в состоящий из одной латиницы, но все равно понимаемый русскоязычным пользователем.
Далее наступила эра персональных компьютеров и операционной системы MS DOS. Как выяснилось, кодировка Koi8-R для нее не подходила (так же, как и ISO 8859-5), в ее таблице некоторые русские буквы находились на тех местах, которые многие программы предполагали заполненными псевдографикой (горизонтальные и вертикальные черточки, уголки и т. д.). Поэтому была придумана еще одна кодировка кириллицы, в таблице которой русские буквы "обтекали" со всех сторон графические символы. Назвали эту кодировку альтернативной (alt), поскольку она была альтернативой официальному стандарту -- кодировке ISO-8859-5. Неоспоримым достоинством этой кодировки является то, что русские буквы в ней расположены в алфавитном порядке.
После появления ОС Windows от фирмы Microsoft выяснилось, что альтернативная кодировка по некоторым причинам для нее не подходит. Снова передвинув русские буквы в таблице, получили кодировку Windows 1251 (Win-1251).
Но компьютерные технологии постоянно совершенствуются и в настоящее время все большее число программ начинает поддерживать стандарт Unicode, который позволяет кодировать практически все языки и диалекты жителей Земли. Для кодирования символов используется диапазон чисел от нуля до 65 536. Такой широкий диапазон позволяет представлять в численном виде символы языка людей из любого уголка планеты.
Итак, в различных ОС предпочтение отдается разным кодировкам. Для того чтобы стало возможным чтение и редактирования текста, набранного в другой кодировке, используются программы перекодирования русского текста. Некоторые текстовые редакторы содержат встроенные перекодировщики, позволяющие читать текст в различных кодировках (Word и др.).
Типы файлов
Все файлы условно можно разделить на две части -- текстовые и двоичные.
Текстовые файлы -- наиболее распространенный тип данных во всем компьютерном мире. Для хранения каждого символа чаще всего отводится один байт, а кодирование текстовых файлов выполняют с помощью специальных таблиц, в которых каждому символу соответствует определенное число, не превышающее 255.
Но чисто текстовые файлы встречаются все реже. Люди хотят, чтобы документы содержали рисунки и диаграммы и использовали различные шрифты. В результате появляются форматы, представляющие собой различные комбинации текстовых, графических и других форм данных.
Двоичные файлы, в отличие от текстовых, не так просто просмотреть и в них, обычно, нет знакомых нам слов -- лишь множество непонятных символов. Эти файлы не предназначены непосредственно для чтения человеком. Примерами двоичных файлов являются исполняемые программы и файлы с графическими изображениями.
Различают две основные группы программ подготовки текстовых документов: текстовые редакторы и текстовые процессоры.
Текстовыми редакторами, в основном, называют программы, создающие текстовые файлы без элементов форматирования (т. е. не позволяющие выделять части текста различными шрифтами и гарнитурами). Редакторы такого рода незаменимы при создании текстов компьютерных программ.
Текстовые процессоры умеют форматировать текст, вставлять в документ графику и другие объекты, не относящиеся к классическому понятию "текст".
Некоторые текстовые процессоры являются так называемыми WYSIWYG-редакторами. Название получено по первым буквам фразы What You See Is What You Get -- то, что ты видишь, есть то, что ты получишь. Когда говорят, что это WYSIWYG-редактор, то гарантируют полное соответствие внешнего вида документа на экране компьютера и его печатной копии. К редакторам такого типа относятся Word и StarWriter.
