Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
51-55.doc
Скачиваний:
2
Добавлен:
24.08.2019
Размер:
195.58 Кб
Скачать

53.Кодировки и форматы данных, используемые в Интернет. 8-ми и 16-ти битные кодировки. Форматы данных, используемые в Интернет. Основные и вспомогательные форматы.

Основное назначение файлов – хранить информацию. Они также предназначены для передачи данных от программы к программе и от системы к системе. Другими словами, файл – это хранилище стабильных и мобильных данных. Но, файл – это нечто большее, чем просто хранилище данных. Обычно файл имеет имя, атрибуты, время модификации и время создания.

Понятие файла менялось с течением времени. Операционные системы первых больших ЭВМ представляли файл, как хранилище для базы данных и, поэтому файл являлся набором записей. Обычно все записи в файле были одного размера, часто по 80 символов каждая. При этом много времени уходило на поиск и запись данных в большой файл.

В ОС UNIX под файлом понималась последовательность байтов. Стало легче хранить данные на диске, так как не надо было запоминать размер записи.

UNIX оказал очень большое влияние на другие операционные системы персональных компьютеров. Почти все они поддерживают идею UNIX о том, что файл – это просто последовательность байтов. Файлы, представляющие собой поток данных, стали использоваться при обмене информацией между компьютерными системами. Если используется более сложная структура файла (как в операционных системах OS/2 и MacOS), она всегда может быть преобразована в поток байтов, передана и на другом конце канала связи воссоздана в исходном виде.

Итак, мы можем считать, что файл – это поименованная последовательность байтов.

Файловая структура представляет собой систему хранения файлов на запоминающем устройстве, например, диске. Файлы организованы в каталоги (иногда называемые директориями или папками). Любой каталог может содержать произвольное число подкаталогов, в каждом из которых могут храниться файлы и другие каталоги.

Способ, которым организованы данные, называется форматом файла.

Для того чтобы прочесть файл, например, электронной таблицы, необходимо знать, каким образом байты представляют числа (формулы, текст) в каждой ячейке; чтобы прочесть файл текстового редактора, надо знать, какие байты представляют символы, а какие шрифты или поля, а также другую информацию.

Программы могут хранить данные в файле таким способом, какой выберет программист. Зачастую предполагается, однако, что файлы будут использоваться различными программами. По этой причине многие прикладные программы поддерживают некоторые наиболее распространенные форматы, так что другие программы могут понять данные в файле. Компании по производству программного обеспечения (которые хотят, чтобы их программы стали "стандартами"), часто публикуют информацию относительно форматов, которые они создали, чтобы их можно было бы использовать в других приложениях.

Все файлы условно можно разделить на две категории – текстовые и двоичные.

Текстовые файлы - наиболее распространенный тип данных во всем компьютерном мире. Для хранения каждого символа чаще всего отводится один байт, а кодирование текстовых файлов выполняют с помощью специальных таблиц, в которых каждому символу соответствует определенное число, не превышающее 255. Файл, для кодировки которого используется только 127 первых чисел, называется ASCII-файлом (сокращение от American Standard Code for Information Intercange -- американский стандартный код для обмена информацией), но в таком файле не могут быть представлены буквы, отличные от латиницы (в том числе и русские). Большинство национальных алфавитов можно закодировать с помощью восьмибитной таблицы. Для русского языка наиболее популярны на данный момент три кодировки: Koi8-R, Windows-1251 и, так называемая, альтернативная (alt) кодировка.

В стандарте Unicode (UTF-8) кодирования символов используется диапазон чисел от 0 до 65 535.

Но чисто текстовые файлы встречаются все реже. Люди хотят, чтобы документы содержали рисунки и диаграммы и использовали различные шрифты. В результате появляются форматы, представляющие собой различные комбинации текстовых, графических и других форм данных.

Двоичные файлы, в отличие от текстовых лишь множество непонятных символов. Эти файлы не предназначены непосредственно для чтения человеком. Примерами двоичных файлов являются исполняемые программы и файлы с графическими изображениями.

В России первой возникла кодировка KOI8 (код обмена информации восьмибитный), соответствующая стандарту ГОСТ 19768-74. Она была разработана в середине семидесятых годов специалистами одного из советских НИИ и к середине восьмидесятых стала базовой кодировкой для только что появившихся тогда в нашей стране русифицированных UNIX-совместимых операционных систем. Именно благодаря этому на сегодняшний день KOI8 является основным стандартом для серверов, работающих на базе платформы UNIX (например, для http-сервера Apache), а также используется в качестве формата по умолчанию при пересылке сообщений электронной почты на русском языке.

Компания Microsoft, создавая программное обеспечение для работы в Интернет, как водится, пошла своим путем, предложив стандарт Microsoft code page1251 (Windows 1251), получивший чрезвычайно широкое распространение благодаря популярности операционной системы Microsoft Windows и http-сервера Internet Information Server. Именно поэтому и Windows 1251, и KOI8-R входят в тот минимально допустимый набор кодировок, которые должна обязательно поддерживать любая web-страница.

Кодировка ISO-8859-5 была разработана Комитетом по международным стандартам (International Standards Organization, ISO) и применяется в основном в UNIX-совместимых операционных системах. Поскольку данный набор символов был создан западными специалистами, плохо знакомыми не только с самим русским языком, но и с уже имеющимся многообразием кодировок кириллицы, ISO не получила широкого распространения, однако все же достаточно часто встречается в Интернет и активно поддерживается рядом русскоязычных серверов.

Универсальный международный стандарт Unicode был создан с благородной целью объединить все существующие на сегодняшний день национальные кодировки в одну. Поскольку для отображения одного символа в Unicode отводится не один байт, как это принято во всех остальных стандартах, а два, данная кодировка включает в себя 65 536 знаков вместо 256. В это число входят не только буквы всех алфавитов мира как существующих ныне или созданных искусственно, так и уже практически вымерших, но и множество специальных символов - математических, музыкальных, физических.

Большинство современных серверных программ обладают встроенной функцией автоматического определения кодировки, используемой клиентским программным обеспечением, и перевода текста в необходимый стандарт на лету. Однако бывают ситуации, когда возможность автоматического распознавания необходимого пользователю набора символов на сервере отключена или попросту отсутствует.

Когда по каким-либо причинам необходимо перевести текст из одной кодировки в другую (а такие ситуации возникают довольно часто), обычно применяют одну из многочисленных программ-перекодировщиков, которые можно без труда найти на сайтах, предлагающих бесплатное программное обеспечение. Например, Recoder, которую можно найти по адресу http://tpz.tarusa.ru/ recoder.phtml, или SNK Decode!, расположенную на www.snkey.net.

Форматы данных, используемые в Интернет.

HTML. Страницы, содержащие инструкции HTML (HyperText Markup Language), самый первый и самый распространенный формат файлов в Интернете. Существуют различные версии: HTML 1,2,3,4.

HTM. Абсолютный синоним HTML. Остался как пережиток тех времен, когда расширение файла не могло превышать трех символов. Расширения между собой связанных интернетных страниц советуется называть одинаково – либо .htm, либо .html. (чтоб избежать лишней опечатки в ссылках и т.д.).

SHTML (SymbolicData Enhanced HTML). HTML-файл, который перед отправкой на клиент (в браузер) обрабатывается сервером на предмет SSI (Server Side Includes) инструкций. Сервер может вставить в HTML текст какие то данные: Содержимое другого файла, текущее время и др.

DHTML* (Dynamic HTML). Динамичный HTML. Не формат а понятие, означающее что в HTML документе есть вставки скриптовых языков (JavaScript, VBScript, PerlScript, PHP Script). Скрипты такого типа являются частью HTML кода и выполняются на клиенте. Файлы содержащие такие скрипты могут иметь расширения: ,html, .htm, .shtml или же генерироваться PHP, ASP и CGI скриптами.

XHTML* (Extensible HyperText Markup Language). HTML базирующийся на правилах XML, т.е. расширенный HTML. XML жестко и четко стандартизированный язык разметки, он поддерживает все языки разметки и предоставляет другие возможности. Файлы, содержащие XHTML, также могут иметь расширения HTML, HTM, SHTML или же генерироваться PHP, ASP и CGI скриптами.

Существуют два основных способа кодирования графической информации: векторный и растровый. При векторном, рисунок представляется в виде комбинации простых геометрических фигур. Растровый формат характеризуется тем, что все изображение по вертикали и горизонтали разбивается на мелкие прямоугольники – так называемые элементы изображения, или пикселы (от английского pixel - picture element)

JPEG (Joint Photographics Experts Group). Очень распространен в Интернет, был разработан компанией C-Cube Microsystems, как эффективный метод хранения изображений с большой глубиной цвета, например, получаемых при сканировании фотографий с многочисленными едва уловимыми (а иногда и неуловимыми) оттенками цвета. Расширение: .jpg .

Самое большое отличие формата JPEG от других форматов состоит в том, что в JPEG используется алгоритм сжатия с потерями (а не алгоритм без потерь). Сжатие, используемое в формате JPEG, необратимо искажает изображение. Это не заметно при его простом просмотре, но становится явным при последующих манипуляциях. Зато размер файла получается от 10 до 500 раз меньше, чем BMP.

GIF (Graphics Interchange Format). Популярный формат GIF разработан фирмой CompuServe, как не зависящий от аппаратного обеспечения. Он предназначен для хранения растровых изображений со сжатием. В одном файле этого формата может храниться несколько изображений. Обычно эта возможность используется для хранения анимированных изображений (как набор кадров).

GIF-формат позволяет записывать изображение "через строчку" (Interlaced), благодаря чему, имея только часть файла, можно увидеть изображение целиком, но с меньшим разрешением. Эта возможность широко применяется в Интернет. Сначала вы видите картинку с грубым разрешением, а по мере поступления новых данных ее качество улучшается. Основное ограничение формата GIF состоит в том, что цветное изображение может содержать не более 256 цветов. Для полиграфии этого явно недостаточно.

Word - формат фирмы Майкрософт. Очень распространенный формат. Почти каждый пользователь имеет Word-программу на своем компьютере. В нем можно создавать любые тексты – от простых писем вплоть до дипломных работ с графиками, формулами и таблицами. Расширение: .doc

Excel- формат фирмы Майкрософт. Предназначен для таблиц, математических (особенно статистических) калькуляций и их графического изображения. Расширение: .хls

PDF (Portable Document Format). Предложен в 1993 году компанией Adobe Systems, довольно быстро стал стандартом де-факто для обмена и распространения различного рода материалов и документации. Расширение: .pdf. Перечислим некоторые достоинства, которые легли в основу его популярности:

  • Межплатформенность. Для просмотра PDF-файлов существует бесплатное программное обеспечение (Acrobat Reader, Foxit Reader), доступное для всех распространенных платформ;

  • Компактность файлов. Небольшой размер PDF-документов позволяет обмениваться ими посредством электронной почты;

  • Криптозащита и контроль доступа. PDF-формат позволяет накладывать ограничения на просмотр, редактирование и печать документа. Существует также возможность шифрования файлов;

  • Полная независимость от каких бы то ни было кодировок и от наличия или отсутствия каких-либо шрифтов на конкретном компьютере.

PostScript - формат фирмы Adobe. Язык описаний страниц. Это язык программирования, содержащий команды печатающему устройству (такие принтеры называются PostScript-принтерами), и предназначенный для печати графики и текста. Важная черта – независимость от устройства. Расширение: .pst.

DjVu –формат. DjVu (произносится «дежавю́», от фр. déjà vu — уже виденное) – технология сжатия изображений, разработанная специально для распространения сканированных документов – книг, прежде всего математических, журналов и пр. – в Интернет. DjVu иногда называют «тексто-графическим» форматом. Этот формат оптимизирован для передачи по сети таким образом, что страницу можно просматривать ещё до завершения окачивания. Расширение: .djvu.

CHM – формат. HTMLHelp (Microsoft Compressed HTML Help, .CHM) – формат файлов контекстной справки, разработанный компанией Майкрософт. Содержит в себе набор HTML-страниц, может также включать в себя содержание со ссылками на страницы, предметный указатель, а также базу для полнотекстового поиска по содержимому страниц. Все входящие в .CHM файлы сжаты алгоритмом LZX. Расширение: .chm.

WAV – формат. Музыкальный формат. Очень хорошее качество музыки. Как правило, wav-файлы очень большие. Расширение: .wav.

MP3 (MPEG Audio Layer 3) – формат. Музыкальный формат. По сравнению с wav он меньше, тем самым качество хуже. Расширение: .mpg.

AVI (Audio Video Interleaved) и MPEG (Moving Pictures Experts Group). Это очень распространенный видео-формат. Расширение : .avi.

Для архивирования файлов используются специальные программы – архиваторы. Это программы, предназначены для упаковки файлов путем сжатия хранимой в них информации. Сжатие – это процесс преобразования информации, которая содержится в файле, к виду, при котором убирается все лишнее, в результате чего уменьшается размер файла. Такими "лишними" данными в файлах могут быть повторяющиеся символы, постоянные биты и т.д. Соответственно, и методы сжатия могут быть разными. Сжатие данных происходит значительно медленнее, чем обратная операция.

На сегодняшний день наиболее распространенными являются четыре архиватора - WinRar, WinAce, 7Zip и WinZip. Они поддерживают создание и распаковку файлов в форматах: RAR, ZIP, CAB, ARJ, LZH, ACE, 7-Zip, TAR, GZip, UUE, BZ2, JAR, ISO, Z.