Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
programmig [1 term] / кодирование_информации / кодирование информации[23-40] / формат данных (внутренний и внешний)..docx
Скачиваний:
86
Добавлен:
01.03.2016
Размер:
21.95 Кб
Скачать

Текстовые файлы

Текст является универсальным средством представления информации. В связи с тем, что сейчас на всех платформах байты имеют размер 8 бит и существует стандарт кодирования символов (хотя для русских и украинских симолов таких стандартов даже штук 8 :), текстовый формат является переносимым. Т.е. текст набранный на одной платформе, практически без труда прочитается на другой. Точнее это справедливо для латинских текстов. Для текстов на других языках могут возникнуть проблемы из-за наличия нескольких стандартов кодирования (кодировок). Однако довольно просто создать программу, переводящую текст из одной кодировки в другую.

Второе преимущество текстового представления информации - независимость от порядка байт в слове, т.к. мы работаем непосредственно с байтами.

Именно из-за этих преимуществ все стандарты или протоколы передачи информации в Internet (http, smtp, pop и т.д.) являются текстовыми.

Используя текстовый формат, довольно легко создать файл, структура которого не будет зависеть от порядка расположения блоков информации. Хотя никто не мешает использовать и жесткую структуру.

Если для каждого формата двоичного файла необходима отдельная программа, которая в состоянии его обработать, то для манипуляций с содержимым любых текстовых файлов можно использовать хорошо известные и проверенные временем (каков слог :) инструменты: grepsedawk, не говоря о таких монстрах как Perl.

Одним из недостатков текстовых форматов является меньшая скорость считывания и преобразования во внутренний формат программы текстовых файлов. Однако, как правило, чтение файлов выполняется нечасто, да и скорость современных компьютеров достаточна. Более важным недостатком формата является его прозрачная структура. Поэтому другой программист сможет написать свою программу для обработки таких файлов. Если его программа будет лучше нашей, то неблагодарные пользователи будут использовать именно ее, а не наш продукт.

XML

XML (eXtensible Marckup Language, расширяемый язык разметки) - это язык для описания сложных документов. XML разрабатывался как язык, более универсальный, чем HTML и лишенный его недостатков. Есть мрачная шутка, что этот язык объединяет непонятность двоичных форматов и сложность обработки текстовых. Конечно, на самом деле не все так печально. На основе XMLможно разрабатывать специализированные языки. Поэтому этот язык в настоящее время очень популярен. Практически все программы переходят на его использование. Например, Open Office для хранения документов использует именно формат на основе XML. В настоящее время разрабатывается стандартный формат хранения офисных документов также на основе XML.

Файлы на основе XML имеют теже преимущества, что и текстовые файлы. Помимо этого, существует несколько библиотек (например, expat) для разбора (парсинга) таких файлов. Поэтому относительно несложно написать функцию, которая будет считывать такие файлы.

Заключение

Решение о том, какой формат использовать: текстовый или двоичный, следует принимать индивидуально для каждого отдельного случая.

Если Вы разрабатываете программный продукт лишь для одной платформы, а также более сильно котролировать рынок и держать руку на пульсе (или горле) пользователя, то пожалуй стоит использовать двоичный формат.

Если же переносимость и простота обработки - более важные требования, то следует обратить внимание на текстовый формат и XML.