Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

УПИС лекции / 9. Текст и гипертекст

.doc
Скачиваний:
29
Добавлен:
29.03.2016
Размер:
41.47 Кб
Скачать

Текст и гипертекст.

Текстовые файлы – наиболее распространенный тип данных в компьютерном мире. Существуют несколько проблем, связанных с текстовыми файлами.

Первая – чрезвычайно большое количество символов, требующихся для поддержки различных языков. Американские программисты для работы со 128 символами используют набор символов US ASCII (американский стандартный код для обмена информацией). Для поддержки других языков зачастую не хватает и 256 символов, поэтому сейчас осуществляется постепенный переход к кодировке Unicode, в которой для хранения одного символа отводится уже два байта (т. е. имеется возможность закодировать 65 536 различных символов).

Вторая проблема заключается в том, что бывает необходимо, чтобы распечатываемые документы содержали графики, диаграммы, примечания, заголовки и чтобы при этом использовались различные шрифты. Документы, распространяемые в Интернет (онлайновые документы), могут содержать мультипликацию, ссылки на различные сетевые ресурсы и звуковое сопровождение.

Многие текстовые файлы передаются в виде простого текста (plain text). Простой текст сложно сделать привлекательным и легко читаемым, так как в нем нет шрифтов различных начертаний, графики, заголовков, подзаголовков и т. д. Эти дополнительные особенности носят название разметки текста (markup).

Говоря о разметке текста, выделяют понятия физической и логической разметки. При использовании физической разметки текста указывается точный вид каждого фрагмента. Например, «центрированный текст, 14-м кеглем, жирный, гарнитура Times». При логической разметке указывается логическое значение данного фрагмента, например, «это заголовок главы». Эти два способа разметки предназначаются, как правило, для использования в разных ситуациях. Для того чтобы распечатать текст на принтере, необходимо использовать физическую разметку. Должны быть приняты решения о размере полей и абзацных отступах. Ранние версии текстовых процессоров использовали только физический тип разметки. При этом, для каждого фрагмента указывался шрифт, размер и стиль.

При обмене информацией с другими людьми физическое оформление текста накладывает ряд ограничений, особенно для онлайновых документов. Размер экрана, разрешение, шрифты различны для различных систем. По этим причинам все чаще используется логическое оформление текста. В некоторых случаях логическое оформление практически необходимо: при создании электронных документов типа страниц World Wide Web или при создании и публикации объемных трудов, таких как книги.

Для сохранения разметки документов при передаче текстовой информации от машины к машине применяют разные способы. Текстовые процессоры и издательские системы используют специально разработанные форматы файлов, содержащие не только текст, но и информацию о том, как он должен быть оформлен. Основная проблема здесь в несовместимости таких форматов, хотя наиболее сложные программы обычно могут читать файлы в форматах программ-конкурентов. Примерами такого подхода являются текстовые процессоры Word и StarWriter.

При другом подходе непосредственно в текст документа вставляются специальные команды разметки. Даже если нет программного обеспечения, поддерживающего такой формат, все же удастся в нем разобраться. Существует немало способов подобного представления разметки текста, в том числе: HyperText Markup Language (HTML), использующийся в World Wide Web, TeX и LaTeX, популярных у многих академических изданий, а также у математиков, физиков, химиков и даже музыкантов. Примерами программ, которые позволяют разметить текст подобным образом, служат Netscape Composer и LyX (KLyX).

Файлы, созданные разными редакторами, зачастую имеют уникальные расширения, позволяющие, не заглядывая внутрь документа, догадаться о способах разметки текста. Так файлы, созданные редакторами подготовки plain-текста, часто имеют расширение «txt», а подготовленные в редакторе Lyx – «lyx». Текстовый процессор Word по умолчанию создает файлы в формате MS Word с расширением «doc», но поддерживает и другие форматы, например RTF с расширением «rtf». Документы, содержащие команды разметки языка HTML, имеют расширение «html» или «htm».

Классическое определение гипертекста, которое дал Теодор Нельсон в 1987 г., – это «форма письма, которое ветвится или осуществляется по запросу». Иначе говоря, это «нелинейное письмо», которое «больше чем текст» (hypertext). Более формальное определение гипертекста звучит так: гипертекст – это представление текстовой информации как сети, в которой читатели получают свободу перемещаться нелинейным образом.

Гипертекст – это текст со вставленными в него словами (командами) разметки, ссылающимися на другие места этого текста или другие текстовые документы. Во время чтения такого текста (в соответствующей программе, его обрабатывающей и выполняющей соответствующие ссылки или действия) видны выделенные в тексте слова. Если направить на них курсор (указатель мыши) и нажать клавишу (кнопку мыши), то будет выполнено действие, связанное с данными выделенными словами – на экране появится текст, на который ссылаются эти слова, это может быть другой участок текста этого же документа, а также другой документ.

Преимущество гипертекста заключается в том, что для получения нужной информации нет необходимости пролистывать весь документ, достаточно активировать ключевой ряд символов, причем можно делать ссылки на другие документы, которые могут быть расположены на другом сервере, который может располагаться на другом континенте, в то же время, такой текст представляется пользователю как единое целое. Гипертекст предназначен для того, чтобы пользователь мог самостоятельно выбрать путь прохождения по материалу.

Дальнейшим развитием идеи гипертекста является гипермедиа. Гипермедиа – это разновидность гипертекста, гипермедиа-документы имеют связи не только с другими фрагментами текста, но также с другими элементами – звуком, изображением. Изображение в свою очередь может сопровождаться звуком или текстом. Таким образом, гипермедиа объединяет в себе гипертекст и средства мультимедиа. То есть гипермедиа-документ может включать не только гипертекст, но и графику, а также звук и видео. Причём, графические элементы также могут являться областями, через которые можно получить доступ к другим документам или объектам.

Для подготовки гипертекста информация делится на статьи, в которые встраиваются гиперсвязи. Гиперсвязь, или гиперссылка, – это объект (подчеркнутый или выделенный каким-либо другим способом символ, группа символов или изображение) в документе, который при активации позволяет отобразить документ или объект.

Только с появлением гипермедиа стало возможно объединить традиционные виды данных (медиа-элементы) – текст, графику, звук, анимацию, видео. Только от пользователя зависит, какой путь просмотра информации он изберет – гипертекстовые ссылки позволяют переходить от одной части к другой нелинейно. Более того: гипермедиа-программы интерактивны, и грань между пользователем и автором размыта (в отличие, например, от книги, где читатель не несет созидательной функции). Как и любой вид цифровых данных, гипермедиа можно распространять на информационных носителях или по сетям, таким как Интернет.

В общих чертах гипертекстовую систему можно рассматривать как систему баз данных, которая обеспечивает разные методы доступа и управления информацией. Однако в отличие от традиционных систем баз данных, которые имеют регулярную, упорядоченную структуру, гипертекстовые системы баз данных не имеют строгой структуры, и пользователь может оперировать информацией различными доступными ему методами.

Основная идея гипертекстовых систем заключается в концепции автоматически поддерживаемых связей как внутри одного документа, так и между различными документами. Поддержка таких связей позволяет организовывать нелинейные текстовые структуры. Преимущества нелинейных документов очевидны – в отличие от линейного документа, например, статьи в журнале, которая является одноуровневым, неизменяемым и имеющим ограниченный набор ссылок объектом, гипертекстовый документ представляет собой гибкую структуру, которая может быть ориентирована на конкретного читателя. Читатель по желанию может либо ограничиться поверхностной информацией одного уровня, либо, при необходимости, получать более полную информацию других уровней, не тратя времени на поиск нужных документов по ссылкам.

Создатель гипертекстового документа может дополнять документ новыми ссылками, обновлять отдельные части документа, не меняя структуры в целом, а также изменять структуру документа, не меняя содержимого отдельных частей. Для создания таких документов применяются такие языки программирования, как Java, Perl, язык разметки гипертекста HTML (Hyper Text Markup Language), который представляет собой прикладной вариант более общего и более мощного языка структурного описания документов SGML, принятого в качестве стандарта ISO.