
Лекция 13.
Использование коммуникативных форматов и протоколов. Объектная модель документа (DOM). XML, RDF, OWL.
Многоуровневые и многокомпонентные информационные ресурсы. Типология и структура распределенных ИР. Проектирование распределенных документальных информационных ресурсов.
Этап предобработки документальных ИС предполагает преобразование документов в машиночитаемую форму, пригодную не только для обработки в АИС, но и для унифицированного обмена между различными АИС. Формализация процессов получения машиночитаемых форм документов основана на стандартизованных в настоящее время решениях – использовании коммуникативных форматов и специализированных языков разметки, поддерживающих объектную модель документа.
13.1. Коммуникативные форматы для обмена
библиографическими данными
Впервые задача создания машиночитаемых каталогов была поставлена и решена Библиотекой Конгресса США. В 1965 – 1966 гг. в Библиотеке Конгресса был разработан проект, направленный на исследование возможности получения библиографического описания в машиночитаемой форме. Этот проект положил начало созданию семейства форматов MARC (Machine-Readable Catalogue), ориентированных на обмен всеми видами документов и решение разнообразных информационно-библиотечных задач, включая каталогизацию и применение в различных автоматизированных системах.
Структура формата была зафиксирована американским национальным стандартом Z39.2, а позднее на основе формата MARC был создан международный стандарт ISO 2709. По мере развития информационно-поисковых систем и создания электронных ресурсов, ориентированных на семантический поиск, были разработаны стандарты, предопределяющие повышенные требования к поисковому образу документа. Примерами таких форматов являются форматы международной службы INIS-AtomIndex, фирм Dervent и INSPEC, отечественный формат обмена научно-технической информацией МЕКОФ.
Стандарты семейства коммуникативных форматов для обмена библиографическими и другими данными на машиночитаемых носителях определяют структуру записи и ее наполнение. При этом разные национальные и фирменные стандарты имеют практически одинаковую структуру (соответствующую требованиям ISO-2709) и достаточно разнообразные требования к наполнению, где основные различия касаются набора элементов данных и их представлений.
Структура библиографической записи iso-2709
Библиографическая запись в коммуникативном формате ISO-2709 - это совокупность полей, описывающая одну или несколько библиографических единиц, рассматриваемых как единое целое. Структура формата может быть охарактеризована как «самоопределенная». Каждый экземпляр записи может иметь свой состав полей переменной длины и свой вариант представления данных. Это достигается тем, что запись имеет три блока: заголовок, справочник, область элементов данных. Размещение полей данных определяется справочником переменной длины. В свою очередь структура справочника и элементов данных определяется заголовком.
Отдельная запись коммуникативного формата схематично может быть представлена структурой, изображенной на слайде 13.2.
Заголовок представляет собой часть записи, имеющую фиксированную длину и содержащую данные для ее обработки. Фиксированная структура заголовка позволяет унифицировать процедуры доступа как к записи в целом, так и к ее отдельным полям.
Заголовок состоит из следующих компонентов (слайд 13.2):
длина записи (позиции 0-4) - количество символов в записи, включая маркер и разделитель записи;
статус записи (позиция 5) - один символ, который должен быть определен в нормативно-технических документах по применению данной структуры записи, например, «новая» или «исправленная и пересмотренная» запись;
коды применения (позиции 6-9) - коды, которые могут быть определены в нормативно-технических документах по применению данной структуры;
длина индикатора (позиция 10) - десятичная цифра, определяющая количество символов индикатора.;
длина идентификатора (позиция 11) - десятичная цифра, определяющая количество символов идентификатора – разделителя подполей.;
базовый адрес данных (позиции 12-16) - десятичное число, указывающее общую длину в символах маркера записи и справочника, включая разделитель поля в конце справочника;
план справочника (позиции 20-23):
позиция 20 - десятичная цифра, указывающая длину в символах компонента «длина поля данных» каждой статьи справочника;
позиция 21 - десятичная цифра, указывающая длину в символах компонента «позиция начального символа» каждой статьи справочника.
позиция 22 - десятичная цифра, указывающая длину в символах компонента «часть, определяемая при применении» каждой статьи справочника;
позиция 23 - зарезервирована.
Справочник состоит из переменного числа статей, каждая из которых идентифицирует соответствующее поле данных. Все статьи справочника имеют одинаковую структуру, задаваемую в плане справочника.
Первые 3 позиции статьи справочника всегда занимает трехзначная метка поля. Метки полей определяются конкретным форматом, но всегда имеют трехсимвольное числовое значение.
Следующий обязательный компонент статьи справочника задает длину поля данных. Размер компонента указан в 20-й позиции плана заголовка.
Позиция начального символа - десятичное число, определяющее позицию первого символа поля данных, идентифицируемого меткой, относительно базового адреса данных. Длина компонента в символах задается в 21-й позиции заголовка.
На слайде 13.2 представлена статья справочника, заданного планом ‘4500’.
Справочник заканчивается специальным символом-разделителем.
Поля данных переменной длины следуют за справочником и содержат библиографические данные. Поле может состоять из одного или более элементов данных или подполей. Длина полей в символах определяется количеством символов, необходимых для хранения текстовых данных, индикаторов, идентификаторов подполей и разделителя поля. Метки не содержатся в полях данных, а приводятся только в справочнике.
Пример записи в формате МЕКОФ представлен на слайде 13.3.