Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Голицына Информационные системы 2004.pdf
Скачиваний:
323
Добавлен:
16.08.2013
Размер:
5.01 Mб
Скачать

По каждому из этих функциональных направлений физические и логические представления различны, и в самом общем случае для каждого взаимодействия с системой требуются отдельные (в том числе и специализированные) представления информации: формы ввода запроса отличаются от форм представления содержания найденных по этому запросу документов; формы документов, используемые на этапе ввода данных в систему, отличаются от формы хранения введенных данных.

Соответственно, система должна обеспечить согласованную обработку представлений, используемых взаимодействующими сторонами, т.е. форма поискового интерфейса должна согласовываться со структурой хранения и форматом выдачи документов.

И, как в случае уровневых схем теории баз данных, внешние представления должны определять семантику информационных объектов – свойства, атрибуты и характер последующего использования, а внутренние

– типы данных и способы их идентификации.

Реально базы данных полнотекстовых документов не могут быть не гетерогенными, причем, в отличие от фактографических, полнотекстовым базам свойственна еще и разнородность физических представлений: документы, в силу разных причин, скорее всего, будут храниться в том формате, в каком они были получены. То есть, «разнородность» надо рассматривать в следующих аспектах:

1.Разнородность может проявляться как на уровне семантики (способов интерпретации величин), так и на структурно-форматном уровне (различных наборов и типов полей, образующих документ);

2.Разнородность может быть свойственна всем документам БД или отдельным. Т.е. «типизация» может быть определена либо для некоторого идентифицируемого подмножества документов, либо своя структура должна быть определена для каждого документа (например, с хранением схемы вместе с содержанием документа);

3.Для реализации разнородных БД может использоваться декларативный или процедурный способ определения структуры документа.

3.6.1. Преобразование представлений

Представление данных во многом определяет способы доступа к ним, возможности по преобразованию данных в другой формат с минимальными потерями содержания, а также оказывает значительное влияние на способы поиска и передачи данных. Логико-семантическая модель документальной информации должна учесть как «физический» аспект (многоуровневую вложенность разнородных компонентов), так и логику (семантику) использования информации - поиск документов по их вербальным и структурно-графическим компонентам, а также обеспечение навигации по документу.

89

Для полнотекстовых баз данных, для которых характерна разнородность как на уровне семантики, так и на физическом уровне согласованность представлений может быть обеспечена связыванием информационной и метаинформационной компонент.

В основу реализации процессов «декомпозиции-синтеза» данных30 положена трехуровневая система следующих базовых информационных компонент:

-элемент данных – величина, представляющая в машинной форме логическую (семантически значимую) единицу информации. Обычно представлена в вычислительной среде целостным физическим объектом

иидентифицируется именем;

-поле данных – группа (последовательность) элементов данных, объединенных по какому-либо функциональному или семантическому признаку. Обычно представляет логически целостный объект, обеспечивающий полноту передачи контекстно-однородной информации;

-документ – структура, связывающая разнородные поля данных в соответствии с контекстом (или технологией) использования информации. Обеспечивает возможность адекватного восприятия содержания в целом: точность интерпретации значений полей, эффективность восприятия и понимания которых вне системы (обычно, человеком) обусловлена специфицируемой структурой документа - упорядоченной последовательностью соответствующим образом оформленного материала полей (версткой документа).

Такой подход, отражающий в первую очередь семантику использования информации в сфере основной деятельности, имеет в своей основе логику, подобную логике управления данными: документ является упорядоченной совокупностью элементов данных, которая формируется в соответствии со схемой - определением структуры, задаваемой статически или динамически. Причем, в том случае, когда документальная система реализуется в среде универсальной СУБД (например, реляционной), наибольшая гибкость представления данных достигается при двухуровневой схеме определения структуры документа: поля определяются как композиция элементов данных средствами языка СУБД, а документ определяется как композиция полей средствами, внешними по отношению к СУБД (это могут быть средства языка программирования прикладной программы или генератора отчетов).

Однако в практике создания документальных БД оптимальность такого подхода далеко не очевидна. Действительно, можно выделить несколько критериев оптимизации, практически не связанных друг с

30 Сюда относятся и «стандартные» операции разбора и загрузки документа как взаимосвязанной совокупности элементов данных, а также выборка и верстка функционально ориентированных документов, как совокупности семантически упорядоченных полей.

90

другом. К таким критериям можно отнести количество элементов во внутрисистемной и внешних структурах документа, время или иные ресурсы, затраченные на преобразование документа из внешнего во внутрисистемное представление и обратно.

Выбор оптимального варианта модели в [Сысойкина2003] сводится к многокритериальной задаче теории принятия решений <Т,

А, К, X, F, G, D>,

где T – постановка задачи; А – множество альтернатив; К – множество критериев;

Х – множество шкал оценок критериев;

F – отображение множества допустимых решений в множество предпочтений эксперта;

G – система предпочтений эксперта; D – решающее правило.

Врамках поставленной задачи альтернативами будем считать варианты цепочек преобразований документа, получаемого из внешних источников, во внутрисистемное представление, и заканчивая генерируемыми документам, формируемыми системой на выходе. В самом полном варианте цепочка преобразований - операций декомпозиции-синтеза включает:

- разбор документа – выделение полей данных и элементов оформления;

- выделение элементов данных и преобразование их в формат внутренней схемы для загрузки в базу данных;

- преобразование выбираемых из базы элементов данных в формат внешней схемы;

- формирование документа – композиция полей данных и элементов оформления.

Вкачестве значимых выделим следующие семь критериев:

число типов входных документов,

число типов выходных документов,

количество элементов данных во внутрисистемной структуре,

количество элементов входной структуры, сопоставимых с элементами внутрисистемной структуры,

количество элементов выходной структуры, сопоставимых с элементами внутрисистемной структуры,

ресурсы, затраченные на преобразование входного документа к внутрисистемному представлению,

ресурсы, затраченные на преобразование документа из внутрисистемного представления в выходной формат.

При этом первые пять критериев, определяющие эффективность системы с точки зрения управления документов, требуют качественной

91

оценки, и должны принимать максимальные значения. Последние критерии, определяющие стоимость реализации конкретной альтернативы, могут быть явно выражены количественными характеристиками, причем их значение должно стремиться к минимуму. Они явно выражаются через функции преобразования документа путем суммированием затрат, произведенных на преобразование представления и структуры на каждом этапе.

При вычислении значений критериев времени используем следующее допущение. Время занесения одного элемента в память системы будем вычислять исходя из того, что в среднем операция считывания/записи в оперативной памяти, по крайней мере, на порядок быстрее операции чтения/записи на жесткий диск.

Так как мы имеем дело со слабоструктурированной моделью, в которой присутствуют и количественные, и качественные критерии, а число альтернатив заранее известно, то можно использовать метод анализа иерархии, предложенный в [Саати1989].

Функции полезности каждой из альтернатив организации процессов преобразований были построены в предположении, что максимальное количество элементов не более числа элементов данных в форматах описания полнотекстовых документов и не превышает 250. Сравнительный анализ полученных зависимостей показал, что при числе элементов более 10 наиболее эффективным вариантом организации преобразований является полная цепочка и, соответственно, двухуровневая система определения структуры документа.

3.6.2. СтруктураполнотекстовойБД

Исходя из ранее приведенных положений, для хранения полнотекстовых документов используется двухуровневая схема представления.

В качестве базового средства представления полнотекстовых документов принята объектная модель (DOM). При этом, способы идентификации информационных элементов хранимых документов могут быть как контекстными (например, на основе XML), так и «декларативными» (традиционными для БД схемами). Принятие в качестве базовой DOM-модели позволяет использовать уже достаточно разнообразные языковые и программные средства, а также компоненты преобразования форматов, в том числе HTML, XML, RTF и т.д. С другой стороны, использование поэлементного представления информации, свойственного базам данных, обеспечивает гибкость обработки и эффективность поиска.

Отдельная запись БД соответствует физическому документу, который может содержать несколько логических документов. Структура записи определяется физической схемой БД и включает метаинформационную и информационную составляющие.

92

Метаинформационный компонент содержит помимо обязательных идентификационных несколько необязательно явно указываемых значений:

формат физического документа (текст, XML, и т.д.);

сведения о логической схеме документа (ссылка на схему);

сведения о поисковых индексах.

Информационный компонент содержит материал документа и может быть представлен по-разному - в зависимости от возможностей используемой СУБД (например, двоичным полем, объектом, связанной записью, агрегатом полей и т.д.).

Логический документ может быть идентифицируемой частью физического документа, или композицией логических документов (динамический или «виртуальный» документ)

Структура документа может быть определена схемой документа отдельно от документа, или контекстно – поля документа и его структура могут быть определены, например, средствами XML внутри самого документа.

Исходя из требования запись-ориентированного доступа, определяемого архитектурой современных СУБД, можно определить два способа хранения полнотекстовых документов в базе данных.

Во-первых, можно выделить все значения узлов XML-документа и вносить их в базу поэлементно в соответствии со схемой БД, то есть значению XML-заголовка будет соответствовать имя поля, определенное в схеме БД. Однако в этом случае для документов, имеющих иерархическую структуру, возникают сложности при выдаче документа в первоначальном виде. Также проблемы могут возникать с сопоставлением имен полей и XML-заголовков (тэгов элементов).

Второй вариант – это хранение документа в виде «интегрального» массива, в данном случае в виде полноценного XML-документа. При этом возможность поэлементной выборки и обработки информации обеспечивается ассоциированной схемой базы данных, связывающей идентификацию полей в БД с элементами данных, определяемых XMLсредствами.

Таким образом, в том случае, когда для хранения полнотекстовой информации используются базы данных, структура документов может быть определена двумя путями31:

1)так же как и для фактографических БД, заданием схемы – последовательности именованных типизированных полей данных;

2)контекстным определением – использованием

специализированных языков разметки (например, HTML или XML),

31 Для реляционной СУБД MS SQL Server 2000 реализован импорт/экспорт документов, представленных в XML-формате, в том числе с использованием схем сопоставления, определяющих соотношение элементов XDR-схем таблицам, а атрибутов – столбцам.

93

задающим индивидуальные особенности представления материала каждого документа.

Использование встраиваемых определений структуры позволяет ввести «самоопределяемые» форматы представления документов. Это обеспечивает практически неограниченную гибкость при организации хранения коллекций разнородных документов, однако создает проблемы семантические проблемы согласованного использования материала (изза возможности различной интерпретации определений), что в свою очередь требует создания доступного всем пользователям репозитария метаинформации – описаний природы и способов представления информации.

94