
- •Лекция 12.
- •12.2. Организация данных в документальных информационных системах
- •12.3. Организация данных в документальной аипс stairs
- •12.4. Организация данных в документальной аипс irbis
- •12.5. Документо-ориентированная база данных Domino/Notes
- •12.6. Технологии поиска и обработки документальной информации
- •Механизмы отбора документальной информации
- •12.7. Уровневая модель представления информации в полнотекстовых бд
- •Преобразование представлений
- •12.8. Структура полнотекстовой бд
- •12.9. Проектирование документальной ис.
- •Проектирование логической структуры документальной бд
Преобразование представлений
Представление данных во многом определяет способы доступа к ним, возможности по преобразованию данных в другой формат с минимальными потерями содержания, а также оказывает значительное влияние на способы поиска и передачи данных. Логико-семантическая модель документальной информации должна учесть как «физический» аспект (многоуровневую вложенность разнородных компонентов), так и логику (семантику) использования информации - поиск документов по их вербальным и структурно-графическим компонентам, а также обеспечение навигации по документу.
Для полнотекстовых БД, для которых характерна разнородность как на уровне семантики, так и на физическом уровне, согласованность представлений может быть обеспечена связыванием информационного и метаинформационного компонентов.
В основу реализации процессов «декомпозиции-синтеза» данных положена трехуровневая система следующих базовых информационных компонентов (сюда относятся и «стандартные» операции разбора и загрузки документа как взаимосвязанной совокупности элементов данных, а также выборка и верстка функционально ориентированных документов, как совокупности семантически упорядоченных полей) (Слайд 12.16):
элемент данных – величина, представляющая в машинной форме логическую (семантически значимую) единицу информации. Обычно представлена в вычислительной среде целостным физическим объектом и идентифицируется именем;
поле данных – группа (последовательность) элементов данных, объединенных по какому-либо функциональному или семантическому признаку. Обычно представляет логически целостный объект, обеспечивающий полноту передачи контекстно-однородной информации;
документ – структура, связывающая разнородные поля данных в соответствии с контекстом (или технологией) использования информации. Обеспечивает возможность адекватного восприятия содержания в целом: точность интерпретации значений полей, эффективность восприятия и понимания которых вне системы (обычно, человеком) обусловлена специфицируемой структурой документа - упорядоченной последовательностью соответствующим образом оформленного материала полей (версткой документа).
Такой подход, отражающий в первую очередь семантику использования информации в сфере основной деятельности, имеет в своей основе логику, подобную логике управления данными: документ является упорядоченной совокупностью элементов данных, которая формируется в соответствии со схемой - определением структуры, задаваемой статически или динамически. Причем, в том случае, когда документальная система реализуется в среде универсальной СУБД (например, реляционной), наибольшая гибкость представления данных достигается при двухуровневой схеме определения структуры документа: поля определяются как композиция элементов данных средствами языка СУБД, а документ - как композиция полей средствами, внешними по отношению к СУБД (это могут быть средства языка программирования прикладной программы или генератора отчетов).
Однако в практике создания документальных БД оптимальность такого подхода далеко не очевидна. Действительно, можно выделить несколько критериев оптимизации, практически не связанных друг с другом. К таким критериям можно отнести количество элементов во внутрисистемной и внешних структурах документа, время или иные ресурсы, затраченные на преобразование документа из внешнего во внутрисистемное представление и обратно. Выбор оптимального варианта модели в этом случае сводится к многокритериальной задаче.