Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
160
Добавлен:
22.08.2013
Размер:
358.73 Кб
Скачать

12.7. Уровневая модель представления информации в полнотекстовых бд

Как отмечалось ранее, важнейшими особенностями информационных систем, основанных на концепциях БД являются:

  • многоаспектность представления информации, в том числе основанная на наиболее часто используемом принципе разделения физического и логического представлений;

  • многократность и многофункциональность обработки (использования для решения различных прикладных задач) однажды сохраненной (созданной) информации и, как следствие, необходимость обработки запросов, заранее (при создании БД) не предусмотренных.

Однако для документальных систем важен и другой фактор, влияющий на эффективность работы человека с информацией - это форма хранения и представления (оформление) документа. Это особенно заметно при работе с объемными полнотекстовыми документами, когда от выбора формата (DOC, PDF, HTML и т. д.) зависит возможность дальнейшей обработки.

Для определения способов представления информации в полнотекстовых БД рассмотрим соотношение основных функциональных аспектов (базовых типов операций) АИС. Схема, представленная на слайде (Слайд 12.15), отражает «перпендикулярность» функциональных направлений «поиск-выдача» и «ввод-запись-выборка», которые в организационно-функциональных решениях обычно выделяются в виде самостоятельных блоков. Здесь следует отметить, что в отличие от направления «поиск-выдача», подсистемы подготовки и ввода информации обычно организационно локализуются и включают в себя средства обработки ограниченного разнообразия, а функции хранения и выборки данных реализуются в одной среде – однажды выбранной СУБД.

По каждому из этих функциональных направлений физические и логические представления различны, и в самом общем случае для каждого взаимодействия с системой требуются отдельные (в том числе и специализированные) представления информации: формы ввода запроса отличаются от форм представления содержания найденных по этому запросу документов; формы документов, используемые на этапе ввода данных в систему, отличаются от формы хранения введенных данных.

Соответственно, система должна обеспечить согласованную обработку представлений, используемых взаимодействующими сторонами, т. е. форма поискового интерфейса должна согласовываться со структурой хранения и форматом выдачи документов.

И, как в случае уровневых схем теории баз данных, внешние представления должны определять семантику информационных объектов – свойства, атрибуты и характер последующего использования, а внутренние – типы данных и способы их идентификации.

Реально базы данных полнотекстовых документов не могут быть не гетерогенными, причем, в отличие от фактографических, полнотекстовым базам свойственна еще и разнородность физических представлений: документы, в силу разных причин, скорее всего, будут храниться в том формате, в каком они были получены. То есть «разнородность» надо рассматривать в следующих аспектах:

  1. разнородность может проявляться как на уровне семантики (способов интерпретации величин), так и на структурно-форматном уровне (различных наборов и типов полей, образующих документ);

  2. разнородность может быть свойственна всем документам БД или отдельным. То есть «типизация» может быть определена либо для некоторого идентифицируемого подмножества документов, либо своя структура должна быть определена для каждого документа (например, с хранением схемы вместе с содержанием документа);

  3. для реализации разнородных БД может использоваться декларативный или процедурный способ определения структуры документа.

Соседние файлы в папке Lekcii