
- •Лекция 12.
- •12.2. Организация данных в документальных информационных системах
- •12.3. Организация данных в документальной аипс stairs
- •12.4. Организация данных в документальной аипс irbis
- •12.5. Документо-ориентированная база данных Domino/Notes
- •12.6. Технологии поиска и обработки документальной информации
- •Механизмы отбора документальной информации
- •12.7. Уровневая модель представления информации в полнотекстовых бд
- •Преобразование представлений
- •12.8. Структура полнотекстовой бд
- •12.9. Проектирование документальной ис.
- •Проектирование логической структуры документальной бд
12.8. Структура полнотекстовой бд
Исходя из ранее приведенных положений, для хранения полнотекстовых документов используется двухуровневая схема представления.
В качестве базового средства представления полнотекстовых документов принята объектная модель (DOM). При этом способы идентификации информационных элементов хранимых документов могут быть как контекстными (например, на основе XML), так и «декларативными» (традиционными для БД схемами). Принятие в качестве базовой DOM-модели позволяет использовать уже достаточно разнообразные языковые и программные средства, а также компоненты преобразования форматов, в том числе HTML, XML, RTF и т. д. С другой стороны, использование поэлементного представления информации, свойственного базам данных, обеспечивает гибкость обработки и эффективность поиска.
Отдельная запись БД соответствует физическому документу, который может содержать несколько логических документов. Структура записи определяется физической схемой БД и включает метаинформационную и информационную составляющие.
Метаинформационный компонент содержит помимо обязательных идентификационных несколько необязательно явно указываемых значений:
формат физического документа (текст, XML и т.д.);
сведения о логической схеме документа (ссылка на схему);
сведения о поисковых индексах.
Информационный компонент содержит материал документа и может быть представлен по-разному в зависимости от возможностей используемой СУБД (например, двоичным полем, объектом, связанной записью, агрегатом полей и т. д.).
Логический документ может быть идентифицируемой частью физического документа или композицией логических документов (динамический или «виртуальный» документ).
Структура документа может быть определена схемой документа отдельно от документа, или контекстно – поля документа и его структура могут быть определены, например, средствами XML внутри самого документа.
Исходя из требования запись-ориентированного доступа, определяемого архитектурой современных СУБД, можно определить два способа хранения полнотекстовых документов в базе данных (Слайд 12.17).
Во-первых, можно выделить все значения узлов XML-документа и вносить их в базу поэлементно в соответствии со схемой БД, т. е. значению XML-заголовка будет соответствовать имя поля, определенное в схеме БД. Однако в этом случае для документов, имеющих иерархическую структуру, возникают сложности при выдаче документа в первоначальном виде. Также проблемы могут возникать с сопоставлением имен полей и XML-заголовков (тэгов элементов).
Второй вариант – это хранение документа в виде «интегрального» массива, в данном случае в виде полноценного XML-документа. При этом возможность поэлементной выборки и обработки информации обеспечивается ассоциированной схемой базы данных, связывающей идентификацию полей в БД с элементами данных, определяемых XML-средствами.
Таким образом, в том случае, когда для хранения полнотекстовой информации используются БД, структура документов может быть определена двумя путями:
так же, как и для фактографических БД, заданием схемы – последовательности именованных типизированных полей данных;
контекстным определением – использованием специализированных языков разметки (например, HTML или XML), задающим индивидуальные особенности представления материала каждого документа.
Сюда относятся и «стандартные» операции разбора и загрузки документа как взаимосвязанной совокупности элементов данных, а также выборка и верстка функционально ориентированных документов, как совокупности семантически упорядоченных полей.
Использование встраиваемых определений структуры позволяет ввести «самоопределяемые» форматы представления документов. Это обеспечивает практически неограниченную гибкость при организации хранения коллекций разнородных документов, однако создает проблемы семантические согласованного использования материала (из-за возможности различной интерпретации определений), что в свою очередь требует создания доступного всем пользователям репозитория метаинформации – описаний природы и способов представления информации.