
- •Лекция 12.
- •12.2. Организация данных в документальных информационных системах
- •12.3. Организация данных в документальной аипс stairs
- •12.4. Организация данных в документальной аипс irbis
- •12.5. Документо-ориентированная база данных Domino/Notes
- •12.6. Технологии поиска и обработки документальной информации
- •Механизмы отбора документальной информации
- •12.7. Уровневая модель представления информации в полнотекстовых бд
- •Преобразование представлений
- •12.8. Структура полнотекстовой бд
- •12.9. Проектирование документальной ис.
- •Проектирование логической структуры документальной бд
Лекция 12.
Структура информации и структура данных. Организация данных в документальных АИПС STAIRS и IRBIS. Документо-ориентированная база данных Domino/Notes. Технологии поиска и обработки документальной информации. Уровневая модель представления информации в полнотекстовых БД.
Структура полнотекстовой БД.
Проектирование документальной ИС. Проектирование логической структуры документальной БД.
12.1. Структура информации и структура данных
При любом методе отображения предметной области в машинных базах данных в основе отображения лежит фиксация (кодирование) понятий и отношений между понятиями. Абстрактное понятие структуры ближе всего находится к так называемой концептуальной модели предметной среды и часто лежит в основе последней.
Понятие структуры используется на всех уровнях представления предметной области и реализуется как (Слайд 12.2):
структура информации - схематичная форма представления сложных композиционных объектов и связей реальной ПрО, выделяемых как актуально необходимые для решения прикладных задач, в общем случае без учета того, будут ли для ее решения использованы средства программирования и вычислительные машины;
структура данных - атрибутивная форма представления свойств и связей ПрО, ориентированная на выражение описания данных средствами формальных языков;
структура записей – целесообразная (учитывающая особенности физической среды) реализация способов хранения данных и организации доступа к ним как на уровне отдельных записей, так и их элементов.
Структура является общепринятым и удобным инструментом, одинаково эффективно используемым как на уровне сознания человека при работе с абстрактными понятиями, так и на уровне логики машинных алгоритмов. Структура позволяет простыми способами свести многомерность содержательного описания к линейной последовательности записей. Именно это позволяет формализовать на общей понятийной основе взаимосвязь представлений информации в разных средах: обеспечить контролируемое сведение бесконечного разнообразия объектов и видов взаимосвязей реального мира к жестко детерминированному описанию – совокупности двоичных данных и машинно-ориентированных алгоритмов их обработки.
Выделение трех указанных видов структур имеет в некотором смысле принципиальный характер. Структура определяет алгоритм выборки отдельных элементов данных, но в то же время она отражает и особенности «технологии» организации и обработки информации, свойственные человеку в его повседневной деятельности.
Физически понятию структура соответствует запись данных. Запись – это упорядоченная в соответствии с характером взаимосвязей совокупность полей (элементов) данных, размещаемых в памяти в соответствии с их типом. Память, отводимая для хранения значения элемента данных (поле данных), должна выбираться в соответствии с диапазоном значений, которые может иметь этот элемент. Поскольку для выполнения операции присвоения значения элементу данных необходимо сначала выделить память, для чего используются две схемы– статическая и динамическая. Для первой характерно выделение памяти до того, как реально появляются значения (обычно на этапе трансляции программы); для второй – в тот момент, когда программа во время исполнения получает конкретное значение. Кроме того, характер данных (тип данных) определяет способ представления и, соответственно, некоторое множество стандартных операций (примитивов).
Таким образом, информационная база ИС состоит из двух компонент:
1) коллекции записей собственно данных;
2) описания этих данных — так называемых метаданных.
Данные отделены от описаний, но в то же время данные не могут использоваться без обращения к соответствующим описаниям. Такая конструкция обеспечивает возможность того, что данные могут использоваться (т. е. представляться) по-разному.