Организация баз данных Логическая организация баз данных
Процесс создания баз данных включает два этапа: разработку логической организации БД и создание БД на носителе.
Логическая организация БД – это представление пользователя о той предметной области, информация о которой должна храниться в БнД, т.е. это логическая модель предметной области. Такая модель отражает три вида информации: сведения об объектах предметной области, их свойствах и отношениях между объектами. Объекты на схемах представляются типами записей; свойства объектов - элементарными или групповыми данными в виде полей записей; отношения – связями между типами записей и полями. Такая модель не зависит от физической среды – типа ПК, операционной системы и СУБД, т.е. абстрагируется от смыслового содержания данных, отражая только формы представления информации и связи между данными.
Логическую модель можно представить несколькими способами. Для информационных систем характерны два способа схемного представления данных – графический и табличный.
Графический способ основан на изображении модели данных в виде ориентированного графа, вершины которого служат для отображения типов записей, а дуги – связей между записями.
Табличный способ состоит в представлении информации о предметной области в виде одной или нескольких таблиц, заголовок каждой из которых аналогичен типу записи графической модели данных.
При проектировании структур данных для АИС можно выделить три основных подхода:
Сбор информации об объектах предметной области в рамках одной таблицы (одного отношения) и последующая декомпозиция ее на несколько взаимосвязанных таблиц на основе процедуры нормализации отношений.
Определение типов исходных данных и их взаимосвязей и требований к обработке данных, получение с помощью CASE-системы (системы автоматизации проектирования и разработки баз данных) готовой схемы базы данных и даже готовой прикладной информационной системы.
Структурирование информации для использования в информационной системе в процессе проведения системного анализа на основе совокупности правил и рекомендаций.
Первый из приведенных подходов является классическим и исторически первым.
В настоящее время известны три логические модели: иерархическая, сетевая и реляционная. Последняя наиболее широко применяется на ПК.
Иерархическая модель данныхоснована на использовании графического способа: она представляет собой дерево, в вершинах которого располагаются типы записей. Каждая из вершин связана только с одной вершиной вышележащего уровня.
Пример:
Факультет
Кафедра Деканат Курс
Дисциплина Преподаватель Группа
Студент
Поиск данных в такой структуре выполняется всегда по одной из ветвей, начиная с корневого элемента, т.е. должен быть указан полный путь движения по ветви. Так для поиска и выборки одного или нескольких экземпляров записи типа “Студент”необходимо указать корневой элемент“Факультет”и элементы“Курс”,“Группа”.
В MS DOS для поиска файла используется этот же принцип.
Сетевая модель данныхтакже использует графический способ представления данных, и схема отображается также в виде графа. Однако по сравнению с иерархической моделью никаких ограничений на количество связей, входящих в каждую вершину, не накладывается, что позволяет отображать связи между объектами предметной области практически любой степени сложности, в частности кольцевые структуры.
П
Факультет
Кафедра Деканат Курс
Преподаватель Группа
Дисциплина Студент
Реляционная модель данных (РМД) строится на использовании табличных методов и средств представления данных и манипулировании ими. В РМД информация о предметной области отображается таблицей – отношением, строка таблицы называется кортежем, столбец – атрибутом. Каждый атрибут может принимать некоторое подмножество значений из определенной области – домена. Домен, таким образом, является областью определения одного или нескольких атрибутов. Отношениям, атрибутам и доменам присваиваются имена.
Отношение характеризуется числом кортежей m и числом атрибутовn, составляющим арность отношения. Различают унарные (n=1), бинарные(n=2), тернарные(n=3)и так далееn–арные отношения.
К отношениям предъявляется ряд требований:
значения атрибутов, т.е. данные, расположенные на пересечении строки и столбца, являются неделимыми, элементарными;
в отношении не может быть двух одинаковых кортежей;
порядок следования атрибутов в отношении фиксирован;
порядок следования кортежей безразличен.
Эти требования создаю предпосылки для применения к отношениям РМД математического аппарата реляционной алгебры.
Существует определенная аналогия между структурой отношения и организацией данных, предусмотренная в операционных системах: атрибут отождествляется с полем записи, схема отношений – с типом записи, кортеж – с экземпляром записи, отношение – с файлом. В состав РМД может входить несколько отношений, каждое из которых имеет свою схему. Поэтому под реляционной моделью данных понимается набор схем отношений, удовлетворяющих указанным ранее требованиям.
Пример РМД в составе двух отношений:
сотрудник финансы
Фамилия |
Год |
Телефон |
Должность |
|
Должность |
Оклад |
Борисов |
1970 |
45-46-10 |
Инженер |
|
Инженер |
97400 |
Иванов |
1969 |
23-14-79 |
Техник |
|
Техник |
68500 |
Квитко |
1969 |
39-18-23 |
Инженер |
|
Секретарь |
71750 |
Для поиска данных по ключу отдельные атрибуты объявляются в качестве возможных ключей, один из которых назначается первичным.
Форма отношения, удовлетворяющая требованиям, предъявляемым к РМД, называется нормальной формой, а процесс приведения отношений к нормальной форме – нормализацией отношений. В настоящее время используются шесть нормальных форм и шесть этапов нормализации: приведение к первой нормальной форме (1НФ), второй, третьей Бойса-Кодда, к четвертой и пятой. Отношение считается нормализованным, если оно находится в одной из этих форм.
На каждую из форм распространяется принцип вложенности: если отношение находится в форме с номером n(например, в 3НФ), то оно обязательно находится и в форме с номеромn–1 (т.е. в 2НФ). Обязательным условием для работы в РМД является нахождение всех отношений в 1НФ. Преобразование таблиц в другие формы необходимо в том случае, если предполагается добавление либо удаление кортежей или атрибутов, в результате чего в таблицах могут возникать искажения информации. Отношение находится в 1НФ, если значения всех его атрибутов атомарны. Одним из способов приведения отношения к 1НФ является декомпозиция (разложение) его на два или более новых отношения, в совокупности эквивалентных исходному.
Основной недостаток РМД – большая информационная избыточность как на логическом, так и на физическом уровнях. Трудоемким является и процесс нормализации отношений.
Кроме рассмотренных моделей иногда используется и простейшая логическая организация данных – модель на плоских файлах. Плоскими называются файлы, в которых не предусматриваются ни прямые, ни косвенные связи между типами данных. Так, если в структурах иерархической модели данных и сетевой модели убрать все связи, а в таблице РМД не использовать поля должность в качестве атрибута связи, то эти модели превратятся в модель базы данных на плоских файлах.