Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Московский государственный технический университет им. H.Э.Баумана

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

МАТЕРИАЛЫ ПО ДИСЦИПЛИНЕ БАЗЫ ДАННЫХ / Книги / ПРОЕКТИРОВАНИЕ БД.doc

Скачиваний:

Добавлен:

10.02.2015

Размер:

3.92 Mб

Скачать

☆

<<< < Предыдущая 4 5 6 7 8 9 10 11 12 13 14 1516 / 3916 17 18 19 20 21 22 23 24 25 26 27 28 > Следующая >>>

4.2.2. Модель реляционной таблицы

Реляционная таблица (RT) представляется множеством RT = {Z, D}, где Z – множество заголовков, D - множество данных.

Z = {,…,,…,}, i = 1,n; n>=1, где n - степень множества заголовков.

Должно быть обеспечено условие ≠ , i = 1,n ; m = 1,n; i ≠ m (8), где n – степень множества заголовков, т.е. недопустимо совпадение заголовков.

D = {SD} (9), где SD – множество строк данных.

SD = {SD₁,…,SD_i…,SD_n}, i = 1,n; n >> 1, где n - мощность множества строк данных.

SD_i = {ED_i₁...,ED_ij,…,ED_ik}, j ₌1,k; k >= 1, где k - степень множества i-ой строки данных; ED_ij – элемент данных.

Недопустима ситуация, когда внутри таблицы данных могут встретиться заголовки, т.е. должно выполнятся условие:

SD_i ≠ , i = 1,n; n >> 1; j₌1,k; k >= 1 (10), где

n - мощность множества строк данных;

k - степень множества заголовков.

Для реляционных таблиц выполняется правило:

(ED)(SDED) ((z(Z z) (zED)

Т.е. каждому элементу данных соответствует только один заголовок.

(ED) (EDSD ) (( TED (ED TED)),

где TED = string V integer V datetime V real V logical

Т.е. каждому элементу данных соответствует определенный тип данных.

В реляционных таблицах обязательно выполнение следующего требования:

TED₁₁=,…,=TE D_i1=,…,=TE D_n1

… … … … … … … … … … …

TE D_1j=,…,=TE D_ij=,…,=TE D_nj

… … … … … … … … … … …

TE D_1k=,…,=TE D_ik =,…,=TE D_nk, i = 1,n; n>>1; j ₌1,k; k >= 1,

где n - мощность множества строк данных, k - степень множества i-ой строки данных; ED_ij– элемент данных. Другими словами, значения типов данных одного столбца должны совпадать.

Недопустима ситуация, когда SD_i = S D_j , i = 1,n ; j=1,n; i≠j , где n – мощность множества данных.

Т.е. невозможно полное совпадение строк данных.

Несмотря на некоторое сходство модели данных табличного вида и модели реляционной таблицы, в них имеются существенные различия. Сравнивая условия (1-7) в модели данных табличного вида и условия (9-10) в модели реляционной таблицы, нетрудно заметить, что эти условия не совпадают. В связи с этим для преобразования данных табличного вида в реляционные таблицы необходимо как минимум добиться выполнения условий (9 -10).

При этом целевая функция для условий (1-4) выглядит следующим образом:

((min(j)…min(i)…min(t))………

((min(m)…min(k)…min(r)),где

j - количество подзаголовков 1-го уровня 1-го заголовка;

t - количество подзаголовков 1-го уровня последнего заголовка;

m - количество подзаголовков 2-го уровня первого подзаголовка заголовка 1-го уровня;

r - количество подзаголовков 2-го уровня последнего подзаголовка заголовка 1-го уровня.

Другими словами число подзаголовков 1-го и 2-го уровней нужно минимизировать, а точнее совсем от них избавиться. Таким образом, будет реализована 1-ая нормальная форма - атрибуты реляционной таблицы должны быть атомарными.

4.3. Преобразование заполненных таблиц к первой нормальной форме

4.3.1. Избавление от сложных атрибутов

В работах [7,8] обоснована актуальность проблемы преобразования заполненных нереляционных таблиц в реляционные таблицы, сформулированы задачи преобразования, намечены пути решения отдельных задач. Здесь рассматривается одна из этих задач - избавление от сложных атрибутов в заполненных нереляционных таблицах. Простые атрибуты - это первое условие нормализации реляционных таблиц. При проектировании таблиц баз данных это условие закладывается изначально. В нереляционных таблицах или в данных табличного вида оно, как правило, не обеспечивается.

Для того, чтобы исключить подзаголовки 1-го и 2-го уровней и не потерять смысл атрибутов можно выполнить конкатенации заголовков и подзаголовков всех уровней и значениям подзаголовков нижнего уровня приписать значения конкатенации. После этого необходимо удалить строки с заголовками 1-го и, если есть таковые, строки с заголовками 2-го уровня. Этот процесс можно формализовать и соответственно реализовать его в виде машинных процедур. Однако полностью исключить участие человека из процесса преобразования данных табличного вида к реляционному виду удается не всегда, поэтому речь идет о человеко-машинных процедурах.

Для формализации процесса избавления от сложных атрибутов определим необходимые понятия.

Ячейка – это фрагмент таблицы, который имеет четыре ограничителя: верхний, нижний, левый и правый. В зависимости от формата представления данных табличного вида в качестве ограничителей могут выступать пробелы, символы табуляции, точки, вертикальные линии, горизонтальные линии или другие специальные символы. В электронных таблицах ячейка имеет адрес. В связи с этим одной из причин участия человека в процессе преобразования является необходимость указания символов ограничителей ячеек. Ячейка характеризуется номером строки таблицы данных и номером в строке. Таким образом, Я_ij - это область таблицы, выделенная ограничителями, находящаяся в i-ой строке таблицы и занимающая j-ю позицию. ЛГ(Я_ij) – левый ограничитель Я_ij; ПГ(Я_ij) – правый ограничитель Я_ij; УГ – указатель на правую или левую границу ячейки. С(Я_ij) – содержимое ячейки; СТi – i-ая строка.

Алгоритм избавления от сложных атрибутов выглядит следующим образом:

П1: {Подсчет числа ячеек в 1-ой, 2-ой, и 3-ей строках таблицы.}

{Подсчет выполняется для того, чтобы узнать есть ли в таблице подзаголовки, а также узнать, сколько уровней подзаголовков.}

М1 := 1;

УГ := ЛГ(Я₁₁);

WHILE ПГ(Я_1М1) not EMPTY M1 := M1 + 1;

М2 := 1;

УГ := ЛГ(Я₂₁);

WHILE ПГ(Я₂_М₂) not EMPTY M2 := M2 + 1;

М3 := 1;

УГ := ЛГ(Я₃₁);

WHILE ПГ(Я₃_М₃) not EMPTY M3 := M3 + 1;

IF М2 = М1 THEN GOTO П4; {нет подзаголовков}

IF (М2 > М1) and (M2 = M3) THEN GOTO П2;

IF М3 > М2 THEN GOTO П3;

{один уровень подзаголовков}

П2: k := 1;

j := 1;

УГ:= ЛГ(Я₂₁);

WHILE j <> M2

WHILE ПГ(Я₁_K) <> ПГ (Я_2J)

C(Я₂_J)= Concat(C(Я₁_K),' ',C(Я_2J));

j := j + 1;

END WHILE;

k := k + 1;

j := j + 1;

END WHILE;

DELETE CT₁;

GOTO П4;

{два уровня подзаголовков}

П3: к := 1;

n := 1;

j := 1;

WHILE j <> M3

WHILE ПГ(Я₂_n) <> ПГ (Я₃_j)

C(Я₃_j) = Concat(C(Я₁_k),' ',C(Я₂_n),' ',C(Я₃_j));

j := j + 1;

END WHILE;

IF ПГ(Я_1k) = ПГ(Я_3j) THEN k :=k + 1;

n := n + 1;

j := j + 1;

END WHILE;

DELETE CT₁;

DELETE CT₂;

П4: END.

Нетрудно заметить, что многие команды алгоритма несколько напоминают команды языка программирования Pascal. Так сделано в связи с тем, что при исключении подзаголовков очень вероятна работа с текстовыми файлами, сам алгоритм неочевиден и оправданна его изначальная ориентация на предполагаемый язык реализации.

В алгоритме задействован оператор DELETE, применение которого реализует удаление строк. В П2 удаляется 1-ая строка CT₁ со сложными атрибутами. В П3 удаляется 1-ая и 2-ая строки (CT₁ , CT₂) со сложными атрибутами. Следует обратить внимание, что алгоритм предназначен для реализации в человеко-машинных процедурах. Это связано с тем, что сформированные в соответствии с алгоритмом атрибуты могут быть длинными и не удовлетворять требованиям инструментальной СУБД. Они могут оказаться семантически избыточными и нуждаться в корректировке. Кроме того, в атрибутах могут быть символы, недопустимые с точки зрения инструментальной СУБД. В качестве таких символов могут выступать “!”, “.”, “@” и другие. В связи с этим при реализации алгоритма необходимо предусмотреть автоматизированное исключение из атрибутов символов, указанных пользователем.

Нетрудно доказать, что алгоритм корректный, т.е. алгоритм сходится. П1 алгоритма конечен, т.к. число ячеек любой строки таблицы данных ограничено. П2 и П3 также конечны, так как циклы, которые в них задействованы, ограничены фиксированными значениями параметров.

Кроме того, алгоритм обладает малой вычислительной сложностью, которую можно оценить следующим образом. Для П1 максимальное число итераций оценивается как N*3, где N – число простых атрибутов или количество ячеек в строках с данными или степень таблицы данных. Для П2 и П3 максимальное число операций N. Так как П2 и П3 алгоритма альтернативны, то общая вычислительная сложность алгоритма N*4, т.е. линейна. Причем значение коэффициента невелико.

Нетрудно показать, что таблица, полученная в результате работы алгоритма, удовлетворяет 1-ой нормальной форме. Действительно, в соответствии с требованиями алгоритма (П1), преобразование сложных атрибутов в простые начинает выполняться, когда количество атрибутов (заголовков) будет равным числу элементов в строке с данными - N. Если бы в результате выполнения алгоритма атрибуты остались сложными, то количество заголовков должно было получиться меньшим количества элементов в строке с данными, а это противоречит предыдущему высказыванию. Таким образом, число атрибутов после выполнения алгоритма соответствует количеству ячеек в строках с данными и эти атрибуты неделимы. Кроме того, в соответствии с пунктами алгоритма (П2, П3) вся необходимая информация о семантике столбцов собирается и сохраняется в простых атрибутах. В связи с этим после удаления строк со сложными атрибутами смысловое назначение столбцов таблицы не утрачивается.

Следует отметить, что проблемы с заголовками в данных табличного вида полностью не исчерпываются посредством применения предложенного алгоритма. В соответствии с моделью данных табличного вида заголовки могут позиционироваться внутри таблиц. Для исключения таких заголовков чаще всего недостаточно простого удаления соответствующих записей. Как правило, для выбора способа избавления от заголовков, расположенных внутри таблицы, необходим анализ нескольких факторов. Одним из результатов анализа могут быть выводы о необходимости реструктуризации таблицы.

Иногда для решения проблемы избавления от сложных атрибутов оправданно использование существующих средств. Рассмотрим пример таких средств. В качестве исходной таблицы рассмотрим фрагмент реальной таблицы, сформированной в Microsoft Excel, представленный на рис. 4.3.1.

Рис. 4.3.1. Исходная таблица со сложными атрибутами

Как видно из рис. 4.3.1, в таблице имеются два сложных атрибута - “Тип оборудования” и ”Цена”. Выполним импорт этой таблицы в СУБД Access. Для этого используется меню Файл/Внешние данные/Импорт. В процессе выполнения шагов мастера импорта указывается лист рабочей книги Microsoft Excel, назначается строка заголовка, имя создаваемой таблицы. Окно мастера на его очередном шаге имеет вид рис 4.3.2.

Рис. 4.3.2. Окно мастера импорта таблиц

При выполнении следующих шагов мастера можно назначить индексные поля, в отдельных случаях можно назначить типы полей, назначить ключевое поле. В результате выполнения всех шагов мастера исходная таблица в формате Microsoft Access примет вид рис 4.3.3.

Рис. 4.3.3. Исходная таблица в формате Microsoft Access

Даже из поверхностного анализа заголовков таблицы и содержимого полей видно, что в таком виде таблица неприемлема для использования. В связи с этим для избавления от сложных атрибутов необходимо, в соответствии с алгоритмом, сформировать простые заголовки и избавиться от подзаголовков, которые попали в значения атрибутов. В значения атрибутов, как видно из рис. 4.3.3 попали части и некоторых простых заголовков.

Редактирование заголовков реализуется, когда таблица открыта в режиме Конструктора; редактирование полей таблицы реализуется, когда таблица открыта в режиме Просмотра.

После выполнения необходимых действий в режиме Конструктора и в режиме Просмотра таблица примет вид рис. 4.3.4.

Рис. 4.3.4. Преобразованная таблица в формате Microsoft Access

Для рассмотренного фрагмента таблицы описанные выше манипуляции не составили большого труда. Однако даже эта таблица в полном объеме включает в себя более сорока полей, причем многие из них входят в состав сложных атрибутов. Нередко встречаются таблицы с несколькими сотнями столбцов, в этом случае рассмотренные мероприятия могут оказаться нетривиальными.

<<< < Предыдущая 4 5 6 7 8 9 10 11 12 13 14 1516 / 3916 17 18 19 20 21 22 23 24 25 26 27 28 > Следующая >>>

Соседние файлы в папке Книги

#
10.02.20154.33 Mб89ACCESS.doc
#
10.02.20153.92 Mб72ПРОЕКТИРОВАНИЕ БД.doc
#
10.02.2015126.46 Кб144Словарь терминов из области базы данных.doc