Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Posibnik.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
5.62 Mб
Скачать

Методология физического проектирования базы данных

В этом разделе будет описана методология физического проектирования реляционной базы данных. Отправной точкой проводимого обсуждения является глобальная логическая модель данных и сопроводительная документация, созданные на первом-третьем этапах предлагаемой методологии проектирования баз данных. Их создание начиналось с преобразования локальных концептуальных моделей данных для каждого представления на этапе 1 и подготовки локальных логических моделей данных для каждого представления на этапе 2, которые впоследствии использовались для разработки набора соответствующих отношений. Полученные наборы отношений были проверены на соответствие требованиям правил нормализации и возможность выполнения необходимых транзакций. Этап логического проектирования базы данных завершился процедурой соединения на этапе 3 локальных логических моделей данных, отражающих представления отдельных пользователей, в единую глобальную логическую модель данных, которая соответствует всем пользовательским представлениям организации. Безусловно, что этап 3 должен выполняться, только если имеется несколько пользовательских представлений.

В соответствии с предлагаемой методологией, в ходе третьей и последней

стадии методологии разработки базы данных разработчик должен принять решение о том, как преобразовать логический проект базы данных (т.е. совокупность сущностей, атрибутов, связей и установленных ограничений) в проект физической базы данных, реализуемой в среде выбранной целевой СУБД. Поскольку многие аспекты физического проектирования баз данных зависят от типа выбранной целевой СУБД, возможно существование нескольких способов реализации любого заданного элемента базы данных. Совершенно очевидно, что разработчик должен хорошо знать функциональные возможности выбранной целевой СУБД, а также четко понимать все ее достоинства и недостатки, что позволит ему принимать обоснованные решения при выборе того или иного метода реализации базы данных. Кроме того, в каждом конкретном случае разработчик должен уметь выбрать оптимальную стратегию размещения и хранения данных.

Сравнение этапов логического и физического проектирования баз данных.

Стадия, предшествующая физическому проектированию, является стадией логического проектирования. Результаты ее выполнения в значительной степени независимы от особенностей физической реализации проекта. При логическом проектировании не принимаются во внимание конкретные функциональные возможности целевой базы данных и прикладных программ, однако учитываются особенности выбранной модели данных. Результатом логического проектирования являются глобальная логическая модель данных, состоящая из ER-диаграммы или диаграммы отношений, а также реляционной схемы, и комплект описывающей ее сопроводительной документации, включающий, в частности, словарь данных. В совокупности эти результаты являются исходной информацией для стадии физического проектирования базы данных и предоставляют ее разработчику все необходимое для принятия решений, направленных на достижение максимальной эффективности создаваемого проекта.

Образно говоря, при логическом проектировании разработчик в основном рассматривает, что должно быть сделано, а при физическом проектировании он ищет способ, как это сделать. В каждом случае требуется наличие различных навыков, которыми чаще всего обладают разные специалисты. Так, специалист по физическому проектированию баз данных должен ясно представлять, как функционирует в компьютерной системе та или иная СУБД, а также хорошо знать все функциональные возможности целевой СУБД. Поскольку функциональные возможности различных СУБД достаточно сильно отличаются друг от друга, физическое проектирование всегда тесно связано с особенностями конкретной выбранной системы. Однако этап физического проектирования базы данных не является совершенно изолированным от других. Как правило, между физическим, логическим проектированием и разработкой приложений всегда имеется обратная связь. Например, решения,

принятые на этапе физического проектирования с целью повышения производительности системы (в частности, по объединению отношений), могут повлиять на структуру логической модели данных, а это может отразиться на проектах приложений.

Этап 4. Перенос глобальной логической модели данных

в среду целевой СУБД

Цель: создание базовой функциональной схемы реляционной базы данных на основе глобальной логической модели данных, которая может быть реализована в целевой СУБД.

Самым первым заданием на этапе физического проектирования баз данных является преобразование отношений, созданных на основе глобальной логической модели данных, в такую форму, которая может быть реализована в среде целевой СУБД. Первая часть этого процесса предусматривает проверку информации, собранной на этапе логического проектирования базы данных и помещенной в словарь данных. Вторая часть процесса заключается в использовании этой информации для разработки проекта основных отношений. Этот процесс требует наличия глубоких знаний о функциональных возможностях, предоставляемых целевой СУБД. В частности, разработчик должен знать следующее:

  • способы создания основных отношений;

  • поддерживает ли система определение первичных, внешних и

  • альтернативных ключей;

  • поддерживает ли система определение обязательных данных (т.е. допускает ли система указывать в определении атрибута, что для него запрещено использование значения NULL);

  • поддерживает ли система определение доменов;

  • поддерживает ли система реляционные ограничения целостности;

  • поддерживает ли система определение ограничений предметной области.

На этапе 4 процедуры разработки баз данных выполняются следующие действия:

Этап 4.1. Проектирование основных отношений.

Этап 4.2. Разработка способов получения производных данных.

Этап 4.3. Реализация ограничений предметной области.

Этап 4.1. Проектирование основных отношений

Цель: определение способа представления в целевой СУБД отношений, определенных в глобальной логической модели данных.

Приступая к физическому проектированию, прежде всего, необходимо проанализировать и хорошо усвоить информацию об отношениях, собранную на этапе построения логической модели базы данных. Эта информация может содержаться в словаре данных и в определениях отношений, записанных на языке DBDL. Определение каждого выделенного в глобальной логической модели данных отношения включает следующие элементы:

  • имя отношения;

  • список простых атрибутов, заключенный в круглые скобки;

  • определение первичного ключа и (если таковые существуют) альтернативных (АК) и внешних (FK) ключей;

  • список производных атрибутов и описание способов их вычисления;

  • определение требований ссылочной целостности для любых внешних ключей.

Для каждого атрибута в словаре данных должна присутствовать следующая информация:

  • определение его домена, включающее указание типа данных, размерность внутреннего представления атрибута и любые требуемые ограничения на допустимые значения;

  • принимаемое по умолчанию значение атрибута (необязательно);

  • допустимость значения NULL для данного атрибута.

При создании проекта основных отношений используется расширенный формат выражений языка DBDL, позволяющий указывать домены, принимаемые по умолчанию значения и индикаторы допустимости значения NULL. В качестве примера в листинге 5.3 приведено определение отношения Книги (читательский зал).

Листинг 5.3. Описание отношения Книги (читательский зал) на языке DBDL

Domain Коды книг: integer, in the range 0001-9999

Domain Названия книг: variable length character string, length 25

Domain Издательства книг: variable length character string, length 25

Domain Количество страниц: integer, in the range 1-999

Domain Номера залов: integer, in the range 1-30

Книги (читательский зал) (

Код книги Коды книг NOT NULL,

Название книги Названия книг NOT NULL,

Издательство Издательства книг NOT NULL,

Количество страниц Количество страниц NOT NULL,

Номер зала Номера залов

PRIMARY KEY (Код книги),

FOREIGN KEY (Номер зала) REFERENCES Зал(Номер зала) ON UPDATE

CASCADE ON DELETE SET NULL);

Реализация основных отношений

Теперь необходимо принять решение о способе реализации основных отношений. Это решение зависит от типа выбранной целевой СУБД при определении основных отношений некоторые системы предоставляют больше возможностей, чем другие.

Документальное оформление проекта основных отношений

Подготовленный проект основных отношений должен быть подробно описан в сопроводительной документации с указанием причин, по которым был выбран данный конкретный проект. В частности, необходимо указать, почему был выбран именно этот подход, если есть целый ряд других вариантов.

Этап 4.2. Разработка способов получения производных данных

Цель: определение способа представления в целевой СУБД всех производных данных, которые включены в глобальную логическую модель данных.

Производными, или расчетными называются атрибуты, значения которых можно определить с использованием значений других атрибутов. Например, производными являются все перечисленные ниже атрибуты:

  • количество студентов, учащихся на третьем курсе;

  • общая сумма ежемесячной зарплаты всех преподавателей;

  • количество общежитий, выделенных для данного факультета.

Иногда производные атрибуты не включают в логическую модель данных, а описывают в словаре данных. А если производный атрибут включен в модель, для указания на то, что он является производным, перед его именем ставится косая черта (/). На первом этапе проектирования изучается логическая модель данных и словаря данных, а также подготавливается список всех производных атрибутов. На этапе физического проектирования

базы данных необходимо определить, должен ли производный атрибут храниться в базе данных или вычисляться каждый раз, когда в нем возникает необходимость. Проектировщик должен рассчитать следующее:

  • дополнительные затраты на хранение производных данных и поддержание их согласованности с реальными данными, на основе которых они вычисляются;

  • затраты на вычисление производных данных, если их вычисление выполняется по мере необходимости.

Из этих двух вариантов выбирается наименее дорогостоящий с учетом требований к производительности. В последнем из перечисленных выше примеров может быть принято решение о хранении в отношении Преподаватель дополнительного атрибута, обозначающего количество курсовых работ, которыми руководит преподаватель в настоящее время.

Дополнительные затраты памяти для этого нового производного атрибута не слишком велики. Значение атрибута обновляется каждый раз, когда преподаватель начинает руководить новой курсовой работой, либо прекращает руководить. В любом из этих случаев значение атрибута Количество курсовых для соответствующего преподавателя должно быть увеличено или уменьшено на 1. В процессе проектирования необходимо обеспечить, чтобы эти изменения происходили в каждом из указанных случаев и количество учитываемых объектов оставалось правильным, поскольку это гарантирует целостность базы данных. При обращении к этому атрибуту с помощью любого запроса его значение является непосредственно доступным и не требует вычисления. С другой стороны, если этот атрибут не хранился бы непосредственно в отношении Преподаватель, то его значение приходилось бы вычислять каждый раз, когда оно потребуется. Для этого необходимо выполнить соединение отношений Преподаватель и Курсовая работа. Таким образом, если запрос

указанного типа выполняется часто или считается очень важным с точки зрения

производительности, производный атрибут более целесообразно хранить в базе

данных, а не вычислять при каждом обращении к его значению.

Решение, предусматривающее хранение производных атрибутов, является более приемлемым и в том случае, если язык запросов целевой СУБД не позволяет легко реализовать алгоритм вычисления производных атрибутов. Например, в языке SQL имеется лишь ограниченный набор функций агрегирования, который не позволяет легко реализовать рекурсивные запросы.

Документальное оформление проекта получения производных данных

Способ получения производных данных должен быть полностью описан в документации с указанием причин выбора предложенного проекта. В частности, необходимо перечислить все причины, по которым был выбран именно этот подход, если есть целый ряд других вариантов.

Этап 4.3. Реализация ограничений предметной области

Цель: реализация ограничений предметной области для целевой СУБД.

Обновление информации в отношениях может регламентироваться ограничениями предметной области, регулирующими выполнение тех реальных транзакций, которые связаны с проведением таких обновлений. Способ реализации указанных ограничений опять-таки будет зависеть от типа выбранной целевой СУБД, поскольку одни системы для реализации ограничений предметной области предоставляют более широкие возможности, чем другие. Как и на предыдущем этапе, если целевая СУБД поддерживает стандарт языка SQL, то реализовать определенные типы ограничений будет намного проще. Например, для заданного учебного процесса существует правило, согласно которому каждый преподаватель может одновременно руководить не более чем девятью курсовыми работами. Это ограничение можно включить в оператор CREATE TABLE языка SQL для таблицы Курсовая работа с помощью следующей конструкции:

CONSTRAINT Табельный номер (ограничения по руководству)

CHECK (NOT EXIST (SELECT Табельный номер

FROM Курсовая работа

GROUP BY Табельный номер

HAVING COUNT(*)>9))

Альтернативным методом реализации ограничений является применение триггеров. В некоторых системах отсутствует поддержка части или даже всех ограничений предметной области и поэтому такие ограничения приходится предусматривать непосредственно в самом приложении. Например, лишь очень немногие реляционные СУБД (если вообще таковые имеются) позволяют реализовать временные ограничения.

Документальное оформление проекта реализации ограничений предметной области

Все решения, принятые в связи с реализацией ограничений предметной области, должны быть полностью описаны в сопроводительной документации.

Кроме того, в документации должны быть указаны причины выбора именно

данного варианта из нескольких возможных.

Этап 5. Проектирование физического представления базы данных

Цель: определение оптимальной файловой организации для хранения основных отношений, а также индексов, необходимых для достижения приемлемой производительности; иными словами, определение способа хранения отношений и строк во внешней памяти.

Одной из важнейших целей физического проектирования базы данных является организация эффективного хранения данных. Существует несколько показателей, которые могут быть использованы для оценки достигнутой эффективности.

  • Производительность выполнения транзакций. Этот показатель представляет собой количество транзакций, которые могут быть обработаны за заданный интервал времени. В некоторых системах, например в службах резервирования авиабилетов, обеспечение высокой производительности выполнения транзакций является решающим фактором успешной эксплуатации всей системы.

  • Время ответа. Характеризует временной промежуток, необходимый для выполнения одной транзакции. С точки зрения пользователя желательно сделать время ответа системы минимальным. Однако существуют некоторые факторы, которые оказывают влияние на быстродействие системы, но не могут контролироваться разработчиками, например, уровень загрузки системы или время, затрачиваемое на передачу данных.

  • Дисковая память. Этот показатель представляет собой объем дискового пространства, необходимого для размещения файлов базы данных. Разработчик должен стремиться минимизировать объем используемой дисковой памяти.

Однако ни один из этих факторов не является самодостаточным. Как правило, разработчик вынужден искать компромисс между этими показателями для достижения приемлемого баланса. Например, увеличение объема хранимых данных может вызвать увеличение времени ответа системы или уменьшение производительности выполнения транзакций. Исходный вариант физического проекта базы данных не следует рассматривать как нечто неизменное, а нужно применять как средство оценки возможного уровня производительности системы. После реализации исходного варианта проекта необходимо вести наблюдение за показателями работы системы и в соответствии с полученными результатами выполнять ее настройку с целью улучшения показателей работы и учета изменяющихся требований пользователей. Многие типы СУБД

предоставляют в распоряжение администратора базы данных (Data Base Administrator DBA) комплект утилит, предназначенный для текущего

контроля над функционированием системы и ее настройки. Позже узнаем, что

существуют определенные структуры организации внешней памяти, позволяющие эффективно загружать в базу большие объемы данных, но мало пригодные для других целей. Другими слонами, вначале имеет смысл выбрать такие структуры хранения данных, которые будут весьма эффективны при массовой загрузке данных в процессе создания базы, после чего их можно будет заменить другими структурами, позволяющими эффективно ее эксплуатировать.

И опять-таки диапазон выбора возможных типов организации файлов зависит от целевой СУБД, поскольку различные системы поддерживают разные наборы допустимых структур хранения информации. Очень важно, чтобы разработчик физического проекта базы данных имел полное представление обо всех типах структур хранения данных, поддерживаемых целевой СУБД, а также обо всех особенностях использования этих структур в системе. В частности, желательно, чтобы разработчик ясно понимал принципы работы оптимизатора запросов системы. Например, могут возникнуть ситуации, в которых оптимизатор запросов не будет использовать индексы, даже если они доступны. В результате простое добавление индекса не позволит повысить эффективность обработки запросов, а лишь вызовет дополнительную бесполезную нагрузку на систему.

Определение понятия системных ресурсов

Чтобы достичь высокой производительности системы, разработчик физического проекта базы данных должен знать, каким образом взаимодействуют между собой и влияют на производительность системы следующие четыре основных компонента аппаратных средств.

  • Оперативная память. Доступ к данным в оперативной памяти осуществляется намного (в десятки или даже в сотни и тысячи раз) быстрее, чем к данным во внешней памяти. В общем случае, чем больший объем оперативной памяти доступен для СУБД и приложений базы данных, тем быстрее выполняются приложения. Опыт показывает, что полезно постоянно поддерживать в системе такой режим, при котором около 5% ее оперативной памяти остается свободной. Однако неразумно поддерживать уровень свободной памяти выше 10%, поскольку в этом случае оперативная память будет использоваться неэффективно. Если в системе не хватает оперативной памяти для удовлетворения потребностей всех процессов, операционная система освобождает часть этой памяти, передавая отдельные страницы памяти некоторых процессов на диск. Эти страницы будут считаны с диска, как только вновь потребуется доступ к содержащимся в них данным.Такая операция называется свопингом, или страничным обменом. В определенных случаях для получения необходимого объема свободной памяти системе приходится перемещать на диск все страницы памяти, отведенные целому процессу, а затем возвращать их обратно. Но если интенсивность свопинга (страничного обмена) становится слишком высокой, это указывает на нехватку оперативной памяти в системе.

  • Процессор. Управляет функционированием других аппаратных компонентов системы и поддерживает пользовательские процессы. Важнейшим условием эффективной работы этого компонента является предотвращение конкуренции за право его использования, что обычно сопровождается переводом процессов в состояние ожидания. Процессор становится узким местом системы в тех случаях, если операционная система или программы пользователей создают слишком большую нагрузку на процессор. Такая ситуация часто возникает в результате резкого возрастания интенсивности страничного обмена.

  • Дисковый ввод-вывод. В любой достаточно мощной СУБД процессы сохранения и выборки данных связаны с выполнением множества дисковых операций ввода-вывода. Как правило, изготовители дисковых устройств указывают рекомендуемое количество операций ввода-вывода в секунду. Если реальный показатель превышает данное значение, дисковая подсистема превращается в узкое место системы. На общую производительность дисковой памяти очень большое влияние оказывает способ организации хранения данных. Рекомендуется равномерно распределять хранимые данные между всеми доступными в системе устройствами, что снижает вероятность появления проблем. На рис. 9.9 проиллюстрирован пример реализации перечисленных ниже основных принципов распределения данных по дисковым устройствам.

- Файлы операционной системы должны быть отделены от файлов базы

данных.

- Основные файлы базы данных должны быть отделены от индексных

файлов.

- Журнал восстановления должен быть отделен от остальной части базы

данных.

  • Сеть. В сети выполняются распределенные по разным ее узлам запросы (или группа запросов), называемые транзакциями. Сеть может стать узким местом всей системы при чрезмерном возрастании сетевого трафика или большом количестве сетевых коллизий. Каждый из этих ресурсов способен оказывать влияние на остальные системные ресурсы. Поэтому улучшение показателей использования одного ресурса может положительно сказаться на состоянии всех остальных системных ресурсов, например:

- увеличение объема оперативной памяти вызывает снижение

интенсивности страничного обмена и, как следствие, уменьшение нагрузки

на процессор;

- более эффективное использование оперативной памяти приводит к

уменьшению количества операций дискового ввода-вывода.

Приняв во внимание все вышесказанное, приступим к обсуждению тех действий, которые должны быть выполнены на пятом этапе разработки базы данных.

Этап 5.1. Анализ транзакций.

Этап 5.2. Выбор файловой структуры.

Этап 5.3. Определение индексов.

Этап 5.4. Определение требований к дисковой памяти.

Этап 5.1. Анализ транзакций

Цель: определение функциональных характеристик транзакций, которые будут выполняться в проектируемой базе данных, и выделение наиболее важных из них.

Для того чтобы разрабатываемый физический проект базы данных обладал требуемым уровнем эффективности, необходимо получить максимум сведений о тех транзакциях и запросах, которые будут выполняться в базе данных. Потребуются как качественные, так и количественные характеристики. Для успешного планирования каждой транзакции необходимо знать следующее:

  • транзакции, выполняемые наиболее часто и оказывающие существенное влияние на производительность;

  • транзакции, наиболее важные для работы организации;

  • периоды времени на протяжении суток/недель, в которые нагрузка базы

данных возрастает до максимума (называемые периодами пиковой

нагрузки).

Операционная Основные файлы Индексные Файлы журнала

система базы данных файлы восстановления

Рис. 5.10. Типичная схема распределения файлов по дискам

Эта информация используется для определения компонентов базы данных, которые могут вызвать проблемы производительности. Кроме того, необходимо определить такие характеристики транзакций высокого уровня, как атрибуты, модифицируемые в транзакциях обновления, или критерии, которые служат для ограничения количества строк, возвращаемых по запросу. Эта информация используется для определения наиболее подходящей файловой организации и создания индексов.

Во многих случаях проанализировать все ожидаемые транзакции просто невозможно, поэтому необходимо тем или иным образом выбрать наиболее "важные" из них (это слово взято в кавычки, потому что критерии выбора чаще всего являются субъективными). Существует эмпирическое правило, согласно которому выполнение около 20% наиболее активных запросов пользователей создает примерно 80% общей нагрузки на базу данных. Это правило "80/20" может использоваться как рекомендация по проведению анализа. Для определения того, какие из транзакций подлежат детальному анализу, воспользуемся таблицей соответствия транзакций и отношений, в которой показаны отношения, доступ к которым происходит при выполнении каждой транзакции, а также диаграммой частоты выполнения транзакций, которая схематически показывает отношения, вероятность использования которых в транзакциях наиболее высока. Для выделения областей, которые с наибольшей вероятностью могут явиться источником проблем, необходимо выполнить перечисленные ниже действия.

  • Подготовка схемы соответствия путей выполнения транзакций и отношений.

  • Определение отношений, наиболее часто используемых при выполнении транзакций.

  • Анализ интенсивности доступа к данным в некоторых из транзакций, использующих эти отношения.

Подготовка схемы соответствия путей выполнения транзакций и отношений

Этапы 1.8, 2.4 и 3.2 методологии концептуального/логического проектирования базы данных предусматривают оценку моделей данных для определения того, поддерживают ли они все транзакции, необходимые для работы пользователей; для этого устанавливается соответствие между путями выполнения транзакций и сущностями/отношениями. С другой стороны, если проверка транзакций осуществлялась каким-то иным способом, может потребоваться подготовить таблицу соответствия транзакций и отношений. Эта таблица наглядно показывает, какие транзакции нужны в приложении и к каким отношениям они обращаются.

Таблица становится еще более удобной, если в каждой ее ячейке указано количество случаев доступа в течение некоторого интервала времени (например, в час, в сутки или в неделю).

Можно сделать вывод, что требуется более внимательное изучение и самих транзакций, и этих отношений.

Получение информации о частоте использования отношений в транзакциях

При изучении каждой транзакции необходимо знать не только среднюю и

максимальную частоту ее выполнения в час, но также определить, в какие дни и часы выполняется эта транзакция и, в частности, когда вероятность пиковой нагрузки наиболее велика.

Если для некоторых транзакций требуется частый доступ к определенным отношениям, то приобретает особую важность задача изучения характера их выполнения. Например, если в определенное время требуется только одни транзакции, а затем другие, то риск возникновения проблем, связанных со снижением производительности, уменьшается. А если периоды максимальной частоты применения различных транзакций совпадают, потенциальные проблемы производительности можно решить, более тщательно изучая такие транзакции для определения того, какие изменения могут быть внесены в структуру отношений для повышения производительности. Еще одно решение может предусматривать изменение графика выполнения некоторых

транзакций таким образом, чтобы они не создавали дополнительную нагрузку в периоды интенсивного выполнения других транзакций (например, иногда есть возможность запланировать проведение некоторых итоговых транзакций на более подходящее время, скажем, выполнять их вечером или ночью).

Анализ использования данных

После определения наиболее важных транзакций подробно анализируется

каждая из них. Для каждой транзакции необходимое выяснить следующее:

  • Отношения и атрибуты, к которым осуществляется доступ в процессе выполнения транзакции, а также тип доступа; это означает определение того, выполняется ли в этой транзакции вставка, обновление, удаление или выборка данных (транзакции последнего типа называются также запросами).

  • При изучении транзакции обновления необходимо определить, какие атрибуты обновляются в данной транзакции, поскольку эти атрибуты могут потребовать применения вспомогательных структур доступа (таких как дополнительные индексы).

  • Атрибуты, которые используются в любых предикатах (в языке SQL предикатами являются условия, указанные в конструкции WHERE). Проверка того, предусматривают ли эти предикаты следующее:

- сопоставление с шаблоном, например name LIKE ' %Сидоров% ';

- поиск в диапазоне, например salary BETWEEN 4000 AND 5000;

- выборка по точному значению ключа, например salary = 6000.

  • Эта задача должна быть выполнена не только по отношению к запросам, но и к транзакциям обновления и удаления, поскольку в них также может быть ограничено количество строк, обновляемых или удаляемых в некотором отношении.

  • Следует учитывать, что такие атрибуты могут потребовать создания вспомогательных структур доступа.

  • Запросы, в которых используются атрибуты, участвующие в соединении двух или нескольких отношений.

  • Эти атрибуты также могут потребовать применения вспомогательных структур доступа.

  • Ожидаемая частота выполнения транзакции; например, может быть установлено, что транзакция выполняется примерно 50 раз в сутки.

  • Установленные показатели производительности для транзакции; например, требование, чтобы транзакция выполнялась в течение 1 секунды.

Наибольший приоритет при определении вспомогательных структур доступа должны иметь атрибуты, применяемые во всех предикатах наиболее часто, или наиболее важные транзакции.

Этап 5.2. Выбор файловой структуры

Цель: определение наиболее эффективного файлового представления для каждого из основных отношений.

Одной из главных задач физического проектирования базы данных является обеспечение эффективного хранения данных. Например, если выборка строк с данными о преподавателях должна выполняться по именам в алфавитном порядке, то наиболее подходящей структурой для хранения этих данных является файл, отсортированный по именам преподавателей. А если должна выполняться выборка данных обо всех преподавателях, зарплата которых находится в определенном диапазоне, файл, отсортированный по именам преподавателей, не подходит для выполнения такой задачи. Положение еще более усложняется в связи с тем, что некоторые способы организации файлов хорошо подходят для массовой загрузки данных в базу данных, но их применение в дальнейшем становится неэффективным. Иными словами, задача состоит в использовании эффективной структуры хранения данных на внешнем устройстве, которая обеспечивает быструю загрузку базы данных, а затем ее преобразование в структуру, более подходящую для повседневной эксплуатации.

Поэтому цель настоящего этапа состоит в определении оптимальной файловой организации для каждого отношения, если целевая СУБД это позволяет. Во многих случаях реляционная СУБД может предоставлять лишь ограниченный выбор или даже вообще не позволять выбрать определенную файловую организацию, но в некоторых СУБД на организацию размещения данных на внешних устройствах можно в определенной степени повлиять путем задания индексов. Тем не менее, в данной теме приведены рекомендации по выбору файловой организации на основе типов файлов, перечисленных ниже. Это сделано для того, чтобы читатель мог лучше понять особенности файловой организации и использования индексов.

  • Последовательные файлы.

  • Хешированные файлы.

  • Индексно-последовательные файлы (ISAM — Indexed Sequential Access Method).

  • Усовершенствованные сбалансированные деревья (В+-Тгее).

  • Кластеры.

Если целевая СУБД не позволяет выбрать определенную файловую организацию, этот этап может быть пропущен.

Последовательные (неупорядоченные) файлы

Последовательный файл является наиболее удобной структурой для хранения данных следующих случаях:

1. Данные загружаются в таблицу крупными блоками. Например, при заполнении вновь созданной таблицы в нее одновременно может загружаться

большое количество данных. Если для вновь созданной таблицы как исходный тип файловой организации была выбрана последовательная организация, то реструктуризация файла таблицы после загрузки основного объема данных может оказать заметное влияние на эффективность ее использования.

2. Весь файл таблицы занимает всего несколько страниц. В этом случае время

поиска любой записи будет невелико, даже при последовательном просмотре всех строк таблицы.

3. При каждом обращении к таблице выборке подлежат все ее строки (в любом порядке). Пример выборка адресов преподавателей, относящихся к определенной кафедре.

4. Таблица имеет дополнительные структуры поиска, например индекс по ключу. В этом случае использование файлов последовательной организации

позволяет добиться экономии дискового пространства.

Файлы последовательной организации неэффективны, если доступ выполняется только к некоторым строкам таблицы.

Хешированные файлы

Применение хешированного файла в качестве структуры организации памяти для таблицы целесообразно в тех случаях, когда выбор строк осуществляется по точному значению поля, использованного для хеширования, особенно если доступ к строкам происходит случайный образом. Например, если выполнить хеширование таблицы Книги (читательский зал) по атрибуту Количество страниц, выборка данных по принципу "Количество страниц равно 100" будет эффективной. Хешированные файлы не рекомендуется использовать в следующих случаях:

1. Выборка строк из таблицы осуществляется путем сопоставления с шаблоном ключа хешированного поля.

2. Выборка строк из таблицы осуществляется по заданному диапазону значений поля, которое входит в значение поля хеширования.

3. Выборка строк из таблицы осуществляется по значению поля, отличного от

поля хеширования.

4. Доступ к строкам необходимо выполнять только по части поля хеширования.

5. Часто происходит обновление поля хеширования. При выполнении такой

операции в СУБД должна быть удалена вся строка и в случае необходимости размещена по новому адресу (если в результате вычисления с помощью хеш-функции формируется новый адрес). Поэтому частое обновление поля

хеширования приводит к снижению производительности.

Индексно-последовательные файлы

По сравнению с хешированием метод файла с индексно-последовательной организации (ISAM) представляет собой более гибкую структуру хранения данных. Он поддерживает выборку данных по точному совпадению значения ключа, по шаблону подстановки, по диапазону значений и по части основного ключа. Однако структура индекса файла ISAM остается неизменной после ее формирования при создании самого файла. Поэтому производительность доступа к данным файла ISAM снижается по мере обновления его данных. Обновления также могут вызывать нарушение последовательности ключей файла ISAM, поэтому выборка данных в порядке значений ключей все больше и больше замедляется. Две последние проблемы устраняются при использовании файлов, организованных по принципу сбалансированного дерева. Однако в отличие от сбалансированных деревьев, конкурентный доступ к индексу файла ISAM легко обеспечивается, поскольку его индекс остается неизменным.

Сбалансированные деревья

По сравнению с хешированными файлами сбалансированные деревья (В+-Тrее) также представляют собой значительно более гибкие структуры хранения данных. Они позволяют выполнять выборку данных по точному совпадению ключевого значения, по шаблону подстановки, по диапазону значений и по частично заданному ключу. Индекс сбалансированных деревьев является динамическим, увеличивающимся по мере роста файла таблицы. Благодаря этому, в отличие от файлов ISAM, эффективность доступа в сбалансированных деревьях не снижается по мере обновления данных таблицы. Файлы структуры В+-Тrее постоянно сохраняют упорядоченность доступа по ключу, даже при обновлении их данных. Поэтому скорость выборки строк в порядке значений ключа здесь выше, чем у файлов ISAM, и является постоянной. Но если информация в таблице не подвергается постоянным

изменениям, то использование структуры сбалансированного дерева может оказаться менее эффективным по сравнению с индексно-последовательными файлами. Дело в том, что индексы файлов ISAM являются последовательными, а файлов сбалансированного дерева многоуровневыми (в которых лист-узлы содержат указатели на физические строки, а не сами строки).

Кластеризованные таблицы

Некоторые СУБД, например Oracle, поддерживают кластеризованные таблицы. Необходимость использования кластеризованных таблиц обусловлена тем, как происходит доступ к таблицам, объединенным в кластер. Такая информация может быть получена на основе предварительного анализа

транзакций. Но следует учитывать, что необоснованное решение по объединению таблиц в кластер может привести к снижению производительности. Рекомендации по использованию кластеризованных таблиц приведены ниже. Следует отметить, что в данном разделе применяется терминология компании Oracle, в которой отношение рассматривается как таблица со столбцами и строками.

Кластеры представляют собой группы из одной или нескольких таблиц, которые физически хранятся вместе, поскольку имеют общие столбцы и часто используются одновременно. При совместном физическом хранении взаимосвязанных строк сокращается время доступа к диску. Взаимосвязанные столбцы таблиц в кластере называются ключом кластера. Ключ кластера хранится только в одном экземпляре, поэтому организация хранения набора таблиц в кластере является более эффективной по сравнению с раздельным хранением тех же таблиц (не объединенных в кластер). СУБД Oracle поддерживает кластеры двух типов: индексированные и хешированные.

А. Индексированные кластеры

В индексированном кластере строки с одинаковым ключом кластера хранятся вместе. Корпорация Oracle рекомендует использовать индексированные кластеры при следующих условиях:

  • в запросах чаще всего происходит выборка строк в диапазоне значений ключа кластера;

  • кластеризованные таблицы могут расти непредсказуемым образом.

При определении того, следует ли применять кластеризованные таблицы,

можно воспользоваться рекомендациями, приведенными ниже:

  • Предусмотреть возможность кластеризации таблиц, доступ к которым часто происходит в операциях соединения.

  • Не кластеризовать таблицы, если их соединение происходит только время от времени или часто обновляются значения в общих столбцах. (Модификация значения ключа кластера в строке требует больше времени по сравнению с модификацией значения в некластеризованной таблице, поскольку в СУБД Oracle может потребоваться переместить модифицированную строку в другой блок в процессе обновления данных в кластере).

  • Не кластеризовать таблицы, если часто требуется выполнение полного поиска в одной из таблиц. (Полный поиск в кластеризованной таблице может потребовать больше времени по сравнению с полным поиском в некластеризованной таблице. В СУБД Oracle возрастает вероятность того, что при выполнении этой операции придется прочитать больше блоков, поскольку таблицы хранятся вместе).

  • Предусмотреть кластеризацию таблиц, участвующих в связи "один ко многим", если часто происходит выборка строки из родительской таблицы, а затем соответствующих строк из дочерней таблицы. (Дочерние строки хранятся в том же блоке (блоках) данных, что и родительская строка, поэтому велика вероятность того, что они уже будут находиться в оперативной памяти, когда к ним потребуется доступ, поэтому в СУБД уменьшается общий объем операций ввода-вывода).

  • Предусмотреть хранение в кластере только дочерней таблицы, если после, выборки одной родительской строки выбирается много дочерних строк. (Это позволяет повысить производительность запросов, в которых выбираются дочерние строки, соответствующие одной родительской строке, и вместе с тем не снижает производительность полного поиска в родительской таблице).

  • Не кластеризовать таблицы, если строки всех таблиц с одинаковым значением ключа кластера занимают больше одного или двух блоков Oracle. (Для доступа к строке кластеризованной таблицы СУБД Oracle считывает все блоки, содержащие строки с этим значением. Поэтому если строки занимают несколько блоков, для доступа к одной строке может потребоваться выполнить больше операций чтения, чем при осуществлении доступа к той же строке в некластеризованной таблице).

Б. Хешированные кластеры

Хешированные кластеры также позволяют кластеризовать данные таблиц в форме, аналогичной индексированным кластерам. Но выбор места хранения строки в хешированном кластере осуществляется с учетом результатов применения хеш-функции к значению ключа кластера рассматриваемой строки. Все строки с одинаковым значением ключа хеша хранятся на диске вместе. Корпорация Oracle рекомендует использовать хешированные кластеры при следующих условиях:

  • в запросах выборка строк происходит с использованием условий равенства, в которых учитываются все столбцы ключа кластера;

  • кластеризованные таблицы изменяются редко, или еще до создания таблицы можно определить максимальное количество строк и максимальный объем пространства, который требуется для кластера.

При определении целесообразности использования хешированных кластеров можно воспользоваться рекомендациями, приведенными ниже:

  • Предусмотреть возможность применения хешированных кластеров для хранения таблиц, доступ к которым часто происходит с использованием критериев поиска, содержащих условия равенства, в которых рассматривается один и тот же столбец (столбцы). Этот столбец (столбцы) должен быть объявлен как ключ кластера.

  • Хранить таблицу в хешированном кластере, если можно легко определить, какой объем пространства потребуется для хранения всех строк с определенным значением ключа кластера, как в настоящее время, так и в будущем.

  • Не использовать хешированные кластеры, если пространство ограничено и нет возможности отвести дополнительное пространство для строк, которые могут быть вставлены в дальнейшем.

  • Не использовать хешированный кластер для хранения постоянно растущей таблицы, если процесс периодического создания нового, более крупного хешированного кластера для хранения этой таблицы невозможно осуществить на практике.

  • Не хранить таблицу в хешированном кластере, если часто требуется поиск во всей таблице и для хешированного кластера должен быть отведен значительный объем пространства с учетом необходимости дальнейшего роста таблицы. (В подобных случаях полный поиск требует чтения всех блоков, распределенных для хешированного кластера, даже несмотря на то, что некоторые блоки могут содержать лишь небольшое количество строк. Поэтому отдельное хранение такой таблицы позволяет уменьшить количество блоков, считываемых при полном поиске в таблице).

  • Не хранить таблицу в хешированием кластере, если значения ключа кластера часто изменяются.

  • Иногда может быть оправдано хранение в хешированием кластере даже одной таблицы, независимо от того, часто ли происходит соединение этой таблицы с другими таблицами, но при условии, что приведенные выше рекомендации показывают, что для этой таблицы целесообразно применять хеширование.

Документальное оформление результатов выбора структуры файлов таблиц

Результаты выбора файловой структуры для всех таблиц должны быть тщательно зафиксированы в документации. В каждом случае следует указать причины сделанного выбора. В частности, обязательно указывайте причины выбора конкретного варианта, если существовал альтернативный вариант (один или несколько).

Этап 5.3. Определение индексов

Цель: определение того, будет ли добавление индексов способствовать повышению производительности системы.

Один из вариантов выбора подходящей файловой структуры для отношения состоит в том, что строки остаются неупорядоченными и создается любое необходимое количество дополнительных индексов. Еще один вариант предусматривает упорядочение строк в отношении с использованием первичного или кластеризующего индекса. В этом случае для выбора атрибута, по которому выполняется упорядочение или кластеризация строк,

применяются следующие критерии:

  • выбирается атрибут, наиболее часто применяемый в операциях соединения, поскольку именно он позволяет повысить эффективность таких операций;

  • выбирается атрибут, наиболее часто применяемый для доступа к строкам в отношении с учетом последовательности значений этого атрибута.

Если выбранный атрибут, по которому происходит упорядочение, является ключом отношения, то создаваемый индекс служит в качестве первичного индекса, а если атрибут, по которому происходит упорядочение, не является ключом, то создаваемый индекс служит кластеризующим индексом. Следует учитывать, что в каждом отношении должен применяться либо первичный, либо кластеризующий индекс.

Индекс обычно создается средствами языка SQL; для этого применяется оператор CREATE INDEX. Например, для создания первичного индекса на отношении Книги (читательский зал) с учетом атрибута Код книги можно использовать следующий оператор SQL:

CREATE UNIQUE INDEX Код_книгиInd ON Книги (читательский зал) (Код книги);

Для создания кластеризующего индекса на отношении Книги (читательский зал) с учетом атрибута Номер зала служит следующий оператор SQL:

CREATE INDEX Номер_залаInd ON Книги (читательский зал) (Номер зала) CLUSTER.

Как было указано выше, в некоторых системах файловая структура является заранее определенной. Например, до недавнего времени в СУБД Oracle поддерживались только сбалансированные деревья, но, как указано выше, теперь в этой СУБД предусмотрена поддержка кластеров. С другой стороны, такая СУБД, как INGRES, поддерживает широкий набор различных индексных структур, которые можно выбрать путем указания следующей необязательной конструкции в операторе CREATE INDEX:

[STRUCTURE = BTREE | ISAM | HASH | HEAP]

Выбор дополнительных индексов

Дополнительные индексы предоставляют возможность определять дополнительные ключи для базового отношения, которые могут применяться для повышения эффективности выборки данных.

Сопровождение и применение дополнительных индексов приводит к увеличению издержек, поэтому необходимо определить, оправдывают ли они повышение производительности при выборке данных, достигнутое благодаря их использованию. Основные издержки, связанные с применением дополнительных индексов, перечислены ниже:

  • Ввод индексной записи в каждый дополнительный индекс при вставке строки в отношение.

  • Обновление дополнительного индекса при обновлении соответствующей строки в отношении.

  • Увеличение потребности в дисковом пространстве в связи с необходимостью ранения дополнительного индекса.

  • Возможное снижение производительности процесса оптимизации запросов, оскольку оптимизатор запросов должен учесть наличие всех дополнительных индексов и только после этого выбрать оптимальную стратегию выполнения запросов.

Рекомендации по выбору списка требований к индексам

Один из способов определения необходимого количества дополнительных индексов состоит в подготовке списка требований к атрибутам, которые рассматриваются для определения необходимости применения их для индексации, а затем изучении затрат на сопровождение каждого из этих индексов. Ниже приведены рекомендации по подготовке такого списка требований.

1. Не создавать индекс на небольших отношениях. Может оказаться более

эффективным поиск в отношении, данные которого хранятся в оперативной памяти, чем хранить дополнительную индексную структуру.

2. Как правило, следует создавать индекс на первичном ключе отношения,

если он не применяется в качестве ключа файловой структуры. Хотя в стандарте SQL предусмотрена конструкция, позволяющая задать спецификацию первичного ключа, следует отметить, что применение этой конструкции не всегда гарантирует создание индекса на первичном ключе.

3. Ввести дополнительный индекс на внешнем ключе, если с его помощью

часто происходит доступ к отношению. Но следует учитывать, что в

некоторых СУБД индексы на внешних ключах создаются автоматически.

4. Ввести дополнительные индексы на всех атрибутах, которые часто применяются в качестве дополнительного ключа.

5. Ввести дополнительные индексы на атрибутах, которые часто применяются

в следующих конструкциях:

  • критерии выборки или соединения;

  • конструкции ORDER BY;

  • конструкции GROUP BY;

  • другие операции, требующие сортировки (такие как UNION и DISTINCT).

6. Ввести дополнительные индексы на атрибутах, применяемых во встроенных функциях агрегирования, наряду со всеми атрибутами, используемыми для этих встроенных функций. Например, чтобы определить среднюю зарплату преподавателей каждой кафедры, можно применить следующий запрос SQL:

SELECT Код кафедры, AVG(salary)

FROM Преподаватель

GROUP BY Код кафедры;

Согласно приведенной выше рекомендации, можно предусмотреть создание

индекса на атрибуте Код кафедры, поскольку он участвует в конструкции GROUP BY. Но более эффективное решение может предусматривать создание индекса и на атрибуте Код кафедры, и на атрибуте salary. Это позволяет выполнить в СУБД весь запрос по данным только из самого индекса, без необходимости доступа к файлу данных. Такой план выполнения запроса иногда называют планом, предусматривающим использование только индекса, поскольку необходимые результаты могут быть получены с помощью только данных, содержащихся в индексе.

7. Обобщая приведенную выше рекомендацию, можно указать, что необходимо

вводить дополнительный индекс на всех атрибутах, которые могут привести

к созданию плана, предусматривающего применение только индексов.

8. Не индексировать атрибут или отношение, которые часто обновляются.

9. Не индексировать атрибут, если в запросах с использованием этого атрибута обычно происходит выборка значительной части (например, 25%) строк кортежей в отношении. В таком случае может оказаться более эффективным поиск во всем отношении, чем поиск с использованием индекса.

10. Не индексировать атрибуты, которые состоят из длинных символьных строк.

Если в критериях поиска предусмотрено несколько предикатов и одно из этих условий содержит конструкцию OR, а в самом условии не применяется индекс и не предусматривается сортировка, то добавление индексов для других атрибутов не позволяет повысить скорость выполнения такого запроса, поскольку все равно потребуется последовательный поиск в отношении.

С другой стороны, если предикаты в конструкции WHERE соединены с помощью оператора AND, даже эти два индекса могут применяться для оптимизации запроса.

Удаление индексов из списка требований

После подготовки списка требований к потенциальным индексам необходимо учесть влияние каждого из них на транзакции обновления. Если потребность в сопровождении индекса может привести к замедлению важных транзакций обновления, следует предусмотреть возможность исключения этого индекса из списка. Но необходимо учитывать, что определенные индексы могут также способствовать повышению эффективности операции обновления.

Целесообразно по возможности провести эксперименты для определения того, способствует ли создание индекса повышению производительности, почти не влияет на производительность или приводит к ее снижению. Если обнаруживается снижение производительности, этот индекс, безусловно, должен быть удален из списка требований. А если в результате ввода дополнительного индекса наблюдается лишь незначительное повышение производительности, может потребоваться дальнейшее исследование для определения того, при каких обстоятельствах этот индекс может оказаться полезным и так ли часто возникают эти обстоятельства, чтобы создание индекса действительно было оправданным.

Некоторые системы позволяют изучать стратегию, выбранную оптимизатором для выполнения конкретного запроса или обновления; такая стратегия называется планом выполнения запроса (Query Execution Plan QEP). Например, в СУБД Microsoft Access предусмотрена программа Performance Analyzer, в СУБД Oracle диагностическая утилита EXPLAIN PLAN, в СУБД DB2 утилита EXPLAIN, а в СУБД INGRES интерактивное средство просмотра плана выполнения запроса. Если запрос выполняется медленнее, чем ожидалось, имеет смысл воспользоваться такой утилитой для определения причин замедления и найти иную стратегию, позволяющую повысить производительность запроса.

Если в отношении с одним или несколькими индексами происходит вставка большого количества строк, может оказаться более эффективным решение вначале удалить индексы, выполнить вставку, а затем снова создать индексы. В качестве эмпирического правила можно указать, что если в результате вставки общий объем данных в отношении увеличивается по меньшей мере на 10%, целесообразно удалить на время индексы этого отношения.

Обновление статистической информации в базе данных

Оптимизатор запросов для выбора оптимальной стратегии использует статистическую информацию базы данных, которая хранится в системном каталоге. При создании любого индекса СУБД автоматически вводит в системный каталог информацию об этом индексе. Но следует учитывать, что в некоторых СУБД для обновления в системном каталоге статистической информации, которая относится к определенному отношению или индексу, необходимо вызывать на выполнение определенную утилиту.

Документальное оформление результатов выбора индексов

Выбранные индексы должны быть полностью отражены в документации с указанием причин того, почему был сделан именно этот выбор. В частности, если некоторые атрибуты не были проиндексированы с учетом вероятности снижения производительности, это также должно быть указано в документации.

Этап 5.4. Оценка потребности в дисковом пространстве

Цель: определить объем дискового пространства, который требуется для базы данных.

Во многих проектах выдвигается требование, чтобы физическая реализация базы данных могла быть осуществлена на основе существующей конфигурации аппаратных средств. Но даже при отсутствии такого требования проектировщик обязан оценить объем дискового пространства, который требуется для хранения файлов базы данных, хотя бы на тот случай, что в связи с этим потребуется приобретение новых аппаратных средств. Цель данного этапа состоит в оценке объема дискового пространства, необходимого для поддержки реализации базы данных во внешней памяти. Как и на предыдущих этапах, проведение оценки потребности в дисковом пространстве в значительной степени зависит от целевой СУБД и от аппаратных средств, которые применяются для поддержки функционирования базы данных. Как правило, такая оценка основана на информации о среднем размере каждой строки и количестве строк в отношении. Передняя оценка должна показывать максимальное количество, но может также оказаться целесообразным проведение анализа интенсивности роста размеров отношения и корректировка итоговых сведений об объеме диска с учетом полученного коэффициента роста для определения возможных размеров базы данных в будущем.

Этап 6. Проектирование пользовательских представлений

Цель: спроектировать пользовательские представления, необходимость в создании которых была выявлена на стадии сбора и анализа требований, доставляющей часть жизненного цикла приложения реляционной базы данных.

Первый этап методологии проектирования базы данных предусматривает подготовку локальных концептуальных моделей данных для каждого представления, определенного на стадии анализа требований к базе

данных. Каждое представление состоит из одного или нескольких пользовательских представлений.

На этапе 2 эти локальные концептуальные модели данных преобразуются в локальные логические модели данных, основанные на реляционной модели, а

для приложений с несколькими представлениями на этапе 3 локальные модели

объединяются в единую глобальную логическую модель данных. Назначение

этого этапа состоит в проектировании пользовательских представлений, которые были определены ранее. В автономной СУБД на персональном компьютере пользовательские представления обычно применяются только для удобства, поскольку они часто позволяют упростить запросы к базе данных. Но в многопользовательской СУБД такие представления играют главную роль при определении структуры базы данных и соблюдении правил защиты.

Документальное оформление проекта пользовательских представлений

Проекты отдельных пользовательских представлений должны быть полностью отражены в документации.

Этап 7. Проектирование средств защиты

Цель: проектирование средств защиты для базы данных в соответствии с требованиями пользователей.

База данных представляет собой исключительно важный корпоративный ресурс и поэтому защита этого ресурса имеет исключительное значение. На стадии сбора и анализа требований, составляющей часть жизненного цикла приложения базы данных, должны быть учтены и отражены в спецификации требований к системе конкретные требования к защите. Назначение этого

этапа состоит в определении способов реализации требований к защите. Состав

средств защиты зависит от конкретной системы. Поэтому проектировщик должен знать, какие возможности предлагает рассматриваемая им целевая СУБД. Реляционные СУБД, как правило, предоставляют средства защиты базы данных следующих типов:

  • защита системы;

  • защита данных.

Средства защиты системы регламентируют доступ и эксплуатацию базы данных на уровне системы; к ним, в частности, относится аутентификация пользователя по имени и паролю. Средства защиты данных регламентируют доступ и использование объектов базы данных (таких как отношения и представления), а также действия, которые могут быть выполнены пользователями с конкретными объектами. И в этом случае проект реализации правил доступа зависит от целевой СУБД, поскольку возможности реализации правил доступа зависят от системы. Например, можно привести три конкретных способа реализации правил доступа с использованием стандарта ISO SQL, СУБД Microsoft Access и СУБД Oracle.

Документальное оформление проекта реализации средств защиты

Проект реализации средств защиты должен быть полностью отражен в документации. А если созданный при этом физический проект требует внесения изменений в отдельные локальные логические модели данных, необходимо внести поправки также и в схемы этих моделей.

Вопросы:

5.1. В чем состоит общее назначение предлагаемой методологии проектирования?

5.2. Каковы основные этапы проектирования баз данных?

5.3. Укажите важнейшие факторы успешного завершения процесса разработки базы данных.

5.4. В чем заключается основная цель этапа концептуального проектирования базы данных?

5.5. Каковы основные этапы концептуального проектирования базы данных?

5.6. Как происходит выявление типов сущностей и связей исходя из

спецификации требований пользователя?

5.7. Какой способ применяется для определения атрибутов на основе

спецификации требований пользователя, а затем для определения

принадлежности этих атрибутов к конкретным типам сущностей и связей?

5.8. Опишите способ определения потенциальных ключей и выбор первичного ключа.

5.9. Что понимается под специализацией или генерализацией типов сущностей?

5.10. Поясните необходимость обсуждение локальных концептуальных моделей данных с конечными пользователями.

5.11. В чем заключается основная цель этапа логического проектирования базы данных?

5.12. Каковы основные этапы логического проектирования базы данных?

5.13. Опишите последовательность действий, выполняемых при преобразовании

концептуальной модели данных в логическую модель.

5.14. Назовите правила образования отношений, представляющих сильные сущно­сти, слабые сущности, бинарные связи типа "один к одному" и типа "один ко многим", множественные атрибуты и связи типа "суперкласс/подкласс".

5.15. Поясните, как методы нормализации могут использоваться для проверки логической модели данных и набора отношений, созданных на основе этой модели.

5.16. Опишите два подхода, которые могут использоваться для проверки предоставления логической моделью возможностей выполнения всех требуемых тран­закций.

5.17. Поясните назначение ограничений целостности и назовите пять основных ти­пов подобных ограничений.

5.18. Опишите все существующие типы стратегий, которые могут применяться для обработки попыток удаления строки родительского отношения, на которую имеются ссылки в дочернем отношении.

5.19. Назовите типичные задачи, которые приходится решать при слиянии локаль­ных логических моделей данных в единую глобальную логическую модель.

5.20. Опишите состав входящей информации и результаты выполнения процедуры физического проектирования базы данных.

5.21. Каково назначение основных этапов физического проектирования базы

данных, определяемых рассматриваемой методологией.

5.22. Одной их важнейших целей этапов физического проектирования базы

Данных является организация эффективного хранения данных. Как можно измерить достигнутый уровень эффективности в указанном контексте?

Упражнения:

Выберите любую предметную область, кроме учебного процесса, и создайте базу данных, выполняя описанные выше этапы методологии проектирования базы данных.

ТЕМА 6

Архитектура систем БД. СУБД

Основная цель системы управления базами данных (СУБД) заключается в том, чтобы предложить пользователю абстрактное представление данных, скрыв конкретные особенности хранения и управления ими.

Следовательно, отправной точкой при проектировании базы данных должно быть абстрактное и общее описание информационных потребностей организации, которые должны найти свое отражение в создаваемой базе данных.

Например, для учебного процесса представляет интерес моделирование следующих понятий:

  • сущностей "реального мира", таких как Студент, Группа, Преподаватель, Кафедра и Предмет;

  • атрибутов, описывающих свойства или качества каждой сущности, например, сущность Студент (Student) обладает атрибутами: ФИО студента (FIO), возраст (Age), адрес студента(Address), средний бал (Sr.Ball), номер группы (Group_No), номер стедента в группе (Student_No);

  • связей между этими сущностями, например, каждый студент находится в определенной группе и каждая группа содержит определенного студента.

Более того, поскольку база данных является общим ресурсом, то каждому пользователю может потребоваться свое, отличное от других представление о характеристиках информации, сохраняемой в базе данных.

Для удовлетворения потребности коллективного использования структур данных при их индивидуальном представлении разработана архитектура ANSI-SPARC, на основе которой в той или иной степени построена архитектура большинства современных коммерческих СУБД.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]