
- •Основные функции субд:
- •По модели данных:
- •Иерархические (Иерархической базой данных является файловая система, состоящая из корневого каталога, в котором имеется иерархия подкаталогов и файлов).
- •Сетевые (Сетевые базы данных подобны иерархическим, за исключением того, что в них имеются указатели в обоих направлениях, которые соединяют родственную информацию).
- •По степени распределённости
- •Локальные субд (все части локальной субд размещаются на одном компьютере)
- •Распределённые субд (части субд могут размещаться на двух и более компьютерах).
- •Различные представления о данных в базах данных:
- •Ограничения не-Null Ограничение не-null просто говорит, что колонка не должна содержать значение null. Пример синтаксиса:
- •2. Определение структур базы данных (ddl)
- •3. Манипуляция данными (dml)
- •4. Отбор данных (dql)
- •5. Язык управления данными (dcl)
- •6. Команды администрирования данных
- •7. Команды управления транзакциями
- •14.Запись sql-операторов
- •15.Типы данных языка sql, определенные стандартом
- •16.Основные команды языка ddl
- •17.Основные команды языка dml
- •18.Оператор выбора select
- •19.Применение агрегатных функций и вложенных запросов в операторе выбора
- •20. Операторы манипулирования данными
- •21.Физическая организация бд: файлы, записи, блоки.
- •23.Организация файла бд в виде кучи. Эффективность таких файлов.
- •24.Хешированные файлы: бакет, каталог бакетов, дополнительный каталог бакетов, выбор хеш-функции. Операции над хешированными файлами.
- •25.Сравнение эффективности хешированных файлов и файлов, организованных в виде кучи. Причины снижения эффективности хешированных файлов.
- •26.Динамическое хеширование. Операции над динамически хешированными файлами.
- •27.Последовательная организация файлов. Операции добавления и удаления записей в последовательных файлах, блок переполнения.
- •28. Индексированные файлы: инициализация, поиск.
- •29. Индексированные файлы: операции вставки и удаления записей.
- •30.Разреженные и плотные индексы. Индексация по нескольким полям.
- •Составные индексы
- •31.Эффективность операций в индексированных файлах при различной организации поиска.
- •32.B-деревья: принципы построения, операция поиска.
- •33.В-деревья: операции добавления и удаления записей.
- •34.Эффективность организации файлов в виде в-дерева.
- •35.Технология кластеризации бд.
- •36.Технология сжатия информации в бд.
- •37.Основные шаги обработки запросов.
- •Можно транслировать в выражение
- •38.Статистика бд.
- •40.Алгоритмы выполнения селекции с одним условием сравнения: размер селекции, использование первичного индекса, использование вторичного индекса.
- •41.Размер комплексной селекции при конъюнкции и дизъюнкции условий.
- •43.Алгоритм внешней сортировки.
- •44.Размер операции соединения. Алгоритм соединения, основанный на двух вложенных циклах.
- •45.Алгоритмы выполнения соединения: поблочное соединение, усовершенствование алгоритма поблочного соединения, соединение по индексу.
- •46.Алгоритм соединения слиянием.
- •47.Алгоритмы выполнения операций с множествами, проекции, внешнего соединения.
- •48.Два подхода к вычислению выражений при обработке запросов.
- •50.Виды оптимизаторов: итеративный, основанный на стоимостях и эвристический.
- •51.Понятие транзакции. Свойства acid транзакций.
- •52.Аномалии параллельных транзакций: потерянное обновление, зависимость от нефиксированных результатов, несогласованная обработка.
- •53.Понятие плана параллельного выполнения транзакций. Последовательные, непоследовательные и неупорядоченные планы.
- •54.Конфликтное упорядочивание планов и упорядочивание планов по просмотру.
- •55.Блокировки как механизм управления параллельными транзакциями: понятие блокировки, хранение блокировок, виды блокировок.
- •56.Работа транзакций при использовании механизма блокировок. Предотвращение аномалий при использовании блокировок.
- •57.Понятие протокола. Двухфазный протокол.
- •58.Проблема каскадного отката в параллельных транзакциях. Строгий двухфазный протокол.
- •59.Взаимная блокировка параллельных транзакций.
- •60.Использование метода временных отметок для управления параллельными транзакциями.
- •61.Оптимистические технологии управления транзакциями.
- •63.Уровни изоляции параллельных транзакций.
- •64.Восстановление бд: возможные причины отказов, механизм резервного копирования, журнал транзакций, создание контрольных точек.
- •65.Методы восстановления бд: восстановление с резервной копии, метод «redo», метод теневых страниц.
- •66.Улучшенные модели транзакции: проблемы классических моделей транзакций, модель вложенных транзакций, модель хроник.
- •67.Технология raid. Уровни raid.
- •68.Oltp- технологии и хранилища данных. Хранилища данных.
- •Понятие хранилища данных.
- •Проблемы хранилищ данных.
- •Архитектура хранилища данных
- •Проектирование схемы бд для хранилища данных.
- •Olap-технологии.
Проблемы хранилищ данных.
Недооценка ресурсов, необходимых для загрузки данных. По статистическим исследованиям доля времени на загрузку данных достигает 80% от общего времени на разработку хранилища данных. Основная проблема – возможная несогласованность данных.
Скрытые проблемы источников данных. Такие проблемы могут быть обнаружены спустя несколько лет после начала использования хранилища. При этом возникает необходимость внесения изменений в данные хранилища. Например, для некоторых объектов недвижимости не был введен адрес. А в новой порции загружаемых данных эта информация уже появилась.
Отсутствие требуемых данных в имеющихся архивах. В некоторый момент времени для выполнения некоторого анализа потребовалась информация, отсутствующая в хранилище. В этом случае необходимо либо изменить существующие системы оперативной обработки с целью дальнейшего учета информации, либо написать новую систему для ввода необходимой информации. /*Ага, и заставить ею пользоваться :) */
Повышение требований конечных пользователей. После того, как пользователи получат в свое распоряжение инструменты работы с хранилищами данных, их требования к помощи и консультациям сотрудников информационной службы организации возрастут. В силу того, что пользователи начнут осознавать мощь предлагаемой системы.
Гомогенизация данных. Создание хранилища на основе нескольких систем оперативной обработки может потребовать решения задачи гомогенизации данных (создание однородной структуры). А это в свою очередь может способствовать обесцениванию интегрированных данных. Например, разработчик хранилища может подчеркнуть не различия, а сходства между данными, используемыми при аренде и продаже объектов недвижимости.
Высокие требования к ресурсам. /*Объемы данных большие и все увеличивающиеся, следовательно, нужно много дискового пространства. С вычислительными ресурсами дело обстоит лучше, так как есть специальные подходы к обработке информации в хранилищах. */
Владение данными. Возможно, при разработке хранилища придется изменить права доступа к информации различных подразделений.
Сложность интеграции. Доступ к информации хранилища должны получать разнородные инструменты.
Архитектура хранилища данных
рис. стр.952
Оперативные данные. К источникам оперативных данных относятся
а) Информация, хранящаяся в различных БД OLTP-систем. Причем СУБД, поддерживающие их, могут быть как реляционные, так и иерархические и сетевые.
б) Внешние системы, например, Internet, коммерчески доступные БД или БД, принадлежащие поставщикам и клиентам организации.
Менеджер загрузки . /*Существующий в СУБД или собственной разработки. */ Этот компонент выполняет все действия, связанные с извлечением данных источников и загрузкой их в хранилище. В том числе этот компонент выполняет при необходимости различные преобразования форматов.
Менеджер хранилища. /*Существующий в СУБД или собственной разработки. */ Этот компонент выполняет все операции, связанные с управлением информацией, находящейся в хранилище. Основные функции:
а) Анализ непротиворечивости данных.
б) Преобразование и перемещение данных из временного хранилища в основные таблицы.
в) Создание индексов и представлений для базовых таблиц.
г) Денормализация данных, если она требуется.
д) Обобщение данных, если оно требуется
е) Резервное копирование и архивирование.
Менеджер запросов. Этот компонент отвечает за выполнение операций с данными со стороны конечных пользователей. Функциональные возможности компонента определяются возможностями СУБД, под управлением которой эксплуатируется хранилище.
Детальные данные. В этой части хранилища находятся все детальные данные, полученные из оперативных систем. Однако не всегда эти данные хранятся непосредственно в том же виде, что и в оперативных системах: часто они при переносе в хранилище уже подвергаются некоторому обобщению.
Частично и глубоко обобщенные данные. В этой части хранилища находятся данные, обработанные менеджером хранилища. Назначение обобщенных данных состоит в повышении производительности запросов. Хотя предварительное обобщение требует некоторых дополнительных затрат на обслуживание, оно окупается исключением многократного выполнения сортировок и группировок данных.
Архивные копии. Чаще всего в архивы помещаются детальные данные хранилища. Однако может потребоваться сохранить и обобщенные данные, несмотря на то, что их можно вновь получить на основе детальных. Это нужно в случае, когда принято решение удалить детальные данные.
Метаданные. Кроме обычной для системного каталога информации метаданные хранилища должны содержать информацию об оперативном источнике данных. Также метаданные должны сохранять информацию о преобразовании источника, например, смене типа поля.
Средства доступа к данным конечных пользователей.
а) Инструменты создания отчетов и запросов. Это продукты, позволяющие пользователям строить запросы к БД, не зная языка БД и не в даваясь в нюансы реализации структуры БД. Чаще всего являются визуальными. Однако по мере усложнения запросов снижается эффективность их использования конечными пользователями.
б) OLAP- инструменты. Инструменты оперативной аналитической обработки данных, основной идеей которых является концепция многомерной БД. Они позволяют квалифицированным пользователям анализировать данные с помощью сложных многомерных запросов.
в) Инструменты разработки приложений. /*Работают с через внутренний языка БД, могут использовать генераторы отчетов или средства OLAP */
г) Инструменты разработки данных. Разработка данных – это процесс открытия новых осмысленных корреляция и тенденций путем переработки больших массивов информации. /*Могут быть частью OLAP */