Добавил:

Studfiles2 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Уфимский Государственный Авиационный Технический Университет

Предмет:

Базы данных

Файл:

Дейт К. Дж. Введение в системы баз данных [7 издание] / 801-1073.doc

Скачиваний:

Добавлен:

02.05.2014

Размер:

2.54 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 78 / 418 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

21.8. Резюме

В этой главе было рассмотрено использование технологии баз данных для систем поддержки принятия решений. Основная идея заключается в том, чтобы отобрать оперативные данные и привести их к виду, в котором их можно было бы использовать для оказания помощи управляющему персоналу в понимании особенностей функционирования предприятия и выборе направления его дальнейшего развития.

Сначала были определены понятия систем поддержки принятия решений, которые устанавливаются отдельно от систем оперативных баз данных. Характерная черта баз данных поддержки принятия решений заключается в том, что они предназначены преимущественно лишь для чтения. Как правило, такие базы данных очень большие и имеют много индексов. В них обычно присутствует контролируемая избыточность, особенно в форме репликации и предварительного обобщения данных. Ключи обычно содержат временной компонент, а запросы, как правило, очень сложные. Исходя из этих соображений, при проектировании первостепенное внимание уделяется обеспечению производительности систем. Соглашаясь с важностью этой задачи, мы все же считаем, что способы ее достижения не должны вступать в противоречие с правильной практикой проектирования. Проблема заключается в том, что в практике проектирования систем поддержки принятия решений обычно недостаточно четко различаются вопросы логического и физического проектирования.

Затем рассматривались вопросы подготовки оперативных данных к помещению в системы поддержки принятия решений: задачи извлечения, очистки, преобразования и консолидации, загрузки и обновления данных. Также упоминалась концепция банков оперативных данных, которые, кроме всего прочего, могут использоваться и как области накопления в процессе подготовки данных. Еще одно применение банков оперативных данных — предоставление сервиса поддержки принятия решений на основе текущих данных.

Далее речь шла о хранилищах данных и магазинах данных (последние могут расцениваться как специализированные хранилища данных). Была рассмотрена основная идея построения схем типа "звезда", в которых данные организованы, как большая основная таблица фактов и несколько значительно меньших таблиц размерности. В простых случаях схемы типа "звезда" неотличимы от обычных классических нормализованных схем. Однако на практике они во многом отходят от принципов классического проектирования по причинам, связанным с производительностью. Проблема, опять же, состоит в том, что схемы типа "звезда" на самом деле в большей степени имеют физическую, а не логическую природу. Также мы коснулись стратегии реализации операции соединения, известной как звездообразное соединение, и разновидности схемы типа "звезда", которая называется схемой типа "снежинка".

В этой главе также уделялось внимание оперативной аналитической обработке данных (OLAP). Обсуждались возможности языка SQL, которые предоставляются с помощью опций GROUPING SETS, R0LLUP и CUBE предложения GROUP BY, а именно — возможности получения нескольких различных видов обобщения в одном SQL-запросе. Также отмечалось, что язык SQL, к сожалению (на наш взгляд), объединяет эти различные обобщения в одной "таблице", содержащей множество NULL-значений. Также шла речь о том, что на практике OLAP-системы могут предусматривать преобразование этих "таблиц" в многокоординатные таблицы (обыкновенные массивы) для их отображения. Затем мы обратили ваше внимание на многомерные базы данных, в которых данные концептуально хранятся не в таблицах, а в многомерных массивах или гиперкубах. Размерности такого массива составляют независимые переменные, а в ячейках содержатся значения соответствующих зависимых переменных. Независимые переменные обычно связываются в различные иерархии, которые определяют разумные способы группирования и объединения данных.

И наконец была рассмотрена концепция разработки данных. Основная идея состоит в том, что, поскольку данные часто недостаточно хорошо изучены, можно использовать возможности компьютера, чтобы во всей совокупности данных обнаружить некоторые характерные взаимосвязи. Здесь кратко рассматривались различные виды правил, а именно — правила связи, классификации и зависимости следствия, и обсуждались связанные с ними понятия уровней поддержки и достоверности.

Упражнения

Назовите некоторые из основных отличий между базами данных поддержки принятия решений и оперативными базами данных. Почему системы поддержки принятия решений и оперативные приложения обычно используют различные хранилища данных?
Кратко опишите этапы подготовки оперативных данных для их помещения в систему поддержки принятия решений.
Назовите отличия между контролируемой и неконтролируемой избыточностью. Приведите соответствующие примеры. Почему контролируемая избыточность важна в системах поддержки принятия решений? Что случится, если избыточность станет неконтролируемой?
Назовите отличия между хранилищами данных и магазинами данных.
Что вы понимаете под термином схема типа "звезда"!

Схемы типа "звезда" обычно не полностью нормализованы. Что служит оправданием такого положения дел? Объясните методологию проектирования таких схем.
Объясните различия между системами ROLAP и MOLAP.

Сколькими способами можно подытожить данные, если они характеризуются четырьмя измерениями, каждое из которых принадлежит трехуровневой иерархии обобщения (например, город, район, область)?
Используя базу данных поставщиков, деталей и проектов (см. упр. 4.1 в главе 4), выразите на языке SQL следующие запросы.

а) Определить количество поставок и средний объем поставок для поставщиков, деталей и проектов, рассматривая их попарно (например, для каждой пары Р#- J# и каждой пары Jf-Sf).

б) Определить максимальный и минимальный объемы поставки для каждого про- екта, каждого сочетания "проект — деталь" и в целом.

в) Определить общий объем поставок, суммируя "по всем измерениям поставщи- ков" и по всем "измерениям деталей". Предупреждение. Здесь имеется ловушка.

г) Определить средний объем поставок по поставщикам, деталям, сочетаниям "поставщик — деталь" и в целом.

Для каждого случая покажите результат выполнения соответствующего SQL-запроса, считая, что обработке подвергаются данные, представленные на рис. 4.5 (или какие-то ваши данные). Также представьте эти результаты в виде многокоординатных таблиц.

21.10. В начале раздела 21.6 была показана приблизительная версия таблицы SP, в кото- рой было 6 строк. Предположим, что эта таблица дополнительно включает сле- дующую строку (подразумевается (возможно!), что поставщик с номером 'S5' су- ществует, но в данное время деталей не поставляет).

| S5 | NULL 1 NULL 1

Рассмотрите последствия этого включения для всех SQL-запросов, приведенных в разделе 21.6.

21.11.Есть ли различие в значениях термина многомерный, когда он используется в фразах "многомерная схема" и "многомерная база данных"? Объясните свой ответ.

21.12.Прокомментируйте проблему анализа набора потребительских товаров. Опишите в общих чертах алгоритм для определения правил связи, уровни поддержки и достоверности которых больше указанных предельных величин.

Совет. Если некоторые сочетания продуктов "неинтересны", поскольку они относятся к слишком мелким сделкам продажи, то же самое верно и для всех супермножеств этого сочетания продуктов.

Список литературы

21.1. Adriaans P., Zantinge D. Data Mining. — Reading, Mass.: Addison-Wesley, 1996.

Хотя эта книга и представлена как обзор, на самом деле в ней довольно подробно (и хорошо) раскрывается данная тема.

Alter S. Decision Support Systems: Current Practice and Continuing Challenges. — Reading, Mass.: Addison-Wesley, 1980.
Bennett J.L. (ed.) Bilding Decision Support Systems.— Reading, Mass.: Addison-Wesley, 1981.
Berry M.J.A., Linoff G. Data Mining Techniques for Marketing, QTY, and Customer Support. — New York, N.Y.: McGraw-Hill, 1997.

Хорошее объяснение методов разработки данных и их значения для некоторых аспектов бизнеса.

Boulden J.B. Computer-Assisted Planning Systems. — New York, N.Y.: McGraw-Hill, 1975. Это ранняя работа, затрагивающая многие вопросы, которые позже будут объединены под общим названием "поддержка принятия решений". Как отмечается в заголовке, основное внимание здесь уделено управлению планированием в классическом смысле.
Bonczek R.H., Holsapple C.W., Whinston A. Fondations of Decision Support Systems. — Orlando, Fla.: Academic Press, 1981.

Одна из первых публикаций в защиту строго методического подхода в системах поддержки принятия решений. Особое внимание уделено роли моделирования (в общем смысле эмпирического и математического моделирования) и науки управления.

Bontempo C.J., Saracco СМ. Database Management: Principles and*Products. — Upper Saddle River, N.J.: Prentice-Hall, 1996.
Cabena P., Hadjinian P., Stadler R., Verhees J., Zanasi A. Discovering Data Mining: From Concept to Implementation. — Upper Saddle River, N.J.: Prentice-Hall, 1998.
Chang C.L. DEDUCE — A Deductive Query Language for Relational Data Bases, — in Chen C.H. (ed.) Pattern Recognition and Artifical Intelligence. — New York, N.Y.: Academic Press, 1976.

21.10.Codd E.F., Codd S.B., Salley C.T. Providing OLAP (Online Analytical Processing) to User-Analysts: An IT Mandate, — available from Arbor Software Corp. — 1993. Как указывалось в настоящей главе, благодаря этой статье появился термин "OLAP", хотя и не само понятие. Интересно отметить, что в начале статьи категорически утверждается, что "Потребности, которые существуют, пока еще НЕ нуждаются в другой технологии баз данных; скорее, они нуждаются в надежных... инструментах анализа". Далее следуют описание и доводы в пользу новой технологии баз данных (!) — с новым концептуальным представлением данных, новыми операторами (как для обновления, так и для выборки), многопользовательской поддержкой (включая возможности безопасности и параллельного доступа), новыми структурами памяти и новыми возможностями оптимизации. Словом, новая модель данных и новая СУБД.

21.11.Date С.J. We Don't Need Composite Columns,— in Date C.J., Darwen H., McGoveran D. Relational Database Writings 1994-1997. — Reading, Mass.: Addison-Wesley, 1998. В названии этой статьи упоминается то, что в прошлом предпринимались (ошибочные) попытки ввести поддержку составных столбцов, не основываясь на поддержке типов, которые определяются пользователем. Если соответствующая поддержка пользовательских типов предоставлена, то вопрос о составных столбцах отпадает.

21.12.Delvin В. Data Warehouse from Architecture to Implementation. — Reading, Mass.: Addison-Wesley, 1997.

21.13.Delvin B.A., Murphy P.Т. An Architecture for a Business and Information System // IBM Sys. — 1988. — J 27, № 1.

Первая опубликованная статья, в которой определен и использован термин "хранилище информации".

21.14. Edelstein Н. Data Mining: Products and Markets. — Potomac, Md.: Two Crows Corp, 1997.

21.15.Gerrity T.P., Jr. The Design of Man-Machine Decision Systems: An Application to Portfolio Management // Sloan Management Review. — 1971. — 12, № 2. Одна из наиболее ранних статей по системам поддержки принятия решений. В ней описывается система поддержки управления инвестированием в администрировании фондового портфеля.

21.16. Gray J., Bosworth A., Layman A., Pirahesh Н. Data Cube: A Relational Aggregation Operator Generalizing Group-By, Cross-Tab, and Sub-Totals // Proc. 12th IEEE Int. Conf. on Data Engineering. — New Orleans, La., 1996.

В статье впервые предлагается добавить в предложение языка SQL GROUP BY такие опции, как CUBE.

21.17.Inmon W.H. Data Architecture: The Information Paradigm.— Wellesley, Mass.: QED Information Sciences, 1988.

В работе обсуждается происхождение понятия "хранилище данных" и описывается, как хранилище данных могло бы выглядеть на практике. Термин "хранилище данных" впервые появился в этой книге.

21.18.Inmon W.H. Building The Data Warehouse. — New York, N.Y.: Wiley, 1992.

Первая книга, посвященная хранилищам данных. В ней определяется этот термин и обсуждаются ключевые проблемы, которые возникают при разработке хранилищ данных. В книге, в первую очередь, обосновывается концепция хранилищ данных, а также рассматриваются вопросы операционного и физического проектирования.

21.19. Inmon W.H., Hackathorn R.D. Using the Data Warehouse. —New York, N.Y.: Wiley, 1994. Хранилища данных обсуждаются с точки зрения пользователей и администраторов. Как и другие книги по этой теме, она концентрируется на физических вопросах. Понятие хранилищ операционных данных обсуждается не так подробно.

21.20.Keen P.G.W., Morton M.S.S. Decision Support Systems; An Organizational Perspective. — Reading, Mass.: Addison-Wesley, 1978.

Это классическое изложение —- одно из самых ранних, если не самое раннее, которое явно посвящено поддержке принятия решений. Публикация ориентирована на анализ поведения и охватывает вопросы анализа, проектирования, реализации, оценивания и разработки систем поддержки принятия решений. 21.21. Kimball R. The Data Warehouse Toolkit. — New York, N.Y.: John Wiley & Sons, 1996. Эта книга — руководство к действию. Как и гласит подзаголовок "Практические методы построения многомерных хранилищ данных", в ней основное внимание уделяется практическим, а не теоретическим вопросам. По умолчанию предполагается, что не существует значительных различий между логическим и физическим уровнями систем. Это предположение, конечно, полностью распространяется и на современные продукты. Однако, по нашему мнению, было бы лучше попытаться исправить положение дел, чем фактически просто его констатировать.

21.22.LittIe J.D.C Models and Managers: The Concept of a Decision Calculus // Management Science. — 1970. — 16, № 8.

В статье представлена система (Brandaid), спроектированная для поддержки принятия решений по продуктам, их сбыту, ценообразованию и рекламе. Автор определяет четыре критерия проектирования моделей по поддержке управленческих решений: устойчивость, удобство в управлении, простота и полнота необходимых деталей. 21.23.Morton M.S.S. Management Decision Systems: Computer-Based Support for Decision Making. — Harvard University, Division of Research, Graduate School of Business Administration. — 1971.

Это классическая статья, в которой было введено понятие систем поддержки управленческих решений и поддержка принятия решений была явно отнесена к компьютерным системам. Конкретная "система управленческих решений" была построена для координации производственного планирования оборудования для прачечных. Затем она была подвергнута научной проверке с коммерческими и производственными менеджерами в качестве пользователей. 21.24.Parsaye К., Chignell М. Intelligent Database Tools and Applications. — New York, N.Y.: Wiley, 1993.

Это первая книга, которая посвящена принципам и методам разработки данных, хотя сами авторы обращаются к этой теме, как к "интеллектуальным базам данных".

Pirotte A., Wodon P. A Comprehensive Formal Query Language for a Relational Data Base // R.A.I.R.O. Informatique/Computer Science. — 1977. — 11, № 2.
Sprague R.H., Carlson E.D. Building Effective Decision Support Systems. — Englewood Cliffs, N J.: Prentice-Hall, 1982.

Также классическая книга.

21.27.Thomsen E. OLAP Solutions: Building Multi-Dimensional Information Systems. — New York, N.Y.: Wiley, 1997.

Одна из первых книг по оперативной аналитической обработке данных, и, возможно, наиболее исчерпывающая. В ней обращается внимание на непонимание концепций и методов анализа, использующих многомерные системы. Предпринимается серьезная попытка ввести некоторую методическую упорядоченность в эту запутанную тему.

21.28.Uthurusamy R. From Data Mining to Knowledge Discovery: Current Challenges and Future Directions, — in Fayyad U.M., Piatetsky-Shapiro G., Smyth P., Uthurusamy R. (eds.) Advances in Knowledge Discovery and Data Mining. — Cambridge, Mass.: AAAI Press/MIT Press, 1996.

Ответы к некоторым упражнениям

Существует восемь (2³) возможных группировок для каждой иерархии, поэтому общее количество возможностей составляет 8⁴ = 4 096. В качестве дополнительного упражнения можно рассмотреть, каким должен быть SQL-запрос, чтобы получить все эти итоговые значения.
Что касается SQL-запросов, то здесь мы приведем лишь предложения GROUP BY.

а) GROUP BY GROUPING SETS { (S#,Pf), (P#,J#),(Ji,Si) )

б) GROUP BY GROUPING SETS ( Jjf, (J#,Pl), () )

в) Ловушка заключается в том, что запрос двусмысленный: фраза "суммируя по всем измерениям поставщиков", например, имеет много возможных значений. Однако одна из вероятных интерпретаций этого запроса может быть выражена так.

GROUP BY ROLLUP (Si), ROLLUP(Pi)

г) GROUP BY CUBE ( Si, Pi )

Мы опускаем результирующие SQL-таблицы. Что касается многокоординатных таблиц, то понятно, что они не очень хорошо подходят для отображения результата, который имеет больше двух измерений (и чем больше имеется измерений, тем труднее их получить). Например, многокоординатная таблица, соответствующая предложению GROUP BY Si ,Р#, J# , может выглядеть так (часть таблицы).

Глава LL

Хронологические базы данных

<<< < Предыдущая 1 2 3 4 5 6 78 / 418 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Соседние файлы в папке Дейт К. Дж. Введение в системы баз данных [7 издание]

#
02.05.20142.66 Mб1471-270.doc
#
02.05.20142.3 Mб102271-540.doc
#
02.05.20142.28 Mб82541-800.doc
#
02.05.20142.54 Mб77801-1073.doc