Скачиваний:
77
Добавлен:
02.05.2014
Размер:
2.54 Mб
Скачать

21.8. Резюме

В этой главе было рассмотрено использование технологии баз данных для систем поддержки принятия решений. Основная идея заключается в том, чтобы отобрать опе­ративные данные и привести их к виду, в котором их можно было бы использовать для оказания помощи управляющему персоналу в понимании особенностей функционирова­ния предприятия и выборе направления его дальнейшего развития.

Сначала были определены понятия систем поддержки принятия решений, которые устанавливаются отдельно от систем оперативных баз данных. Характерная черта баз данных поддержки принятия решений заключается в том, что они предназначены пре­имущественно лишь для чтения. Как правило, такие базы данных очень большие и имеют много индексов. В них обычно присутствует контролируемая избыточность, особенно в форме репликации и предварительного обобщения данных. Ключи обычно содержат временной компонент, а запросы, как правило, очень сложные. Исходя из этих соображений, при проектировании первостепенное внимание уделяется обеспече­нию производительности систем. Соглашаясь с важностью этой задачи, мы все же счи­таем, что способы ее достижения не должны вступать в противоречие с правильной практикой проектирования. Проблема заключается в том, что в практике проектирования систем поддержки принятия решений обычно недостаточно четко различаются вопросы логического и физического проектирования.

Затем рассматривались вопросы подготовки оперативных данных к помещению в системы поддержки принятия решений: задачи извлечения, очистки, преобразования и консолида­ции, загрузки и обновления данных. Также упоминалась концепция банков оперативных данных, которые, кроме всего прочего, могут использоваться и как области накопления в процессе подготовки данных. Еще одно применение банков оперативных данных — предос­тавление сервиса поддержки принятия решений на основе текущих данных.

Далее речь шла о хранилищах данных и магазинах данных (последние могут рас­цениваться как специализированные хранилища данных). Была рассмотрена основная идея построения схем типа "звезда", в которых данные организованы, как большая ос­новная таблица фактов и несколько значительно меньших таблиц размерности. В простых случаях схемы типа "звезда" неотличимы от обычных классических нормализо­ванных схем. Однако на практике они во многом отходят от принципов классического проектирования по причинам, связанным с производительностью. Проблема, опять же, состоит в том, что схемы типа "звезда" на самом деле в большей степени имеют физиче­скую, а не логическую природу. Также мы коснулись стратегии реализации операции со­единения, известной как звездообразное соединение, и разновидности схемы типа "звезда", которая называется схемой типа "снежинка".

В этой главе также уделялось внимание оперативной аналитической обработке дан­ных (OLAP). Обсуждались возможности языка SQL, которые предоставляются с помо­щью опций GROUPING SETS, R0LLUP и CUBE предложения GROUP BY, а именно — возмож­ности получения нескольких различных видов обобщения в одном SQL-запросе. Также отмечалось, что язык SQL, к сожалению (на наш взгляд), объединяет эти различные обобщения в одной "таблице", содержащей множество NULL-значений. Также шла речь о том, что на практике OLAP-системы могут предусматривать преобразование этих "таблиц" в многокоординатные таблицы (обыкновенные массивы) для их отображе­ния. Затем мы обратили ваше внимание на многомерные базы данных, в которых дан­ные концептуально хранятся не в таблицах, а в многомерных массивах или гиперкубах. Размерности такого массива составляют независимые переменные, а в ячейках содер­жатся значения соответствующих зависимых переменных. Независимые переменные обычно связываются в различные иерархии, которые определяют разумные способы группирования и объединения данных.

И наконец была рассмотрена концепция разработки данных. Основная идея состоит в том, что, поскольку данные часто недостаточно хорошо изучены, можно использовать возможности компьютера, чтобы во всей совокупности данных обнаружить некоторые характерные взаимосвязи. Здесь кратко рассматривались различные виды правил, а именно — правила связи, классификации и зависимости следствия, и обсуждались связанные с ними понятия уровней поддержки и достоверности.

Упражнения

  1. Назовите некоторые из основных отличий между базами данных поддержки принятия решений и оперативными базами данных. Почему системы поддержки принятия реше­ний и оперативные приложения обычно используют различные хранилища данных?

  2. Кратко опишите этапы подготовки оперативных данных для их помещения в сис­тему поддержки принятия решений.

  3. Назовите отличия между контролируемой и неконтролируемой избыточностью. Приведите соответствующие примеры. Почему контролируемая избыточность важна в системах поддержки принятия решений? Что случится, если избыточность станет неконтролируемой?

  4. Назовите отличия между хранилищами данных и магазинами данных.

  5. Что вы понимаете под термином схема типа "звезда"!

  1. Схемы типа "звезда" обычно не полностью нормализованы. Что служит оправда­нием такого положения дел? Объясните методологию проектирования таких схем.

  2. Объясните различия между системами ROLAP и MOLAP.

  1. Сколькими способами можно подытожить данные, если они характеризуются че­тырьмя измерениями, каждое из которых принадлежит трехуровневой иерархии обобщения (например, город, район, область)?

  2. Используя базу данных поставщиков, деталей и проектов (см. упр. 4.1 в главе 4), выразите на языке SQL следующие запросы.

а) Определить количество поставок и средний объем поставок для поставщиков, деталей и проектов, рассматривая их попарно (например, для каждой пары Р#- J# и каждой пары Jf-Sf).

б) Определить максимальный и минимальный объемы поставки для каждого про- екта, каждого сочетания "проект — деталь" и в целом.

в) Определить общий объем поставок, суммируя "по всем измерениям поставщи- ков" и по всем "измерениям деталей". Предупреждение. Здесь имеется ловушка.

г) Определить средний объем поставок по поставщикам, деталям, сочетаниям "поставщик — деталь" и в целом.

Для каждого случая покажите результат выполнения соответствующего SQL-запроса, считая, что обработке подвергаются данные, представленные на рис. 4.5 (или какие-то ваши данные). Также представьте эти результаты в виде многокоор­динатных таблиц.

21.10. В начале раздела 21.6 была показана приблизительная версия таблицы SP, в кото- рой было 6 строк. Предположим, что эта таблица дополнительно включает сле- дующую строку (подразумевается (возможно!), что поставщик с номером 'S5' су- ществует, но в данное время деталей не поставляет).

| S5 | NULL 1 NULL 1

Рассмотрите последствия этого включения для всех SQL-запросов, приведенных в разделе 21.6.

21.11.Есть ли различие в значениях термина многомерный, когда он используется в фра­зах "многомерная схема" и "многомерная база данных"? Объясните свой ответ.

21.12.Прокомментируйте проблему анализа набора потребительских товаров. Опишите в общих чертах алгоритм для определения правил связи, уровни поддержки и досто­верности которых больше указанных предельных величин.

Совет. Если некоторые сочетания продуктов "неинтересны", поскольку они отно­сятся к слишком мелким сделкам продажи, то же самое верно и для всех супермножеств этого сочетания продуктов.

Список литературы

21.1. Adriaans P., Zantinge D. Data Mining. — Reading, Mass.: Addison-Wesley, 1996.

Хотя эта книга и представлена как обзор, на самом деле в ней довольно подробно (и хорошо) раскрывается данная тема.

  1. Alter S. Decision Support Systems: Current Practice and Continuing Challenges. — Reading, Mass.: Addison-Wesley, 1980.

  2. Bennett J.L. (ed.) Bilding Decision Support Systems.— Reading, Mass.: Addison-Wesley, 1981.

  3. Berry M.J.A., Linoff G. Data Mining Techniques for Marketing, QTY, and Customer Support. — New York, N.Y.: McGraw-Hill, 1997.

Хорошее объяснение методов разработки данных и их значения для некоторых ас­пектов бизнеса.

  1. Boulden J.B. Computer-Assisted Planning Systems. — New York, N.Y.: McGraw-Hill, 1975. Это ранняя работа, затрагивающая многие вопросы, которые позже будут объеди­нены под общим названием "поддержка принятия решений". Как отмечается в за­головке, основное внимание здесь уделено управлению планированием в классиче­ском смысле.

  2. Bonczek R.H., Holsapple C.W., Whinston A. Fondations of Decision Support Systems. — Orlando, Fla.: Academic Press, 1981.

Одна из первых публикаций в защиту строго методического подхода в системах под­держки принятия решений. Особое внимание уделено роли моделирования (в общем смысле эмпирического и математического моделирования) и науки управления.

  1. Bontempo C.J., Saracco СМ. Database Management: Principles and*Products. — Upper Saddle River, N.J.: Prentice-Hall, 1996.

  2. Cabena P., Hadjinian P., Stadler R., Verhees J., Zanasi A. Discovering Data Mining: From Concept to Implementation. — Upper Saddle River, N.J.: Prentice-Hall, 1998.

  3. Chang C.L. DEDUCE — A Deductive Query Language for Relational Data Bases, — in Chen C.H. (ed.) Pattern Recognition and Artifical Intelligence. — New York, N.Y.: Academic Press, 1976.

21.10.Codd E.F., Codd S.B., Salley C.T. Providing OLAP (Online Analytical Processing) to User-Analysts: An IT Mandate, — available from Arbor Software Corp. — 1993. Как указывалось в настоящей главе, благодаря этой статье появился термин "OLAP", хотя и не само понятие. Интересно отметить, что в начале статьи категорически ут­верждается, что "Потребности, которые существуют, пока еще НЕ нуждаются в дру­гой технологии баз данных; скорее, они нуждаются в надежных... инструментах ана­лиза". Далее следуют описание и доводы в пользу новой технологии баз данных (!) — с новым концептуальным представлением данных, новыми операторами (как для обновления, так и для выборки), многопользовательской поддержкой (включая воз­можности безопасности и параллельного доступа), новыми структурами памяти и но­выми возможностями оптимизации. Словом, новая модель данных и новая СУБД.

21.11.Date С.J. We Don't Need Composite Columns,— in Date C.J., Darwen H., McGoveran D. Relational Database Writings 1994-1997. — Reading, Mass.: Addison-Wesley, 1998. В названии этой статьи упоминается то, что в прошлом предпринимались (ошибочные) попытки ввести поддержку составных столбцов, не основываясь на поддержке типов, которые определяются пользователем. Если соответствующая поддержка пользова­тельских типов предоставлена, то вопрос о составных столбцах отпадает.

21.12.Delvin В. Data Warehouse from Architecture to Implementation. — Reading, Mass.: Addison-Wesley, 1997.

21.13.Delvin B.A., Murphy P.Т. An Architecture for a Business and Information System // IBM Sys. — 1988. — J 27, № 1.

Первая опубликованная статья, в которой определен и использован термин "хранилище информации".

21.14. Edelstein Н. Data Mining: Products and Markets. — Potomac, Md.: Two Crows Corp, 1997.

21.15.Gerrity T.P., Jr. The Design of Man-Machine Decision Systems: An Application to Portfolio Management // Sloan Management Review. — 1971. — 12, № 2. Одна из наиболее ранних статей по системам поддержки принятия решений. В ней описывается система поддержки управления инвестированием в администрирова­нии фондового портфеля.

21.16. Gray J., Bosworth A., Layman A., Pirahesh Н. Data Cube: A Relational Aggregation Operator Generalizing Group-By, Cross-Tab, and Sub-Totals // Proc. 12th IEEE Int. Conf. on Data Engineering. — New Orleans, La., 1996.

В статье впервые предлагается добавить в предложение языка SQL GROUP BY такие опции, как CUBE.

21.17.Inmon W.H. Data Architecture: The Information Paradigm.— Wellesley, Mass.: QED Information Sciences, 1988.

В работе обсуждается происхождение понятия "хранилище данных" и описывает­ся, как хранилище данных могло бы выглядеть на практике. Термин "хранилище данных" впервые появился в этой книге.

21.18.Inmon W.H. Building The Data Warehouse. — New York, N.Y.: Wiley, 1992.

Первая книга, посвященная хранилищам данных. В ней определяется этот термин и обсуждаются ключевые проблемы, которые возникают при разработке хранилищ данных. В книге, в первую очередь, обосновывается концепция хранилищ данных, а также рассматриваются вопросы операционного и физического проектирования.

21.19. Inmon W.H., Hackathorn R.D. Using the Data Warehouse. —New York, N.Y.: Wiley, 1994. Хранилища данных обсуждаются с точки зрения пользователей и администрато­ров. Как и другие книги по этой теме, она концентрируется на физических вопро­сах. Понятие хранилищ операционных данных обсуждается не так подробно.

21.20.Keen P.G.W., Morton M.S.S. Decision Support Systems; An Organizational Perspective. — Reading, Mass.: Addison-Wesley, 1978.

Это классическое изложение —- одно из самых ранних, если не самое раннее, кото­рое явно посвящено поддержке принятия решений. Публикация ориентирована на анализ поведения и охватывает вопросы анализа, проектирования, реализации, оценивания и разработки систем поддержки принятия решений. 21.21. Kimball R. The Data Warehouse Toolkit. — New York, N.Y.: John Wiley & Sons, 1996. Эта книга — руководство к действию. Как и гласит подзаголовок "Практические методы построения многомерных хранилищ данных", в ней основное внимание уделяется практическим, а не теоретическим вопросам. По умолчанию предполага­ется, что не существует значительных различий между логическим и физическим уровнями систем. Это предположение, конечно, полностью распространяется и на современные продукты. Однако, по нашему мнению, было бы лучше попытаться исправить положение дел, чем фактически просто его констатировать.

21.22.LittIe J.D.C Models and Managers: The Concept of a Decision Calculus // Management Science. — 1970. — 16, № 8.

В статье представлена система (Brandaid), спроектированная для поддержки приня­тия решений по продуктам, их сбыту, ценообразованию и рекламе. Автор определяет четыре критерия проектирования моделей по поддержке управленческих решений: устойчивость, удобство в управлении, простота и полнота необходимых деталей. 21.23.Morton M.S.S. Management Decision Systems: Computer-Based Support for Decision Making. — Harvard University, Division of Research, Graduate School of Business Administration. — 1971.

Это классическая статья, в которой было введено понятие систем поддержки управленческих решений и поддержка принятия решений была явно отнесена к компьютерным системам. Конкретная "система управленческих решений" была построена для координации производственного планирования оборудования для прачечных. Затем она была подвергнута научной проверке с коммерческими и производственными менеджерами в качестве пользователей. 21.24.Parsaye К., Chignell М. Intelligent Database Tools and Applications. — New York, N.Y.: Wiley, 1993.

Это первая книга, которая посвящена принципам и методам разработки данных, хотя сами авторы обращаются к этой теме, как к "интеллектуальным базам дан­ных".

  1. Pirotte A., Wodon P. A Comprehensive Formal Query Language for a Relational Data Base // R.A.I.R.O. Informatique/Computer Science. — 1977. — 11, № 2.

  2. Sprague R.H., Carlson E.D. Building Effective Decision Support Systems. — Englewood Cliffs, N J.: Prentice-Hall, 1982.

Также классическая книга.

21.27.Thomsen E. OLAP Solutions: Building Multi-Dimensional Information Systems. — New York, N.Y.: Wiley, 1997.

Одна из первых книг по оперативной аналитической обработке данных, и, возмож­но, наиболее исчерпывающая. В ней обращается внимание на непонимание кон­цепций и методов анализа, использующих многомерные системы. Предпринимает­ся серьезная попытка ввести некоторую методическую упорядоченность в эту за­путанную тему.

21.28.Uthurusamy R. From Data Mining to Knowledge Discovery: Current Challenges and Future Directions, — in Fayyad U.M., Piatetsky-Shapiro G., Smyth P., Uthurusamy R. (eds.) Advances in Knowledge Discovery and Data Mining. — Cambridge, Mass.: AAAI Press/MIT Press, 1996.

Ответы к некоторым упражнениям

  1. Существует восемь (23) возможных группировок для каждой иерархии, поэтому общее количество возможностей составляет 84 = 4 096. В качестве дополнительно­го упражнения можно рассмотреть, каким должен быть SQL-запрос, чтобы полу­чить все эти итоговые значения.

  2. Что касается SQL-запросов, то здесь мы приведем лишь предложения GROUP BY.

а) GROUP BY GROUPING SETS { (S#,Pf), (P#,J#),(Ji,Si) )

б) GROUP BY GROUPING SETS ( Jjf, (J#,Pl), () )

в) Ловушка заключается в том, что запрос двусмысленный: фраза "суммируя по всем измерениям поставщиков", например, имеет много возможных значений. Однако одна из вероятных интерпретаций этого запроса может быть выражена так.

GROUP BY ROLLUP (Si), ROLLUP(Pi)

г) GROUP BY CUBE ( Si, Pi )

Мы опускаем результирующие SQL-таблицы. Что касается многокоординатных таблиц, то понятно, что они не очень хорошо подходят для отображения результата, который имеет больше двух измерений (и чем больше имеется измерений, тем труднее их получить). Например, многокоординатная таблица, соответствующая предложению GROUP BY Si ,Р#, J# , может выглядеть так (часть таблицы).

Глава LL

Хронологические базы данных

Соседние файлы в папке Дейт К. Дж. Введение в системы баз данных [7 издание]