Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Методическое пособие 639

.pdf
Скачиваний:
5
Добавлен:
30.04.2022
Размер:
3.05 Mб
Скачать

противном случае. Для вычисления данных значений для каждого столбца необходимо задать формулу вида:

=iif(vi>a; 1; 0),

где iif(condition; expression1; expression2) – условная функция,

возвращающая выражение expression1, если условие condition выполняется, и expression2 в противном случае; vi – сокращенное имя столбца, где вместо i подставляется его номер, a – число, с которым сравниваются значения столбца.

Пример задания формулы для столбца приведен на рис.

82.

Таблица, приведенная к нужному для анализа виду, приведена на рис. 83.

Для поиска ассоциативных правил необходимо выбрать команду Добыча данных / Правила связи (Data Mining / Association rules). В диалоговом окне задания входных параметров необходимо выбрать исследуемые переменные как классификационные (рис. 84-85).

Рис. 82. Диалоговое окно задания свойств новой переменной

111

Рис. 83. Таблица с исходными данными, приведенная к нужному виду

Рис. 84. Диалоговое окно задания исходных данных для поиска ассоциативных правил

112

Рис. 85. Диалоговое окно выбора исходных переменных

На вкладке Дополнительно (Advanced) окна Ассоциативные правила (Association rules) задаются такие параметры, как минимальная поддержка (Minimum support), минимальная достоверность (Minimum confidence), минимальная корреляция (Minimum correlation), определяющие нижние границы включения ассоциативных правил в итоговый список. Чем больше значения данных величин, тем меньше правил будет сформировано. Если присвоить данным параметрам значения, равные 1, то будут выведены только правила, выполняющиеся в 100% случаев

(рис. 86).

113

Рис. 86. Вкладка Дополнительно диалогового окна Ассоциативные правила

Результаты поиска ассоциативных правил можно посмотреть с помощью различных кнопок на соответствующем диалоговом окне (рис. 87).

Рис. 87. Диалоговое окно с результатами анализа

114

Для вывода списка найденных правил надо открыть таблицу Правила связи (Association rules) (рис. 88).

Рис. 88. Таблица с найденными ассоциативными правилами

Для графического представления найденных правил используется сеть ассоциативных правил (Rule Network), изображенная на рис. 89.

Рис. 89. Графическое представление ассоциативных правил

3. ЛАБОРАТОРНОЕ ЗАДАНИЕ

Задание 1. Задать таблицу с исходными данными, содержащую не менее 6 переменных и 20 наблюдений.

115

Задание 2. Выполнить интерактивный углубленный анализ данных. Сравнить данные для разных значений классификационных переменных (в рассматриваемом примере можно было бы сравнить результаты ЕГЭ для юношей и девушек, распределение баллов для разных предметов и т.д.).

Задание 3. Выполнить поиск ассоциативных правил в исходных данных.

4.УКАЗАНИЯ ПО ОФОРМЛЕНИЮ ОТЧЕТА

Отчет должен содержать:

- наименование и цель работы; - краткие теоретические сведения;

- задание на лабораторную работу; - результаты выполнения лабораторной работы.

5.КОНТРОЛЬНЫЕ ВОПРОСЫ

1.Что такое Data Mining? Для решения каких задач применяются методы Data Mining?

2.Какие процедуры Data Mining доступны в системе

STATISTICA?

3.Что такое углубленный анализ данных? Как он выполняется в системе STATISTICA?

4.Что такое ассоциативное правило? Как можно их найти в пакете STATISTICA?

116

Лабораторная работа №9 OLAP-АНАЛИЗ ДАННЫХ В MICROSOFT EXCEL

1. ОБЩИЕ УКАЗАНИЯ ПО ВЫПОЛНЕНИЮ ЛАБОРАТОРНОЙ РАБОТЫ

1.1. Цель работы

Изучение основных понятий OLAP-анализа данных; получение практических навыков выполнения анализа многомерных данных в Microsoft Excel.

1.2. Используемое оборудование и программное обеспечение

Для выполнения лабораторной работы требуется ПЭВМ типа IBM PC с установленной ОС Windows XP и выше, пакеты

Microsoft Excel 2007 и Microsoft Access 2007 или последующих версий.

2. МЕТОДИЧЕСКИЕ УКАЗАНИЯ ПО ВЫПОЛНЕНИЮ ЛАБОРАТОРНОЙ РАБОТЫ

2.1. Основные понятия OLAP-анализа многомерных данных

В процессе анализа данных и поиска решений часто возникает необходимость в построении зависимостей между различными параметрами, число которых может варьироваться в широких пределах. Традиционные средства анализа, оперирующие данными, представленными в виде таблиц реляционной база данных, не могут в полной мере удовлетворять таким требованиям, в первую очередь, из-за невозможности объединять, просматривать и анализировать данные с точки зрения множественности измерений.

Измерение – это последовательность значений одного из анализируемых параметров (например, для параметра «время» это могут быть дни или месяцы). Каждое измерение может быть представлено в виде иерархической структуры (например, год – квартал – месяц – неделя - день).

117

Множественность измерений предполагает представление данных в виде многомерной модели, в которой по измерениям откладываются параметры, относящиеся к анализируемой предметной области (например, время, города, должности и т.д.).

Многомерная модель данных может быть представлена в виде гиперкуба, ребра которого являются измерениями, а ячейками – меры – данные, количественно характеризующие анализируемые факты (объемы продаж).

OLAP (On-Line Analytical Processing) – технология оперативной аналитической обработки данных, использующая методы и средства для сбора, хранения и анализа многомерных данных в целях поддержки процессов принятия решений.

Основное назначение OLAP-систем – поддержка аналитической деятельности, произвольных запросов пользователе-аналитиков. Цель OLAP-анализа – проверка возникающих гипотез.

OLAP является одним из инструментов, входящих в состав так называемых платформ Business Intelligence (BI), предназначенных для оперативного анализа данных, моделирования и прогнозирования динамики развития различных экономических процессов.

В состав BI-платформ входят средства для построения хранилищ и витрин данных, обработки произвольных запросов и подготовки отчетов, инструменты OLAP, Data Mining (интеллектуального анализа данных) и KDD (Knowledge Discovery in Databases - поиска знаний в БД), средства рассылки отчетов и т. д.

OLAP может быть реализована на основе трех следующих архитектур:

-MOLAP – для реализации многомерной модели используются многомерные базы данных;

-ROLAP - для реализации многомерной модели используются реляционные базы данных;

118

-HOLAP - для реализации многомерной модели используются многомерные и реляционные базы данных.

OLAP -система включает в себя два компонента:

-OLAP-сервер, обеспечивающий хранение данных и формирование многомерной модели данных;

-OLAP-клиент, представляющий пользователю интерфейс к многомерной модели данных и обеспечивающий ему возможность удобно манипулировать данными для выполнения задач анализа.

Средства анализа и обработки данных масштаба предприятия, как правило, базируются на серверных OLAP-

средствах, например, таких как Oracle Express Server, Microsoft SQL Server, Hyperion Essbase, продуктах компаний Crystal Decisions, BusinessObjects, Cognos, SAS Institute. Клиентские OLAP-средства (Microsoft Excel, Seagate Analysis и др.)

позволяют обращаться к серверным OLAP-хранилищам, выступая в этом случае в роли клиентских приложений, выполняющих аналитические запросы, и используются, в основном, для анализа небольших объемов данных.

2.2. Пример OLAP-анализа данных в Microsoft Excel

Microsoft Excel является OLAP-клиентом, позволяющим обращаться к СУБД, в которой хранятся исходные данные, и выполнять их многомерный анализ. В качестве инструмента анализа и визуализации данных в Excel используются сводные таблицы.

Рассмотрим пример анализа данных о выпускниках вуза, хранящихся в СУБД Microsoft Access. Создадим многомерную таблицу с исходными данными, в которой измерениями являются поля Год выпуска, Код специальности, Факультет и Кафедра, а фактом – столбец Число студентов

(рис. 90).

119

Рис. 90. Фрагмент таблицы с исходными данными

Далее необходимо подключить OLAP-клиент к созданной таблице. Для этого в Excel выберем команду Данные / Подключение внешних данных / Из других источников / Из мастера подключения данных. В Мастере подключения данных надо установить следующие параметры:

-тип источника данных, к которому нужно подключиться – дополнительно;

-поставщик данных – Microsoft Jet 4.0 OLE DB

Provider;

-соединение – указать путь к файлу с базой данных и проверить успешность соединения, нажав кнопку Проверить соединение;

-подключение к определенной таблице – выбрать таблицу с исходными данными;

-сохраните файл подключения данных и завершите работу – Готово.

В диалоговом окне Импорт данных (рис. 91) надо выбрать способ представления данных в книге – Отчет сводной таблицы. После этого появится пустая заготовка сводной таблицы (рис. 92).

120