- •Интеллектуальный анализ данных Лабораторный практикум
- •5.05010101 «Обслуживание программных систем и комплексов»
- •Касилов о.В., Компаниец в.А.
- •Содержание
- •Вступление
- •Лабораторная работа № 1
- •Начало работы с системой Deductor Studio 5 .2
- •Мастер импорта;
- •Сценарии
- •Базовые визуализаторы
- •Построение многомерной диаграммы
- •Работа с визуализатором Таблица
- •Очистка данных
- •Парциальная предобработка
- •Редактирование аномальных значений
- •Спектральная обработка (сглаживание)
- •Факторный анализ
- •Корреляционный анализ
- •Дубликаты и противоречия
- •Лабораторная работа № 2 трансформация данных
- •Разбиение даты
- •Преобразование данных к скользящему окну
- •Группировка данных
- •Слияние данных
- •Квантование
- •Настройка набора данных
- •Фильтрация данных
- •Сортировка, замена значений
- •Замена значений
- •Кросс-таблица
- •Свёртка столбцов
- •Вопросы для проверки
- •Лабораторная работа № 3 работа с хранилищем данных
- •Рассмотрим пример проектирования структуры хд
- •Создание нового хранилища данных
- •Настройка подключения хранилища данных
- •Проектирование структуры хранилища данных
- •Наполнение хранилища данных
- •Извлечение информации из хранилища данных Импорт из процесса
- •Импорт из измерения
- •Кубы в Deductor Warehouse
- •Самостоятельная работа по созданию хранилища данных
- •Вопросы для проверки
- •Лабораторная работа № 4
- •Многомерный анализ данных при помощи встроенного в Deductor olap модуля.
- •Добавление новых данных в хд
- •Получение olap-отчетов
- •Формирование отчета по объемам продаж за последние четыре месяца по товарным группам
- •Манипуляции с измерениями
- •Формирование отчета по каждой аптеке за каждый месяц
- •Фильтрация
- •Построение аналитической отчетности
- •Самостоятельная работа по созданию кросс-таблицы и кросс- диаграммы
- •Вопросы для проверки
- •Лабораторная работа № 5
- •Узел Калькулятор
- •Задание
- •Проведение abc-анализа
- •Суть метода
- •Алгоритм авс-анализа
- •Выполнение abc-анализа
- •Stat("ИмяСтолбца";"Тип")
- •CumulativeSum("ИмяПоля"; ["ИмяПоляГруппы"])
- •Проведение xyz-анализа
- •Суть метода
- •Алгоритм xyz-анализа
- •Выполнение xyz-анализа
- •Проведение abc-xyz-анализ
- •Суть метода
- •Выполнение abc-xyz -анализа
- •Вопросы для проверки
- •Лабораторная работа № 6
- •1. Логистическая регрессия и roc-анализ
- •Деревья решений
- •Прогнозирование с помощью линейной регрессии
- •Прогнозирование с помощью построения пользовательских моделей
- •Лабораторная работа № 7 искусственные нейронные сети
- •1. Искусственные нейронные сети
- •Пример работы многослойного персептрона
- •Аппроксимация многомерных функций
- •Лабораторная работа № 8
- •Кластеризация с помощью алгоритма k-means
- •2. Сегментация клиентов телекоммуникационой компании с использованием карт Кохонена
- •Кластеризация при равном весе входных атрибутов
- •Кластеризация при различных весах входных атрибутов. Акцент на выделении кластера Активная молодеж ь
- •Кластеризация при ограничении набора входных атрибутов. Акцент на выделении кластера Активная молодеж ь
- •Лабораторная работа № 9 ассоциативные правила
- •Алгоритм поиска ассоциативных правил
- •Создание ассоциативных правил для анализа покупательских корзин для стимулирования спроса
- •Интерпретация ассоциативных правил
- •Полезные советы:
- •4. Визуализатор Что-если в ассоциативных правилах
- •Список литературы
- •Інтелектуальний аналіз даних Лабораторний практикум
Кросс-таблица
Обработчик Кросс-таблица предназначен для изменения структуры таблицы, а именно, перенесения значений полей в заголовки столбцов. Напоминает операцию транспонирования измерений в OLAP-кубе.
Продемонстрируем применение Кросс-таблицы, используя данные о стоимости продуктов, входящих в потребительскую корзину за четыре месяца.
Исходные данные находятся в файле basket_of_goods.txt, который необходимо импортировать в новом проекте.
Необходимо оценить индексы роста цен на продукты питания (рис. 2.33).
Рисунок 2.33 – Исходные данные
Вид исходной таблицы мало пригоден для вычислений индексов. Данную таблицу необходимо отредактировать, чтобы в ней появились дополнительные поля, в которых содержалась бы информация о цене рассматриваемых продуктов питания за каждый месяц в отдельности. Применим обработчик Кросс-таблица.
Преобразование исходной таблицы данных
Вызовем Мастер обработки и в появившемся окне выберем обработчик
Кросс- таблица.
Следующим шагом будет настройка используемых полей для формирования таблицы (рис. 2.34). Используемые поля для построения должны находится либо в колонках, либо в строках. В колонки помещают
поля на основе значений которых будут создаваться новые, их значениями будут выбранные факты. В строки помещаются поля, которые не нуждаются в изменении.
Рисунок 2.34 – Настройка полей обработки
Настроим данное окно:
переместим Месяц в колонки;
Наименование – в строки;
Средняя цена в факты.
Новая таблица будет содержать поля:
Наименование – название продуктов входящих в потребительскую корзину;
Сентябрь – средняя цена, данных продуктов за сентябрь, .... Декабрь –
средняя цена, продуктов за декабрь.
Следующим шагом необходимо настроить параметры агрегации выбранных фактов. В нашем случае выберем среднюю агрегацию (рис. 2.35).
После нажатия кнопки Далее открывается следующее окно Мастера обработки, в котором выбирается настройка параметров измерений в колонках. В нем резервируются дополнительные поля для возможного внесения изменений в значения исходного поля таблицы, а также для измерений, в названии которых содержатся пропуски (рис. 2.36).
Рисунок 2.35 – Настройка параметров агрегации
Рисунок 2.36 – Настройка параметров в колонках
Так как у нас нет данных о цене товара, с неопределенным месяцем, то галочку рядом с Пропущенными значениями ставить не будем. Прочие значения отметим флажком, так как в дальнейшем мы рассчитываем пополнить исходную таблицу еще одним месяцем, данные которого запишутся в данный столбец (рис. 2.37).
Рисунок 2.37 – Результат обработки визуализатора Таблица
Все настройки заданы, запустим процесс на выполнение.
Из множества предлагаемых визуализаторов выберем Таблицу.
Результаты сохранить в файле L2_5.ded.
Свёртка столбцов
Обработчик Свёртка столбцов, как и Кросс-таблица, служит для преобразования исходной структуры набора данных в форму удобную для обработки. Но в отличие от Кросс-диаграммы которая формирует из выбранного поля данных несколько новых полей со значениями, сформированными на основе заданных фактов. Свёртка столбцов наоборот собирает все обозначенные поля в одно. В Deductor Studio такую возможность предоставляет инструмент Свёртка столбцов.
Обработчик предназначен для изменения структуры таблицы, а именно, перенесения заголовков полей в значения строк и столбцов.
ПРИМЕР
Пусть есть таблица с объемами продаж некоторых товаров за три месяца.
Группа |
Товар |
Январь |
Февраль |
Март |
Группа 1 |
Товар 1 |
54 |
|
|
Группа 1 |
Товар 2 |
|
31 |
46 |
Группа 1 |
Товар 3 |
63 |
61 |
|
Группа 2 |
Товар 1 |
77 |
19 |
93 |
Группа 2 |
Товар 4 |
63 |
51 |
70 |
Применим к исходному набору данных обработчик Свёртка столбцов.
На этапе настройки назначения полей зададим следующие параметры:
Информационные поля – Группа и Товар. Поля, помещенные в этот узел, не будут изменяться.
Транспонируемые поля -Январь, Февраль и Март. Из значений полей, помещенных в этот узел, будут сформированы два новых столбца один со списком из меток, другой со списком значений. Транспонируемые столбцы должны быть одного типа.
Результат преобразования исходной таблицы представлен ниже (рис.
2.38).
Рисунок 2.38 – Результат обработки
Свёртка столбцов
1) Рассмотрим алгоритм использования обработчика Свёртка столбцов на примере данных файла region_servise.txt, который необходимо импортировать в новом проекте.
В нем содержаться данные по объему предоставляемых платных услуг, выраженных в млн. руб. с 1995 по 2006 г. населению. Рассмотренные данные понадобятся аналитику для прогнозирования развития рынка услуг и отслеживания его динамики (рис. 2.39).
Рисунок 2.39 – Исходные данные
Необходимо преобразовать исходную таблицу, в такой вид чтобы она содержала данные по объему предоставляемых услуг в одном столбце.
Воспользуемся обработчиком Свёртка столбцов. (Для поля 2007 исправить тип поля на вещественный и разделитель дробной части – на точку).
2) Преобразование исходной таблицы данных.
Выберем обработчик Свёртка-столбцов (рис. 2.40). из окна Мастер обработки. Наша задача заключается в создании столбца фактов – Объем предоставляемых платных услуг населению и столбца измерения – Год, где будут храниться рассматриваемые годы.
Рисунок 2.40 – Настройка назначений для свёртки столбцов
В появившемся окне Мастера обработки произведем настройку полей, переместим Регионы в информационные, а все рассматриваемые годы – в транспонируемые. Поля, которые переместились в информационные, изменению не подлежат, а транспонируемые поля объединяются в одно с помощью слияния их значений.
На следующем шаге задаем название новым полям.
В Поле меток транспонируемых столбцов, которое будет содержать перечисление рассматриваемых лет, присвоим значения: имя – Year и метка Год (рис. 2.41).
Рисунок 2.41 – Значения параметров
В Поле значений транспонируемых столбцов, содержащее данные по объему предоставляемых платных услуг населению по годам, присвоим имя Summ и метку Объем платных услуг населению.
Имеется возможность восстановить значения по умолчанию нажатием соответствующей кнопки.
После нажатия кнопки Далее запустим процесс на обработку.
На последнем шаге Мастера выберем для просмотра результата визуализатор Таблица (рис. 2.42).
Рисунок 2.42 – Результат применения визуализатора Таблица
Установим флажок в поле Игнорировать пустые значения транспонированных полей, в соответствии с чем пустые значения транспонированных полей будут исключаться из рассматриваемого набора данных.
Результаты сохранить в файле L2_6.ded.
