- •Интеллектуальный анализ данных Лабораторный практикум
- •5.05010101 «Обслуживание программных систем и комплексов»
- •Касилов о.В., Компаниец в.А.
- •Содержание
- •Вступление
- •Лабораторная работа № 1
- •Начало работы с системой Deductor Studio 5 .2
- •Мастер импорта;
- •Сценарии
- •Базовые визуализаторы
- •Построение многомерной диаграммы
- •Работа с визуализатором Таблица
- •Очистка данных
- •Парциальная предобработка
- •Редактирование аномальных значений
- •Спектральная обработка (сглаживание)
- •Факторный анализ
- •Корреляционный анализ
- •Дубликаты и противоречия
- •Лабораторная работа № 2 трансформация данных
- •Разбиение даты
- •Преобразование данных к скользящему окну
- •Группировка данных
- •Слияние данных
- •Квантование
- •Настройка набора данных
- •Фильтрация данных
- •Сортировка, замена значений
- •Замена значений
- •Кросс-таблица
- •Свёртка столбцов
- •Вопросы для проверки
- •Лабораторная работа № 3 работа с хранилищем данных
- •Рассмотрим пример проектирования структуры хд
- •Создание нового хранилища данных
- •Настройка подключения хранилища данных
- •Проектирование структуры хранилища данных
- •Наполнение хранилища данных
- •Извлечение информации из хранилища данных Импорт из процесса
- •Импорт из измерения
- •Кубы в Deductor Warehouse
- •Самостоятельная работа по созданию хранилища данных
- •Вопросы для проверки
- •Лабораторная работа № 4
- •Многомерный анализ данных при помощи встроенного в Deductor olap модуля.
- •Добавление новых данных в хд
- •Получение olap-отчетов
- •Формирование отчета по объемам продаж за последние четыре месяца по товарным группам
- •Манипуляции с измерениями
- •Формирование отчета по каждой аптеке за каждый месяц
- •Фильтрация
- •Построение аналитической отчетности
- •Самостоятельная работа по созданию кросс-таблицы и кросс- диаграммы
- •Вопросы для проверки
- •Лабораторная работа № 5
- •Узел Калькулятор
- •Задание
- •Проведение abc-анализа
- •Суть метода
- •Алгоритм авс-анализа
- •Выполнение abc-анализа
- •Stat("ИмяСтолбца";"Тип")
- •CumulativeSum("ИмяПоля"; ["ИмяПоляГруппы"])
- •Проведение xyz-анализа
- •Суть метода
- •Алгоритм xyz-анализа
- •Выполнение xyz-анализа
- •Проведение abc-xyz-анализ
- •Суть метода
- •Выполнение abc-xyz -анализа
- •Вопросы для проверки
- •Лабораторная работа № 6
- •1. Логистическая регрессия и roc-анализ
- •Деревья решений
- •Прогнозирование с помощью линейной регрессии
- •Прогнозирование с помощью построения пользовательских моделей
- •Лабораторная работа № 7 искусственные нейронные сети
- •1. Искусственные нейронные сети
- •Пример работы многослойного персептрона
- •Аппроксимация многомерных функций
- •Лабораторная работа № 8
- •Кластеризация с помощью алгоритма k-means
- •2. Сегментация клиентов телекоммуникационой компании с использованием карт Кохонена
- •Кластеризация при равном весе входных атрибутов
- •Кластеризация при различных весах входных атрибутов. Акцент на выделении кластера Активная молодеж ь
- •Кластеризация при ограничении набора входных атрибутов. Акцент на выделении кластера Активная молодеж ь
- •Лабораторная работа № 9 ассоциативные правила
- •Алгоритм поиска ассоциативных правил
- •Создание ассоциативных правил для анализа покупательских корзин для стимулирования спроса
- •Интерпретация ассоциативных правил
- •Полезные советы:
- •4. Визуализатор Что-если в ассоциативных правилах
- •Список литературы
- •Інтелектуальний аналіз даних Лабораторний практикум
Кластеризация при различных весах входных атрибутов. Акцент на выделении кластера Активная молодеж ь
Импортировать в Deductor набор данных из файлов mobile.txt.
Запустить Мастер обработки и выбрать узел Карта Кохонена.
Выполнить настройку нормализации входных столбцов (наиболее значимыми будут поля Возраст, Звонков ночью за месяц и Количество SMS за месяц) (рис. 8.32).
Рисунок 8.32 – Настройка нормализации данных
Большие значения в двух последних указанных полях как раз и должны характеризовать группу абонентов «Активная молодежь», поскольку для них характерны активное пользование SMS-сообщениями и звонки в ночное время.
Настроить карту Кохонена с параметрами из предыдущего примера.
Проанализировав полученные карты, самостоятельно выделить кластер Активная молодежь (много ночных разговоров, много SMS, юный возраст) (рис. 8.33).
Получить статистику по полученному выделению.
Выполнить автоматическую кластеризацию абонентов (рис. 8.35), воспользовавшись кнопкой
,
принудительно установив число
кластеров,
равным 3 (рис.
8.34).
Рисунок 8.33 – Полученные карты Кохонена
Рисунок 8.34 – Настройка кластеров |
Рисунок 8.35 – Кластеризация абонентов |
Обратите внимание, что один из кластеров явно соответствует группе
Активная молодежь.
Получить статистику по интересующему нас кластеру (рис. 8.36), настроить и проанализировать профили кластеров (рис. 8.37).
Рисунок 8.36 – Статистика по кластеру |
Рисунок 8.37 – Оценка статистики по заданному кластеру |
Получить карты Кохонена, делая акцент на формировании кластера VIP-клиенты – самые высокие расходы, продолжительные разговоры, частые международные звонки, много разговоров в рабочее время.
Сохраните результат в файле L8_2.ded.
Кластеризация при ограничении набора входных атрибутов. Акцент на выделении кластера Активная молодеж ь
Импортировать в Deductor набор данных из файлов mobile.txt
Запустить Мастер обработки и выбрать узел Карта Кохонена.
Выбрать в качестве входных параметров поля Возраст, Звонков ночью за месяц и Количество SMS за месяц, остальные поля сделать выходными (рис. 8.38).
Рисунок 8.38 – Настройка назначений столбцов
3) Настроить параметры обучения как в предыдущих примерах. И запустить процесс построения карты Кохонена.
Проанализировав полученные карты, самостоятельно выделить кластер Активная молодежь (много ночных разговоров, много SMS, юный возраст) (рис. 8.39).
Получить статистику по полученному выделению. Обратите внимание на однородность заполнения ячеек выходных полей. Какой вывод можно из этого сделать? Предложить данной группе абонентов оптимальный тарифный план.
Выполнить автоматическую кластеризацию абонентов,
принудительно установив число кластеров, равным 3 (рис. 8.40).
Обратите внимание, что один из кластеров близок к той группе, которую мы выделяли ранее.
Рисунок 8.39 – Полученные карты Кохонена
Рисунок 8.40 – Автоматическая кластеризация абонентов
Получить статистику по интересующему нас кластеру (рис. 8.41), настроить и проанализировать профили кластеров.
Рисунок 8.41 – Статистика по заданному кластеру
Получить карты Кохонена, делая акцент на формировании кластера
«VIP-клиенты» – самые высокие расходы, продолжительные разговоры, частые международные звонки, много разговоров в рабочее время.
Сохраните результат в файле L8_2.ded.
Вопросы для проверки
Как выделить множество ячеек на карте и посмотреть объекты, попавшие в них?
Как поставить текстовую метку на ячейке?
Как проще всего посмотреть статистику по объектам, попавшим в ячейку?
Какой кластер в приведенной бизнес-задаче, скорее всего, не удалось бы обнаружить при масштабе карты 16x12?
В каких случаях следует задавать значимость входных полей?
Как карта Кохонена может использоваться в задаче восстановления пропусков в данных? Опишите шаги, необходимые для этого.
Почему при кластеризации в обработчике Карта Кохонена могут быть выходные поля? Каково их предназначение?
В каком случае для карты Кохонена лучше установить цветовую палитру в серых тонах? Почему?
Как сегментируются покупатели супермаркета на основе расчета индекса НОР?
Опишите, как можно проводить сегментацию товаров методами кластеризации.
