- •Інформаційні системи та технології в управлінні методичні вказівки
- •1 Введення до систем підтримки прийняття рішень 4
- •2 Бізнес - прогнозування 25
- •3 Кластерний аналіз в бізнес-аналітиці 43
- •4 Вирішення задач класифікації
- •5 Література 120
- •1 Введение в Системы Поддержки Принятия Решений (сппр)
- •1.1 Определение сппр
- •1.2 Классификация сппр
- •1.3 Архитектура сппр
- •1.4 Анализ данных – основные принципы
- •1.5 Базовые методы анализа
- •1) Online Analytical Processing
- •2) Knowledge Discovery in Databases
- •3) Data Mining
- •1.6 Примеры задач, где применяются методы Data Mining
- •1.7 Программа Deductor – платформа для создания сппр
- •1.8 Контрольные вопросы
- •2 Корреляционный анализ
- •2.1 Теоретические сведения
- •2.3 Задание для самостоятельной работы
- •2.4. Контрольные вопросы
- •3 Бизнес - Прогнозирование
- •3.1 Теоретические сведения
- •3.2 Компьютерные пакеты для решения задач прогнозирования
- •3.3 Временные ряды
- •3.3.1 "Наивные" модели прогнозирования
- •3.3.2 Средние и скользящие средние
- •3.3.3 Моделирование временного ряда
- •Ar(p) -авторегрессионая модель порядка p. Модель имеет вид:
- •3.3.4 Нейросетевые модели прогнозирования
- •3.3.6 Предобработка данных
- •3.4 Пример прогнозирования с помощью линейной регрессии
- •3.4.1 Импорт данных из файла
- •3.4.2 Настройка параметров столбцов
- •3.4.3 Расчет автокорреляции столбцов
- •3.4.4 Удаление аномалий
- •3.4.5 Сглаживание данных – удаление шумов
- •3.4.6 Преобразование данных к скользящему окну
- •3.4.7 Прогнозирование с помощью линейной регрессии
- •3.5 Прогнозирование с помощью нейронных сетей
- •3.5.1 Исходные данные
- •3.5.2 Удаление аномалий и сглаживание
- •3.5.3 Обучение нейросети (прогноз на 1 месяц вперед)
- •3.5.4 Построение прогноза
- •3.5.5 Результат
- •3.5.6 Выводы
- •3.6 Задание к лабораторной работе
- •3.7 Контрольные вопросы
- •4 Кластерный анализ в бизнес-аналитике
- •4.1. Теоретические основы
- •4.2 Меры близости в алгоритмах кластеризации
- •4.3 Алгоритмы кластеризации
- •4.4 Решение типовой задачи кластеризации в Deductor
- •4.4.1 Кластеризация
- •4.4.2 Выводы
- •4.6 Задания для самостоятельной работы
- •4.7 Контрольные вопросы
- •5 Методы решения задач классификации
- •5.1 Опис процесу класифікації
- •5.2 Оцінка якості моделі класифікації
- •5.3 Скоринговые модели для оценки кредитоспособности заемщиков – пример задачи классификации на основе логистической регрессии
- •5.3.1 Постановка задачи
- •5.3.2 Скоринговая карта на основе логистической регрессии
- •5.3.3 Построение модели в системе Deductor.
- •5.4 Классификация на основе дерева решений
- •5.4.1 Процесс конструирования дерева решений
- •5.4.2 Скоринговая модель на основе дерева решений
- •5.3.4 Интерактивное дерево решений
- •5. Задания к лабораторной работе
- •5.5 Контрольные вопросы
- •5 Литература
5.4.2 Скоринговая модель на основе дерева решений
Теперь воспользуемся другим инструментом — деревом решений. Используйте таблицу, в которой вы уже создали выходное поле Класс заемщика.
Добавьте в сценарий одноименный узел через Мастер обработки.
669
На следующем шаге в качестве желаемого способа построения дерева оставьте режим автоматического построения. Запустив его нажатием кнопки Пуск, пройдите по шагам мастера дальше и выберите нужные визуализаторы, отметьте флажками Дерево решений, Значимость атрибутов, Что-если, Таблица сопряженности.
В результате работы алгоритма было выявлено 18 правил. Точность классификации на обучающем множестве составила 85 %, на тестовом — 87 %. Визуализатор Дерево решений позволяет увидеть полученный набор правил в схематическом виде, а также выводит показатели достоверности и поддержки для каждого узла (рис. 4.19). Это и есть скоринговая модель. Она менее привычна, поскольку здесь не начисляются баллы за характеристики заемщика, но тоже объясняет результат классификации того или иного заемщика.
В принципе, достоверность каждого правила можно воспринимать как итоговый скоринговый балл с той оговоркой, что для плохих заемщиков он равен величине, полученной вычитанием из 100%-ного значения достоверности.
Рисунок 5.19 – Скоринговая модель – дерево решений
Теперь откройте таблицы сопряженности этого дерева решений.
Рисунок 5.20 – Таблицы сопряженности для рабочей и тестовой выборки
Оказывается, в сравнении с моделью на основе логистической регрессии здесь совершенно другая ситуация. Дерево решений значительно чаще одобряет неблагонадежных заемщиков, потому что его построение идет в условиях несбалансированности классов. В результате доля дефолтных кредитов на тестовом множестве равна BR = 51 / 475 • 100 % = 10,7 %, что в 3 раза выше этого же показателя в логрегресионной модели (правда, уровень одобрений вырастает до 87,6%). Что делать, если такая ситуация не устраивает? В логистической регрессии для решения этой проблемы мы варьировали порогом отсечения, а в дереве решений такой возможности нет.
Нам помогут специальные стратегии сэмплинга для уравновешивания обучающего множества: выборка с дублированием миноритарного класса (oversampling) и выборка с удалением примеров мажоритарного класса (undersampling). Поскольку примеров не так много (400 — с плохими клиентами и 1767 — с хорошими) и информация о каждом заемщике представляет ценность, имеет смысл использовать первый вариант — с дублированием. Пусть отношение издержек ошибочной классификации останется прежним: 1 :4. Тогда, согласно правилу, к обучающей выборке нужно добавить 3 • 400 = 1200 примеров, и общее число записей составит 3367, а доля плохих увеличится до 47 %.
Процедуру дублирования записей, принадлежащих к миноритарному классу, нужно осуществлять только на обучающем множестве.
Для этой операции снова привлечем несколько узлов из группы Трансформация данных. Фильтр и Слияние данных (рис. 5.21).
Построив дерево решений по сбалансированной выборке, убедитесь, что ситуация улучшилась: теперь на тестовом множестве модель чаще отказывает в выдаче хорошим заемщикам, нежели одобряет плохих. Эти результаты сравнимы с теми, которые выдает модель логистической регрессии.
Таким образом, мы получили несколько скоринговых моделей. Варьируя порогами отсечения и применяя специальные приемы борьбы с несбалансированностью классов, можно подобрать ту модель, которая отвечает заданным потребностям кредитного учреждения по уровню одобрений заявок и ожидаемой доле просроченной задолженности. Проверять новых клиентов можно при помощи обработчика Скрипт.
Рисунок 5.21 – Сценарий для построения скоринговой модели на основе дерева решений