
- •Інформаційні системи та технології в управлінні методичні вказівки
- •1 Введення до систем підтримки прийняття рішень 4
- •2 Бізнес - прогнозування 25
- •3 Кластерний аналіз в бізнес-аналітиці 43
- •4 Вирішення задач класифікації
- •5 Література 120
- •1 Введение в Системы Поддержки Принятия Решений (сппр)
- •1.1 Определение сппр
- •1.2 Классификация сппр
- •1.3 Архитектура сппр
- •1.4 Анализ данных – основные принципы
- •1.5 Базовые методы анализа
- •1) Online Analytical Processing
- •2) Knowledge Discovery in Databases
- •3) Data Mining
- •1.6 Примеры задач, где применяются методы Data Mining
- •1.7 Программа Deductor – платформа для создания сппр
- •1.8 Контрольные вопросы
- •2 Корреляционный анализ
- •2.1 Теоретические сведения
- •2.3 Задание для самостоятельной работы
- •2.4. Контрольные вопросы
- •3 Бизнес - Прогнозирование
- •3.1 Теоретические сведения
- •3.2 Компьютерные пакеты для решения задач прогнозирования
- •3.3 Временные ряды
- •3.3.1 "Наивные" модели прогнозирования
- •3.3.2 Средние и скользящие средние
- •3.3.3 Моделирование временного ряда
- •Ar(p) -авторегрессионая модель порядка p. Модель имеет вид:
- •3.3.4 Нейросетевые модели прогнозирования
- •3.3.6 Предобработка данных
- •3.4 Пример прогнозирования с помощью линейной регрессии
- •3.4.1 Импорт данных из файла
- •3.4.2 Настройка параметров столбцов
- •3.4.3 Расчет автокорреляции столбцов
- •3.4.4 Удаление аномалий
- •3.4.5 Сглаживание данных – удаление шумов
- •3.4.6 Преобразование данных к скользящему окну
- •3.4.7 Прогнозирование с помощью линейной регрессии
- •3.5 Прогнозирование с помощью нейронных сетей
- •3.5.1 Исходные данные
- •3.5.2 Удаление аномалий и сглаживание
- •3.5.3 Обучение нейросети (прогноз на 1 месяц вперед)
- •3.5.4 Построение прогноза
- •3.5.5 Результат
- •3.5.6 Выводы
- •3.6 Задание к лабораторной работе
- •3.7 Контрольные вопросы
- •4 Кластерный анализ в бизнес-аналитике
- •4.1. Теоретические основы
- •4.2 Меры близости в алгоритмах кластеризации
- •4.3 Алгоритмы кластеризации
- •4.4 Решение типовой задачи кластеризации в Deductor
- •4.4.1 Кластеризация
- •4.4.2 Выводы
- •4.6 Задания для самостоятельной работы
- •4.7 Контрольные вопросы
- •5 Методы решения задач классификации
- •5.1 Опис процесу класифікації
- •5.2 Оцінка якості моделі класифікації
- •5.3 Скоринговые модели для оценки кредитоспособности заемщиков – пример задачи классификации на основе логистической регрессии
- •5.3.1 Постановка задачи
- •5.3.2 Скоринговая карта на основе логистической регрессии
- •5.3.3 Построение модели в системе Deductor.
- •5.4 Классификация на основе дерева решений
- •5.4.1 Процесс конструирования дерева решений
- •5.4.2 Скоринговая модель на основе дерева решений
- •5.3.4 Интерактивное дерево решений
- •5. Задания к лабораторной работе
- •5.5 Контрольные вопросы
- •5 Литература
5.3 Скоринговые модели для оценки кредитоспособности заемщиков – пример задачи классификации на основе логистической регрессии
Технологии кредитного скоринга – автоматической оценки кредитоспособности физического лица – в банковской сфере традиционно уделяется повышенное внимание. Сегодня можно сказать, что экспертные методы уходят в прошлое, и все чаще при разработке скоринговых моделей обращаются к алгоритмам Data Mining. Классическую скоринговую карту можно построить при помощи логистической регрессии на основе накопленной кредитной истории, применив к ней ROC-анализ для управления рисками. Кроме того, хорошие и легко интерпретируемые модели можно получить, используя деревья решений.
5.3.1 Постановка задачи
В коммерческом банке имеется продукт «Нецелевой потребительский кредит»: кредиты предоставляются на любые цели с принятием решения в течение нескольких часов. За это время проверяются минимальные сведения о клиенте, в основном такие, как отсутствие криминального прошлого и кредитная история в других банках.
В банке накоплена статистическая информация о заемщиках и качестве обслуживания ими долга за несколько месяцев. Руководство банка, понимая, что отсутствие адекватных математических инструментов, позволяющих оптимизировать риски, не способствует расширению розничного бизнеса в области потребительского кредитования, поставило перед отделом розничных рисков задачу разработать скоринговые модели с различными стратегиями кредитования, которые позволили бы управлять рисками, настраивая уровень одобрений, и минимизировать число безнадежных заемщиков.
Исходные данные. Информация о заемщиках – физических лицах и кредитных договорах хранится в банковской информационной системе. Там же содержатся графики и даты погашений кредита, сведения о просрочках, об их суммах, о процентах и т.д. Будем считать, что мы получили эту информацию в виде текстового файла.
Важным является вопрос, что понимать под параметрами заемщика. В банковской практике перед скорингом заемщик, как правило, проходит процедуру андеррайтинга – проверку на удовлетворение жестким требованиям: соответствие возрасту отсутствие криминального прошлого, наличие определенного дохода. При этом выдвигаются требования к минимальному уровню дохода и рассчитывается возможный лимит кредита. При его расчете участвует один из двух коэффициентов - либо О/Д.
Коэффициент «Платеж/Доход» (П/Д) – отношение ежемесячных платежей по кредиту заемщика к его доходу за этот период. Считается, что значительная величина этого коэффициента свидетельствует о повышенном риске как для кредитора так и для заемщика.
Коэффициент «Обязательства/Доход» (О/Д) – отношение ежемесячных обязательств заемщика к его доходу за тот же период с учетом удержаний налогов. В обязательства включаются расходы, связанные с выплатой планируемого кредита, а также имеющиеся другие долгосрочные обязательства. Считается, что размер ежемесячных обязательств заемщика не должен превышать 50-60% его совокупного чистого дохода.
Заявки клиентов, не прошедшие андеррайтинг, получат отказ и даже не попадут на скоринг. Поэтому на вход скоринговой процедуры выгоднее подавать не доход, а отношение О/Д или П/Д.
В нашей задаче представлены 2709 кредитов (файл loans.txt) с известными исходами платежей на протяжении нескольких месяцев после выдачи кредита. Набор данных уже разбит на два множества – обучающее (80%) и тестовое (20%) так, чтобы в каждом множестве доля плохих кредитов была примерно одинакова. Структура и описание полей текстового файла с кредитными историями приведены в таблице 5.2.
Таблица 5.2 - Данные по заемщикам
№ |
Поле |
Описание |
Тип |
1 |
Код |
Служебный код заявки |
Целый |
2 |
Дата |
Дата выдачи кредита |
Дата/время |
3 |
О/Д % |
Коэффициент Обязательства/Доход |
Веществен. |
4 |
Возраст |
Возраст заемщика на момент принятия решения о выдаче кредита |
Целый |
5 |
Проживание |
Основание для проживания: собственник; муниципальное жилье; аренда. |
Строковый |
6 |
Срок проживания в регионе |
Менее 1 года; от 1 года до 5 лет; свыше 5 лет. |
Строковый |
7 |
Семейное положение |
Холост/не замужем; женат/замужем; разведен(-а)/вдовство; другое. |
Строковый |
8 |
Образование |
Среднее; среднее специальное; высшее. |
Строковый |
9 |
Стаж работы на последнем месте |
Менее 1 года; от 1 года до 3 лет; свыше 3 лет. |
Строковый |
10 |
Уровень должности |
Сотрудник; руководитель среднего звена; руководитель высшего звена |
Строковый |
11 |
Кредитная история |
Информация берется из бюро кредитных историй. Если имеется негативная информация о клиенте (просрочки по прошлым кредитам), то ему присваивается категория «отрицательная» |
Строковый |
12 |
Просрочки свыше 60 дней |
Факт наличия просрочек свыше 60 дней: 0 – отсутствовали; 1 – имели место |
Целый |
13 |
Тестовое множество |
Служебный признак, отвечающий за то, к какому множеству относится запись. TRUE соответствует тестовому множеству. |
Логическ. |