ИИиМО_ЛР4
.pdfРисунок 76 – Настройка узла Логистическая регрессия (шаг 1)
Рисунок 77 – Настройка узла Логистическая регрессия (шаг 2)
Рисунок 78 – Настройка узла Логистическая регрессия (шаг 3)
Рисунок 79 – Настройка узла Логистическая регрессия (шаг 4)
Рисунок 80 – Настройка узла Логистическая регрессия (шаг 5)
Рисунок 81 – Настройка узла Логистическая регрессия (шаг 6)
Рисунок 82 – Настройка узла Логистическая регрессия (шаг 7)
Рисунок 83 – Настройка узла Логистическая регрессия (шаг 8)
Рисунок 84 – Настройка узла Логистическая регрессия (шаг 9)
Проанализируем полученные результаты с помощью визуализаторов. Сначала откроем Отчет по регрессии (рис.85) для анализа статистической значимости как всей модели, так и отдельных ее компонент. Значимость всей модели P < 0,00001. Значимость большинства коэффициентов регрессии также менее 0,001, кроме 'Длительность регистрации до 21' и 'Счет = от 7407,856'. По ним недостаточно данных, чтобы считать их статистически значимыми. В целом делаем вывод, что модель статистически значима, и ее можно использовать для прогнозов.
Следующий визуализатор - Коэффициенты регрессии (рис. 86) - повторяет часть информации из предыдущего визуализатора в более удобном виде, а также выводит баллы при фиктивных переменных регрессии. Можно заметить, что тем атрибутам, которым WoE-анализ дал минимальный индекс, присваивается наибольший балл. Так, для атрибута Возрастная группа = [до 40; Класс пропусков] присваивается 43 балла. Так и есть: WoE-анализ показал, что наиболее склонны к отклику молодые клиенты.
Рисунок 85 – Отчет по регрессии
Рисунок 86 – Коэффициенты регрессии
Откроем следующий визуализатор - Качество классификации (рис.87). Он обладает широкими возможностями: выводит ROC- и Lift-кривые и основные метрики бинарных классификаторов: AUC, KS, Gini. ROC-кривая имеет площадь под кривой 0,79. Скоринговая карта отклика имеет хорошую предсказательную силу.
Рисунок 87 – Коэффициенты Качество классификации
Переключим график на кумулятивную Lift-кривую (рис.88,89). Диагональная (зеленая) линия отражает работу бесполезного классификатора, то есть случаю, когда списки получателей рассылки формируются случайным образом. График кривой, соответствующей нашей модели, проходит достаточно высоко, что говорит о хорошем качестве прогнозирования отклика клиента. Видим, что при объеме рассылки в 25 % от всей базы мы получим около 65 % откликов. Если бы мы проводили рассылку случайно, то для получения такого же отклика нам пришлось бы отправить письма 65% клиентам. Разница в 50 % и есть экономия, которую дает нам наша модель.
Рисунок 88 – Переключение графиков
Рисунок 89 – Кумулятивная Lift-кривая
Таким образом, была построена модель прогнозирования вероятности отклика. Применять ее можно к новым клиентам, в результате модели можно получить упорядоченный по убыванию вероятности отклика список покупателей. Клиентам с высокими вероятностями и следует адресовать предложение.
Сценарий всей модели представлен на рисунке 90.
Рисунок 90 – Сценарий логистической регрессии
Список литературы:
1.Логистическая регрессия: https://basegroup.ru/deductor/function/algorithm/logistic-regression
2.Логистическая регрессия и ROC-анализ — математический аппарат: https://loginom.ru/blog/logistic-regression-roc-auc
3.Справка по программе ПП «Deductor Studio»