ИИиМО_ЛР4
.pdfформирования конечных классов из начальных применяются специальные вычислительные процедуры, максимизирующие информационный индекс.
Для логистической регрессии формирование конечных классов - очень важный этап. Кратко перечислим причины этого:
категоризация позволяет смоделировать нелинейные зависимости в линейной модели;
категоризация помогает бороться с проблемой выбросов, экстремальных значений и редких категорий;
категоризация позволяет построить регрессионные модели, работающие с пропущенными значениями;
категоризация позволяет лучше понять взаимосвязи между переменными.
Данные процедуры реализует узел Конечные классы. Алгоритмы формирования конечных классов используют знания о выходной переменной. Таким образом, для корректной оценки качества классификационной модели, построенной с использованием предобработанных конечными классами столбцов, тестовое множество использовать нельзя. Поэтому перед узлом конечных классов поставим фильтр с условием Признак тестового множества = ложь (рис. 48). Далее рассмотрим настройку узла Конечные классы (рис. 49-61).
Рисунок 48 – Фильтрация входных данных
Рисунок 49 – Настройка узла Конечные классы (шаг 1)
Поле Отклик будет выходным, и событием в нем назначим уникальное значение TRUE. Поля Признак тестового множества, Клиент.Код и Дата актуальности объявим информационными, остальные - входными. Все остальные настройки изменять не будем. В итоге откроется интерактивный визуализатор Конечные классы с результатами автоматической категоризации входных полей. Справа расположен список столбцов с рассчитанной значимостью и информационным индексом. Двойным щелчком по заголовку Значимость отсортируем его (по убыванию степени значимости).
Рисунок 50 – Настройка узла Конечные классы (шаг 2)
Рисунок 51 – Настройка узла Конечные классы (шаг 3)
Рисунок 52 – Настройка узла Конечные классы: результаты (шаг 4) Для просмотра настроек всех столбцов необходимо нажать на кнопку
. Для входа в режим редактирования результатов формирования
конечных классов нажмем на кнопку . В этом режиме можно внести любые изменения: сдвинуть границы, объединить или разделить классы, задать другие параметры минимальной доли и максимального количества классов. В ряде случаев это требуется для повышения интерпретируемости конечных классов.
Рисунок 53 – Настройка узла Конечные классы: редактирование (шаг 5)
Рассмотрим столбец переменной "Возрастная группа". Два конечных класса, предложенных автоматическим алгоритмом, мало. Увеличим число конечных классов до 3-х путем разделения возрастных групп '40-60' и 'старше 60'. Получим диаграмму WoE-индексов (рис. 54). Наиболее склонны к отклику люди до 40 лет, а также клиенты с пропущенными значениями в поле возрастной группы. Наименее склонны клиенты старше 60 лет. Поле обладает высокой значимостью.
Рисунок 54 – Настройка узла Конечные классы: возрастная группа (шаг 6)
Класс пропусков был присоединен к мужскому полу. Наиболее склоны к отклику женщины. Ручные правки конечных классов не требуются. Поле обладает высокой значимостью (рис.55).
Рисунок 55 – Настройка узла Конечные классы: пол (шаг 7)
Рассмотрим столбец переменной "Сегмент достатка". Два конечных класса, предложенных автоматическим алгоритмом, слишком сильно огрубляют исходные данные. Увеличим число конечных классов до 3-х путем разделения двух последних начальных классов. Получим диаграмму WoE-индексов (рис. 56). Люди с высоким сегментом достатка 'от 80 т.р.' чаще откликаются на предложение. О клиентах с пропущенными значениями и о клиентах в сегменте 'от 20 до 80 т.р.' ничего определенного сказать нельзя: число событий и не-событий в этих группах примерно такое же, как во всей обучающей выборке в целом. Поле обладает высокой значимостью.
Рисунок 56 – Настройка узла Конечные классы: сегмент достатка (шаг 8)
Рассмотрим столбец переменной "Статус". Уникальные значения 'Золотой' и 'Платиновый' были объединены между собой. Данные клиенты меньше всего склонны к отклику. Ручные правки конечных классов не требуются. Поле обладает низкой значимостью (рис.57).
Рисунок 57 – Настройка узла Конечные классы: статус (шаг 9)
Рассмотрим столбец переменной "Счет". Исходное поле непрерывное, и аудит данных показал наличие выбросов и экстремальных значений в нем. Оптимальное квантование сформировало всего лишь два класса. Клиенты, потратившие больше ~7400 рублей, слабо реагируют на отклик. Ручные правки конечных классов не требуются. Поле обладает низкой значимостью
(рис.58).
Рисунок 58 – Настройка узла Конечные классы: счет (шаг 10) Рассмотрим столбец переменной "Длительность регистрации (мес.)".
Аналогично столбцу Счет, это поле также непрерывное, и аудит данных показал наличие выбросов и экстремальных значений в нем. Автоматический вариант следует признать неудовлетворительным (рис.59). Постоянные "развороты" (точки, в которых соседние конечные классы меняют знаки) привели к пилообразной форме диаграммы WoE-индексов. Эти "развороты" не имеют логического объяснения, вероятно, нужно сокращать число классов.
Сократим их до 3-х. Картина улучшилась: диаграмма WoE-индексов стала монотонно возрастающей. Клиенты, долго сотрудничающие с компанией, менее склонны к откликам. Поле обладает низкой значимостью
(рис.60).
Рисунок 59 – Автоматическая настройка Конечные классы: длительность регистрации (шаг 11)
Рисунок 60 – Настройка узла Конечные классы: длительность регистрации
(шаг 12)