ИИиМО_ЛР4
.pdfРассмотрим столбец переменной "Округ". Значимость данного столбца по отношению к выходному отсутствует. Поэтому его можно исключить из построения модели прогнозирования вероятности отклика (рис.61).
Рисунок 61 – Настройка узла Конечные классы: Округ (шаг 13)
На этом формирование конечных классов окончено. Однако у нас осталось тестовое множество. Оно не принимало участие в формировании конечных классов, но данные записи требуется преобразовать к такому же виду, как и обучающее множество. Для этого воспользуемся узлом Скрипт. После чего слиянием добавим эти записи к обучающему множеству.
Для начала добавим узел Фильтрация к узлу Разбиение на множества
(рис. 62,63). Перед добавление узла Фильтрация добавим узел Настройка набора данных к Конечные классы. Установим следующие параметры набора данных (табл. 2). К узлу Фильтрация добавим узел Скрипт (рис. 64-69).
Таблица 2 – Параметры данных
Наименование |
Тип данных |
Вид данных |
Назначение |
данных |
|
|
|
Клиент.Код |
Целый |
Непрерывный |
Информационное |
Дата актуальности |
Дата/Время |
Дискретный |
Неиспользуемое |
Пол |
Строковый |
Дискретный |
Неиспользуемое |
Возрастная группа |
Строковый |
Дискретный |
Неиспользуемое |
Статус |
Строковый |
Дискретный |
Неиспользуемое |
Длительность |
Целый |
Непрерывный |
Неиспользуемое |
регистрации (мес.) |
|
|
|
Счет |
Вещественный |
Непрерывный |
Неиспользуемое |
Округ |
Строковый |
Дискретный |
Неиспользуемое |
Сегмент достатка |
Строковый |
Дискретный |
Неиспользуемое |
Отклик |
Логический |
Дискретный |
Выходное |
Признак тестового |
Логический |
Дискретный |
Информационное |
множества |
|
|
|
Пол|Номер |
Целый |
Дискретный |
Неиспользуемое |
Пол|Метка |
Строковый |
Дискретный |
Входное |
Возрастная |
Целый |
Дискретный |
Неиспользуемое |
группа|Номер |
|
|
|
Возрастная |
Строковый |
Дискретный |
Входное |
группа|Метка |
|
|
|
Статус|Номер |
Целый |
Дискретный |
Неиспользуемое |
Статус|Метка |
Строковый |
Дискретный |
Входное |
Длительность |
Целый |
Дискретный |
Неиспользуемое |
регистрации |
|
|
|
(мес.)|Номер |
|
|
|
Длительность |
Строковый |
Дискретный |
Входное |
регистрации |
|
|
|
(мес.)|Метка |
|
|
|
Счет|Номер |
Целый |
Дискретный |
Неиспользуемое |
Счет|Метка |
Строковый |
Дискретный |
Входное |
Округ|Номер |
Целый |
Дискретный |
Неиспользуемое |
Округ|Метка |
Строковый |
Дискретный |
Входное |
Сегмент |
Целый |
Дискретный |
Неиспользуемое |
достатка|Номер |
|
|
|
Сегмент |
Строковый |
Дискретный |
Входное |
достатка|Метка |
|
|
|
Рисунок 62 – Фильтрация множества: признак тестового множества = истина
Рисунок 63 – Фильтрация множества: результат
Рисунок 64 – Настройка узла Скрипт (шаг 1)
Рисунок 65 – Настройка узла Скрипт (шаг 2)
Рисунок 66 – Настройка узла Скрипт (шаг 3)
Рисунок 67 – Настройка узла Скрипт (шаг 4)
Рисунок 68 – Настройка узла Скрипт (шаг 5)
Рисунок 69 – Настройка узла Скрипт: результат настройки узла Скрипт
К узлу Настройка набора данных добавим узел Слияние с другим узлом
(рис. 70-75).
Рисунок 70 – Настройка узла Слияние с узлом (шаг 1)
Рисунок 71 – Настройка узла Слияние с узлом (шаг 2)
Рисунок 72 – Настройка узла Слияние с узлом (шаг 3)
Рисунок 73 – Настройка узла Слияние с узлом (шаг 4)
Рисунок 74 – Настройка узла Слияние с узлом (шаг 5)
Рисунок 75 – Настройка узла Слияние с узлом: результат
После процедуры формирования конечных классов все готово для построения модели прогнозирования вероятности отклика предложение о приобретении продуктов новой линии. Для данных целей хорошо себя зарекомендовал такой инструмент логистическая регрессия (линейный классификатор). Применим данный инструмент к предобработанным данным
(рис. 76-84). Настройка назначения столбцов показана на рисунке 77. Следующий шаг связан с настройкой разбиения множеств: по столбцу Признак тестового множества (рис. 78). На следующем шаге предлагается выбрать метод отбора переменных в модель. Поскольку конечные классы и "отсекли" незначимые столбцы были отсечены, то необходимости в пошаговых процедурах нет, оставим метод "Полное включение" (рис.79). На шаге настройки параметров регрессионной модели оставим все без изменений. Событием является Отклик = TRUE, следовательно, модель будет прогнозировать вероятность отклика (рис.80). Следующий шаг — это калибровка будущей модели. Дело в том, что представленные в обучающей и тестовой выборке пропорции событий и не-событий не соответствуют истинным, предположительно наблюдаемым в генеральной совокупности (вся клиентская база). Это значит, что модель логистической регрессии, построенная на перевзвешенной выборке, будет генерировать псевдовероятности (в данном случае - завышать их). Поэтому их нужно скорректировать и делается это путем внесения поправки. В постановке задачи говорилось, что отклик на предложение составляет в среднем величину 3,7%. Именно ее (в виде числа 0,037) и внесем в поле Событие генерального множества (рис. 81). На последнем шаге мастера настроим параметры преобразования регрессионной модели в балльную скоринговую карту. Активируем флаг Округлять балл до целого значения (рис.82). Для отображения полученных результатов выберем следующие способы отображения: Коэффициенты регрессии, Отчет по регрессии, Качество классификации (рис.84).