1
Лабораторная работа №2.
Тема: Основные методы и способы анализа данных с помощью инструментария Deductor.
Порядок выполнения работы.
1. Проанализируем данные на основе построения деревьев решений. 1.1. Допустим в коммерческом банке имеется продукт «Нецелевой по-
требительский кредит»: кредиты на любые цели с принятием решения в течение нескольких часов. В банке накоплена статистическая информация о заемщиках и качестве обслуживания ими долга за несколько месяцев. Руководство банка, поставило перед отделом кредитования задачу разработать модель, позволяющую минимизировать риски невозврата кредита. На основе этой модели должно приниматься решение – выдать клиенту, обратившемуся в банк, кредит или отказать. Это бизнес-задача классификации заемщика, ее можно решить с помощью подхода, который основан на алгоритме дерева решений.
Исходные данные. В файлах data_credit_1.txt, data_credit_2.txt находятся исходные данные. Импортируйте данные из файла с помощью Мастера импорта в DStudio. Все параметры импорта примите установленными по умолчанию. В окне выбора способа отображения данных выберите «Таблица».
Описание. Запустите Мастер обработки. В появившемся окне в разделе Data Mining выберете метод обработки «Дерево решений» и нажмите «Далее». На вкладке «Настройка значения столбцов» необходимо задать назначения столбцов данных. Далее следует окно настройки разбиения исходного множества данных на подмножества. Исходное множество данных разбивается на 95% обучающегося множества и 5% тестового. Следующий этап – настройка параметров обучения дерева решений: минимальное количество примеров в узле, при котором будет создан новый 2; уровень доверия 20%.
Следующий этап – выбор способа построения дерева. Указываем «Автоматическое построение». На следующем шаге мастера выбирается способ визуализации полученных результатов – «Дерево решений», «Что-если», «Правила» и «Значимость атрибутов». Полученное дерево содержит в себе правила, следуя которым можно отнести заемщика в одну из групп риска и сделать вывод о выдаче кредита. Правила читаются с узлов, расположенных правее.
Заметим, что характеристики, лежащие ближе к вершине дерева, то есть левее, являются более значимыми. Из полученного дерева можно вывести правила выдачи кредитов и на его основании ответить на вопрос «Давать ли человеку кредит и если да, то при каких условиях».
На визуализаторе «Правила» представлен список всех правил, согласно которым можно выдавать кредит/ссуду или нет. Правила можно сортировать по поддержке, достоверности, фильтровать по выходному классу (к примеру, показать только те правила, согласно которым заемщику выдается кредит с сортировкой по поддержке).
2
На визуализаторе «Что-если» можно получить форму анализа «Чтоесли Х», позволяющего получить значение выходной переменной «Давать кредит», задав значения входных переменных.
1.2. Пусть имеем данные о том, как голосуют депутаты конгресса США по различным законопроектам. Также известна партийная принадлежность каждого депутата – республиканец или демократ. Задача: классифицировать депутатов на демократов и республиканцев в зависимости от того, как они голосуют.
Исходные данные. Данные по голосованию находятся в файле Vote.txt. Таблица содержит следующие поля : «Код» – порядковый номер, «Класс» – класс голосующего (демократ или республиканец), остальные поля информируют о том, как голосовали депутаты за принятие различных законопроектов («да», «нет», «воздержался»).
Описание. В Мастере построения дерева решения на втором шаге настроим поле «Код» информационным, «Класс» выходным, остальные поля входными. Способ разбиения исходного множества данных на обучающее и тестовое те же, разбиения случайный способ (данные для тестового и обучающего множества берутся из исходного набора случайным образом). На следующем шаге Мастера задаются параметры процесса обучения (минимальное количество примеров, при котором будет создан новый узел (узел создается, если в него попали два и более примеров), возможность строить дерево с более достоверными правилами оставляем включенным, а отсекать узлы дерева – выключенным).
В данном примере основной целью аналитика является отнесение депутата к той или иной партии, поэтому механизм отнесения должен быть таким, чтобы депутат указал, как он будет голосовать за различные законопроекты, а дерево решений ответит на вопрос, кто он – демократ или республиканец.
Для визуализации полученных результатов выберем «Что-если», «Дерево решений», «Правила», «Значимость атрибутов». Узнаем, сколько примеров было распознано неверно, какие именно примеры были отнесены к какому классу ошибочно, для чего выберем также визуализатор «Таблица сопряженности».
По диагонали таблицы расположены примеры, которые были правильно распознаны, в остальных ячейках – те, которые были отнесены к другому классу.
2. Прогнозирование с помощью линейной регрессии.
Линейная регрессия необходима тогда, когда предполагается, что зависимость между входными факторами и результатом линейная. Достоинством ее можно назвать быстроту обработки входных данных и простоту интерпретации полученных результатов.
Исходные данные. Рассмотрим применение линейной регрессии на примере данных по продажам, находящихся в файле Trade.txt. Построим прогноз с помощью линейной регрессии от ветки импорта «Данные по продажам товаров» сразу после обработчика «Скользящее окно» (12, 0).
3
Описание. Для построения линейной регрессии необходимо запустить Мастер обработки и выбрать в качестве обработки данных Линейную регрессию. На первом шаге задаем назначение исходных столбцов. Предположим, что на прогноз влияет информация за 3 прошлых месяца, тогда укажем входными столбцами поля: «Количество -3», «Количество -2», и «Количество -1». В качестве выходного поля укажем столбец «Количество».
На следующем шаге настроим обучающее и тестовое множеств, способ разложения исходного множества данных.
Осуществим ограничение диапазона входных значений (оставим без изменений). В процессе выполнения видно, какая часть распознана на этапе обучения и теста.
После выполнения процесса выберем в качестве способа отображения диаграмму рассеяния и отображение результатов в виде диаграммы. Если из диаграммы рассеяния видно, что точность обучение не очень высокая, то необходимо вернуться и осуществить спектральную обработку данных, например, с помощью Фурье-преобразования с малой степенью вычитания шума.
Прогнозирование. Для построения прогноза на основе линейной регрессии запустим Мастера обработки, в котором выберем прогнозирование. На первом шаге обработчика происходит настройка связи столбцов для прогнозирования. Укажем связь между столбцами и горизонт прогноза равный 3.
4
На следующем шаге задаются параметры визуализации. Для данного примера выбираем отображение результатов в виде диаграммы прогноза. Теперь может быть дан прогноз о продажах, основываясь на модели, построенной с помощью линейной регрессией.
3. Кластеризация с помощью самоорганизующейся карты Кохонена. Самоорганизующаяся карта Кохонена является разновидностью
нейронной сети. Она применяется, когда необходимо решить задачу кластеризации, т.е. распределить данные по нескольким кластерам. Алгоритм определяет расположение кластеров в многомерном пространстве факторов. Исходные данные будут относиться к какому-либо кластеру в зависимости от расстояния до него. Многомерное пространство трудно для представления в графическом виде. Механизм же построения карты Кохонена позволяет отобразить многомерное пространство в двумерном, которое более удобно и для визуализации и для интерпретации результатов аналитиком.
Также с помощью построенной карты Кохонена можно решить и задачу прогнозирования. В этом случае результирующее поле (то, которое необходимо спрогнозировать) в построении карты не участвует. После кластеризации, используя диаграмму «Что-если», можно провести эксперимент. Алгоритм определяет точку пространства, где расположены введенные для прогноза данные и к какому кластеру принадлежит данная точка, и подсчитывает среднее по результирующему полю всех точек этого кластера, что и будет результатом прогноза (для дискретных данных результатом прогноза является значение, больше всего встречающееся в результирующем поле всех ячеек кластера).
Исходные данные. Рассмотрим механизм кластеризации путем построения самоорганизующейся карты, основываясь на информации по банкам. Исходная таблица находится в файле Banks.txt. Задача состоит в том, чтобы
5
определить по различным данным банка его прибыль и наличие скрытых закономерностей.
Описание. Для начала необходимо импортировать данные из файла. Далее запустим Мастер обработки и выберем из списка метод обработки «Карта Кохонена». На втором шаге Мастера настроим назначения столбцов. Укажем столбцу «Прибыль» назначение «Выходной», а «Филиалы», «Сумма активов», «Собственные активы», «Банковские активы», «Средства в банке»
– «Входной», т. е. на основе данных о банке будем относить его к тому или иному классу.
На третьем шаге Мастера необходимо настроить способ разделения исходного множества данных на тестовое и обучающее, а также количество примеров в том и другом множестве. Укажем, что данные обоих множеств берутся случайным образом, а остальные значения оставим без изменений.
Следующий шаг предлагает настроить параметры карты (Количество ячеек по Х и по Y, их форму) и параметры обучения (способ начальной инициализации, тип функции соседства, перемешивать ли строки обучающего множества и количество эпох, через которые необходимо перемешивание). Значения по умолчанию вполне подходят.
На следующем шаге Мастера следует настроить параметры остановки обучения.
На шестом шаге настраиваются остальные параметры обучения: способ начальной инициализации, тип функции соседства, а также параметры кла-
6
стеризации – автоматическое определение числа кластеров с соответствующим уровнем значимости либо фиксированное количество кластеров.
На седьмом шаге предлагается запустить сам процесс обучения. Во время обучения можно посмотреть количество распознанных примеров и текущие значения ошибок. Здесь нужно нажать на кнопку «Пуск» и дождаться завершения процесса обработки.
Далее в Мастере настройки отображения карты Кохонена надлежит указать поля, которые необходимы для отображения.
Получим Карту Кохонена.
Видим, что наиболее прибыльные банки попали в кластеры, что находятся в правой части карты. Для этих банков характерны большая сумма активов и средств в банке.
7
Данный пример показал область применения самоорганизующихся карт. Изначально имелось многомерное (четырехмерное) пространство входных факторов.
Алгоритм представил его в двумерном виде, который удобнее анализировать. Основным визуализатором после построения является «Самоорганизующаяся карта». Мастер предоставляет широкий набор настроек параметров обучения: настройка нормализации столбцов, настройка разбиения на тестовое и обучающее множество, настройка условий остановки обучения, настройка параметров карты и параметров обучения.
