Добавил:
vk.com СтудСклад КубГУ vk.com/studskladrn Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Архив С / 8 семестр / Жаркова / laboratornaya_rabota_2

.pdf
Скачиваний:
34
Добавлен:
11.08.2019
Размер:
328.35 Кб
Скачать

1

Лабораторная работа №2.

Тема: Основные методы и способы анализа данных с помощью инструментария Deductor.

Порядок выполнения работы.

1. Проанализируем данные на основе построения деревьев решений. 1.1. Допустим в коммерческом банке имеется продукт «Нецелевой по-

требительский кредит»: кредиты на любые цели с принятием решения в течение нескольких часов. В банке накоплена статистическая информация о заемщиках и качестве обслуживания ими долга за несколько месяцев. Руководство банка, поставило перед отделом кредитования задачу разработать модель, позволяющую минимизировать риски невозврата кредита. На основе этой модели должно приниматься решение – выдать клиенту, обратившемуся в банк, кредит или отказать. Это бизнес-задача классификации заемщика, ее можно решить с помощью подхода, который основан на алгоритме дерева решений.

Исходные данные. В файлах data_credit_1.txt, data_credit_2.txt находятся исходные данные. Импортируйте данные из файла с помощью Мастера импорта в DStudio. Все параметры импорта примите установленными по умолчанию. В окне выбора способа отображения данных выберите «Таблица».

Описание. Запустите Мастер обработки. В появившемся окне в разделе Data Mining выберете метод обработки «Дерево решений» и нажмите «Далее». На вкладке «Настройка значения столбцов» необходимо задать назначения столбцов данных. Далее следует окно настройки разбиения исходного множества данных на подмножества. Исходное множество данных разбивается на 95% обучающегося множества и 5% тестового. Следующий этап – настройка параметров обучения дерева решений: минимальное количество примеров в узле, при котором будет создан новый 2; уровень доверия 20%.

Следующий этап – выбор способа построения дерева. Указываем «Автоматическое построение». На следующем шаге мастера выбирается способ визуализации полученных результатов – «Дерево решений», «Что-если», «Правила» и «Значимость атрибутов». Полученное дерево содержит в себе правила, следуя которым можно отнести заемщика в одну из групп риска и сделать вывод о выдаче кредита. Правила читаются с узлов, расположенных правее.

Заметим, что характеристики, лежащие ближе к вершине дерева, то есть левее, являются более значимыми. Из полученного дерева можно вывести правила выдачи кредитов и на его основании ответить на вопрос «Давать ли человеку кредит и если да, то при каких условиях».

На визуализаторе «Правила» представлен список всех правил, согласно которым можно выдавать кредит/ссуду или нет. Правила можно сортировать по поддержке, достоверности, фильтровать по выходному классу (к примеру, показать только те правила, согласно которым заемщику выдается кредит с сортировкой по поддержке).

2

На визуализаторе «Что-если» можно получить форму анализа «Чтоесли Х», позволяющего получить значение выходной переменной «Давать кредит», задав значения входных переменных.

1.2. Пусть имеем данные о том, как голосуют депутаты конгресса США по различным законопроектам. Также известна партийная принадлежность каждого депутата – республиканец или демократ. Задача: классифицировать депутатов на демократов и республиканцев в зависимости от того, как они голосуют.

Исходные данные. Данные по голосованию находятся в файле Vote.txt. Таблица содержит следующие поля : «Код» – порядковый номер, «Класс» – класс голосующего (демократ или республиканец), остальные поля информируют о том, как голосовали депутаты за принятие различных законопроектов («да», «нет», «воздержался»).

Описание. В Мастере построения дерева решения на втором шаге настроим поле «Код» информационным, «Класс» выходным, остальные поля входными. Способ разбиения исходного множества данных на обучающее и тестовое те же, разбиения случайный способ (данные для тестового и обучающего множества берутся из исходного набора случайным образом). На следующем шаге Мастера задаются параметры процесса обучения (минимальное количество примеров, при котором будет создан новый узел (узел создается, если в него попали два и более примеров), возможность строить дерево с более достоверными правилами оставляем включенным, а отсекать узлы дерева – выключенным).

В данном примере основной целью аналитика является отнесение депутата к той или иной партии, поэтому механизм отнесения должен быть таким, чтобы депутат указал, как он будет голосовать за различные законопроекты, а дерево решений ответит на вопрос, кто он – демократ или республиканец.

Для визуализации полученных результатов выберем «Что-если», «Дерево решений», «Правила», «Значимость атрибутов». Узнаем, сколько примеров было распознано неверно, какие именно примеры были отнесены к какому классу ошибочно, для чего выберем также визуализатор «Таблица сопряженности».

По диагонали таблицы расположены примеры, которые были правильно распознаны, в остальных ячейках – те, которые были отнесены к другому классу.

2. Прогнозирование с помощью линейной регрессии.

Линейная регрессия необходима тогда, когда предполагается, что зависимость между входными факторами и результатом линейная. Достоинством ее можно назвать быстроту обработки входных данных и простоту интерпретации полученных результатов.

Исходные данные. Рассмотрим применение линейной регрессии на примере данных по продажам, находящихся в файле Trade.txt. Построим прогноз с помощью линейной регрессии от ветки импорта «Данные по продажам товаров» сразу после обработчика «Скользящее окно» (12, 0).

3

Описание. Для построения линейной регрессии необходимо запустить Мастер обработки и выбрать в качестве обработки данных Линейную регрессию. На первом шаге задаем назначение исходных столбцов. Предположим, что на прогноз влияет информация за 3 прошлых месяца, тогда укажем входными столбцами поля: «Количество -3», «Количество -2», и «Количество -1». В качестве выходного поля укажем столбец «Количество».

На следующем шаге настроим обучающее и тестовое множеств, способ разложения исходного множества данных.

Осуществим ограничение диапазона входных значений (оставим без изменений). В процессе выполнения видно, какая часть распознана на этапе обучения и теста.

После выполнения процесса выберем в качестве способа отображения диаграмму рассеяния и отображение результатов в виде диаграммы. Если из диаграммы рассеяния видно, что точность обучение не очень высокая, то необходимо вернуться и осуществить спектральную обработку данных, например, с помощью Фурье-преобразования с малой степенью вычитания шума.

Прогнозирование. Для построения прогноза на основе линейной регрессии запустим Мастера обработки, в котором выберем прогнозирование. На первом шаге обработчика происходит настройка связи столбцов для прогнозирования. Укажем связь между столбцами и горизонт прогноза равный 3.

4

На следующем шаге задаются параметры визуализации. Для данного примера выбираем отображение результатов в виде диаграммы прогноза. Теперь может быть дан прогноз о продажах, основываясь на модели, построенной с помощью линейной регрессией.

3. Кластеризация с помощью самоорганизующейся карты Кохонена. Самоорганизующаяся карта Кохонена является разновидностью

нейронной сети. Она применяется, когда необходимо решить задачу кластеризации, т.е. распределить данные по нескольким кластерам. Алгоритм определяет расположение кластеров в многомерном пространстве факторов. Исходные данные будут относиться к какому-либо кластеру в зависимости от расстояния до него. Многомерное пространство трудно для представления в графическом виде. Механизм же построения карты Кохонена позволяет отобразить многомерное пространство в двумерном, которое более удобно и для визуализации и для интерпретации результатов аналитиком.

Также с помощью построенной карты Кохонена можно решить и задачу прогнозирования. В этом случае результирующее поле (то, которое необходимо спрогнозировать) в построении карты не участвует. После кластеризации, используя диаграмму «Что-если», можно провести эксперимент. Алгоритм определяет точку пространства, где расположены введенные для прогноза данные и к какому кластеру принадлежит данная точка, и подсчитывает среднее по результирующему полю всех точек этого кластера, что и будет результатом прогноза (для дискретных данных результатом прогноза является значение, больше всего встречающееся в результирующем поле всех ячеек кластера).

Исходные данные. Рассмотрим механизм кластеризации путем построения самоорганизующейся карты, основываясь на информации по банкам. Исходная таблица находится в файле Banks.txt. Задача состоит в том, чтобы

5

определить по различным данным банка его прибыль и наличие скрытых закономерностей.

Описание. Для начала необходимо импортировать данные из файла. Далее запустим Мастер обработки и выберем из списка метод обработки «Карта Кохонена». На втором шаге Мастера настроим назначения столбцов. Укажем столбцу «Прибыль» назначение «Выходной», а «Филиалы», «Сумма активов», «Собственные активы», «Банковские активы», «Средства в банке»

– «Входной», т. е. на основе данных о банке будем относить его к тому или иному классу.

На третьем шаге Мастера необходимо настроить способ разделения исходного множества данных на тестовое и обучающее, а также количество примеров в том и другом множестве. Укажем, что данные обоих множеств берутся случайным образом, а остальные значения оставим без изменений.

Следующий шаг предлагает настроить параметры карты (Количество ячеек по Х и по Y, их форму) и параметры обучения (способ начальной инициализации, тип функции соседства, перемешивать ли строки обучающего множества и количество эпох, через которые необходимо перемешивание). Значения по умолчанию вполне подходят.

На следующем шаге Мастера следует настроить параметры остановки обучения.

На шестом шаге настраиваются остальные параметры обучения: способ начальной инициализации, тип функции соседства, а также параметры кла-

6

стеризации – автоматическое определение числа кластеров с соответствующим уровнем значимости либо фиксированное количество кластеров.

На седьмом шаге предлагается запустить сам процесс обучения. Во время обучения можно посмотреть количество распознанных примеров и текущие значения ошибок. Здесь нужно нажать на кнопку «Пуск» и дождаться завершения процесса обработки.

Далее в Мастере настройки отображения карты Кохонена надлежит указать поля, которые необходимы для отображения.

Получим Карту Кохонена.

Видим, что наиболее прибыльные банки попали в кластеры, что находятся в правой части карты. Для этих банков характерны большая сумма активов и средств в банке.

7

Данный пример показал область применения самоорганизующихся карт. Изначально имелось многомерное (четырехмерное) пространство входных факторов.

Алгоритм представил его в двумерном виде, который удобнее анализировать. Основным визуализатором после построения является «Самоорганизующаяся карта». Мастер предоставляет широкий набор настроек параметров обучения: настройка нормализации столбцов, настройка разбиения на тестовое и обучающее множество, настройка условий остановки обучения, настройка параметров карты и параметров обучения.

Соседние файлы в папке Жаркова