attachments_16-10-2012_20-40-13 / План Лаб 2 - Регрессия без подробных пояснений
.docРешение задачи регрессии с помощью нейронных сетей в программе Statistica7.
Цель работы – уметь ставить (т.е. формулировать её для решения экономических задач) и решать задачу регрессии в модуле “Нейронные сети” программы Statistica.
Постановка задачи.
1) Зная, что некоторый экономический процесс описывается выходной переменной Z как функцией непрерывных числовых переменных X,Y и параметров Factor1(принимает значения m и s), Factor2 (принимает значения l и d), на основе известной выборки из 100-300 наблюдений обучить сеть правильно определять значение выходной переменной Z по известным значениям входных переменных (X,Y,Factor1, Factor2) с заданной точностью.
За историю наблюдения за процессом накопился массив данных, который является исходным для задачи. Фрагмент этого массива представлен на Рис.2.
Рис.2
2) Обученную сеть использовать для определения значения Z характеристики процесса для новых выборок (переменных X,Y,Factor1, Factor2).
Порядок выполнения работы.
-
Запустить программу Статистика 7
-
Загрузить свой вариант задания.
-
Запустить модуль Нейронные сети.
-
Выбрать тип задачи (“Регрессия”)
-
Задать типы переменных для выбранной задачи “Регрессия” (Выходная непрерывная – Z, Входные непрерывные – X, Y, Входные категориальные – Factor1, Factor2)
-
Запустить Мастер сетей на обучение сети (чтобы сеть научилась определять переменную Z по входным переменным X,Y,Factor1, Factor2).
-
В окне мастера сетей задать число сетей (100).
-
Получить результаты.
-
Проанализировать Таблицы (Таблицу регрессии, Таблицу чувствительности, Таблицу Остатков, Таблицу предсказаний).
-
Построить график зависимости наблюдаемых значений от предсказанных.
-
Проанализировать график зависимости полученных значений от предсказанных
-
Для хорошей модели точки этого графика должны располагаться как можно ближе к прямой, лежащей под углом 45 градусов к осям координат (т.е. прямой y=x)
-
Убедиться, что график не отвечает этим требованиям.
-
Одна из причин – процесс описывается разными функциональными зависимостями – данные могут принадлежать нескольким областям (кластерам).
-
Для разбиения множества наблюдений по кластерам желательно провести стандартизацию данных (привести их к одному масштабу = одной шкале).
-
Для получения лучшего решения перейти к выполнению следующих пунктов.
-
Провести стандартизацию непрерывных входных переменных X,Y.
-
Провести стандартизацию категориальных входных переменных Factor1 и Factor2.
-
Для получения представления о числе кластеров провести Иерархический кластерный анализ на стандартизованных данных с выводом дендрограммы (наглядного представления в виде дерева решений). В качестве переменных для иерархического кластерного анализа взять X,Y, Factor1 и Factor2.
-
Получить дендрограмму и проанализировать её на предмет количества кластеров в выборке (чаще всего – 4 -5 кластеров).
-
Провести иерархический кластерный анализ на переменных Y, Factor1 и Factor2 (без переменной X). Убедиться, что разбиение на кластеры в этом случае более чёткое.
-
Теперь, когда число кластеров определено, провести кластерный анализ методом К-средних для разнесения всех наблюдений по кластерам. В качестве переменных для данного кластерного анализа взять Y, Factor1 и Factor2.
-
Можно надеяться, что данные внутри кластеров стали более однородны.
-
Решить задачу регрессии внутри каждого кластера (для данных каждого кластера построить свою нейронную сеть).
-
Чтобы применить найденные сети регрессии к новым данным и найти значение на выходе сети по входным данным, необходимо знать, к какому кластеру относится новое наблюдение.
-
Для этого нужно решить задачу классификации и запомнить сеть классификации.
Последовательность действий при использовании построенных сетей:
-
Определяем кластер, к которому относится новое наблюдение (Выбираем задачу классификации, подаём входные данные на вход сети классификации и получаем номер кластера).
-
Находим выходное значение процесса по входным данным наблюдения, используя сеть регрессии для найденного кластера.
Отчёт должен включать:
-
Постановку задачи.
-
Фрагмент Таблицы исходных Данных.
-
Фрагмент Таблицы стандартизованных данных со столбцом кластеров.
-
Дендрограмму.
-
Сохранённую сеть классификации для разбиения новых данных по кластерам и её рисунок.
-
Фрагмент Таблицы классификации, Таблицы чувствительности и Таблицы Матрицы ошибок.
-
По каждому кластеру:
-
Сохранённую сеть для решения задачи регрессии внутри каждого кластера и её изображение.
-
График зависимости наблюдаемых значений от предсказанных
-
Фрагменты Таблицы регрессии, Таблицы результатов, Таблицы остатков, Таблицы предсказаний.
-
Краткое пояснение к каждому фрагменту данных и рисунку.
Студент должен освоить следующие знания и умения:
-
Отличие задач классификации и регрессии. Отличие типов входных переменных при обучении сети при решении задач классификации и регрессии.
-
Запускать программу Statistica 7 и загружать задание.
-
Запускать модуль Нейронные сети
-
Выбирать нужный тип задач (Регрессия)
-
Правильно задавать типы переменных задачи
-
Пользоваться Мастером и Конструктором сетей для решения задачи
-
Задавать необходимое число сетей для обучения и число сохраняемых сетей
-
Понимать, какие типы сетей являются наиболее подходящими для задач различного типа, и уметь их задавать
-
Задавать конфигурацию обучаемых сетей
-
Уметь задавать синаптическую и активационную функции.
-
Уметь анализировать полученные результаты обучения сетей (Таблица результатов, регрессии, чувствительности, предсказаний, график зависимости наблюдаемых значений от предсказанных) и выбирать лучшую сеть.
-
Знать смысл понятия производительность сети в задаче регрессии
-
Уметь выводить рисунок сети, задавать обучающие наблюдения на вход сети и отображать работу сети по классификации на рисунке сети.
-
Уметь подавать на вход обученной сети новые наблюдения и получать результаты классификации.
-
Уметь сохранять обученную сеть.
-
Уметь запускать сохранённую обученную сеть сразу в работу без обучения для классификации новых наблюдений.