- •К лабораторным работам
- •Москва 2014
- •1. Основные сведения о системе statistica.
- •2. Лабораторная работа №1.
- •Задание.
- •Указания по выполнению работы.
- •Настройка файла отчета.
- •Отчет о работе №1.
- •3. Лабораторная работа №2.
- •Задание.
- •Указания по выполнению работы.
- •Отчет о работе №2.
- •3. Лабораторная работа №3. Построение и анализ модели множественной регрессии.
- •Задание.
- •Указания по выполнению работы.
- •Часть 1. Первичная статистическая обработка.
- •Часть 2. Построение модели множественной линейной регрессии.
- •Часть 3. Анализ адекватности полученной модели.
- •Отчет о работе.
- •Содержание
Часть 2. Построение модели множественной линейной регрессии.
6) Выбор переменных для модели. Выбрать зависимую (depended) и независимые (independed) переменные в соответствии с полученными результатами.
7) Задать параметры вычисления регрессии:
Input file - выбрать в качестве входных данных таблицу результатов наблюдений (Raw Data - необработанные данные);
MD deletion - способ работы с пропущенными данными: удаление строк таблицы полностью - Casewise.
Mode - тип уравнения регрессии: стандартный - Standart.
Метод расчета регрессии можно выбрать по умолчанию, отметив режим Perform default analysis. Если это не сделать, то после нажатия кнопки ОК откроется новое окно, в котором можно будет выбрать метод. Для начала выбираем стандартный метод: Metod - Standart, и включаем в уравнение свободный член: Intercept - include in model. Смотрим его значимость. Если свободный член получился незначимым, рассчитываем уравнение регрессии без свободного члена.
8) Результаты вычисления параметров модели множественной регрессии будут представлены в открывшемся окне Multiple Regression Results. Проанализировать их.
Dep. Var.: зависимая (эндогенная) переменная.
No. of Cases: число случаев, учитывавшихся при расчете регрессии.
Multiple R: коэффициент множественной корреляции.
R-square: коэффициент множественной детерминации, определяющий долю дисперсии зависимой переменной, объясненной линейной зависимостью. По нему в первую очередь оценивается адекватность построенной модели.
Adjusted R-square: коэффициент множественной детерминации с поправкой на число степеней свободы.
Std. Error of estimate: стандартная ошибка оценки. Эта статистика является мерой рассеяния наблюдаемых значений относительно линии регрессии.
Intercept: оценка свободного члена регрессии.
Std. Error: стандартная ошибка оценки свободного члена.
t(df) and p-value: значение статистики t-критерия с числом степеней свободы в скобках и уровня значимости p. Используются для проверки гипотезы о том, что свободный член регрессии равен нулю.
F, df, and p-value: значение статистики F-критерия, число степеней свободы df и уровень значимости p.
Часть 3. Анализ адекватности полученной модели.
Результаты анализа построенной регрессии можно посмотреть с помощью соответствующих кнопок в окне Multiple Regression Results - результаты множественной регрессии:
9) Regression summary - краткие результаты регрессии. С помощью этой кнопки получить электронную таблицу с результатами расчетов. В ней в первом столбце приведены расчетные коэффициенты ВЕТА для стандартизированного уравнения регрессии без свободного члена (стандартизированных данных в форме отклонений от средних значений, деленных на дисперсию), а в третьем - В - коэффициенты для модели в общем виде. Во втором и четвертом столбцах даны стандартные ошибки (оценки дисперсий) соответствующих коэффициентов регрессии. В пятом столбце даны значения t-статистик для проверки гипотез о значимости полученных коэффициентов, в шестом - соответствующий ему уровень значимости (вероятность ошибки при принятии решения).
Проанализировать данные из этой таблицы и сделать выводы относительно полученных значений коэффициента детерминации, стандартных ошибок оценок и результатов проверки гипотез с помощью t и F критериев и полученных уровней значимости.
Переменные, коэффициенты при которых получились значимыми, выделяются красным цветом. Если есть незначимые переменные, они отмечаются другим цветом, и их рекомендуется исключить из модели. Если такие переменные есть, построить новую регрессию.
10) Проверить являются ли зависимости между объясняющей переменной и значимыми независимыми переменными линейными. Для этого включить в модель (путем введения нового столбца в таблицу исходных данных и новой переменной в уравнение регрессии) квадраты значений и проверить значимость коэффициентов при них. Если квадраты получились значимыми, проделать то же для кубов данной переменной.
Проанализировать остатки построенной модели. С помощью кнопки Residial analysis - анализ остатков раскрываем соответствующее окно.
11) Проверяем предположение о нормальном распределении остатков. Строим гистограмму остатков - в колонке Histograms выбираем кнопку Graph of residials, она должна быть похожа на нормальное распределение. Проверяем предположение о нормальности с помощью графика на вероятностной бумаге: в колонке Probability Plots выбираем кнопку Normal plot of residial.
12) Сравнить наблюденные и полученные по уравнению регрессии данные, а также сравнить их со значениями остатков. Это можно сделать, собрав их в одной таблице с помощью кнопки Display residials & pred. Столбцы этой таблицы: Observer Value - наблюденные значения, Predicted Value - предсказанные значения, Residial - остатки, Std.Err.Pred.Val. - стандартная ошибка предсказанного значения.
13) Проверить предположение о независимости остатков друг от друга и от остальных переменных. Построить диаграммы рассеяния (в колонке Scatter Plots) для остатков и предсказанных (Pred& residials) и наблюденных (Obs&residials) значений. Точки на графиках должны быть хаотично разбросаны и не должны обнаруживать какой-либо зависимости.
14) Оценить качество предсказания можно по диаграмме рассеяния (в колонке Scatter Plots) для предсказанных и наблюденных значений (кнопка Pred&Observes). Должна быть четкая прямая зависимость.
15) Рассчитать статистику Дарбина-Уотсона (кнопка Durbin-Watson stat) и сравнить ее с соответствующим табличным значением (см. Таблицу в приложении 1).
16) Рассчитать таблицу для дисперсионного анализа с помощью кнопки Analysis of variance. Объяснить полученные результаты.
По каждому пункту (9-16) исследования адекватности модели сделать выводы. Если модель адекватна, сформулировать результаты исследования.
17) Если построенная модель не соответствует данным наблюдений, попытаемся найти причину этого несоответствия в зависимости от того, какие результаты получены в предыдущих пунктах:
- аномальные наблюдения;
- неправильная спецификация переменных (лишние переменные или отсутствуют важные переменные);
- нелинейная зависимость между переменными;
- мультиколлинеарность;
- автокорреляция;
18) Устранить эту причину, построить новую модель и доказать ее адекватность. Попробовать использовать другие методы построения регрессии (на панели Model Definition): пошаговые регрессии Forward stepwise, Backward stepwise.
19) Выписать полученную модель в стандартной форме и основные характеристики ее качества.