- •Содержание
- •Статистический анализ данных в системе statistica может быть разбит на следующие основные этапы:
- •1 Множественная регрессия
- •1.1 Создание электронной таблицы с исходными данными
- •1.2 Вызов стартовой панели модуля и определение режимов исследования
- •1.3 Построение и оценивание уравнения множественной регрессии
- •1.3.1 Проведение анализа множественной регрессии исследователем
- •1.3.2 Проведение автоматического анализа множественной регрессии
- •1.4 Визуализация данных и результатов
- •Замечание
- •1.5 Исследование остатков
- •1.6 Вывод результатов анализа в файл с отчетом
- •Список литературы
1.2 Вызов стартовой панели модуля и определение режимов исследования
Для начала статистического анализа вам необходимо вызвать Стартовую панель модуля (рисунок 1.5). Это основное диалоговое окно модуля, в котором необходимо задать различные опции анализа. Если Стартовая панель модуля закрыта, то откройте ее. Для этого войдите в меню Analysis — Анализ и выберите команду Startup Panel — Стартовая Панель.
**
Рисунок 1.5. Стартовая панель модуля
Далее необходимо выбрать переменные для анализа. В нашем примере имеется одна зависимая переменная VAR4 и набор независимых переменных (VAR1 – VAR3). Для их задания воспользуйтесь кнопкой Variables — Переменные из Стартовой панели (см. рисунок 1.5).
В открывшемся окне Select dependent and independent variable list — Выбор зависимой переменной и списка независимых переменных (рисунок 1.6) выберите необходимые переменные. Для выбора зависимой переменной щелкните мышью на ее имени в левом окне, зависимых переменных – в правом. Для выбора нескольких переменных удерживайте при этом клавишу CTRL. Нажмите кнопку ОК в правом верхнем углу, если переменные для анализа определены. Вы вновь окажетесь в Стартовой панели модуля Множественная регрессия (рисунок 1.6).
**
Рисунок 1.6. Диалоговое окно выбора переменных для анализа (слева) и вид стартовой панели после выбора переменных (справа)
Заметьте, что в Стартовой панели (см. рисунок 1.5) вы можете задать и дополнительные опции, и параметры анализа:
Input file – выберите для анализа таблицу с исходными данными (raw data) или корреляционную матрицу (correlation matrix);
MD deletion – позволяет выбрать метод работы в случае пропущенных данных;
Mode – выберите один из методов регрессионного анализа;
Perform default analysis – проведение анализа исследователем;
Review descr. stats, corr. matrix – позволяет посмотреть описательную статистику и корреляционную матрицу;
Extended precision computations - расчет с двойной точностью;
Batch processing/printing – назначает вариант вывода результатов анализа;
Print residual analysis – вывод результатов анализа остатков.
Выбор этих опций не является необходимым.
1.3 Построение и оценивание уравнения множественной регрессии
1.3.1 Проведение анализа множественной регрессии исследователем
Этот режим построения и анализа множественной регрессии будет осуществлен исследователем, если в окне Стартовой панели (см. рисунок 1.6) установить метку строки Perform default analysis. После нажатия кнопку ОК система произведет вычисления, и через секунду на вашем экране появится Multiple regression results - Окно результатов анализа (рисунок 1.7), которое имеет следующую простую структуру: верхняя часть окна — информационная, нижняя содержит функциональные кнопки, позволяющие всесторонне изучить результаты анализа.
**
Рисунок 1.7. Окно результатов анализа
Рассмотрим вначале информационную часть окна. В ней содержится краткая информация о проведенном анализе:
• Dep. Var. — Имя зависимой переменной. В нашем случае — VAR4.
• No. of Cases — Число случаев, по которым построена регрессия. В примере число равно 12.
• Multiple R — Коэффициент множественной корреляции (эта статистика полезна во множественной регрессии, когда вы хотите описать зависимости между переменными) – характеризует тесноту связи зависимой переменной с совокупностью независимых переменных: 0,91817
• R2 — Коэффициент детерминации - является одной из основных статистик в данном окне, он показывает долю общего разброса (относительно выборочного среднего зависимой переменной), которая объясняется построенной регрессией: 0,84305
•Adjusted R2 — Скорректированный коэффициент детерминации (применяется при небольших объемах выборочных данных, контролирует число степеней свободы): 0,78419
• Std. Error of estimate — Стандартная ошибка оценки. Эта статистика является мерой рассеяния наблюдаемых значений относительно регрессионной прямой: 1,16908
• Intercept — Оценка свободного члена регрессии. Значение коэффициента b0 в уравнении регрессии: -21,76121
•Std. Error — Стандартная ошибка оценки свободного члена. Стандартная ошибка коэффициента b0 в уравнении регрессии: 4,64608
•t(df) and p-value — Значение t-критерия и уровня р. t-критерий используется для проверки гипотезы о равенстве 0 свободного члена регрессии.
•F — расчетный критерий Фишера: 14,3239
•df— Число степеней свободы F критерия: 3,8
•р — Уровень значимости уравнения множественной регрессии (вероятность, что Fрасч < Fтабл, если p > , то H0 принимаем): 0,0013
В информационной части вы прежде всего смотрите на значение коэффициента множественной корреляции: R = 0,9181, что говорит о тесной связи переменных. После этого нужно обратить внимание на коэффициент детерминации: в нашем примере R2 = 0.8430, это означает, что доля влияния независимых переменных на зависимую значительна (84%). Гипотезу о том, что коэффициенты при независимых переменных равны нулю, мы отвергаем, т.к. р = 0,001 < = 0,05. Т.е. множественная регрессия высоко значима.
Стандартная ошибка оценки равна 1,16. Стандартная ошибка свободного члена = 4,64. Здесь же оценивается значимость свободного члена: р = 0,0016 < = 0,05, это означает, что нулевая гипотеза о незначимости свободного члена отвергается.
Теперь обратимся к содержанию функциональных кнопок Окна результатов анализа (см. рисунок 1.7):
Regression summary – краткие результаты регрессионного анализа (стандартизованные - и нестандартизованные коэффициенты - b, стандартная ошибка оценки свободного члена и уровень значимости p-level);
Analysis of variance – информационная таблица для соответствующего уравнения регресии;
Covar. of reg. Сoefficients – матрица коэффициентов ковариации;
Current sweep matrix - – матрица коэффициентов множественной детерминации;
Partial correlations – таблица коэффициентов частной корреляции;
Predict dependent var. – прогнозирование значений зависимой переменной;
Redundancy – выводит таблицу следующего содержания: коэффициенты чувствительности, множественной детерминации, частной и частичной частной корреляции;
Stepwise (summary) – доступна при выборе метода пошаговой регрессии;
Residual analysis – анализ остатков;
Correlations and desc. stats – описательная статистика;
Alpha (display) – используется для определения статической значимости.
При нажатии на кнопку Regression summary — Краткие результаты регрессии вы увидите следующую электронную таблицу с результатами анализа:
**
Рисунок 1.8. Краткие результаты регрессии для исходных данных
Составим уравнение множественной регрессии в стандартизованной и естественной форме.
Beta – стандартизованные коэффициенты регрессии:
Y’ = 1.2184X’1 - 0.3989X’2 - 0.1095X’3,
где Y’ и X’i – стандартизованные значения Y и Xi соответственно, i=1,…m;
В - нестандартизованные коэффициенты регрессии.
Y = -21.7612 + 7.0182X1 - 1.7598X2 - 0.4396X3
Стандартизованные коэффициенты удобны для сравнения, так как не имеют размерности. Они характеризуют скорость изменения среднего значения Y по каждому Xi и постоянных значений остальных. Очевидно, что наибольшее влияние на VAR4 оказывает VAR1, т.к. b1 = 1,2184 – наибольший среди параметров стандартизованной регрессии.
P – level позволяет оценить значимость каждого коэффициента. Т.к. значения P для VAR1 меньше 0,05 – нулевую гипотезу о незначимости коэффициента b1 отвергаем, и т.к. значение P для VAR2 и VAR3 больше 0,05 – нулевую гипотезу о незначимости коэффициентов b2 и b3 принимаем.
Проанализируем линейные коэффициенты парной и частной корреляции. Для этого в окне Multiple Regression Results (см. рисунок 1.7) нажмем кнопку Correlations and desc. stats, на экране появится окно:
**
Рисунок 1.9. Окно Описательная статистика
Основные элементы окна Описательная статистика (см. рисунок 1.9):
Means & SD - среднее значение и стандартное отклонение;
Box and wh. – графики медиан и квартилей;
Correlations – матрица коэффициентов корреляции;
Graph – график рассеяния значений переменной;
Covariances – матрица коэффициентов ковариации;
SD = Sums of squares/n – выбор метода расчета среднего отклонения;
Save Correlations – сохранить корреляционную матрицу.
Выберите опцию Correlations. На экране появится следующая таблица значений парной корреляции (коэффициенты корреляции между всеми переменными):
**
Рисунок 1.10. Таблица коэффициентов корреляции
Очевидно, что связь переменной с собой самая сильная, т.е. равна единице. Наличие мультиколлинеарности, т.е. зависимости между независимыми переменными, нежелательно, т.к. негативно влияет на общее состояние модели и приводит к уменьшению точности оценивания или невозможности оценки влияния тех или других переменных. Здесь мы видим зависимость VAR4 от VAR1, а также нежелательную зависимость VAR1 от VAR2 и VAR3. Поэтому, чтобы избежать мультиколлинеарности, необходимо убрать из уравнения регрессии одну из переменных VAR1, VAR2 или VAR3.
Рассмотрим коэффициенты частной корреляции. Для этого в окне Multiple Regression Results (см. рисунок 1.7) выберем опцию Partial Correlations:
**
Рисунок 1.11. Таблица коэффициентов частной корреляции
Коэффициенты частной корреляции расположены во втором столбце. Самое большое значение - зависимость VAR4 от VAR1. Это значит, что X1 сильнее влияет на Y, чем остальные, поэтому VAR1 целесообразно оставить.
Исключим мультиколлинеарность, которая была обнаружена в таблице парной корреляции. Самая большая зависимость – между VAR1 и VAR3 (см. рисунок 1.10). Исключим фактор VAR3, выбрав в качестве независимых переменных VAR1 и VAR2:
**
Рисунок 1.12. Диалоговое окно выбора переменных для анализа.
Построение и исследование нового уравнения регрессии будет проведено аналогично предыдущему. Нажав кнопку OK, получаем таблицу:
**
Рисунок 1.13. Окно результатов анализа
Выбирая опции Correlations (см. рисунок 1.9) и Partial Correlations (см. рисунок ) получим следующие таблицы:
**
Рисунок 1.14. Таблица коэффициентов частной корреляции
**
Рисунок 1.15. Таблица коэффициентов корреляции
Коэффициенты множественной корреляции, множественной детерминации немного уменьшились, а наша ситуация немного улучшилась за счет того, что скорректированный коэффициент множественной детерминации немного увеличился. Т.к. в нашей задаче выборка экспериментальных данных мала (n=12), то скорректированному коэффициенту множественной детерминации можно доверять в большей мере, чем коэффициенту множественной детерминации. Но остается нежелательная сильная зависимость VAR1 от VAR2 (см. рисунок 1.15). Исключим VAR2 (см. рисунок 1.12) и вновь повторим процедуру исследования:
**
Рисунок 1.16. Окно результатов анализа
**
Рисунок 1.17. Таблица коэффициентов частной корреляции
**
Рисунок 1.18. Таблица коэффициентов корреляции
Здесь также коэффициенты множественной корреляции, множественной детерминации и скорректированный коэффициент множественной детерминации немного уменьшились.
Составим уравнение множественной регрессии данного варианта. Для этого в окне Multiple Regression Results(см. рисунок 1.7) выберем опциюRegression Summary:
**
Рисунок 1.19. Краткие результаты регрессии для исходных данных
Откуда Y = -21.3333 + 5X1.