
- •Работа с пакетом Statistica Описательные статистики
- •Создание файла данных в пакете Statistica
- •Получение описательных статистик для выборок
- •Проверка гипотезы о нормальности распределения выборки
- •Получить график для переменной var1.
- •Получение таблиц частот
- •T-критерий для независимых и зависимых выборок
- •Корреляционный анализ
- •Часть 2 Проведение регрессионного анализа
Корреляционный анализ
Эта процедура предназначена для вычисления коэффициента корреляции Пирсона или для установления тесноты линейной связи между переменными.
Коэффициент корреляции Пирсона - это показатель, оценивающий тесноту линейной связи между признаками. Он может принимать значения от -1 до +1. Знак "-" означает, что связь обратная, "+" - прямая. Чем ближе коэффициент к 1 тем теснее линейная связь. При величине коэффициента корреляции менее 0,3 связь оценивается как слабая, от 0,31 до 0,5 - умеренная, от 0,51 до 0,7 - значительная, от 0,71 до 0,9 - тесная, 0,91 и выше - очень тесная.
Статистически значимые на 5-% уровне коэффициенты корреляции будут выделены в корреляционной матрице на экране монитора цветом, а при распечатке помечены звездочкой.
Проанализировать связь между переменными X, Y1, Y2, Y3 при помощи коэффициента Пирсона.
Вызвать команду Analysis/ Correlation matrices.
В окне команды выбрать переменные по кнопке One variables list (square matrix)
Выбрать переменные.
Отметить опцию Corr. Matrix (display p&N)
Вызвать расчет матрицы коэффициентов корреляции кнопкой Correlations
В созданный Вами документ Microsoft Word внести таблицу по образцу
Наиболее тесная связь между перемененными
Переменная1\ Переменная2
Коэффициент Пирсона
Тип связи (прямая/обратная)
В таблице указать имена переменных, для которых была выявлена наиболее тесная связь, указать тип связи. Сохранить файл.
Предъявить документ преподавателю.
Часть 2 Проведение регрессионного анализа
Процедура предназначена для построения зависимости одной переменной (она называется зависимая) от группы других переменных (это независимые переменные). Имеется возможность построения, как линейной зависимости, так и нелинейной. Нелинейная зависимость может иметь только такой вид, который путем замены переменных может быть сведен к линейной.
Результаты регрессионного анализа позволяют оценить, насколько хорошо выбранный вид зависимости описывает экспериментальные данные.
Провести для переменных регрессионный анализ экспериментальных данных с целью построения линейной регрессионной модели вида
(1)
Проанализировать адекватность модели.
Ввести новые переменные Type, Diam, Length, Param.
Задать переменным по 26 значений, приведенных в таблице.
Открыть окно проведения множественной регрессии при помощи команды Analysis/ Other Statistics/Multiple Regression
Задать значения полей:
Input file – Raw Data (наши данные представлены в виде строк данных, а не в виде корреляционной матрицы переменных).
MD deletion – Casewise (игнорируется вся строка, в которой есть хотя бы одной пропущенное значение).
Тип регрессионной модели – Mode – Standard (стандартная линейная модель)
Задать зависимые и независимые переменные при помощи кнопки Variable.
Нам нужны только те данные, где переменная Type имеет значение d. Для этого в окне Multiple Regression щелкнуть по кнопке Select Cases, и задать выбираемые значения
После заполнения всех полей выполним регрессионный анализ, щелкнув по кнопке ОК.
Параметр R2 называется коэффициентом детерминации. Чем ближе он к 1, тем лучше выбранный вид зависимости описывает исходные данные.
Внести в отчет строку «Значение коэффициента детерминации», после чего ввести значение найденного коэффициента детерминации. Далее будем использовать кнопки окна Multiple Regression Results.
Получим основные результаты регрессионного анализа по кнопке Regression Summary (см. рис. ниже)
В окне Regression Summary for Dependent Variable приведены следующие параметры:
Beta - стандартизированные регрессионные коэффициенты, рассчитанные по стандартизированным значениям переменных. Свободный член в таком уравнении равен 0.
Столбец В - коэффициенты уравнения регрессии вида (1).
Intercept – свободный член уравнения регрессии.
t (16) - t-критерии для коэффициентов уравнения регрессии.
р-level - вероятность нулевой гипотезы для коэффициентов уравнения регрессии
На основе полученных коэффициентов регрессионного уравнения в файле отчета записать уравнение регрессии вида (1) с указанием полученных значений коэффициентов.
Получить результаты дисперсионного анализа по кнопке Analysis of variance.
В строках таблицы – источники вариации: Regress. - обусловленная регрессией, Residual- остаточная, Total - общая.
В столбцах таблицы:
Sums of Squares - сумма квадратов,
df - число степеней свободы,
Mean Squares - средний квадрат,
F - значение F - критерия,
p-level - вероятность нулевой гипотезы для F - критерия.
Скопировать таблицу в отчет.
Выдать частные коэффициенты корреляции по кнопке Partial correlations.
Частная корреляция - это корреляция между двумя переменными, когда одна или больше из оставшихся переменных имеют постоянное значение. Коэффициенты могут принять значения от -1 до +1.
Если коэффициенты велики, значит независимые переменные коррелируют между собой. Это усложняет построение уравнения регрессии.
Скопировать коэффициенты частной корреляции в отчет, указав какой переменной какой коэффициент частной корреляции соответствует.
Рассчитать значения зависимой переменной по значениям независимых, используя кнопку Predict dependent var.
Значения независимых переменных задать согласно рисунку.
|
|
В отчете набрать строку «прогнозируемое значение переменной Param=», указать значение, «при значениях независимых переменных Diam=18,6, Length=12,3».
Кнопка Correlations and desc. stats позволяет просмотреть описательные статистики и корреляционную матрицу с парными коэффициентами корреляции переменных, участвующих в регрессионной модели
При помощи кнопки Residual analysis выполнить процедуру анализа остатков регрессионного уравнения.
Для выделения имеющихся в регрессионных остатках выбросов предложен ряд показателей:
показатель Кука (Cook's Distance) – показывает расстояние между коэффициентами уравнения регрессии после исключения из обработки i-ой точки данных. Большое значение показателя Кука указывает на сильно влияющий случай.
расстояние Махаланобиса (Mahalns. Distance) – показывает насколько каждый случай или точка в р-мерном пространстве независимых переменных отклоняется от центра статистической совокупности.
Просмотреть величины остатков и специальных критериев, их оценивающих, при помощи кнопки Display residuals & pred. окна Residual analysis.
Остатки должны быть нормально распределены, со средним значением равным нулю и постоянной, независимо от величин зависимой и независимой переменных, дисперсией.
О нормальности остатков можно судить по графику остатков на нормальном вероятностном графике.
Для построения графика скопировать значения остатков Residual, создать новый файл данных, состоящий из одной переменной, в которой число значений (cases) равно числу значений переменной Residual, назвать ее Residual, вставить значения из буфера обмена.
Построить нормальный вероятностный график остатков, скопировать его в отчет.
Используя аппарат описательных статистик, найти для остатков среднее, дисперсию, минимум, максимум.
Если остатки сильно отклоняются от прямой, а коэффициент детерминации мал, возможно, нужна нелинейная регрессионная модель.
Проверить качество полученного уравнения, отобразив значения полученного уравнения и экспериментальные значения в таблице Excel.
Для этого скопировать в один столбец значения переменных из набора данных Statistica, а в другом рассчитать значения по полученному уравнению, как показано в таблице ниже. В первых 5-ти столбцах приведены исходные данные задачи.
В последнем столбце приведены данные PARAM, полученные на основе вычисления значения по уравнению регрессии вида (1) с коэффициентами, полученными в результате проведенных вычислений.
Вычисленное значение параметра PARAM приведено в столбце Расчетные.
Вычисления проводить средствами Excel.
|
|
c |
0,104449 |
|
| |
|
|
a |
0,010948 |
|
| |
|
|
b |
0,032518 |
|
| |
Исходные данные |
| |||||
|
TYPE |
DIAM |
LENGTH |
PARAM |
Расчетные | |
1 |
d |
21 |
6,8 |
0,68 |
0,56 | |
2 |
d |
37 |
6,7 |
0,69 |
0,73 | |
3 |
d |
35 |
8,3 |
0,7 |
0,76 | |
4 |
d |
36 |
12 |
0,75 |
0,89 | |
5 |
d |
42 |
10 |
0,82 |
0,89 | |
6 |
d |
46 |
15 |
0,91 |
1,10 | |
7 |
d |
44 |
13 |
0,905 |
1,01 | |
8 |
d |
41 |
11 |
0,9 |
0,91 | |
9 |
d |
45 |
14 |
1,2 |
1,05 | |
10 |
d |
45,5 |
15 |
1,4 |
1,09 | |
11 |
d |
23 |
15 |
0,72 |
0,84 | |
12 |
d |
18 |
7 |
0,6 |
0,53 | |
15 |
d |
31 |
13 |
0,75 |
0,87 | |
16 |
d |
39 |
16 |
0,91 |
1,05 | |
17 |
d |
43,5 |
18 |
0,93 |
1,17 | |
18 |
d |
23 |
9 |
0,705 |
0,65 | |
19 |
d |
47 |
19 |
1,6 |
1,24 | |
20 |
d |
28 |
12 |
1 |
0,80 | |
22 |
d |
29 |
12,5 |
0,78 |
0,83 |
Повторить проведенные вычисления для значений переменных, заданных преподавателем.