
- •Тема 2. Корреляционный и регрессионный анализ
- •2.1. Корреляция
- •2.2. Парная линейная регрессия. Метод наименьших квадратов
- •2.3. Множественная линейная регрессия
- •2.4. Проверка значимости (адекватности) уравнения регрессии в целом
- •2.5. Проверка значимости коэффициентов регрессии
- •2.6. Выбор оптимального уравнения парной регрессии
Тема 2. Корреляционный и регрессионный анализ
2.1. Корреляция
В экспериментальных исследованиях
одной из важных задач является анализ
зависимостей между изучаемыми переменными.
Зависимость может быть либо функциональной,
либо стохастической (вероятностной).
При функциональной зависимости величины
и
связаны точной математической формулой,
например,
.
Для оценки тесноты и направления связи
между изучаемыми переменными
и
при их стохастической зависимости
служит линейный коэффициент корреляции
.
Он характеризует степень тесноты не
всякой, а только линейной зависимости.
При нелинейной зависимости между
явлениями применяют так называемое
корреляционное отношение.
Пусть две случайные величины
и
распределены по нормальному закону и
имеется
пар измеренных в опытах значений:
.
О наличии связи между
и
судят по выборочному парному коэффициенту
корреляции
.
В теории разработаны несколько модификаций формул для расчета линейного коэффициента корреляции. Одна из формул:
, (1)
где
и
- среднеквадратичные отклонения
соответственно для массивов (выборок)
и
(в программе «Анализ данных» режим
«Описательная статистика»
и
- стандартные отклонения);
;
,
и
-
средние значения соответственно в
массивах
и
.
Величина
изменяется в пределах:
.
Если
,
то
и
статистически
независимы. Если
,
то между
и
имеется идеальная функциональная
зависимость, т.е. на графике
точки лежат на одной прямой линии (
).
В общем случае, когда величины
и
связаны произвольной вероятностной
зависимостью,
принимает значения в пределах
.
Качественная оценка тесноты связи
величин
и
может быть выявлена на основании
следующей шкалы:
Теснота связи |
Значение при наличии |
|
прямой связи |
обратной связи |
|
слабая |
0,1 – 0,3 |
(-0,1) – (-0,3) |
умеренная |
0,3 – 0,5 |
(-0,3) – (-0,5) |
заметная |
0,5 – 0,7 |
(-0,5) – (-0,7) |
высокая |
0,7 – 0,9 |
(-0,7) – (-0,9) |
весьма высокая |
0,9 – 0,99 |
(-0,9) – (-0,99) |
Числовой пример. Имеются данные Госкомитета РФ за 1995 г (см. табл.).
№ п/п |
Область |
Уровень образования
|
Отношение числа безработных к числу вакансий
|
Уровень преступности
|
1 |
Брянская |
735 |
22,3 |
908 |
2 |
Владимирская |
788 |
10,8 |
792 |
3 |
Ивановская |
779 |
52,9 |
804 |
4 |
Калужская |
795 |
2,2 |
702 |
5 |
Костромская |
740 |
10,4 |
685 |
6 |
г. Москва |
902 |
0,4 |
496 |
7 |
Московская |
838 |
2,4 |
536 |
8 |
Нижегородская |
763 |
5,4 |
936 |
9 |
Орловская |
762 |
4,1 |
662 |
10 |
Рязанская |
757 |
4,1 |
671 |
11 |
Смоленская |
772 |
1,0 |
920 |
12 |
Тверская |
764 |
4,2 |
1040 |
13 |
Тульская |
764 |
2,1 |
809 |
14 |
Ярославская |
755
|
25,1
|
882 |
Уровень образования - это число лиц со среднеспециальным и высшим образованием на 1000 жителей.
Уровень преступности - это число преступлений на 100 000 жителей.
Результаты расчетов в виде таблицы коэффициентов парной корреляции , вычисленных в программе «Анализ данных» режим «Корреляция» приведены в таблице.
|
|
|
|
|
1 |
|
|
|
-0,26 |
1 |
|
|
-0,66 |
0,24 |
1 |
Анализ расчетов:
- связь
-
является заметной и обратной (
),
т.е. с возрастанием
уменьшается;
- связь
-
является слабой и прямой (
),
т.е. с увеличением
увеличивается
.
Поскольку выборочный коэффициент
корреляции определен по ограниченной
выборке, то необходимо проверить его
значимость, т.е. установить достаточна
ли величина
для обоснованного вывода о наличии
корреляционной связи. Оценку значимости
выполняют по величине
-критерия
Стьюдента
. (2)
Здесь
- табличное значений
-распределения
Стьюдента при уровне значимости
и числе степеней свободы
.
Причем значение
используется для двусторонней критической
области.
Если условие (2) выполняется, то считается, что между переменными и имеется статистически значимая корреляционная связь.
Для нашего примера:
;
;
.
Для переменных - :
.
Связь статистически значимая.
Для переменных - :
.
Связь статистически не значимая.
В Excel коэффициент определяет статистическая функция СТЬЮДРАСПОБР. Для нашего примера обращение к этой функции имеет вид =СТЬЮДРАСПОБР (0,05;12). Отметим, что эта функция дает значение для двусторонней критической области.