Лабораторная работа №2
Тема: Корреляционный анализ: вид связи и проверка гипотез.
Современная наука исходит из взаимосвязи всех явлений природы и общества. Невозможно управлять явлениями, предсказывать их развитие без изучения характера, силы и других особенностей связей. Поэтому методы исследования, измерения связей составляют чрезвычайно важную часть методологии научного исследования в том числе и статистического.
Различают два типа связей между различными явлениями и признаками: функциональную или жестко-терминированную, с одной стороны, и статистическую или стохастически детерминированную - с другой.
Функциональная связь двух величин возможна лишь при условии, что вторая из них зависит от первой и ни от чего более.
Стохастическая детерминированная связь не имеет ограничений и условий, присущих функциональной связи.
В настоящее время наука не знает более широкого определения связи. Все связи, которые могут быть измерены и выражены численно, подходят под определение «статистические связи», в том числе и функциональные. Последние представляют собой частный случай статистических связей.
Корреляционной связью называют важнейший частный случай статистической связи, состоящий в том, что разным значениям одной переменной соответствуют различные средние значения другой.
Корреляционно-регрессионный анализ является одним из наиболее широко распространенных и гибких приемов обработки статистических данных. Его появление связано с именем английского ученого-исследователя Фрэнсиса Гальтона, предложившего в 1975 году теоретические основы корреляционно-регрессионного метода, а 1801 году рассчитавшего с его помощью траекторию полета планеты Церера. В разное время над теорией анализа работали известные в области теоретической статистики ученые: Карл Фридрих Гаусс, Андриан Мари Лежандр, Карл Пирсон и другие.
Корреляционная связь между признаками может возникнуть разными путями. Важнейший путь – причинная зависимость результативного признака (его вариации) от вариации факторного признака.
Для измерения тесноты связи применяется несколько показателей.
-
Коэффициент парной корреляции - определяет меру тесноты связи между двумя факторами и вычисляется по формуле
|
(1) |
Теснота парной линейной корреляционной связи, как и любой другой, может быть измерена коэффициентом корреляции, который при линейной форме уравнения связи представляет собой стандартизованный коэффициент, т. е. коэффициент, выраженный не в абсолютных единицах измерения признаков, а в долях среднего квадратического отклонения результативного признака.
Вычисленные коэффициенты корреляции между признаками сводят в таблицу, которую называют корреляционной матрицей. Все элементы главной диагонали корреляционной матрицы равны 1, остальные коэффициенты корреляции меняются от -1 до 1.
Интерпретация коэффициента корреляции такова: отклонение признака-фактора от его среднего значения на величину своего среднего квадратического отклонения в среднем по совокупности приводит к отклонению признака-результата от своего среднего значения на его среднего квадратического отклонения.
В математической статистике коэффициент корреляции характеризует следующие виды корреляционной связи:
r = 0 - связь отсутствует;
0,00 < r 0,45 - связь слабая,
0,45 < r 0,75 - связь средняя,
0,75 < r 1,00 - связь сильная.
-
Коэффициент детерминации – равен квадрату коэффициента корреляции и вычисляется по формуле:
(2)
Этот коэффициент используется для анализа множественной корреляции.
-
Статистическая оценка значимости коэффициентов корреляции.
Под значимостью (или надежностью) понимается вероятность того, что значение проверяемого параметра не равно нулю, не включают в себя значения противоположных знаков.
Вероятностная оценка параметров корреляции производится по общим правилам проверки статистических гипотез.
1) Выдвигается гипотеза H0: Коэффициент корреляции не значим (или равен 0, а также альтернативная гипотеза Н1: Коэффициент корреляции значим (не равен 0) .
2) Для коэффициентов парной корреляции средняя ошибка оценки вычисляется по формуле:
(3)
(Средняя ошибка также может быть вычислена также по формуле ).
3) Вычисляется критерий Стьюдента по формуле:
. (4)
4) Вычисляется табличное значение критерия Стьюдента Т для заданного уровня значимости .
5) Если t > Т, то вероятность нулевого коэффициента менее , следовательно гипотезу H0 о несущественности этого коэффициента можно отклонить.
Если коэффициент корреляции близок к 1, то распределение его оценок отличается от нормального распределения. В этом случае Фишер предложил для оценки значимости коэффициента корреляции преобразовывать этот коэффициент в форму, не имеющую такого ограничения:
Z=0,5 ln . (5)
При этом средняя ошибка величины z определяется по формуле: m = .
Замечание. Для вычисления критического значения критерия Стьюдента можно воспользоваться таблицей критических значений критерия Стьюдента (см. справочник).