
Оценка достоверности коэффициента корреляции
Коэффициент
линейной корреляции, исчисленный по
выборочным данным является случайной
величиной. Полученный из выборки
коэффициент корреляции r
является оценкой коэффициента корреляции
в генеральной совокупности. С уменьшением
числа наблюдений надежность коэффициента
корреляции падает. Оценка существенности
(значимости) линейного коэффициента
корреляции основана на сопоставлении
значения r
с его средней квадратической ошибкой
:
,
При оценке значимости коэффициента корреляции обычно рассматриваются следующие ситуации.
Если число наблюдений достаточно велико (обычно свыше 30), а значение коэффициента корреляции не превышает 0.9, распределение коэффициента корреляции r можно считать приближенно нормальным со средней квадратической ошибкой
, (6)
При достаточно
большом числе наблюдений r
должен превышать свою среднюю ошибку
не менее, чем в три раза:
.
Если это неравенство не выполняется,
то существование связи между признаками
нельзя считать доказанным.
Задавшись определенной вероятностью, можно построить доверительные границы r:
(7).
Так, например, при вероятности 0,95, для которой t = 1,96, доверительные границы составят
,
При вероятности 0,997, для которой коэффициент доверия t = 3, доверительные границы составят
Поскольку значение
r
не может превышать единицу, то в случае,
если
> 1, следует указать только нижний
предел, то есть утверждать, что реальныйr
не меньше, чем
.
2. Для малого объема выборки, с распределением r далеким от нормального, применяются другие методы оценки значимости коэффициента корреляции. При небольшом числе наблюдений (n < 30), средняя ошибка линейного коэффициента корреляции находится по формуле:
(8),
а значимость проверяется на основе t критерия Стьюдента. При этом выдвигается гипотеза о равенстве коэффициента корреляции нулю, то есть об отсутствии связи между y и x в генеральной совокупности. Для этого используется статистика:
(9),
расчетное значение
которой сопоставляется с табличным, из
таблиц распределения Стьюдента. Если
нулевая гипотеза верна, то есть r=0,
то распределение t-
критерия подчиняется закону распределения
Стьюдента с n-2
степенями свободы и принятым уровнем
значимости
(обычно 0,05). В каждом конкретном случае
по таблице распределенияt-критерия
Стьюдента находится табличное
(критическое) значение t,
которое допустимо при справедливости
нулевой гипотезы, и с ним сравнивается
фактическое (расчетное) значение t.
Если t
расч.
> t
табл.
, то нулевая гипотеза отклоняется и
линейный коэффициент считается значимым,
а связь между x
и y
– существенной. И наоборот.
3. При малом числе наблюдений в выборке и высоком коэффициенте корреляции (распределение r отличается от нормального) для проверки гипотезы о наличии корреляционной связи, а также построения доверительного интервала применяется z-преобразование Фишера.
Для этого рассчитывается величина
(10).
Распределение z приближается к нормальному. Вариация z выражается формулой
(11).
Рассчитаем z критерий для примера 1, поскольку в этом случае мы имеем небольшое число наблюдений и высокий коэффициент корреляции.
.
Чтобы не вычислять значения логарифмов, можно воспользоваться специальными таблицами Z-преобразований (Ефимова М.Р. стр. 402, Шмойлова Р.А. стр.446, Елисеева И.И. стр.473). Находим, что коэффициенту корреляции 0,94 соответствует Z=1,74.
Находим
Отношение Z к средней квадратической ошибке равно 3. Таким образом, мы можем полагать действительное наличие связи между величиной выпуска продукции и расходом электроэнергии для всей совокупности предприятий.