Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Тема 7.doc
Скачиваний:
114
Добавлен:
10.04.2015
Размер:
334.85 Кб
Скачать

Оценка достоверности коэффициента корреляции

Коэффициент линейной корреляции, исчисленный по выборочным данным является случайной величиной. Полученный из выборки коэффициент корреляции r является оценкой коэффициента корреляции в генеральной совокупности. С уменьшением числа наблюдений надежность коэффициента корреляции падает. Оценка существенности (значимости) линейного коэффициента корреляции основана на сопоставлении значения r с его средней квадратической ошибкой :

,

При оценке значимости коэффициента корреляции обычно рассматриваются следующие ситуации.

  1. Если число наблюдений достаточно велико (обычно свыше 30), а значение коэффициента корреляции не превышает 0.9, распределение коэффициента корреляции r можно считать приближенно нормальным со средней квадратической ошибкой

, (6)

При достаточно большом числе наблюдений r должен превышать свою среднюю ошибку не менее, чем в три раза: . Если это неравенство не выполняется, то существование связи между признаками нельзя считать доказанным.

Задавшись определенной вероятностью, можно построить доверительные границы r:

(7).

Так, например, при вероятности 0,95, для которой t = 1,96, доверительные границы составят

,

При вероятности 0,997, для которой коэффициент доверия t = 3, доверительные границы составят

Поскольку значение r не может превышать единицу, то в случае, если > 1, следует указать только нижний предел, то есть утверждать, что реальныйr не меньше, чем .

2. Для малого объема выборки, с распределением r далеким от нормального, применяются другие методы оценки значимости коэффициента корреляции. При небольшом числе наблюдений (n < 30), средняя ошибка линейного коэффициента корреляции находится по формуле:

(8),

а значимость проверяется на основе t критерия Стьюдента. При этом выдвигается гипотеза о равенстве коэффициента корреляции нулю, то есть об отсутствии связи между y и x в генеральной совокупности. Для этого используется статистика:

(9),

расчетное значение которой сопоставляется с табличным, из таблиц распределения Стьюдента. Если нулевая гипотеза верна, то есть r=0, то распределение t- критерия подчиняется закону распределения Стьюдента с n-2 степенями свободы и принятым уровнем значимости (обычно 0,05). В каждом конкретном случае по таблице распределенияt-критерия Стьюдента находится табличное (критическое) значение t, которое допустимо при справедливости нулевой гипотезы, и с ним сравнивается фактическое (расчетное) значение t. Если t расч. > t табл. , то нулевая гипотеза отклоняется и линейный коэффициент считается значимым, а связь между x и y – существенной. И наоборот.

3. При малом числе наблюдений в выборке и высоком коэффициенте корреляции (распределение r отличается от нормального) для проверки гипотезы о наличии корреляционной связи, а также построения доверительного интервала применяется z-преобразование Фишера.

Для этого рассчитывается величина

(10).

Распределение z приближается к нормальному. Вариация z выражается формулой

(11).

Рассчитаем z критерий для примера 1, поскольку в этом случае мы имеем небольшое число наблюдений и высокий коэффициент корреляции.

.

Чтобы не вычислять значения логарифмов, можно воспользоваться специальными таблицами Z-преобразований (Ефимова М.Р. стр. 402, Шмойлова Р.А. стр.446, Елисеева И.И. стр.473). Находим, что коэффициенту корреляции 0,94 соответствует Z=1,74.

Находим

Отношение Z к средней квадратической ошибке равно 3. Таким образом, мы можем полагать действительное наличие связи между величиной выпуска продукции и расходом электроэнергии для всей совокупности предприятий.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]