Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Коршунов / М05КоэфКрл.doc
Скачиваний:
86
Добавлен:
26.04.2015
Размер:
1.32 Mб
Скачать

7.2.I.4. Оценка значимости коэффициента корреляции

Найденная по формуле (7.4) оценка коэффициента корреляции есть случайная величина. Поэтому нужна характеристика ее рассеяния. Для нее должно также найти доверительный интервал. Если найденная оценка выходит за границы доверительного интервала, то считается, что корреляционная связь существует.

Для отыскания границ доверительного интервала пользуются критерием Фишера. Р.Фишером найдено преобразование r= th z . Отсюда обратное преобразование будет

. (7.7)

Величина z следует нормальному распределению, причем ее дисперсия зависит от числа наблюдений

. (7.8)

Поэтому, перейдя от r к z, мы тем самым перешли от распределения r к нормальному. Определив доверительные интервалы для величины z, обратным переходом находим доверительный интервал для вычисленного значения r.

Итак, для отыскания доверительного интервала выполняют следующее:

1. Вычисляют z по (7.7)

2. Вычисляют значение стандарта Sz по (7.8)

3. Находят tq по нормальному распределению, задаваясь доверительной вероятностью ,

4. Находят границы доверительного интервала z

. (7. 9)

5. Вычисляют граничные значения rл, rпр, как r=th(z±Sztq) по найденным граничным значениям z.

6. Анализируют. Если найденное значение r левее граничного значения rл, интервала (на рис.7.4 ниже), то оно незначащее с вероятностью , если правее rпр, (на рис.7.4 выше верхней границы), то безусловно значащее, если внутри интервала, то сомнительное.

При большом числе наблюдений n> 50 можно вычислить дисперсию коэффициента r

, (7. 10)

и воспользоваться ею для отыскания интервала.

Рис. 7.4. Критерий значимости r (Рис.7.4 Митропольский стр.362).(значащее,сомнительное,незначащее)

7.2.I.5. Оценка равенства двух коэффициентов корреляции

Оценки коэффициентов корреляции считаются равными с доверительной вероятностью , если эти оценки попадают в доверительный интервал. Для проверки равенства выполняют следующие действия.

1.Находят по данным значениям коэффициентов значения z1 и z2.

2. Находят дисперсию разности z= z1 - z2

S z2=(n1-3)-1+(n2-3)-1 (7.11)

3. Задаваясь доверительной вероятностью , находят для нормального распределения tq .

4. Сравнивают расхождение z с предельным (tq S z).

Если расхождение z больше предельного, то считают, что оно существенно, и найденные оценки r1 и r2 не равны.

7.2.2. Установление линейной корреляции, регрессии

Регрессия - термин, введенный английским статистиком Ф.Гальтоном при изучении наследственности передачи роста родителей детям. Первоначальный смысл - констатация неполноты связи. Уравнение регрессии - это аналитическое уравнение, связывающее аргумент, который называют факторный признак, и функцию, называемую результативный признак.

Различают линейную и нелинейную регрессию.

  1. Линейная регрессия

Коэффициент регрессии. Из теории вероятностей известно, что коэффициентом регрессии события A относительно события B называют разность условных вероятностей (сравните с (7.01))

. (7.12)

Здесь означает "событие «не B»".

Коэффициент регрессии указывает на вероятностную зависимость события A от B .

Коэффициент регрессии СВ Y относительно X определяется так

.

Статистическая оценка коэффициента регрессии для случайной величины X (факторного признака) и зависимой от нее Y (результативного признака) находится согласно вышеприведенному отношению и (7.3)

. (7.1З)

где r - оценка коэффициента корреляции, SX, SY - стандарты рассеяния этих величин, Kxy - оценка ковариации.

Оценка значимости коэффициента регрессии определяется по доверительному интервалу коэффициента r. Для этого достаточно умножить граничные значения на отношение стандартов результативного и факторного признаков.

При большом количестве пар измерений (n >50) можно, вычислив стандарт оценки коэффициента регрессии

, (7.14)

и задав доверительную вероятность β, выбрать tq для нормального распределения и отыскать доверительный интервал.

Назначение коэффициента регрессии. Коэффициент служит для составления уравнения регрессии, определяющего линейную статистическую связь величин X и Y.

Уравнение линейной регрессии. Возьмем нормированные стандартами отклонения и, тогда.

Отсюда с учетом (7.14) получаем

или, перенося средние значения вправо,

. (7.15)

Обозначая rY/X=A и ,получаем обычный вид уравнения прямой

, (7.16)

где YX называют «Y, выровненный по X»

Уравнение линейной регрессии (7.16) широко используется в практике для установления связи между наблюдаемыми величинами и их ошибками. Соответствующая ему прямая на графике носит название прямой регрессии. Если на графике нанести все точки с координатами(xi,yi ), то получится прямая, которая соответствует минимуму суммы квадратов отрезков от точек до данной прямой, параллельных координатной оси Y.

Коэффициент регрессии указывает угол наклона этой прямой. При ry/x= 0 она идет параллельно оси X, т.е. регрессии нет.

Если построить прямую обратной регрессии X по Y т.е. такую, для которой будет минимальна сумма квадратов отрезков dX, параллельных оси X, , то эти две прямые пересекутся в одной точке P(xp,yp) (Рис.7. 5). Точка эта называется центр тяжести. Его координаты суть xp =и yp =.

Рис. 7.5. Прямые регрессии

«Вероятнейшая прямая». Необходимо иметь ввиду, что прямая регрессии это не та прямая, которая оптимальным образом сглаживает разброс точек. Оптимально сглаживание дает так называемая «вероятнейшая прямая». Она находится под условием минимума суммы квадратов расстояний di от точек до этой прямой.

Согласно известному в метрике определению: сумма квадратов расстояний от точек до некоторой прямой, умноженных на массы точек ("веса"), есть момент инерции системы точек относительно этой прямой L: М (Рис. 7.6) .

Рис.7.6. Вероятнейшая прямая

Признавая все точки равноценными, мы тем самым полагаем равенство их весов. Поэтому надо найти минимум . Центр тяжести системы остается тот же, что и для прямой регрессии:(xp, yp) . Вероятнейшая прямая наклонена к оси x на неизвестный угол α. Квадрат расстояния от точки до прямой будет

Имея ряд di, мы из решения задачи находим значение угла α, обладающее максимумом плотности вероятности, и затем – «вероятнейшую прямую», обладающую максимумом плотности вероятности,

.

При нахождении угла наклона можно было бы учесть веса, так как точка, более удаленная от центра вращения прямой, позволяет точнее определить ее угол наклона.

Соседние файлы в папке Коршунов