- •Корреляционный и регрессионный анализы Задание
- •1 Корреляционная зависимость и ее компоненты
- •2 Парная корреляция
- •2.1 Линейная регрессия. Метод наименьших квадратов
- •2.2 Выборочный коэффициент корреляции
- •2.3 Проверка значимости коэффициентов и адекватности уравнения регрессии
- •3 Содержание отчета по практической работе
- •1 Задание……………………………………………………............
- •2 Результаты измерений…………………………………………...
2.2 Выборочный коэффициент корреляции
Количественной мерой, учитывающей закономерную (стохастическую) долю колебаний уi относительно средней Ῡ под влиянием хi, является коэффициент корреляции. Выборочный коэффициент корреляции вычисляют по формуле
(2.11)
где Sx и Sy – выборочные средние квадратичные отклонения:
(2.12)
(2.13)
Коэффициент корреляции не может быть использован для оценки технологической важности фактора. Его величина указывает только на тесноту связи между переменными, а знак — на характер влияния. Значения коэффициента корреляции могут находиться в пределах –1 ≤ r ≤ 1. Если r < 0, то увеличение х вызывает уменьшение у; при r > 0 наблюдается обратная закономерность. Если |r| = 1, то связь является линейной функциональной, если |r|=0, то корреляционной связи между х и у нет или она нелинейна. Коэффициент корреляции одинаково «реагирует» на разброс экспериментальных точек относительно прямой регрессии и криволинейность зависимости при малом разбросе точек на корреляционном поле. Поэтому визуальный анализ корреляционного поля может дать полезную информацию для объяснения причины получения малого значения коэффициента корреляции.
Если выражение (2.11) преобразовать к виду
(2.14)
и подставить его в формулу (2.9), то получим
(2.15)
Из выражения (2.15) видна непосредственная связь величин r и b1 знаки которых всегда совпадают. Выражения (2.11), (2.15) и (2.8) составляют «совмещенный» расчетный аппарат для решения преобладающего большинства практических задач, в которых важно нахождение тесноты и вида связи между переменными х и у.
Коэффициент корреляции обычно рассчитывают по ограниченному количеству данных – выборке из генеральной совокупности, вследствие чего он всегда содержит ошибку. Поэтому необходима проверка гипотезы о его статистической значимости, т.е. отличия от нуля генерального коэффициента r*. Для проверки нуль-гипотезы H0: r* = 0 применяют t-отношение:
(2.16)
где f = n – 2 – число степеней свободы.
Если tr > t1-α при заданном уровне значимости α, то нулевая гипотеза отклоняется и принимается альтернативная H1: r* ≠ 0, т.е. r значимо отличается от нуля. Так, для α = 0,01 и f = ∞ находим t1-α = 2,58. Таким образом, при t > 2,6 связь между факторами считается не случайной.
2.3 Проверка значимости коэффициентов и адекватности уравнения регрессии
Неотъемлемым элементом регрессионного анализа является статистическая проверка значимости найденных коэффициентов регрессии. Оценку значимости коэффициентов выполняют по критерию Стьюдента. При этом проверяется нуль-гипотеза Н0: bj* = 0, т.е. j-й коэффициент регрессии генеральной совокупности при заданном уровне значимости α неотличим от нуля. Если условие:
(2.17)
где bj – j-й коэффициент регрессии; Sbj – среднее квадратичное отклонение у-го коэффициента: f = n – k – число степеней свободы: k – число учитываемых признаков в уравнении регрессии, выполняется, то нулевая гипотеза принимается. При несоблюдении условия (2.17) принимается альтернативная гипотеза H1: bj* ≠ 0. В случае принятия нуль-гипотезы незначимый коэффициент исключается из уравнения регрессии, а величины оставшихся коэффициентов находят заново, так как между ними существует корреляционная зависимость (2.8).
Средние квадратичные ошибки Sbj коэффициентов линейной регрессии для проверки условия (2.17) находят по формулам:
. (2.18)
(2.19)
где Sост – корень квадратный из остаточной дисперсии или дисперсии уi относительно линии регрессии.
Остаточную дисперсию вычисляют по формуле:
(2.20)
где
– величины, вычисленные по уравнению
регрессии; k
–
число учитываемых признаков в уравнении
регрессии (для линейной регрессии k
=
2);
f
= n
– k
– число
степеней свободы. Если коэффициент
корреляции r
уже
вычислен, то при выполнении практических
расчетов удобно использовать связь
между линейной корреляцией и линейной
регрессией. В этом случае для нахождения
остаточной дисперсии можно использовать
формулу:
(2.21)
Другим
важным элементом регрессионного анализа
является проверка
адекватности уравнения
регрессии по критерию Фишера. В этом
случае проверяется нуль-гипотеза H0:
,
т.е. предполагается, что генеральные
дисперсии адекватности и воспроизводимости
равны. Поскольку проверка осуществляется
путем сравнения выборочных дисперсий,
то нуль-гипотеза принимается при
выполнении условия:
(2.22)
где
– выборочная дисперсия адекватности;
– выборочная дисперсия воспроизводимости;
f1
=
fад
– число степеней свободы
;
f2
= fвоспр
– число степеней свободы
.
При повторении (дублировании) каждого из n опытов m раз дисперсии адекватности и воспроизводимости вычисляют по формулам:
(2.23)
(2.24)
где n
– объем
выборки; m
—
число дублирующих опытов; k
— число
коэффициентов в уравнении регрессии;
–
значения,
вычисленные по уравнению регрессии для
xi,
n
– k
= f1;
n(m
– 1) = f2
. В случае невозможности проведения
дублирующих опытов и определения
дисперсии воспроизводимости вместо
соотношения (2.22) для оценки адекватности
уравнения регрессии используют «обратное»
отношение дисперсий:
F = s2y(f1) / s2ост(f2) > F1-α(f1, f2) , (2.25)
где f1 = n – 1; f2 = n – k.
В выражении (2.25) s2ост находят по формулам (2.19)–(2.21), а дисперсию относительно среднего s2y – по формуле (2.13). Считают, что эффективность уравнения регрессии тем выше, чем больше F превышает F1-α(f1, f2).
