
3. Построение уравнения линейной регрессии методом наименьших квадратов
Рассмотрим линейную регрессию от одного параметра. Пусть для произвольного фиксированного значения х получено несколько значений у. Предполагается, что величина Y распределена нормально с математическим ожиданием:
mY = b0* + b1* x (2.1)
Для линейной зависимости линия регрессии задается уравнением прямой:
y = β0 + β1x (2.2), которая должна проходить максимально близко к точкам корреляционного поля. Это требование обычно реализуется применением метода наименьших квадратов и сводится к тому, чтобы расстояние по вертикали между опытными точками с координатами хi, уi и соответствующими точками, лежащими на искомой линии регрессии, было минимальным. Это условие можно записать в виде:
(2.3)
Рисунок 1. Корреляционное поле зависимости y-x
Взяв частные производные (2.3) по 0 и 1 и приравняв их нулю, находим уравнения для оценок b0 и b1 неизвестных параметров 0 и 1:
(2.4)
откуда
(2.5)
и
(2.6)
откуда
(2.7)
Поскольку
и
то из (2.5) и (2.7) следует
(2.8)
(2.9)
Учитывая соотношение (2.8), выборочное уравнение линейной регрессии y относительно х можно записать в виде
(2.10)
или:
4. Расчет коэффициента корреляции
Выборочный коэффициент корреляции вычисляют по формуле
=
- 0.98 (2.11)
где Sx и Sy – выборочные средние квадратичные отклонения:
=
0,37 (2.12)
=
1,02 (2.13)
Коэффициент корреляции не может быть использован для оценки технологической важности фактора. Его величина указывает только на тесноту связи между переменными, а знак — на характер влияния. Значения коэффициента корреляции могут находиться в пределах –1 ≤ r ≤ 1. Если r < 0, то увеличение х вызывает уменьшение у; при r > 0 наблюдается обратная закономерность. Если |r| = 1, то связь является линейной функциональной, если |r|=0, то корреляционной связи между х и у нет или она нелинейна. Коэффициент корреляции одинаково «реагирует» на разброс экспериментальных точек относительно прямой регрессии и криволинейность зависимости при малом разбросе точек на корреляционном поле. Поэтому визуальный анализ корреляционного поля может дать полезную информацию для объяснения причины получения малого значения коэффициента корреляции.
Если выражение (2.11) преобразовать к виду
(2.14)
и подставить его в формулу (2.9), то получим
(2.15)
b1 = 2,76
Из выражения (2.15) видна непосредственная связь величин r и b1 знаки которых всегда совпадают. Выражения (2.11), (2.15) и (2.8) составляют «совмещенный» расчетный аппарат для решения преобладающего большинства практических задач, в которых важно нахождение тесноты и вида связи между переменными х и у.
Коэффициент корреляции обычно рассчитывают по ограниченному количеству данных – выборке из генеральной совокупности, вследствие чего он всегда содержит ошибку. Поэтому необходима проверка гипотезы о его статистической значимости, т.е. отличия от нуля генерального коэффициента r*. Для проверки нуль-гипотезы H0: r* = 0 применяют t-отношение:
=4,91
(2.16)
где f = n – 2 – число степеней свободы.
Если tr > t1-α при заданном уровне значимости α, то нулевая гипотеза отклоняется и принимается альтернативная H1: r* ≠ 0, т.е. r значимо отличается от нуля. Так, для α = 0,01 и f = ∞ находим t1-α = 2,01. Таким образом, при t > 2,01 связь между факторами считается не случайной. Таким образом, нулевая гипотеза отклонена и принята альтернативная.