планирование эксп / Пособие план. эксп / Пос.Кад.I.3
..doc3. ОСНОВЫ КОРРЕЛЯЦИОННОГО АНАЛИЗА
3.1. Парная корреляция
Пусть X и Y – случайные величины. Корреляционный момент между ними и коэффициент корреляции определяются как:
,
.
(3.1)
При статистическом анализе оценка
коэффициента корреляции RXY
является случайной величиной,
математическое ожидание которой может
быть принято равным реализации RXY
в конкретных опытах -
,
а дисперсия определяется в том числе и
числом опытов:
.
(3.2)
Проверка гипотезы о равенстве нулю коэффициента корреляции осуществляется при использовании статистики Т (критерия Стьюдента):
.
(3.3)
При использовании двухстороннего критерия Стьюдента уровень значимости гипотезы о равенстве нулю коэффициента корреляции определяется как:
.
Так, например, предположим, что при n=37
получено значение
.
При этом критерий
![]()
Уровень значимости проверяемой гипотезы q=0.067>0.05, т.е. гипотеза о равенстве нулю парного коэффициента корреляции не противоречит располагаемому материалу с уровнем значимости q=0.067, т.е. случайные величины можно считать некоррелированными.
3.2. Множественный корреляционный анализ
Пусть случайная величина Y стохастически связана со случайными величинами Xi, которые в свою очередь стохастически связаны между собой. В этом случае существует два вида парной корреляции:
-
- коэффициенты, характеризующие тесноту
связи между функцией отклика Y
и фактором Xi, -
- коэффициенты, характеризующие тесноту
связи между факторами.
Матрица парных коэффициентов корреляции записывается в виде:
.
(3.4)
Если предварительно была проверена гипотеза о равенстве нулю парных коэффициентов корреляции, то вместо тех парных коэффициентов, относительно которых эта гипотеза оказалась статистически значимой, в матрице (3.4) следует поставить нули.
На основе матрицы R может быть определен коэффициент множественной корреляции, который характеризует стохастическую связь функции отклика со всеми факторами Xi.:
,
(3.5)
где D – определитель матрицы парных коэффициентов R,
D11 – минор определителя D, определяемый вычеркиванием в нем первых строки и столбца.
Величина
указывает
также, какая часть дисперсии Y
обусловлена линейной комбинацией
факторов.
Пример. Пусть на основе n=60 опытов получена матрица R, стохастически связывающая функцию отклика Y и факторы X1 и X2 между собой:
.
Определитель этой матрицы D=0.758,
а минор D11=0.910.
Следовательно, коэффициент множественной
регрессии оказался равным
=0.409.
Для того, чтобы судить о статистической
значимости этого коэффициента следует
проверить гипотезу о его равенстве нулю
по критерию Стьюдента. В рассматриваемом
примере =n-m-1=60-2-1=57
и
=3.38.
Уровень значимости гипотезы о равентсве
нулю множественного коэффициента
корреляции оказался равным
=0.0014<0.05.
Следовательно, нулевая гипотеза
отвергается, т.е. стохастическая связь
между Y и X1,
X2 – статистически
значима.
Возникает, однако, вопрос: может быть эта связь значима лишь с некоторыми факторами (либо X1 , либо X2)? Для решения этой задачи необходимо определить частные коэффициенты корреляции, т.е. оценить степень стохастической связи между Y и любым из факторов Xi, принимая остальные факторы не случайными.
Частные коэффициенты корреляции определяются на основе матрицы парных коэффициентов корреляции R как
,
(3.6)
где D1i – минор определителя D при вычеркивании в нем первой строки и
i-го столбца;
Dii – минор определителя D при вычеркивании в нем i-ой строки и
i-го столбца.
Рассмотрим предыдущий пример и найдем
частные коэффициенты корреляции
=
0.363 и
=
-0.0915.
Для оценки статистической значимости частных коэффициентов корреляции применим критерий Стьюдента:
;
.
При этих значениях критерия t и =57 уровни значимости проверяемых гипотез оказались равными: q1=0.0024 и q2=0.245. Следовательно стохастическую связь между Y и X2 можно считать не значимой и рассматривать далее, что функция отклика статистически значимо связана лишь с фактором X1.
3.3. Применение корреляционного анализа для построения множественной линейной регрессии
С помощью корреляционного анализа можно построить множественную линейную регрессию, заранее отвергнув влияние тех или иных факторов на функцию отклика. Множественная линейная регрессия записывается в виде
.
(3.7)
Для решения поставленной задачи необходимо располагать матрицей парных и частных коэффициентов корреляции.
Возможны два пути использования корреляционного анализа для построения линии регрессии:
-
определение с помощью метода наименьших квадратов (МНК) коэффициентов множественной линейной регрессии с последующим отбрасыванием мало значащих членов;
-
предварительное отбрасывание с помощью корреляционного анализа мало значащих членов регрессии с последующим определением с помощью МНК её коэффициентов.
Рассмотрим здесь лишь второй путь построения множественной линейной регрессии. В этом случае требуется выполнить следующие этапы исследования:
-
вычисление парных коэффициентов корреляции и их статистической значимости;
-
проверка гипотезы о равенстве нулю коэффициента множественной корреляции (дальнейшее решение имеет смысл лишь в случае, если эта гипотеза признается статистически не значимой);
-
вычисление частных коэффициентов корреляции и проверка их статистической значимости;
-
исключение фактора, для которого гипотеза о равенстве нулю
имеет
наибольшую значимость; -
составление новой матрицы частных коэффициентов ;
-
проверка гипотезы о соответствии сокращенной модели истинной функциональной связи при использовании критерия Фишера
; -
определение частных коэффициентов корреляции для сокращенной модели и отбрасывание членов, для которых гипотеза о равенстве нулю наиболее статистически значима и т.д.
Процедура продолжается до тех пор, пока уровень значимости гипотезы о равенстве нулю частных коэффициентов корреляции окажется меньше q<0.05.
Статистическая значимость полученной сокращенной линейной регрессии должна быть проверена с помощью критерия Фишера.
Пример. Покажем применение этого алгоритма на простейшем примере построения множественной линейной регрессии вида
.
(3.8)
В качестве матрицы парных коэффициентов корреляции примем матрицу R, рассмотренную в 3.2. Произведенный в этом параграфе статистический анализ позволил отбросить член, стохастически связывающий функцию отклика Y с фактором X2.
Следовательно, регрессиная модель (3.8) может быть сокращена:
.
(3.9)
Для модели (3.9) матрица парных коэффициентов запишется в виде:
.
(3.10)
Коэффициент
множественной корреляции для матрицы
(3.10) оказался равным (D=0.84,
D11=1)
![]()
![]()
Проверка
статистической значимости этого
коэффициента с помощью критерия Стьюдента
при =n-1-1=58
дает:
и q(3.295;58)=0.0016.
Следовательно, гипотеза о равенстве
нулю коэффициента множественной
регрессии статистически не значима и
сокращенная модель линейной регрессии
имеет вид (3.9). Далее следует с помощью
метода наименьших квадратов определить
коэффициенты B0
и B1 и проверить
статистическую адекватность линии
регрессии истинной функциональной
связи с помощью критерия Фишера.
