Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
29
Добавлен:
27.03.2015
Размер:
88.06 Кб
Скачать

3. ОСНОВЫ КОРРЕЛЯЦИОННОГО АНАЛИЗА

3.1. Парная корреляция

Пусть X и Y – случайные величины. Корреляционный момент между ними и коэффициент корреляции определяются как:

, . (3.1)

При статистическом анализе оценка коэффициента корреляции RXY является случайной величиной, математическое ожидание которой может быть принято равным реализации RXY в конкретных опытах - , а дисперсия определяется в том числе и числом опытов:

. (3.2)

Проверка гипотезы о равенстве нулю коэффициента корреляции осуществляется при использовании статистики Т (критерия Стьюдента):

. (3.3)

При использовании двухстороннего критерия Стьюдента уровень значимости гипотезы о равенстве нулю коэффициента корреляции определяется как:

. Так, например, предположим, что при n=37 получено значение . При этом критерий

Уровень значимости проверяемой гипотезы q=0.067>0.05, т.е. гипотеза о равенстве нулю парного коэффициента корреляции не противоречит располагаемому материалу с уровнем значимости q=0.067, т.е. случайные величины можно считать некоррелированными.

3.2. Множественный корреляционный анализ

Пусть случайная величина Y стохастически связана со случайными величинами Xi, которые в свою очередь стохастически связаны между собой. В этом случае существует два вида парной корреляции:

  • - коэффициенты, характеризующие тесноту связи между функцией отклика Y и фактором Xi,

  • - коэффициенты, характеризующие тесноту связи между факторами.

Матрица парных коэффициентов корреляции записывается в виде:

. (3.4)

Если предварительно была проверена гипотеза о равенстве нулю парных коэффициентов корреляции, то вместо тех парных коэффициентов, относительно которых эта гипотеза оказалась статистически значимой, в матрице (3.4) следует поставить нули.

На основе матрицы R может быть определен коэффициент множественной корреляции, который характеризует стохастическую связь функции отклика со всеми факторами Xi.:

, (3.5)

где D – определитель матрицы парных коэффициентов R,

D11 – минор определителя D, определяемый вычеркиванием в нем первых строки и столбца.

Величина указывает также, какая часть дисперсии Y обусловлена линейной комбинацией факторов.

Пример. Пусть на основе n=60 опытов получена матрица R, стохастически связывающая функцию отклика Y и факторы X1 и X2 между собой:

.

Определитель этой матрицы D=0.758, а минор D11=0.910. Следовательно, коэффициент множественной регрессии оказался равным =0.409.

Для того, чтобы судить о статистической значимости этого коэффициента следует проверить гипотезу о его равенстве нулю по критерию Стьюдента. В рассматриваемом примере =n-m-1=60-2-1=57 и =3.38. Уровень значимости гипотезы о равентсве нулю множественного коэффициента корреляции оказался равным =0.0014<0.05. Следовательно, нулевая гипотеза отвергается, т.е. стохастическая связь между Y и X1, X2 – статистически значима.

Возникает, однако, вопрос: может быть эта связь значима лишь с некоторыми факторами (либо X1 , либо X2)? Для решения этой задачи необходимо определить частные коэффициенты корреляции, т.е. оценить степень стохастической связи между Y и любым из факторов Xi, принимая остальные факторы не случайными.

Частные коэффициенты корреляции определяются на основе матрицы парных коэффициентов корреляции R как

, (3.6)

где D1i – минор определителя D при вычеркивании в нем первой строки и

i-го столбца;

Dii – минор определителя D при вычеркивании в нем i-ой строки и

i-го столбца.

Рассмотрим предыдущий пример и найдем частные коэффициенты корреляции = 0.363 и = -0.0915.

Для оценки статистической значимости частных коэффициентов корреляции применим критерий Стьюдента:

; .

При этих значениях критерия t и =57 уровни значимости проверяемых гипотез оказались равными: q1=0.0024 и q2=0.245. Следовательно стохастическую связь между Y и X2 можно считать не значимой и рассматривать далее, что функция отклика статистически значимо связана лишь с фактором X1.

3.3. Применение корреляционного анализа для построения множественной линейной регрессии

С помощью корреляционного анализа можно построить множественную линейную регрессию, заранее отвергнув влияние тех или иных факторов на функцию отклика. Множественная линейная регрессия записывается в виде

. (3.7)

Для решения поставленной задачи необходимо располагать матрицей парных и частных коэффициентов корреляции.

Возможны два пути использования корреляционного анализа для построения линии регрессии:

  • определение с помощью метода наименьших квадратов (МНК) коэффициентов множественной линейной регрессии с последующим отбрасыванием мало значащих членов;

  • предварительное отбрасывание с помощью корреляционного анализа мало значащих членов регрессии с последующим определением с помощью МНК её коэффициентов.

Рассмотрим здесь лишь второй путь построения множественной линейной регрессии. В этом случае требуется выполнить следующие этапы исследования:

  • вычисление парных коэффициентов корреляции и их статистической значимости;

  • проверка гипотезы о равенстве нулю коэффициента множественной корреляции (дальнейшее решение имеет смысл лишь в случае, если эта гипотеза признается статистически не значимой);

  • вычисление частных коэффициентов корреляции и проверка их статистической значимости;

  • исключение фактора, для которого гипотеза о равенстве нулю имеет наибольшую значимость;

  • составление новой матрицы частных коэффициентов ;

  • проверка гипотезы о соответствии сокращенной модели истинной функциональной связи при использовании критерия Фишера ;

  • определение частных коэффициентов корреляции для сокращенной модели и отбрасывание членов, для которых гипотеза о равенстве нулю наиболее статистически значима и т.д.

Процедура продолжается до тех пор, пока уровень значимости гипотезы о равенстве нулю частных коэффициентов корреляции окажется меньше q<0.05.

Статистическая значимость полученной сокращенной линейной регрессии должна быть проверена с помощью критерия Фишера.

Пример. Покажем применение этого алгоритма на простейшем примере построения множественной линейной регрессии вида

. (3.8)

В качестве матрицы парных коэффициентов корреляции примем матрицу R, рассмотренную в 3.2. Произведенный в этом параграфе статистический анализ позволил отбросить член, стохастически связывающий функцию отклика Y с фактором X2.

Следовательно, регрессиная модель (3.8) может быть сокращена:

. (3.9)

Для модели (3.9) матрица парных коэффициентов запишется в виде:

. (3.10)

Коэффициент множественной корреляции для матрицы (3.10) оказался равным (D=0.84, D11=1)

Проверка статистической значимости этого коэффициента с помощью критерия Стьюдента при =n-1-1=58 дает: и q(3.295;58)=0.0016. Следовательно, гипотеза о равенстве нулю коэффициента множественной регрессии статистически не значима и сокращенная модель линейной регрессии имеет вид (3.9). Далее следует с помощью метода наименьших квадратов определить коэффициенты B0 и B1 и проверить статистическую адекватность линии регрессии истинной функциональной связи с помощью критерия Фишера.

32

Соседние файлы в папке Пособие план. эксп