Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Prakticheskaya_2_Stat_analiz.doc
Скачиваний:
1
Добавлен:
01.05.2025
Размер:
1.08 Mб
Скачать

§ 2.5. Основы дисперсионного анализа

Для проверки нулевой гипотезы H0 : β1 = 0 , т.е. между Y и X нет связи или связь нелинейная. используют основное положение дисперсионного анализа о разбиении суммы квадратов отклонений результативного признака S на сумму S1, характеризующую влияние признака X, и остаточную сумму квадратов S2, характеризующую влияние неучтенных факторов:

S = S1 + S2 .

Дисперсионный анализ – это метод анализа результатов наблюдений, зависящих от различных, одновременно действующих факторов, выбор наиболее существенных факторов и оценка их влияния. Для этого используется разложение общей вариации случайной величины на независимые составляющие, характеризующие влияние того или иного фактора или их взаимодействие. Основная идея дисперсионного анализа состоит в сравнении «факторной дисперсии», порождаемой воздействием фактора, и «остаточной дисперсии», обусловленной случайными причинами. В зависимости от количества факторов, включенных в анализ, различают однофакторный и многофакторный анализ. Для проведения дисперсионного анализа необходимо соблюдение следующих требований: результаты наблюдений должны быть независимыми случайными величинами, имеющими нормальное распределение и одинаковую дисперсию, что дает возможность оценить значимость полученных оценок дисперсий и математических ожиданий и построить доверительные интервалы.

Пусть на количественный нормально распределенный признак Y воздействует фактор X , который имеет p постоянных уровней, а число наблюдений на каждом уровне одинаково и равно n. Если p = 1, общая сумма квадратов отклонений наблюдаемых значений от общей средней

Sобщ = ;

факторная сумма квадратов отклонений выровненных значений, вычисленных по функции регрессии f*(xi), от общей средней

Sфакт = ;

остаточная сумма квадратов отклонений выравненных значений f*(xi) от наблюдаемых значений

Sост =

Общая дисперсия s2 = Sобщ /(n-1)

отражает влияние и фактора и случайных причин. Факторная дисперсия, или

дисперсия регрессии,

s2факт = Sфакт / (n-1)

характеризует воздействие фактора X . Остаточная дисперсия

s2ост = Sост / (n-1)

отражает влияние случайных причин или других неучтенных факторов.

§ 2.6. Нелинейная корреляционная связь

Тесноту связи между X и Y удобно оценивать в единицах общей дисперсии σy, т.е. рассматривать отношение остаточной дисперсии к дисперсии признака относительно его математического ожидания :

{M[ x – M(Y) ]2} / σy2

Эту величину называют теоретическим корреляционным отношением η2Y|x.

Для оценки тесноты линейной корреляционной связи между признаками в выборке служит выборочный коэффициент корреляции. Для оценки тесноты нелинейной корреляционной связи вводят новые сводные характеристики: ηyx и ηxy – выборочные корреляционные отношения Y к X и X к Y.

Выборочным корреляционным отношением Y к X называют отношение :

Ryx = s x / sy ,

где s x = ; sy = ;

nx – частота значения x признака X; nyчастота значения y признака Y;

– общая средняя признака Y ; x – условная средняя признака Y.

Аналогично определяется выборочное корреляционное отношение X к Y: Rxy = s y / sx

Однако чаще пользуются коэффициентом детерминации

R2 = s2факт / s2общ ,

который является отношением объясненной с помощью функции регрессии части дисперсии к общей дисперсии. Коэффициент детерминации определяет долю рассеивания величины Y , обусловленную функциональной зависимостью ее от величины X. Величина

1 – R2 = s2ост / s2общ

Показывает, какую долю рассеивания случайной величины Y обуславливают случайные факторы.

Свойства коэффициента детерминации:

  • 0 ≤ R2 ≤ 1 ;

  • если R2 = 0 (η = 0), признак Y с признаком X корреляционной зависимостью не связан;

  • если R2 =1 (η =- 1), признак Y связан с признаком X функциональной зависимостью;

  • R │rв │ и выборочное корреляционное отношение не меньше абсолютной величины выборочного коэффициента корреляции : η ≥ │rв;

  • если R =rв, то имеет место точная линейная корреляционная зависимость, т.е. точки (xi,yi) лежат на прямой линии регрессии, найденной МНК.

С возрастанием R2 корреляционная связь становится более тесной, так

как уменьшается (1 – R2 ), т.е. уменьшается дисперсия, вызванная воздействием неучтенных факторов.

Преимущество корреляционного отношения перед коэффициентом

корреляции состоит в том, что оно служит мерой тесноты связи любой, в том числе и линейной, формы. Однако, оно не позволяет судить, насколько близко расположены точки наблюдений к кривой определенного вида (параболе, гиперболе и т.д.).

Если график регрессии изображается кривой линией, то корреляцию называют криволинейной. В общем случае нелинейная модель регрессионного анализа имеет вид:

y = g(x1,x2,…,xk) + ε(x1,x2,…,xk),

где g(x1,x2,…,xk) – нелинейная функция регрессии Y на (x1,x2,…,xk); ε(x1,x2,…,xk) – отклонение, погрешность замены истинной зависимости функцией регрессии. В случае двумерной случайной величины функция регрессии

g(x) = β0 + β1x + β2x2.

Параметры β0, β1 и β2 определяются как значения, при которых остаточная

дисперсия регрессии Y на X Sост = становится минимальной.

Оценку значимости приближения функций регрессии выполняют с помощью критерия Фишера :

Fрасч = ,

где k – количество факторных признаков ( k = 1 для двумерной модели) .

Если Fрасч > Fкр , гипотеза H0 : уравнение регрессии не значимо отвергается и уравнение считается не противоречащим статистическим данным. В противном случае, когда Fрасч < Fкр , гипотеза принимается. Значение Fкр(m1,m2,α ) находится по таблице в зависимости от количества факторных признаков k

( m1 = k ), объема выборки n (m2 = n ) и уровня значимости α (0,05).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]