Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

3841

.pdf
Скачиваний:
3
Добавлен:
15.11.2022
Размер:
28.85 Mб
Скачать

плоскости. Такое представление выборки называется диа-

граммой рассеяния.

При построении диаграммы рассеяния рекомендуется масштабы по осям х и у выбирать так, чтобы значения обоих признаков укладывались на отрезках приблизительно равной длины.

Возможны различные варианты расположения «облака» точек, по которым можно судить о виде и степени взаимосвязи между признаками X и Y (рис. 2.11, а—г).

Количественной характеристикой степени линейной зависимости между случайными величинами X и Y является ко-

эффициент корреляции .

Оценка коэффициента корреляции , по выборке наблюдений ( , ) i= 1, 2, 3, ..., п вычисляется по формуле

=

где

=

(

 

 

 

)

=

 

 

(∑

)

 

 

 

 

 

=

(

 

 

 

)

=

 

 

(∑

)

 

 

 

 

 

= ( −

 

)( −

 

 

) =

 

 

 

 

(∑ )(∑ )

 

 

 

 

 

 

 

 

 

 

 

 

=

 

 

 

;

 

=

 

;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

61

Рис. 2.11. Варианты расположения «облака» точек

Для коэффициента корреляции справедливы следующие утверждения:

1);

2) если | | = 1, то между Х и Y имеет место функцио-

нальная линейная зависимость, все точки

будут лежать

на прямой (рис. 2.12);

 

Рис. 2.12. Функциональная линейная зависимость между Х и Y при

62

3)если = 0, то говорят, что Х и Y некоррелированны, т. е. между ними нет линейной зависимости (рис. 2.11, в— г);

4)если Х и Y имеют двумерное нормальное распределение, то из равенства = 0 следует, что они статистически независимы.

В случае, когда между случайными величинами Х и Y существует достаточно тесная линейная статистическая зависимость |r|>0, ее можно аппроксимировать уравнением линейной регрессии Y на х:

=+ ,

где ( и , — параметры линейной регрессии; — независимая переменная (фактор, предиктор); у — зависимая переменная (отклик).

При этом предполагается, что независимая переменная измеряется точно, a Y является случайной величиной. Таким образом, исследуют, как в «среднем» изменяются значения зависимой переменной Y при изменении независимой перемен-

ной х.

В тех случаях, когда признаки X и Y равнозначны (на-

пример, рост и вес), аналогично регрессии Y

на x рассматри-

вают линейную регрессию Х на у:

 

 

 

 

 

.

Если случайный вектор (X,

Y) имеет двумерное нор-

=

 

+

 

 

мальное распределение, то линейная регрессия Y на х равна

условному математическому ожиданию и имеет вид

 

 

 

 

 

+

 

 

(

 

)

 

 

 

 

 

 

 

 

 

 

 

на у равна

 

 

 

 

 

 

 

 

 

 

 

 

 

 

а регрессия X =

=

 

 

 

 

 

 

=

=

+

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где тх, ту и х, у соответственно математические ожидания и средние квадратические отклонения Х и Y, — коэффициент корреляции.

63

Для оценки параметров линейной регрессии Y на х по

результатам наблюдений

 

 

 

i= 1, 2, 3, ..., n, используется

метод наименьших квадратов( ,

: )в качестве оценок параметров

берут значения

и ,

минимизирующие

 

сумму

квадратов отклонений значений зависимой переменной,

yi

от

значений

вычисляемых по уравнению регрессии:

=

+

 

 

i= 1, 2, ..., п,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

,

Из

необходимых, =

 

условий

+минимума

функции

 

:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

и

получаем формулы для

вычисления оценок параметров

 

 

 

 

= 0

 

 

 

= 0

 

 

 

 

 

регрессии Y на х:

 

=

 

 

 

−(∑

)(∑

)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

−(

)

 

 

 

 

 

 

 

 

=

 

 

 

 

 

 

 

 

(2.41)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Аналогично, для регрессии X на у оценки параметров и вычисляются по формулам

 

 

 

=

 

 

 

 

 

 

 

 

 

 

 

 

(2.42)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Уравнения

 

 

 

 

 

 

 

 

( −

 

 

)

(2.43)

и

= +

=

 

 

+

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где , - оценки

средних квадратических отклонений и :

= +

= +

 

 

 

 

 

( − )

х

у

 

 

 

64

 

 

 

 

 

 

 

 

 

 

 

 

= = , = = ,

r — оценка коэффициента корреляции р, называются выбороч-

ными уравнениями линейной регрессии.

Прямые регрессии пересекаются в точке с координатами и и образуют «ножницы». При | r | = 1 обе прямые совпадают, при | r | = 0 — они перпендикулярны друг другу.

Между коэффициентом корреляции и параметрами регрессии имеются следующие соотношения:

 

 

= | |; =

 

 

; =

 

.

 

 

 

 

 

 

 

2.4.2.

Предположения, при которых проводится

 

 

регрессионный анализ.

 

Статистический анализ простой линейной

 

 

 

регрессии

 

 

 

 

Для выборки наблюдений

 

 

i= 1, 2, 3, ..., n простая

линейная регрессия определяет п(уравнений, )

:

 

 

 

 

 

 

 

 

 

 

 

 

 

соответ-

где

значения фактора х, а

 

 

 

=

+

 

+

 

 

Y, полученные

ствующие, ,…им,

 

 

 

 

 

 

 

значения, зависимой переменной, ,…,

 

как результаты независимых экспериментов или наблюдений;, — ошибки наблюдений зависимой переменной, имеющие случайный характер.

В регрессионном анализе предполагается, что случайные величины , и , i j, i,j=1,2,..., п некоррелированны, имеют нулевое математическое ожидание: М[ ] = 0 и равные дисперсии: D [ ] = 2, i= 1, 2, ..., n.

При статистическом анализе регрессионной модели предполагается также, что случайные ошибки наблюдений имеют нормальное распределение: ~ N(0, 2), i= 1, 2, ..., п. В

этом случае

, будут независимыми случайными величинами.

Задача

линейного регрессионного анализа состоит в

том, чтобы по результатам

наблюдений

(

, )

i= 1, 2, 3, ..., п:

65

 

а) получить наилучшие точечные и интервальные оценки неизвестных параметров , и 2;

б) проверить статистические гипотезы о параметрах модели;

в) проверить, достаточно ли хорошо модель согласуется с результатами наблюдений (адекватность модели результатам наблюдений).

Оценки параметров линейной регрессии, получаемые по методу наименьших квадратов, (МНК-оценки), при любом законе распределения ошибок наблюдений i= 1, 2, ..., п имеют следующие свойства:

1) МНК-оценки являются линейными функциями результатов наблюдений ,i= 1, 2, ..., п и несмещенными

оценками параметров, т.е. = ,j=0,1

2) МНК-оценки имеют минимальные дисперсии в

классе несмещенных оценок, являющихся линейными функциями результатов наблюдений (теорема Гаусса—Маркова).

Если ошибки наблюдений , некоррелированны и имеют нормальное распределение, т. е. ~ N(0, 2), то в дополнение к свойствам 1 и 2 выполняется свойство

3) МНК-оценки совпадают с оценками, вычисляемы-

ми по методу максимального правдоподобия.

Функция

= + x

определяет выборочную (эмпирическую) регрессию Y на х. Эм-

пирическая регрессия является оценкой предполагаемой (теоретической) линейной регрессии по результатам наблюдений. Разности между наблюдаемыми значениями переменной Y при

= , = 1,2,…,

и расчетными значениями

=

 

+

 

 

 

 

называются остатками и обозначаются :

=, i=1,2,3,…n.

Сумма квадратов остатков

,

= ∑

= ∑(

− )

,

называется остаточной суммой

 

 

 

 

квадратов.

 

 

 

 

66

 

 

 

 

 

Качество

аппроксимации

результатов

 

наблюдений

= 1, 2, 3, ..., п, выборочной регрессией определяется

(величиной, ) i

остаточной дисперсии S2, вычисляемой по фор-

муле

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

=

 

 

=

 

 

 

+

 

=

 

 

 

 

 

 

 

 

 

 

 

 

Остаточная дисперсия

S

используется

для оценки

обычно неизвестной−2

дисперсии−2

 

 

 

 

 

 

2

ошибок наблюдений .2

Если модель согласуется с результатами наблюдений (адекватна результатам наблюдений), то остаточная дисперсия является несмещенной оценкой дисперсии ошибок наблюдений

2, т. е. M[S2] = 2.

Всюду в дальнейшем будем предполагать, что ошибки

~ N(0,

) и

 

= 1,2,…,

имеют нормальное распределение:

наблюдений

 

2

 

независимы.

 

Это предположение эквивалентно тому, что результаты

наблюдений i = 1, 2, ..., п являются реализациями независи-

 

распределенных случайных величин

 

.

мых нормально

 

 

~N

 

 

 

 

 

 

 

,i=1,2,…,n.

:

 

Оценки

 

и

 

 

 

 

+

 

 

,

 

 

линейной регрессии, как

линейные функции

 

 

 

 

 

 

 

 

 

 

 

также будут случайными

величинами, имеющими,

нормальное распределение:

 

 

 

= 1,2,…,

 

,

 

 

 

 

 

 

 

 

 

 

 

 

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где оценки дисперсии

и , соответственно, ,

равны:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Если линейная

регрессия адекватна результатам наблю-

 

 

=

 

 

 

 

 

,

 

=

 

 

/

 

 

дений, то можно показать [25, 64] , что статистика

имеет

распределение

 

с (п - 2) степенями свободы, т. е.

 

 

 

 

 

 

 

=

 

 

 

(

 

−2).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

67

 

 

 

 

 

 

 

 

Распределение статистики

 

не зависит от распре-

 

 

 

 

Несмещенная оценка дисперсии оши-

делений оценок

2и

 

.

 

 

 

 

/

 

(

- 2) сле-

бок наблюдений S

связана с распределением

дующим соотношением

 

(

 

−2)

 

 

 

 

 

 

 

 

 

 

 

 

 

=

 

−2

 

 

(2.44)

 

 

 

 

 

 

 

 

Используя приведенные выше результаты можно вычислить доверительные интервалы для параметров линейной регрессии. Рассмотрим нормированную статистику

(2.45)

Преобразуем статистику (2.44), используя соотношение

(2.45):

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

 

 

=

 

 

 

 

=

( −2).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таким образом, статистика (2.45)( −2может)

быть представ-

−2

лена, как отношение двух независимых случайных величин: в числителе — случайная величина, имеющая стандартное нор-

мальное распределение N(0, 1), а в знаменателе

(

 

)

и,

следовательно, имеет распределение Стьюдента с

 

 

 

сте-

пенями свободы. Используя этот результат, получаем( −,

что ин-

2)

 

 

тервалы для параметров линейной регрессии вычисляются по формулам:

 

 

( −2)

или

 

(

−2)

 

 

 

68

 

 

 

 

 

 

(

−2)

 

 

или

 

 

 

( − 2)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где

 

 

 

 

 

квантиль распределения Стьюдента с (п-2)

 

 

 

свободы порядка

 

, S — оценка среднего квад-

степенями(

− 2)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ратического ошибок наблюдений1 − :

=

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

,

— дисперсия

оценки параметра ,i=0,1.

 

 

 

 

 

 

 

Доверительный интервал для дисперсии ошибок на-

блюдений 2 имеет вид

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

( −

2)

 

 

< <

(

 

−2)

 

 

 

где

(

−2)

 

 

(

− 2)

 

 

 

 

 

 

 

 

 

( −2)

 

 

 

 

 

 

 

 

 

 

 

 

нями

 

квантили распределения

 

с (n - 2) степе-

 

 

 

 

 

 

 

 

свободы порядка р, a S2 оценка дисперсии ошибок наблюдений.

В практических вычислениях остаточную сумму квадратов Qe получают из тождества

∑ ( − ) = ∑( − ) +∑ −

которое записывается в виде

 

 

= +

,

 

 

 

 

= ∑( −

 

) = ∑ −

 

;

= ∑( −

 

) =

где

= 12 = 2 .

 

 

 

 

 

 

1

 

 

 

 

 

Величина QR называется суммой квадратов, обуслов-

ленной регрессией.

Линейная регрессионная модель называется незначимой, если параметр = 0. В этом случае, так как между зависимой переменной у и фактором x: линейной зависимости нет, либо она выражена очень слабо, рассматривать линейную регрессию нет смысла. Для проверки гипотезы H0: =0 используют либо доверительный интервал для параметра р, либо статистику Фишера F:

69

 

 

 

 

 

 

( −2)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

H : =0 верна, то статистика F имеет

 

Если гипотеза =0

 

=

 

 

 

 

 

 

распределение Фишера с 1 и (п - 2) степенями свободы.

 

 

Гипотеза H0: =0

принимается на уровне значимости

, если выборочное значение статистики Фишера FB

будет

меньше квантили распределения Фишера

 

 

, т.е.

в <

 

(1,

−2)

. В противном случае,

гипотеза H отклоня-

 

 

 

 

 

 

 

(1, 0− 2)

ется.

В случае, когда гипотеза H0: =0 отклоняется, говорят, что регрессионная модель статистически значима. Из этого не следует, конечно, что модель хорошо согласуется с результатами наблюдений, т. е. адекватна им.

Полезной характеристикой линейной регрессии являет-

ся коэффициент детерминации R2, вычисляемый по формуле

== 1 −

Коэффициент детерминации R2 равен той доле разброса

результатов наблюдений

 

 

i= 1, 2, 3, ..., п относительно

горизонтальной прямой

( ,

,

)которая объясняется регресси-

онной моделью. Величина=R = +

 

является оценкой коэф-

 

фициента корреляции между

 

результатами наблюдений

и

 

 

 

 

вычисляемыми значениями

предсказываемыми регрессией.

 

2.4.3. Проверка выполнения предположений регрессионного анализа по остаткам. Доверительные интервалы для прогноза

Линейная регрессионная модель называется адекватной, если предсказанные по ней значения переменной Y согласуются с результатами наблюдений. Грубая оценка адекватности модели может быть проведена непосредственно по графику остатков, т. е. разностей между наблюдаемыми значениями

70

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]