3841
.pdfплоскости. Такое представление выборки называется диа-
граммой рассеяния.
При построении диаграммы рассеяния рекомендуется масштабы по осям х и у выбирать так, чтобы значения обоих признаков укладывались на отрезках приблизительно равной длины.
Возможны различные варианты расположения «облака» точек, по которым можно судить о виде и степени взаимосвязи между признаками X и Y (рис. 2.11, а—г).
Количественной характеристикой степени линейной зависимости между случайными величинами X и Y является ко-
эффициент корреляции .
Оценка коэффициента корреляции , по выборке наблюдений ( , ) i= 1, 2, 3, ..., п вычисляется по формуле
=
где
= |
( |
− |
|
|
|
) |
= |
|
|
− |
(∑ |
) |
|
||||
|
|
|
|
||||||||||||||
= |
( |
− |
|
|
|
) |
= |
|
|
− |
(∑ |
) |
|
||||
|
|
|
|
||||||||||||||
= ( − |
|
)( − |
|
|
) = |
|
|
|
|
− |
(∑ )(∑ ) |
||||||
|
|
|
|
|
|
|
|
||||||||||
|
|
|
|
= |
|
|
|
∑ |
; |
|
= |
|
∑ |
; |
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
61
Рис. 2.11. Варианты расположения «облака» точек
Для коэффициента корреляции справедливы следующие утверждения:
1);
2) если | | = 1, то между Х и Y имеет место функцио-
нальная линейная зависимость, все точки |
будут лежать |
на прямой (рис. 2.12); |
|
Рис. 2.12. Функциональная линейная зависимость между Х и Y при
62
3)если = 0, то говорят, что Х и Y некоррелированны, т. е. между ними нет линейной зависимости (рис. 2.11, в— г);
4)если Х и Y имеют двумерное нормальное распределение, то из равенства = 0 следует, что они статистически независимы.
В случае, когда между случайными величинами Х и Y существует достаточно тесная линейная статистическая зависимость |r|>0, ее можно аппроксимировать уравнением линейной регрессии Y на х:
=+ ,
где ( и , — параметры линейной регрессии; — независимая переменная (фактор, предиктор); у — зависимая переменная (отклик).
При этом предполагается, что независимая переменная измеряется точно, a Y является случайной величиной. Таким образом, исследуют, как в «среднем» изменяются значения зависимой переменной Y при изменении независимой перемен-
ной х.
В тех случаях, когда признаки X и Y равнозначны (на-
пример, рост и вес), аналогично регрессии Y |
на x рассматри- |
|||||||||||
вают линейную регрессию Х на у: |
|
|
|
|
|
. |
||||||
Если случайный вектор (X, |
Y) имеет двумерное нор- |
|||||||||||
= |
|
+ |
|
|
||||||||
мальное распределение, то линейная регрессия Y на х равна |
||||||||||||
условному математическому ожиданию и имеет вид |
||||||||||||
|
|
|
|
|
+ |
|
|
( |
− |
|
) |
|
|
|
|
|
|
|
|
|
|||||
|
|
|
на у равна |
|
|
|||||||
|
|
|
|
|
||||||||
|
|
|
|
|
|
|
||||||
а регрессия X = |
= |
|
|
|
|
|||||||
|
|
= |
= |
+ |
|
|
− |
|
|
|||
|
|
|
|
|
|
|
||||||
|
|
|
|
|
где тх, ту и х, у — соответственно математические ожидания и средние квадратические отклонения Х и Y, — коэффициент корреляции.
63
Для оценки параметров линейной регрессии Y на х по
результатам наблюдений |
|
|
|
i= 1, 2, 3, ..., n, используется |
||||||||||||||||
метод наименьших квадратов( , |
: )в качестве оценок параметров |
|||||||||||||||||||
берут значения |
и , |
минимизирующие |
|
сумму |
||||||||||||||||
квадратов отклонений значений зависимой переменной, |
yi |
от |
||||||||||||||||||
значений |
вычисляемых по уравнению регрессии: |
= |
+ |
|||||||||||||||||
|
|
i= 1, 2, ..., п, |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
, |
Из |
необходимых, = |
|
условий− |
+минимума |
функции |
|||||||||||||
|
: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
; |
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
и |
||||
получаем формулы для |
вычисления оценок параметров |
|||||||||||||||||||
|
|
|
|
= 0 |
|
|
|
= 0 |
|
|
|
|
|
|||||||
регрессии Y на х: |
|
= |
|
∑ |
|
|
−(∑ |
)(∑ |
) |
|
|
|
|
|||||||
|
|
|
|
|
|
|
∑ |
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
−( |
) |
|
|
|
|
|
||||
|
|
|
= |
|
|
|
|
|
|
|
|
(2.41) |
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Аналогично, для регрессии X на у оценки параметров и вычисляются по формулам
|
|
|
= |
|
|
|
|
|
|
|
|
|
|
|
|
(2.42) |
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
= |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
Уравнения |
|
|
|
|
− |
|
|
|
|
( − |
|
|
) |
(2.43) |
|||||||
и |
= + |
= |
|
|
+ |
|
|
|
|
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|||||||||||||
|
|
|
|
|
|
|
|
|
|||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
где , - оценки |
средних квадратических отклонений и : |
||||||||||||||||||||
= + |
= + |
|
|
|
|
|
( − ) |
х |
у |
||||||||||||
|
|
|
64 |
|
|
|
|
|
|
|
|
|
|
|
|
= = , = = ,
r — оценка коэффициента корреляции р, называются выбороч-
ными уравнениями линейной регрессии.
Прямые регрессии пересекаются в точке с координатами и и образуют «ножницы». При | r | = 1 обе прямые совпадают, при | r | = 0 — они перпендикулярны друг другу.
Между коэффициентом корреляции и параметрами регрессии имеются следующие соотношения:
|
|
= | |; = |
|
|
; = |
|
. |
|
|||
|
|
|
|
|
|
||||||
2.4.2. |
Предположения, при которых проводится |
||||||||||
|
|
регрессионный анализ. |
|
||||||||
Статистический анализ простой линейной |
|||||||||||
|
|
|
регрессии |
|
|
|
|
||||
Для выборки наблюдений |
|
|
i= 1, 2, 3, ..., n простая |
||||||||
линейная регрессия определяет п(уравнений, ) |
: |
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
соответ- |
|
где |
— |
значения фактора х, а |
|
|
|
||||||
= |
+ |
|
+ |
|
|
Y, полученные |
|||||
ствующие, ,…им, |
|
|
|
|
|
|
|
||||
значения, зависимой переменной, ,…, |
|
как результаты независимых экспериментов или наблюдений;, — ошибки наблюдений зависимой переменной, имеющие случайный характер.
В регрессионном анализе предполагается, что случайные величины , и , i j, i,j=1,2,..., п некоррелированны, имеют нулевое математическое ожидание: М[ ] = 0 и равные дисперсии: D [ ] = 2, i= 1, 2, ..., n.
При статистическом анализе регрессионной модели предполагается также, что случайные ошибки наблюдений имеют нормальное распределение: ~ N(0, 2), i= 1, 2, ..., п. В
этом случае |
, будут независимыми случайными величинами. |
||||
Задача |
линейного регрессионного анализа состоит в |
||||
том, чтобы по результатам |
наблюдений |
( |
, ) |
i= 1, 2, 3, ..., п: |
|
65 |
|
а) получить наилучшие точечные и интервальные оценки неизвестных параметров , и 2;
б) проверить статистические гипотезы о параметрах модели;
в) проверить, достаточно ли хорошо модель согласуется с результатами наблюдений (адекватность модели результатам наблюдений).
Оценки параметров линейной регрессии, получаемые по методу наименьших квадратов, (МНК-оценки), при любом законе распределения ошибок наблюдений i= 1, 2, ..., п имеют следующие свойства:
1) МНК-оценки являются линейными функциями результатов наблюдений ,i= 1, 2, ..., п и несмещенными
оценками параметров, т.е. = ,j=0,1
2) МНК-оценки имеют минимальные дисперсии в
классе несмещенных оценок, являющихся линейными функциями результатов наблюдений (теорема Гаусса—Маркова).
Если ошибки наблюдений , некоррелированны и имеют нормальное распределение, т. е. ~ N(0, 2), то в дополнение к свойствам 1 и 2 выполняется свойство
3) МНК-оценки совпадают с оценками, вычисляемы-
ми по методу максимального правдоподобия.
Функция
= + x
определяет выборочную (эмпирическую) регрессию Y на х. Эм-
пирическая регрессия является оценкой предполагаемой (теоретической) линейной регрессии по результатам наблюдений. Разности между наблюдаемыми значениями переменной Y при
= , = 1,2,…, |
и расчетными значениями |
= |
|
+ |
|
|
|
|
называются остатками и обозначаются :
=− , i=1,2,3,…n.
Сумма квадратов остатков |
, |
= ∑ |
= ∑( |
− ) |
, |
|
называется остаточной суммой |
|
|
|
|||
|
квадратов. |
|
|
|
||
|
66 |
|
|
|
|
|
Качество |
аппроксимации |
результатов |
|
наблюдений |
|||||||||
= 1, 2, 3, ..., п, выборочной регрессией определяется |
|||||||||||||
(величиной, ) i |
остаточной дисперсии S2, вычисляемой по фор- |
||||||||||||
муле |
|
∑ |
|
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
||
= |
|
|
= |
|
|
− |
|
+ |
|
= |
|
|
|
|
|
|
|
|
|
|
|
|
|||||
Остаточная дисперсия |
S |
используется |
для оценки |
||||||||||
обычно неизвестной−2 |
дисперсии−2 |
|
|
|
|
|
|
2 |
|||||
ошибок наблюдений −.2 |
Если модель согласуется с результатами наблюдений (адекватна результатам наблюдений), то остаточная дисперсия является несмещенной оценкой дисперсии ошибок наблюдений
2, т. е. M[S2] = 2.
Всюду в дальнейшем будем предполагать, что ошибки
~ N(0, |
) и |
|
= 1,2,…, |
имеют нормальное распределение: |
наблюдений |
|
|||
2 |
|
независимы. |
|
|
Это предположение эквивалентно тому, что результаты |
наблюдений i = 1, 2, ..., п являются реализациями независи-
|
распределенных случайных величин |
|
. |
||||||||||||||||||
мых нормально |
|
|
~N |
|
|
|
|
|
|
|
,i=1,2,…,n. |
: |
|
||||||||
Оценки |
|
и |
|
|
|
|
+ |
|
|
, |
|
|
линейной регрессии, как |
||||||||
линейные функции |
|
|
|
|
|
|
|
|
|
|
|
также будут случайными |
|||||||||
величинами, имеющими, |
нормальное распределение: |
|
|
|
|||||||||||||||||
= 1,2,…, |
|
, |
|
|
|
|
|
|
|||||||||||||
|
|
|
|
|
|
, |
|
|
|
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
где оценки дисперсии |
и , соответственно, , |
равны: |
|
|
|
||||||||||||||||
|
|
|
|
|
|
|
|
|
∑ |
|
|
|
|
|
|
|
. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
Если линейная |
регрессия адекватна результатам наблю- |
||||||||||||||||||||
|
|
= |
|
|
|
|
|
, |
|
= |
|
|
/ |
|
|
||||||
дений, то можно показать [25, 64] , что статистика |
имеет |
||||||||||||||||||||
распределение |
|
с (п - 2) степенями свободы, т. е. |
|
|
|||||||||||||||||
|
|
|
|
|
= |
|
|
|
( |
|
−2). |
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
67 |
|
|
|
|
|
|
|
|
Распределение статистики |
|
не зависит от распре- |
|||||||||
|
|
|
|
Несмещенная оценка дисперсии оши- |
|||||||
делений оценок |
2и |
|
. |
|
|
|
|
/ |
|
( |
- 2) сле- |
бок наблюдений S |
связана с распределением |
||||||||||
дующим соотношением |
|
( |
|
−2) |
|
||||||
|
|
|
|
|
|
|
|||||
|
|
|
|
|
= |
|
−2 |
|
|
(2.44) |
|
|
|
|
|
|
|
|
|
Используя приведенные выше результаты можно вычислить доверительные интервалы для параметров линейной регрессии. Рассмотрим нормированную статистику
−
(2.45)
Преобразуем статистику (2.44), используя соотношение
(2.45): |
|
|
|
|
|
|
− |
|
|
|
|
|
− |
|
|
|
|
||
|
− |
= |
|
|
= |
|
|
|
|
= |
( −2). |
||||||||
|
|
|
|
|
|
|
|||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|||||||||
Таким образом, статистика (2.45)( −2может) |
быть представ- |
−2
лена, как отношение двух независимых случайных величин: в числителе — случайная величина, имеющая стандартное нор-
мальное распределение N(0, 1), а в знаменателе |
( |
|
) |
и, |
следовательно, имеет распределение Стьюдента с |
|
|
|
сте- |
пенями свободы. Используя этот результат, получаем( −, |
что ин- |
|||
2) |
|
|
тервалы для параметров линейной регрессии вычисляются по формулам:
|
|
( −2) |
∑ |
или |
|
( |
−2) |
|
|
|
68 |
|
|
|
|
|
|
( |
—−2) |
|
|
или |
|
|
|
( − 2) |
|
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
где |
|
|
|
|
|
квантиль распределения Стьюдента с (п-2) |
||||||||||||||||||||
|
|
|
свободы порядка |
|
, S — оценка среднего квад- |
|||||||||||||||||||||
степенями( |
− 2) |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
ратического ошибок наблюдений1 − : |
= |
|
|
|
|
|
|
|
|
|||||||||||||||||
|
|
|
|
|
|
|
||||||||||||||||||||
|
, |
— дисперсия |
||||||||||||||||||||||||
оценки параметра ,i=0,1. |
|
|
|
|
|
|
||||||||||||||||||||
|
Доверительный интервал для дисперсии ошибок на- |
|||||||||||||||||||||||||
блюдений 2 имеет вид |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||
|
|
|
|
|
|
( − |
2) |
|
|
< < |
( |
|
−2) |
|
|
|
||||||||||
где |
( |
−2) |
— |
|
|
( |
− 2) |
|
|
|
|
|
|
|
|
|
( −2) |
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||
нями |
|
квантили распределения |
|
с (n - 2) степе- |
||||||||||||||||||||||
|
|
|
|
|
|
|
|
свободы порядка р, a S2 — оценка дисперсии ошибок наблюдений.
В практических вычислениях остаточную сумму квадратов Qe получают из тождества
∑ ( − ) = ∑( − ) +∑ −
которое записывается в виде
|
|
= + |
, |
|
|
||||
|
|
= ∑( − |
|
) = ∑ − |
|
; |
= ∑( − |
|
) = |
где |
= 12 = 2 . |
|
|
|
|
|
|||
|
1 |
|
|
|
|
|
Величина QR называется суммой квадратов, обуслов-
ленной регрессией.
Линейная регрессионная модель называется незначимой, если параметр = 0. В этом случае, так как между зависимой переменной у и фактором x: линейной зависимости нет, либо она выражена очень слабо, рассматривать линейную регрессию нет смысла. Для проверки гипотезы H0: =0 используют либо доверительный интервал для параметра р, либо статистику Фишера F:
69
|
|
|
|
|
|
( −2) |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
H : =0 верна, то статистика F имеет |
|||||||||
|
Если гипотеза =0 |
|
= |
|
|
|
|
|
|
||||
распределение Фишера с 1 и (п - 2) степенями свободы. |
|
||||||||||||
|
Гипотеза H0: =0 |
принимается на уровне значимости |
|||||||||||
, если выборочное значение статистики Фишера FB |
будет |
||||||||||||
меньше квантили распределения Фишера |
|
|
, т.е. |
||||||||||
в < |
|
(1, |
−2) |
. В противном случае, |
гипотеза H отклоня- |
||||||||
|
|
|
|
|
|
|
(1, 0− 2) |
ется.
В случае, когда гипотеза H0: =0 отклоняется, говорят, что регрессионная модель статистически значима. Из этого не следует, конечно, что модель хорошо согласуется с результатами наблюдений, т. е. адекватна им.
Полезной характеристикой линейной регрессии являет-
ся коэффициент детерминации R2, вычисляемый по формуле
== 1 −
Коэффициент детерминации R2 равен той доле разброса
результатов наблюдений |
|
|
i= 1, 2, 3, ..., п относительно |
|||
горизонтальной прямой |
( , |
, |
)которая объясняется регресси- |
|||
онной моделью. Величина=R = + |
|
является оценкой коэф- |
||||
|
||||||
фициента корреляции между |
|
результатами наблюдений |
и |
|||
|
√ |
|
|
|
||
вычисляемыми значениями |
предсказываемыми регрессией. |
|
2.4.3. Проверка выполнения предположений регрессионного анализа по остаткам. Доверительные интервалы для прогноза
Линейная регрессионная модель называется адекватной, если предсказанные по ней значения переменной Y согласуются с результатами наблюдений. Грубая оценка адекватности модели может быть проведена непосредственно по графику остатков, т. е. разностей между наблюдаемыми значениями
70