Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Общая теория статистики Назаров

.pdf
Скачиваний:
410
Добавлен:
27.05.2015
Размер:
2.8 Mб
Скачать

15.3. Корреляционный и регрессионный виды анализа

361

размерности n × k, i я строка которой характеризует i е наблюде ние (объект) по всем k показателям (j = 1, 2, ... k).

В корреляционном анализе матрицу Х рассматривают как вы борку объема n из k мерной генеральной совокупности, подчиня ющейся k мерному нормальному закону распределения.

По выборке определяют оценки параметров генеральной сово купности, а именно: вектор средний x, вектор средних квадрати ческих отклонений s и корреляционную матрицу R порядка k:

 

 

 

 

 

s1

 

 

x1

 

 

 

 

 

s

 

 

x

 

 

=

2

 

, s = 2

, R

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xk

 

sk

 

1

r12

r1k

 

r

1

r

(15.2)

= 21

 

 

2k ,

 

 

rk 2

 

 

rk1

1

 

где

 

 

 

=

1

n

 

 

 

=

1

 

n

(x

 

 

)2 ,

 

 

 

x

, s

 

 

 

x

j

j

x

 

 

 

 

 

 

 

ij

 

 

 

n i=1

ij

 

j

 

 

 

 

 

 

 

 

n i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

n

(x

 

 

)(x

 

 

)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

j

x

 

 

 

 

 

 

 

 

 

 

 

 

rji =

n i=1

ij

 

 

 

 

ji

i

 

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

s j si

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где xij — значение j го показателя для i го наблюдения;

(15.3)

(15.4)

rji — выборочный парный коэффициент корреляции, характеризую щий тесноту линейной связи между показателями xj и xi. При этом rji явля ется оценкой генерального парного коэффициента корреляции ρji.

Матрица R является симметричной (rji = rij) и положительно оп ределенной.

Кроме того, находятся точечные оценки частных и множествен ных коэффициентов корреляции любого порядка (порядок опре деляется числом фиксированных переменных). Например, частный коэффициент корреляции порядка (k 2) между переменными x1 и x2 равен

r12/3, 4 ... k = −

R`12

,

(15.5)

R11R22

 

 

 

где Rji — алгебраическое дополнение элемента rji корреляционной матри цы R. При этом Rji = (–1)j+lMji, где Mji — минор, т.е. определитель матрицы, получаемой из матрицы R путем вычерчивания j й строки и i го столбца (в примере (15.5) рассматривается R12, где j = 1, i = 2).

362 Глава 15. Cтатистическое изучение взаимосвязи...

Множественный коэффициент корреляции (k – 1) порядка ре зультативного признака x1 определяется по формуле

r1/2,3... k

= r1

= 1 −

 

R

 

,

(15.6)

 

 

 

 

 

 

R11

 

где |R| — определитель матрицы R.

Значимость частных и парных коэффициентов корреляции, т.е. гипотеза H0 : ρ = 0, проверяется по t критерию Стьюдента. Наблю даемое значение критерия находится по формуле

tнабл =

 

r

n l − 2,

(15.7)

 

r2

1

 

 

где r — соответственно оценка частного или парного коэффициента кор реляции ρ;

l — порядок частного коэффициента корреляции, т.е. число фиксиру емых переменных (для парного коэффициента корреляции l = 0).

Напомним, что проверяемый коэффициент корреляции счи тается значимым, т.е. гипотеза H0 : ρ = 0 отвергается с вероятнос

тью ошибки α, если tнабл по модулю будет больше, чем значение tкр, определяемое по таблицам t распределения для заданного α и

v = n l – 2.

При определении с надежностью γ доверительного интервала для значимого парного или частного коэффициента корреляции ρ ис пользуют Z преобразование Фишера и предварительно устанав ливают интервальную оценку для Z:

1

Z

Z ′ + tγ

1

,

 

Z ′ − tγ n l − 3

n l − 3

(15.8)

 

 

 

 

 

 

где tγ вычисляют по таблице значений интегральной функции Лапласа из условия Ф(tγ) = γ, значение Zопределяют по таблице Z преобразования по найденному значению r. Функция Z— нечетная, т.е. Z′(–r) = Z′(r).

Обратный переход от Z к ρ осуществляется также по таблице Z преобразования, после использования которой получают интер вальную оценку для ρ с надежностью γ.

rmin ≤ ρ ≤ rmax.

(15.9)

Таким образом, с вероятностью γ гарантируется, что генераль ный коэффициент корреляции ρ будет находиться в интервале (rmin,

rmax).

15.3. Корреляционный и регрессионный виды анализа

363

Значимость множественного коэффициента корреляции (и его квадрата — коэффициента детерминации) проверяется по F кри терию. Например, для множественного коэффициента корреляции ρ1/2 ... k проверка значимости сводится к проверке гипотезы, что ге неральный множественный коэффициент корреляции равен нулю, т.е. H0 : ρ1/2 ... k = 0, а наблюдаемое значение статистики находится по формуле

 

 

 

 

1

 

r2

 

 

 

 

 

k − 1

 

 

Fнабл

=

 

1/2 ... k

.

(15.10)

1

 

 

 

 

 

 

 

(1 − r2 )

 

 

 

n k

 

 

 

 

 

1/2 ... k

 

 

 

 

 

 

 

 

 

 

 

Множественный коэффициент корреляции считается значимым, т.е. имеет место линейная статистическая зависимость между x1 и

остальными переменными x2 ... x3, если Fнабл > Fкр, где Fкр определяет ся по таблице F распределения для заданных α, v1 = k – 1, v2 = n k.

Регрессионный анализ — это статистический метод исследова ния зависимости результативной величины у от объясняющих пе ременных (аргументов) xj (j = 1, 2 ... k), рассматриваемых в регрес сионном анализе как неслучайные величины независимо от истин ного закона распределения xj.

Обычно предполагается, что случайная величина у имеет нор мальный закон распределения с условным математическим ожи данием y = ϕ(x1 ... xk), являющимся функцией от аргументов x1 ... xk с постоянной, не зависящей от аргументов дисперсией σ2.

Для проведения регрессионного анализа из (k+1) мерной ге неральной совокупности (y, x1, x2 ... xj ... xk) берется выборка объе мом n, и каждое i е наблюдение (объект) характеризуется значени

ями переменных (yi, xi1, xi2 ... xij ... xik), где xij — значение j й переменной для i го наблюдения (i = 1, 2 ... n), yi — значение ре

зультативного признака для i го наблюдения.

Наиболее часто используемая множественная линейная модель

регрессионного анализа имеет вид:

 

yi = β0 1xi1 +... + βjxij ... + βkxik + εi,

(15.11)

где βj — параметры регрессионной модели;

εi — случайные ошибки наблюдения, не зависимые друг от друга, име ют нулевую среднюю и дисперсию σ2.

Отметим, что модель, справедливая для всех i = 1, 2 … n, линейна относительно неизвестных параметров β0, β1, ... βj ... βk и аргументов.

364 Глава 15. Cтатистическое изучение взаимосвязи...

Как следует из модели, коэффициент регрессии βj показывает, на какую величину в среднем изменится результативный признак у, если переменную xj увеличить на единицу при неизменных значе ниях остальных аргументов, т.е. является нормативным коэффи

циентом.

 

В матричной форме регрессионная модель имеет вид:

 

Y = Xβ + ε,

(15.12)

где Y — случайный вектор столбец размерности n × 1 наблюдаемых зна чений результативного признака (y1, y2 … yn);

Х — матрица размерности n × (k + 1) наблюдаемых значений аргу ментов, элемент матрицы xij рассматривается как неслучайная величина

(i = 1, 2 … n; j = 0, 1 … k; xi0 = 1);

β — вектор столбец размерности (k + 1) × 1 неизвестных, подлежащих оценке параметров модели (коэффициентов регрессии);

ε — случайный вектор столбец размерности n × 1 ошибок наблюдений (регрессионных остатков). Компоненты вектора εi не зависимы друг от дру га, имеют нормальный закон распределения с нулевым математическим ожиданием (Mεi = 0) и неизвестной постоянной дисперсией σ2 (Dεi = σ2).

На практике рекомендуется, чтобы значение n превышало k не менее чем в три раза.

В матричном виде модель регрессии:

1

x11

 

 

 

Х = 1

xi1

 

 

 

 

xn1

1

x1k

 

 

 

 

xik

, Y

 

 

 

 

 

xnk

y1

 

β0

 

 

 

β

 

 

 

 

 

1

 

 

 

 

 

 

= yi

 

, β =

β j

.

(15.13)

 

 

 

 

 

 

 

 

 

 

 

 

yn

 

 

β

 

 

 

 

 

k

 

 

В первом столбце матрицы Х указываются единицы при нали чии свободного члена в модели. Здесь предполагается, что суще ствует переменная x0, которая во всех наблюдениях принимает зна чения, равные единице.

Основная задача регрессионного анализа заключается в нахож дении по выборке объемом n оценки неизвестных коэффициентов регрессии β0, β1 ... βk модели, т.е. вектора β.

Так как в регрессионном анализе xj рассматривается как неслу чайная величина, а Mεi = 0, то уравнение регрессии имеет вид:

15.3. Корреляционный и регрессионный виды анализа

365

y

= β + β x

+... + β x

... + β x

,

(15.14)

i

0 1 i1

j ij

k ik

 

 

для всех i = 1, 2 … n, или в матричной форме

 

= Xβ,

(15.15)

Y

где Y — вектор столбец с элементами y1, yi, yn.

Для оценки вектора столбца β наиболее часто используют ме тод наименьших квадратов, согласно которому в качестве оценки принимают вектор столбец b, который минимизирует сумму квад ратов отклонений наблюдаемых значений yi от модельных значе ний yi, т.е. квадратичную форму:

n

yi )2

 

 

 

Q = (Y X β)T (Y X β)= ∑(yi

min

,

(15.16)

i=1

 

β0, β1 ...

βk

 

где символом «Т» обозначена транспонированная матрица.

Наблюдаемые и модельные значения результативного признака у показаны на рис. 15.2.

у

 

 

y = β + β X

 

0

1

yi

 

 

уi yi

 

 

уi

 

 

xi

 

x

Рис. 15.2. Наблюдаемые и модельные значения результативного признака y

Дифференцируя квадратичную форму Q по β0, β1, ... βk и прирав нивая частные производные к нулю, получим систему уравнений

Q

= 0 для всех j = 0, 1 ... k,

(15.17)

 

∂β j

 

решая которую получим вектор столбец оценок b, где b = (b0, b1 ...

bk)T.

Согласно методу наименьших квадратов вектор столбец оценок

коэффициентов регрессии получается по формуле

 

b = (XTX)–1XTY,

(15.18)

366

 

Глава 15. Cтатистическое изучение взаимосвязи...

b0

 

b

 

 

1

 

 

 

 

где b =

 

;

bj

 

 

 

 

 

 

bk

 

XT — транспонированная матрица Х; (XTX)–1 — матрица, обратная матрице XTX.

Зная вектор столбец b оценок коэффициентов регрессии, най

дем оценку yi уравнения регрессии

 

 

 

 

yi = b0 + b1xi1 + b2xi2 + ... + bkxik,

(15.19)

или в матричном виде:

 

 

 

 

y = Xb,

(15.20)

где y = (y

, y

2

... y )T — вектор расчетных значений результативного пока

1

 

n

 

зателя.

 

 

 

 

Оценка ковариационной матрицы вектора коэффициентов рег

рессии b определяется выражением

 

 

 

( )

= s

2

(

T

X

)−1

(15.21)

 

S b

 

X

 

,

 

где s2 — несмещенная оценка остаточной дисперсии σ2, равная

 

s2 =

1

 

(Y Xb)T

(Y Xb).

(15.22)

n k − 1

 

 

 

 

 

 

 

 

На главной диагонали ковариационной матрицы находятся дис персии коэффициентов регрессии

sb2(j −1)

= s2

(X T X )−1

, j = 1, 2, ..., k +1.

(15.23)

 

 

 

jj

 

Значимость уравнения регрессии, т.е. гипотеза H0 : β = 0 или что (β0 = β1 = ... = βk = 0), проверяется по F критерию, наблюдаемое зна чение которого определяется по формуле

Fнабл

=

QR

/(k + 1)

,

(15.24)

 

 

 

 

QОСТ/(n k − 1)

 

где QR = (Xb)T(Xb),

 

15.3. Корреляционный и регрессионный виды анализа

367

 

n

2

 

QОСТ

= (Y Xb)T (Y Xb) = ∑(yi

yi) .

 

 

i=1

 

 

По таблице F распределения для заданных α, v1 = k + 1, v2 = n

– k – 1 находят Fкр.

Гипотеза H0 отклоняется с вероятностью α, если Fнабл > Fкр. Из этого следует, что уравнение является значимым, т.е. хотя бы один из коэффициентов регрессии отличен от нуля.

Для проверки значимости отдельных коэффициентов регрессии, т.е. гипотезы H0 : βj = 0, где j = 1, 2 ... k, используют t критерий и

вычисляют tнабл(bj) = bj /sbj . По таблице t распределения для задан ного α и v2 = n – k – 1 находят tkp.

Гипотеза H0 отвергается с вероятностью α, если |tнабл| > tкр. Из этого следует, что соответствующий коэффициент регрессии βj зна

чим, т.е. βj ≠ 0 и переменную следует включить в модель. В против ном случае коэффициент регрессии незначим и соответствующая переменная в модель не включается. После проверки значимости коэффициентов регрессии реализуется алгоритм пошагового рег рессионного анализа, состоящий в том, что исключается одна из незначительных переменных, которой соответствует минимальное по абсолютной величине значение tнабл. После этого вновь прово дят регрессионный анализ с числом факторов, уменьшенным на единицу. Алгоритм заканчивается получением уравнения регрес сии со всеми значимыми по экономическим и статистическим кри териям коэффициентами.

Существуют и другие алгоритмы пошагового регрессионного анализа, например с последовательным включением факторов.

Наряду с точечными оценками bj генеральных коэффициентов регрессии βj регрессионный анализ позволяет получать и интерваль ные оценки последних с доверительной вероятностью γ.

Интервальная оценка с доверительной вероятностью γ для па раметра βj имеет вид:

bj

tα sb

j

≤ β j

bj

+ tα sb ,

(15.25)

 

 

 

 

j

 

где tα находят по таблице t распределения при вероятности α = 1 – γ и числе степеней свободы v = n k – 1.

Интервальная оценка показывает, на какую величину в лучшем и худшем случаях изменится с доверительной вероятностью γ ве личина y, если xi увеличить на единицу.

368

Глава 15. Cтатистическое изучение взаимосвязи...

 

 

Интервальная оценка для уравнения регрессии y в точке, опреде

ляемой вектором столбцом начальных условий X 0 = (1, x 0

, x 0

... x 0 )T,

 

 

 

 

 

1

2

k

записывается в виде

 

 

 

 

 

 

 

 

 

 

 

 

 

(15.26)

Интервал предсказания y

с доверительной вероятностью γ

 

n+1

 

 

 

 

 

 

определяется как

 

 

 

 

 

 

 

 

 

 

 

 

 

(15.27)

где tα определяется по таблице t распределения при v = 1 – γ и v = n k – 1.

По мере удаления вектора начальных условий x0 от вектора сред

них x ширина доверительного интервала при заданном значении γ

будет увеличиваться (рис. 15.3), где x = (1, x1 ... xk).

 

 

 

δ = tα s (X 0)T (X T X )−1 X 0

 

 

 

y

 

 

y + δ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y = b0 + b1x

 

 

b0

 

 

 

 

 

 

 

 

 

 

 

y – δ

 

 

 

x

 

 

 

x

 

 

 

 

 

 

 

 

 

 

Рис. 15.3. Точечная y и интервальная [

y

– δ < y < y + δ] оценки

 

 

 

 

 

 

 

 

уравнения регрессии y

= β + β x

 

 

 

 

 

 

0

1

 

 

Мультиколлинеарность. Одним из основных препятствий эф

фективного применения множественного регрессионного анализа

является мультиколлинеарность. Она связана с линейной зависи

мостью между аргументами x1, x2 ... xk. В результате мультиколли

15.3. Корреляционный и регрессионный виды анализа

369

неарности матрица парных коэффициентов корреляции и матри ца (XT X) становятся слабообусловленными, т.е. их определители близки к нулю.

Это приводит к неустойчивости оценок коэффициентов регрес сии, завышению дисперсии sb2j оценок коэффициентов bj, так как в их выражения входит обратная матрица (XT X)–1, получение кото рой связано с делением на определитель матрицы (XT X). Отсюда следуют заниженные значения t(bj). Кроме того, мультиколлине арность приводит к завышению значения множественного коэф фициента корреляции.

На практике о наличии мультиколлинеарности обычно судят по матрице парных коэффициентов корреляции. Если один из элемен тов матрицы R больше 0,8, т.е. |rjl| > 0,8, то считают, что имеет место мультиколлинеарность, и в уравнение регрессии следует включать только один из показателей — xj или xl.

Чтобы избавиться от этого негативного явления, обычно исполь зуют алгоритм пошагового регрессионного анализа или строят урав нение регрессии на главных компонентах.

Пример. Согласно данным двадцати сельскохозяйственных рай онов (n = 20), требуется построить регрессионную модель урожай ности на основе следующих показателей:

y — урожайность зерновых культур (ц/га);

x1 — число колесных тракторов (приведенной мощности) на 100 га; x2 — число зерноуборочных комбайнов на 100 га;

x3 — число орудий поверхностной обработки почвы на 100 га; x4 — количество удобрений, расходуемых на гектар;

x5 — количество химических средств оздоровления растений, расходуемых на гектар.

Исходные данные для анализа приведены в табл. 15.1.

Таблица 15.1

Исходные данные для анализа

№ п/п

y

x1

x2

x3

x4

x5

1

9,70

1,59

0,26

2,05

0,32

0,14

2

8,40

0,34

0,28

0,46

0,59

0,66

3

9,00

2,53

0,31

2,46

0,30

0,31

4

9,90

4,63

0,40

6,44

0,43

0,59

5

9,60

2,16

0,26

2,16

0,39

0,16

6

8,60

2,16

0,30

2,69

0,32

0,17

370 Глава 15. Cтатистическое изучение взаимосвязи...

Окончание табл. 15.1

№ п/п

y

x1

x2

x3

x4

x5

7

12,50

0,68

0,29

0,73

0,42

0,23

8

7,60

0,35

0,26

0,42

0,21

0,08

9

6,90

0,52

0,24

0,49

0,20

0,08

10

13,50

3,42

0,31

3,02

1,37

0,73

11

9,70

1,78

0,30

3,19

0,73

0,17

12

10,70

2,40

0,32

3,30

0,25

0,14

13

12,10

9,36

0,40

11,51

0,39

0,38

14

9,70

1,72

0,28

2,26

0,82

0,17

15

7,00

0,59

0,29

0,60

0,13

0,35

16

7,20

0,28

0,26

0,30

0,09

0,15

17

8,20

1,64

0,29

1,44

0,20

0,08

18

8,40

0,09

0,22

0,05

0,43

0,20

19

13,10

0,08

0,25

0,03

0,73

0,20

20

8,70

1,36

0,26

1,17

0,99

0,42

 

 

 

 

 

 

 

С целью предварительного анализа взаимосвязи показателей по строена R матрица парных коэффициентов корреляции (табл. 15.2).

 

 

 

 

 

 

Таблица 15.2

 

 

 

 

 

 

 

 

 

y

x1

x2

x3

x4

 

x5

y

1,00

0,43

0,37

0,40

0,58

 

0,33

x1

0,43

1,00

0,85

0,98

0,11

 

0,34

x2

0,37

0,85

1,00

0,88

0,03

 

0,46

x3

0,40

0,98

0,88

1,00

0,03

 

0,28

x4

0,58

0,11

0,03

0,03

1,00

 

0,57

x5

0,33

0,34

0,46

0,28

0,57

 

1,00

 

 

 

 

 

 

 

 

Анализ матрицы парных коэффициентов корреляции показыва ет, что результативный признак наиболее тесно связан с показате лем x4 — количеством удобрений, расходуемых на гектар (ryx4 = 0,58).

В то же время связь между аргументами достаточно тесная. Так, существует практически функциональная связь между числом ко лесных тракторов (x1) и числом орудий поверхностной обработки

почвы x3 (rx1x3 = 0,98).

О наличии мультиколлинеарности свидетельствуют также коэф фициенты корреляции rx1x2 = 0,85 и rx3x2 = 0,88.

Чтобы продемонстрировать отрицательное влияние мультикол линеарности, рассмотрим рассчитанное на ЭВМ регрессионное уравнение урожайности, включив в него все исходные показатели: