Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Учебное пособие по ТВ и МС

.pdf
Скачиваний:
59
Добавлен:
08.03.2016
Размер:
3.21 Mб
Скачать

Поскольку uрасч > u0,975 , то коэффициент Кендалла для данных переменных значим на 5%-ном уровне.

Замечание 11.6. Вычисление коэффициента Кендалла более трудоемкое по сравнению с коэффициентом Спирмена. Однако коэффициент τx/y обладает некоторыми преимуществами перед ρx/y при исследовании его статистических свойств и большим удобством его пересчета при добавлении к уже обследованным объектам новых, т.е. при удлинении ранжировок.

11.5.3.Анализ множественных ранговых связей

Впрактике статистических исследований встречаются случаи, когда совокупность объектов характеризуется более чем двумя ранжировками и необходимо установить статистическую связь между несколькими переменными. В качестве такого измерителя используют коэффициент конкордации рангов Кендалла W, определяемый по формуле:

 

 

12

 

n

m(n +1)

m

( j)

 

2

 

W (m) =

 

 

 

 

 

xi

 

,

(11.23)

2

(n

3

 

2

 

m

 

n) i=1

 

j=1

 

 

 

 

где m число анализируемых порядковых переменных; n объем выборки;

xi( j) i-й ранг j-й порядковой переменной.

Выражение (11.23) справедливо для случая отсутствия групп связных рангов. В противном случае используем формулу

 

 

 

n

m(n +1)

m

( j)

2

 

 

 

 

 

 

xi

 

 

 

 

 

2

 

 

 

i=1

 

j=1

 

 

 

 

W

(m) =

 

 

 

 

 

 

 

,

(11.24)

 

1

 

 

 

m

 

 

 

m2 (n3 n) mTj

 

 

12

 

 

 

 

 

 

 

j=1

 

 

 

где Tj поправочный коэффициент, определяемый по (11.17).

Коэффициент конкордации обладает следующими свойствами:

1.0 W(m) 1.

2.W(m) = 1 при совпадении всех m анализируемых упорядочений.

3.Для случая m = 2 W (x, y) = 12 (ρx / y +1) .

181

Проверка значимости коэффициента конкордации основана на том, что в случае справедливости нулевой гипотезы об отсутствии корреляционной связи при n>7 статистика ψ = m(n 1)W имеет приближенно χ2распределение с n1

степенями свободы. Поэтому коэффициент W значим на уровне α, если

 

m(n 1)W > χα2 (n 1) .

(11.25)

Пример 11.12. Для данных примера 11.2 определить с помощью коэффициента конкордации тесноту множественной статистической связи между стоимостью квартир, их площадью и удаленностью от областного центра. Проверить значимость найденного коэффициента с α = 0,05.

Решение. Сформируем ранжировки для всех трех компонентов (m = 3) и

3

определим для всех i суммыxi( j) . Результаты приведены в табл. 11.7.

j=1

Таблица 11.7

 

xi(Y )

 

 

9

 

3

 

15

 

4

16

8

 

2

5

7

 

11

1

17

 

9

 

14

 

6

12

18

13

 

 

xi(U )

 

 

9

 

17

 

4

 

16

3

 

11

 

18

15

14

 

7

12

2

 

10

 

5

 

13

7

1

6

 

 

xi( Z )

 

 

10

 

15

 

2

 

16

4

 

11

 

17

14

12

 

7

18

4

 

7

 

3

 

13

7

1

6

 

 

3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xi( j)

 

 

28

 

35

 

21

 

36

23

30

 

37

34

33

 

25

31

23

 

26

 

22

 

32

26

20

25

 

 

j=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

В каждой ранжировке есть группы связных рангов: в xi(Y )

и xi(U ) по одной

группе из двух элементов, в xi(Z )

две группы из трех и двух элементов.

 

 

 

Вычислим поправочные коэффициенты:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

T

= T

=

 

1

 

(23 2) = 0,5

,

T

=

1

[(23 2) + (33 3)]= 2,5

.

 

 

 

 

 

 

 

Y

U

 

 

12

 

 

 

 

 

 

Z

12

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Далее, m(n +1) / 2 = 3 19 / 2 = 28,5 . Числитель в (11.24) равен:

 

 

 

 

 

(2828,5)2 + (3528,5)2 + + (2028,5)2 +(2528,5)2 = 510,5.

 

 

 

 

 

Теперь подставляем в (11.24) полученные значения:

 

 

 

 

 

 

 

 

 

 

W (m)

=

 

 

 

 

 

 

 

 

 

 

510,5

 

 

 

 

 

 

= 0,117.

 

 

 

 

 

 

 

 

 

 

 

1

 

 

2

 

3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3 (18

 

18) 3(0,5 + 0,5 + 2,5)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

12

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Полученный результат свидетельствует об отсутствии одновременной тесной зависимости между рассматриваемыми признаками.

Оценим значимость полученного значения W(m). Расчетное значение статистики: ψ расч = m(n 1)W = 3 17 0,117 = 5,967 . Верхняя критическая точка:

χα2 (n 1) = χ02,05 (17) = 27,587 . Неравенство (11.25) не выполняется, поэтому одновременная статистическая связь между признаками не значимая.

182

Упражнение 11.2. Выборочные данные (в тыс. руб.) по месячным доходам семей X, сбережениями в банках Y и ежемесячными расходами Z представлены в табл. 11.8.

Таблица 11.8

X

14,4

14,4

18,2

19,2

14,6

6,4

12,6

4,9

13,2

20,6

17,1

13,9

Y

84

86

102

100

80

34

72

31

76

112

98

72

Z

8,4

9,1

11,4

11,2

9,2

5,9

8,4

4,6

8,2

11,6

10,7

8,4

Выполните следующие задания:

-установите по диаграмме рассеяния вид связи и тенденцию между всеми парами признаков;

-выберите адекватный измеритель статистической связи;

-определите степень тесноты парных и частных связей;

-проверьте гипотезы о значимости парных измерителей связи;

-постройте интервальные оценки для парных коэффициентов корреляции;

-вычислите парные ранговые коэффициенты корреляции Спирмена и Кендалла;

-измерьте степень тесноты множественной связи;

-проверьте гипотезу о значимости множественной ранговой связи между всеми признаками;

-по каждому заданию сделайте выводы в терминах решаемой задачи.

Глава 12. Регрессионный анализ

Рассмотренный выше корреляционный анализ позволяет устанавливать связь между случайными переменными и оценить ее тесноту. Регрессионный анализ представляет собой следующий этап статистического анализа.

Задачами регрессионного анализа являются установление формы зависимости между переменными, оценка функции регрессии и оценка неизвестных значений (прогноз) зависимой переменной.

Регрессионный анализ является основным математическим методом исследования зависимостей в курсе «Эконометрика», где детально изучается. Нашей задачей в данном курсе является дать, по сути, введение в

регрессионный анализ и рассмотреть его как один из методов статистического анализа, не вдаваясь в тонкости эконометрического толка.

12.1. Основные положения регрессионного анализа

Определение 12.1. Регрессионный анализ – совокупность методов, позволяющих исследовать вид односторонней зависимости объясняемой (зависимой) переменной Y от одной или нескольких объясняющих

(независимых) переменных X = ( X1 ,K, X p ) и подбирать ее параметры.

183

Такие зависимости представляются в виде модельного уравнения регрессии. Частным случаем для одной объясняющей переменной является модель (11.1).

12.1.1.Задачи регрессионного анализа

Врегрессионном анализе определяются точные количественные характеристики изменения Y. Статистическая связь Y и X сводится к строгим (неслучайным) соотношениям.

На данном этапе статистического анализа решаются следующие основные задачи:

1)выбор общего вида функции регрессии ϕ(x ,θ) ;

2)отбор, если необходимо, наиболее информативных факторов;

3)оценивание параметров уравнения регрессии θ = (θ1,θ2 ,K,θl ) ;

4)анализ точности полученного уравнения регрессии путем построения доверительных интервалов для коэффициентов регрессии, т.е. компонент

вектора θ, для условного среднего отклика y(x) и для прогнозов наблюдений отклика y(x ) при значениях факторов x = (x1 , K, x p ) .

12.1.2. Многомерная нормальная регрессионная модель

Напомним, что при корреляционной связи между переменными, т.е. когда условное математическое ожидание одной случайной переменной является

функцией значения,

принимаемого другой случайной переменной,

M[Y / x] = M x [Y ] = ϕ(x) ,

где ϕ(x) функция регрессии Y относительно X. В

общем случае функция

регрессии ϕ(x) = M [Y / X = x] описывает условное

математическое ожидание от заданных значений факторов.

Статистические связи исследуются по выборкам ограниченного объема. На основании этих данных выполняют поиск подходящих аппроксимаций для ϕ(x). Чтобы выяснить, как значение одной случайной переменной, в среднем, изменяется в зависимости от того, какие значения принимает другая случайная

переменная, используют условное среднее значение y(x) , которое является

выборочной оценкой условного математического ожидания, а соответствующее выражение – эмпирической функцией регрессии.

Практическое значение знания регрессионной зависимости между случайными переменными X и Y заключается в возможности прогнозирования значения зависимой случайной переменной Y, когда независимая случайная переменная X принимает определенное значение. Прогноз не может быть безошибочным, однако можно определить границы вероятности ошибки прогноза.

184

Определение 12.2. Многомерная нормальная регрессионная модель описывается уравнением

Y =ϕ( X1,K, X p ) +ε .

Функция регрессии ϕ(x) = M [Y / X = x] представляет закономерную часть одномерного отклика Y, ε случайную часть отклика (остаток).

Отметим основные предпосылки регрессионного анализа:

10. Зависимая переменная Y есть величина случайная, а независимые переменные Xi – неслучайные.

20. Математическое ожидание остатка равно нулю, т.е. M [ε] = 0 . 30. Дисперсия остатка постоянна, т.е. D[ε] = const .

40. Остатки εi и εj – не коррелированы, т.е. Cov(εi ,ε j ) = 0.

50. Остатки εi, i = 1, , n распределены по нормальному закону.

Определение 12.3. Регрессионную модель, удовлетворяющую основным предпосылкам 1050 регрессионного анализа, называют гауссовской регрессионной моделью.

Замечание 12.1. Для получения уравнения регрессии достаточно предпосылок 1040. Требование выполнения предпосылки 5 необходимо для оценки точности уравнения регрессии и его параметров.

12.1.3.Выбор общего вида функции регрессии

Врегрессионном анализе эта задача является одновременно наиболее важной и наименее теоретически обоснованной.

Зависимость Y от X характеризуется формой и теснотой связи. Форма связи выявляет механизм получения зависимой случайной переменной Y. Она

может быть линейной ϕ(x) = β0+β1x или нелинейной.

Функция регрессии ищется в одном из классов – параметрическом семействе. Для линейного семейства θ = (β0 , β1 ) . Среди нелинейных

(криволинейных) моделей регрессии обычно рассматриваются следующие виды зависимостей: квадратичная, полиномиальная k-го порядка, экспоненциальная, мультипликативная, обратная по Y, гиперболическая и т.д.

Вид зависимости выбирают исходя из визуальной оценки характера расположения точек на диаграмме рассеяния; опыта предыдущих исследований; знаний физической сущности процесса. В ходе регрессионного анализа вид функции регрессии может уточняться.

185

12.1.4. Оценивание параметров функции регрессии. Метод наименьших квадратов

Метод наименьших квадратов (МНК), рассмотренный в п.8.1.3, применим для гауссовских регрессионных моделей.

Предложение 12.1. (Теорема Гаусса–Маркова). Если линейная регрессионная модель является гауссовской, то МНКоценки ее параметров имеют наименьшую дисперсию в классе всех линейных несмещенных оценок. #

Данное утверждение означает, что при введенных допущениях полученные оценки обладают свойством эффективности. Если истинная модель регрессии нелинейная или закон распределения величин εi неизвестен, то могут существовать методы, дающие лучшие оценки параметров регрессии. Для уменьшения чувствительности оценок к отклонениям от нормальной модели можно использовать непараметрический подход (например, ранговые методы).

Параметры θ оцениваются по исходным данным (xi , yi ), i =1,n , таким

образом, чтобы величины ei = yi ϕ(xi ,θ) , которые называются остатками, в

совокупности были близки к нулю. Мерой близости к нулю может быть сумма квадратов или модулей, максимум модулей и т.д. В МНК подбор параметров функции регрессии осуществляется минимизацией суммы квадратов остатков:

 

n

 

θ = arg min[yi ϕ(xi ,θ)]2 .

(12.1)

θ

i=

 

 

14424443

 

 

Qост

 

Найденная

по (12.1) функция ϕ(x,θ)

дает наименьшую среднюю

квадратическую погрешность прогноза величины Y по X.

Действительно, средняя погрешность прогноза по кривой регрессии (для однофакторного случая) определяется дисперсией между измеренной

величиной и вычисленной функцией регрессии, т.е. величиной M [ y ϕ(x)]2 . Исходные точки (xi,yi) имеют минимальное рассеяние около центральной линии распределения y(x) . Если бы рассеяние вычислялось относительно ϕ(x) y(x) , то средний квадрат отклонения увеличился бы. Поэтому для оценки функции регрессии пользуются условным средним ϕ(x) = y(x) . При многофакторном анализе в многомерном пространстве ищется уравнение гиперплоскости

ϕ(x) = y(x) .

186

Для нахождения оценок параметров θ1 = b0 , θ 2 = b1 , , доставляющих минимум функции Qост, вычисляются и приравниваются к нулю все частные

производные этой функции

Qост

= 0,

Qост

= 0, K, откуда

 

 

 

 

b

 

b

 

 

 

 

 

0

 

1

 

 

 

ϕ(xi ) ϕ(xi )

ϕ(xi

) = 0,

 

 

yi

 

 

 

i

b0

i

b0

 

 

 

 

 

ϕ(xi ) ϕ(xi )

ϕ(xi

) = 0,

 

 

yi

 

(12.2)

 

i

b1

i

b1

 

 

 

 

 

 

 

.

 

 

 

 

 

K

 

 

 

 

 

 

 

 

 

 

 

Определение 12.4. Система (12.2) называется системой нормальных уравнений.

Величина Qост неотрицательна при любых b0, b1, , и у нее должен существовать хотя бы один минимум. Поэтому, если система нормальных уравнений имеет единственное решение, то оно доставляет глобальный минимум для Qост и никаких дополнительных исследований на экстремум проводить не нужно.

12.2. Парная регрессионная модель

Проиллюстрируем основные идеи регрессионного анализа на примере исследования влияния на зависимую переменную Y одного фактора X.

12.2.1. Стратегия регрессионного анализа

Кривая регрессии подбирается таким образом, чтобы более точно пройти через область расположения точек (xi, yi). Мерой рассеяния всех yi относительно

ϕ(x) = y(x) является остаточная дисперсия

sост2 =

Qост

,

(12.3)

n l

 

 

 

где l – число связей, накладываемых функцией ϕ(x) на выборку, равно числу параметров, входящих в аналитическое выражение для ϕ(x). Для θ = (b0 ,b1 ) l=2.

Остаточная (необъясненная) дисперсия sост2 является той частью рассеяния переменной Y, которую нельзя объяснить действием наблюдаемого фактора X. Дисперсия sост2 служит оценкой точности подбора функции

187

регрессии и полноты набора факторов (признаков), включенных в анализ. Если найдена истинная функция регрессии, то sост2 =σε2 .

Чем сложнее параметрический класс (вид) функции регрессии, тем точнее может быть описана зависимость между X и Y для выборочных данных объема n. Любая функция может быть со сколь угодно высокой точностью заменена многочленом, причем увеличение точности достигается за счет повышения степени многочлена. При этом растет число коэффициентов l. Так, взяв многочлен степени n1, можно линию регрессии провести по точкам

yi , i =1, n . Однако при этом n=l, и знаменатель в (12.3) станет равным нулю. Данный факт говорит о том, что у полученной модели sост2 = s2y , т.е.

независимая переменная X не объясняет ничего! И прогноз поведения признака Y по этой модели не имеет смысла.

Если объем выборки достаточен n>>l, то увеличением числа связей можно пренебречь.

При малых (недостаточных) выборках увеличение числа связей l приводит к увеличению дисперсии sост2 и снижению точности прогноза Y. Поэтому для

недостаточных выборок, основываясь на принципе простоты, целесообразно использовать простой класс функций, например, линейную модель регрессии,

которая в одномерном случае имеет вид y(x) = b0 + b1 x . Здесь l=2.

При необходимости добавляют квадратичный член, член третьего порядка и т.д. Добавляемые члены получаются, как правило, со все меньшими коэффициентами. Добавки проверяются на выполнение условия, чтобы не

увеличилась дисперсия sо2ст за счет увеличения числа связей l, и на значимость по критерию Фишера – что уменьшение дисперсии sост2 является значимым (неслучайным).

12.2.2. Линейная одномерная модель регрессии

Функция регрессии ищем в виде ϕ(x) = y(x) = b0 + b1 x . Сумма квадратов остатков равна

n

Qост = ( yi b0 b1 xi )2 .

i=1

Система нормальных уравнений принимает вид:

yi (b0 + b1 xi ) = 0,

 

i

i

yi xi (b0 + b1 xi )xi = 0.

 

i

i

188

После простых преобразований:

nb0 + b1 xi = yi ,

 

 

i

i

= xi yi .

 

b0 xi

+ b1

xi2

(12.4)

i

 

i

i

 

Тогда коэффициент наклона регрессии и свободный член регрессии равны:

b1 =

b0 =

nxi yi

 

 

 

 

 

 

 

 

 

xi

yi

 

i

 

i

 

 

 

i

 

,

nxi2

 

 

2

 

 

 

 

 

xi

 

 

i

 

 

 

i

 

 

 

yi b1 xi

.

 

 

 

 

i

i

 

 

 

 

 

(12.5)

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Для свободного члена равенство (12.5) можно переписать в виде

b0

=

1

yi b1

1

xi =

 

b1

 

,

y

x

 

 

n

i

n

i

откуда y = b0 + b1 x .

Это означает, что средняя точка (x, y) совместного распределения величин X, Y всегда лежит на линии регрессии. Поэтому при замене x на x x получим

 

 

yy = b1 (x x) .

(12.6)

Отсюда следует, что для определения линии регрессии достаточно знать лишь ее коэффициент наклона b1. Равенство для b1 можно упростить, если использовать найденное значение выборочного коэффициента корреляции rxy:

b1 = rxy

sy

,

(12.7)

sx

 

 

 

где sy и sx − оценки стандартных отклонений наблюдений yi и xi вокруг своих

средних y и x .

Из последнего выражения для b1 видна роль коэффициента корреляции:

чем меньше rxy, тем ближе линия регрессии к горизонтальному положению, т.е.

тем ближе к состоянию неизменности будут средние значения наблюдений yi.

189

Пример 12.1. Для анализа зависимости объема потребления Y (у.е.) домохозяйства от располагаемого дохода X (у.е.) отобрана выборка объема n=12 (помесячно в течение года), результаты которой приведены в таблице:

Таблица 12.1

i

1

2

3

4

5

6

7

8

9

10

11

12

xi

107

109

110

113

120

122

123

128

136

140

145

150

yi

102

105

108

110

115

117

119

125

132

130

141

144

Необходимо определить вид зависимости и оценить по МНК параметры уравнения регрессии.

Решение. Для определения вида зависимости построим диаграмму рассеяния (рис. 12.1)

Рис. 12.1. Диаграмма рассеяния

По расположению точек на диаграмме рассеяния полагаем, что

зависимость между Y и X линейная: Y = b0 + b1 X .

Для наглядности вычислений по МНК построим таблицу:

Таблица 12.2

 

 

 

2

 

2

 

 

2

i

xi

yi

xi

xiyi

yi

yi

ei

ei

1

107

102

11449

10914

10404

103,5832

-1,583

2,507

2

109

105

11881

11445

11025

105,4554

-0,455

0,207

3

110

108

12100

11880

11664

106,3914

1,609

2,587

4

113

110

12769

12430

12100

109,1997

0,800

0,641

5

120

115

14400

13800

13225

115,7522

-0,752

0,566

6

122

117

14884

14274

13689

117,6244

-0,624

0,390

7

123

119

15129

14637

14161

118,5605

0,440

0,193

8

128

125

16384

16000

15625

123,2409

1,759

3,094

9

136

132

18496

17952

17424

130,7295

1,270

1,614

10

140

130

19600

18200

16900

134,4739

-4,474

20,015

11

145

141

21025

20445

19881

139,1543

1,846

3,407

12

150

144

22500

21600

20736

143,8347

0,165

0,027

Сумма

1503

1448

190617

183577

176834

-

1,4 10-14

35,249

Среднее

125,25

120,6667

15884,75

15298,08

14736,17

-

-

-

190