Поскольку uрасч > u0,975 , то коэффициент Кендалла для данных переменных значим на 5%-ном уровне.
Замечание 11.6. Вычисление коэффициента Кендалла более трудоемкое по сравнению с коэффициентом Спирмена. Однако коэффициент τx/y обладает некоторыми преимуществами перед ρx/y при исследовании его статистических свойств и большим удобством его пересчета при добавлении к уже обследованным объектам новых, т.е. при удлинении ранжировок.
11.5.3.Анализ множественных ранговых связей
Впрактике статистических исследований встречаются случаи, когда совокупность объектов характеризуется более чем двумя ранжировками и необходимо установить статистическую связь между несколькими переменными. В качестве такого измерителя используют коэффициент конкордации рангов Кендалла W, определяемый по формуле:
|
|
12 |
|
n |
m(n +1) |
m |
( j) |
|
2 |
|
W (m) = |
|
|
|
|
∑ |
|
− ∑xi |
|
, |
(11.23) |
2 |
(n |
3 |
|
2 |
|
m |
|
− n) i=1 |
|
j=1 |
|
|
|
|
где m − число анализируемых порядковых переменных; n − объем выборки;
xi( j) − i-й ранг j-й порядковой переменной.
Выражение (11.23) справедливо для случая отсутствия групп связных рангов. В противном случае используем формулу
|
|
|
n |
m(n +1) |
m |
( j) |
2 |
|
|
|
|
∑ |
|
|
− ∑xi |
|
|
|
|
|
2 |
|
|
|
i=1 |
|
j=1 |
|
|
|
|
W |
(m) = |
|
|
|
|
|
|
|
, |
(11.24) |
|
1 |
|
|
|
m |
|
|
|
m2 (n3 − n) − m∑Tj |
|
|
12 |
|
|
|
|
|
|
|
j=1 |
|
|
|
где Tj − поправочный коэффициент, определяемый по (11.17).
Коэффициент конкордации обладает следующими свойствами:
1.0 ≤ W(m) ≤ 1.
2.W(m) = 1 при совпадении всех m анализируемых упорядочений.
3.Для случая m = 2 W (x, y) = 12 (ρx / y +1) .
Проверка значимости коэффициента конкордации основана на том, что в случае справедливости нулевой гипотезы об отсутствии корреляционной связи при n>7 статистика ψ = m(n −1)W имеет приближенно χ2−распределение с n−1
степенями свободы. Поэтому коэффициент W значим на уровне α, если |
|
m(n −1)W > χα2 (n −1) . |
(11.25) |
Пример 11.12. Для данных примера 11.2 определить с помощью коэффициента конкордации тесноту множественной статистической связи между стоимостью квартир, их площадью и удаленностью от областного центра. Проверить значимость найденного коэффициента с α = 0,05.
Решение. Сформируем ранжировки для всех трех компонентов (m = 3) и
3
определим для всех i суммы∑xi( j) . Результаты приведены в табл. 11.7.
j=1
Таблица 11.7
|
xi(Y ) |
|
|
9 |
|
3 |
|
15 |
|
4 |
16 |
8 |
|
2 |
5 |
7 |
|
11 |
1 |
17 |
|
9 |
|
14 |
|
6 |
12 |
18 |
13 |
|
|
xi(U ) |
|
|
9 |
|
17 |
|
4 |
|
16 |
3 |
|
11 |
|
18 |
15 |
14 |
|
7 |
12 |
2 |
|
10 |
|
5 |
|
13 |
7 |
1 |
6 |
|
|
xi( Z ) |
|
|
10 |
|
15 |
|
2 |
|
16 |
4 |
|
11 |
|
17 |
14 |
12 |
|
7 |
18 |
4 |
|
7 |
|
3 |
|
13 |
7 |
1 |
6 |
|
|
3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
∑xi( j) |
|
|
28 |
|
35 |
|
21 |
|
36 |
23 |
30 |
|
37 |
34 |
33 |
|
25 |
31 |
23 |
|
26 |
|
22 |
|
32 |
26 |
20 |
25 |
|
|
j=1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
В каждой ранжировке есть группы связных рангов: в xi(Y ) |
и xi(U ) − по одной |
группе из двух элементов, в xi(Z ) |
− две группы из трех и двух элементов. |
|
|
|
Вычислим поправочные коэффициенты: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
T |
= T |
= |
|
1 |
|
(23 − 2) = 0,5 |
, |
T |
= |
1 |
[(23 − 2) + (33 − 3)]= 2,5 |
. |
|
|
|
|
|
|
|
Y |
U |
|
|
12 |
|
|
|
|
|
|
Z |
12 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Далее, m(n +1) / 2 = 3 19 / 2 = 28,5 . Числитель в (11.24) равен: |
|
|
|
|
|
(28−28,5)2 + (35−28,5)2 + … + (20−28,5)2 +(25−28,5)2 = 510,5. |
|
|
|
|
|
Теперь подставляем в (11.24) полученные значения: |
|
|
|
|
|
|
|
|
|
|
W (m) |
= |
|
|
|
|
|
|
|
|
|
|
510,5 |
|
|
|
|
|
|
= 0,117. |
|
|
|
|
|
|
|
|
|
|
|
1 |
|
|
2 |
|
3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3 (18 |
|
−18) − 3(0,5 + 0,5 + 2,5) |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
12 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Полученный результат свидетельствует об отсутствии одновременной тесной зависимости между рассматриваемыми признаками.
Оценим значимость полученного значения W(m). Расчетное значение статистики: ψ расч = m(n −1)W = 3 17 0,117 = 5,967 . Верхняя критическая точка:
χα2 (n −1) = χ02,05 (17) = 27,587 . Неравенство (11.25) не выполняется, поэтому одновременная статистическая связь между признаками не значимая.
Упражнение 11.2. Выборочные данные (в тыс. руб.) по месячным доходам семей X, сбережениями в банках Y и ежемесячными расходами Z представлены в табл. 11.8.
Таблица 11.8
X |
14,4 |
14,4 |
18,2 |
19,2 |
14,6 |
6,4 |
12,6 |
4,9 |
13,2 |
20,6 |
17,1 |
13,9 |
Y |
84 |
86 |
102 |
100 |
80 |
34 |
72 |
31 |
76 |
112 |
98 |
72 |
Z |
8,4 |
9,1 |
11,4 |
11,2 |
9,2 |
5,9 |
8,4 |
4,6 |
8,2 |
11,6 |
10,7 |
8,4 |
Выполните следующие задания:
-установите по диаграмме рассеяния вид связи и тенденцию между всеми парами признаков;
-выберите адекватный измеритель статистической связи;
-определите степень тесноты парных и частных связей;
-проверьте гипотезы о значимости парных измерителей связи;
-постройте интервальные оценки для парных коэффициентов корреляции;
-вычислите парные ранговые коэффициенты корреляции Спирмена и Кендалла;
-измерьте степень тесноты множественной связи;
-проверьте гипотезу о значимости множественной ранговой связи между всеми признаками;
-по каждому заданию сделайте выводы в терминах решаемой задачи.
Глава 12. Регрессионный анализ
Рассмотренный выше корреляционный анализ позволяет устанавливать связь между случайными переменными и оценить ее тесноту. Регрессионный анализ представляет собой следующий этап статистического анализа.
Задачами регрессионного анализа являются установление формы зависимости между переменными, оценка функции регрессии и оценка неизвестных значений (прогноз) зависимой переменной.
Регрессионный анализ является основным математическим методом исследования зависимостей в курсе «Эконометрика», где детально изучается. Нашей задачей в данном курсе является дать, по сути, введение в
регрессионный анализ и рассмотреть его как один из методов статистического анализа, не вдаваясь в тонкости эконометрического толка.
12.1. Основные положения регрессионного анализа
Определение 12.1. Регрессионный анализ – совокупность методов, позволяющих исследовать вид односторонней зависимости объясняемой (зависимой) переменной Y от одной или нескольких объясняющих
(независимых) переменных X = ( X1 ,K, X p ) и подбирать ее параметры.
Такие зависимости представляются в виде модельного уравнения регрессии. Частным случаем для одной объясняющей переменной является модель (11.1).
12.1.1.Задачи регрессионного анализа
Врегрессионном анализе определяются точные количественные характеристики изменения Y. Статистическая связь Y и X сводится к строгим (неслучайным) соотношениям.
На данном этапе статистического анализа решаются следующие основные задачи:
1)выбор общего вида функции регрессии ϕ(x ,θ) ;
2)отбор, если необходимо, наиболее информативных факторов;
3)оценивание параметров уравнения регрессии θ = (θ1,θ2 ,K,θl ) ;
4)анализ точности полученного уравнения регрессии путем построения доверительных интервалов для коэффициентов регрессии, т.е. компонент
вектора θ, для условного среднего отклика y(x) и для прогнозов наблюдений отклика y(x ) при значениях факторов x = (x1 , K, x p ) .
12.1.2. Многомерная нормальная регрессионная модель
Напомним, что при корреляционной связи между переменными, т.е. когда условное математическое ожидание одной случайной переменной является
функцией значения, |
принимаемого другой случайной переменной, |
M[Y / x] = M x [Y ] = ϕ(x) , |
где ϕ(x) − функция регрессии Y относительно X. В |
общем случае функция |
регрессии ϕ(x) = M [Y / X = x] описывает условное |
математическое ожидание от заданных значений факторов.
Статистические связи исследуются по выборкам ограниченного объема. На основании этих данных выполняют поиск подходящих аппроксимаций для ϕ(x). Чтобы выяснить, как значение одной случайной переменной, в среднем, изменяется в зависимости от того, какие значения принимает другая случайная
переменная, используют условное среднее значение y(x) , которое является
выборочной оценкой условного математического ожидания, а соответствующее выражение – эмпирической функцией регрессии.
Практическое значение знания регрессионной зависимости между случайными переменными X и Y заключается в возможности прогнозирования значения зависимой случайной переменной Y, когда независимая случайная переменная X принимает определенное значение. Прогноз не может быть безошибочным, однако можно определить границы вероятности ошибки прогноза.
184
Определение 12.2. Многомерная нормальная регрессионная модель описывается уравнением
Y =ϕ( X1,K, X p ) +ε .
Функция регрессии ϕ(x) = M [Y / X = x] представляет закономерную часть одномерного отклика Y, ε − случайную часть отклика (остаток).
Отметим основные предпосылки регрессионного анализа:
10. Зависимая переменная Y есть величина случайная, а независимые переменные Xi – неслучайные.
20. Математическое ожидание остатка равно нулю, т.е. M [ε] = 0 . 30. Дисперсия остатка постоянна, т.е. D[ε] = const .
40. Остатки εi и εj – не коррелированы, т.е. Cov(εi ,ε j ) = 0.
50. Остатки εi, i = 1, …, n распределены по нормальному закону.
Определение 12.3. Регрессионную модель, удовлетворяющую основным предпосылкам 10−50 регрессионного анализа, называют гауссовской регрессионной моделью.
Замечание 12.1. Для получения уравнения регрессии достаточно предпосылок 10−40. Требование выполнения предпосылки 5 необходимо для оценки точности уравнения регрессии и его параметров.
12.1.3.Выбор общего вида функции регрессии
Врегрессионном анализе эта задача является одновременно наиболее важной и наименее теоретически обоснованной.
Зависимость Y от X характеризуется формой и теснотой связи. Форма связи выявляет механизм получения зависимой случайной переменной Y. Она
может быть линейной ϕ(x) = β0+β1x или нелинейной.
Функция регрессии ищется в одном из классов – параметрическом семействе. Для линейного семейства θ = (β0 , β1 ) . Среди нелинейных
(криволинейных) моделей регрессии обычно рассматриваются следующие виды зависимостей: квадратичная, полиномиальная k-го порядка, экспоненциальная, мультипликативная, обратная по Y, гиперболическая и т.д.
Вид зависимости выбирают исходя из визуальной оценки характера расположения точек на диаграмме рассеяния; опыта предыдущих исследований; знаний физической сущности процесса. В ходе регрессионного анализа вид функции регрессии может уточняться.
12.1.4. Оценивание параметров функции регрессии. Метод наименьших квадратов
Метод наименьших квадратов (МНК), рассмотренный в п.8.1.3, применим для гауссовских регрессионных моделей.
Предложение 12.1. (Теорема Гаусса–Маркова). Если линейная регрессионная модель является гауссовской, то МНК−оценки ее параметров имеют наименьшую дисперсию в классе всех линейных несмещенных оценок. #
Данное утверждение означает, что при введенных допущениях полученные оценки обладают свойством эффективности. Если истинная модель регрессии нелинейная или закон распределения величин εi неизвестен, то могут существовать методы, дающие лучшие оценки параметров регрессии. Для уменьшения чувствительности оценок к отклонениям от нормальной модели можно использовать непараметрический подход (например, ранговые методы).
Параметры θ оцениваются по исходным данным (xi , yi ), i =1,n , таким
образом, чтобы величины ei = yi −ϕ(xi ,θ) , которые называются остатками, в
совокупности были близки к нулю. Мерой близости к нулю может быть сумма квадратов или модулей, максимум модулей и т.д. В МНК подбор параметров функции регрессии осуществляется минимизацией суммы квадратов остатков:
|
n |
|
θ = arg min∑[yi −ϕ(xi ,θ)]2 . |
(12.1) |
θ |
i= |
|
|
14424443 |
|
|
Qост |
|
Найденная |
по (12.1) функция ϕ(x,θ) |
дает наименьшую среднюю |
квадратическую погрешность прогноза величины Y по X.
Действительно, средняя погрешность прогноза по кривой регрессии (для однофакторного случая) определяется дисперсией между измеренной
величиной и вычисленной функцией регрессии, т.е. величиной M [ y −ϕ(x)]2 . Исходные точки (xi,yi) имеют минимальное рассеяние около центральной линии распределения y(x) . Если бы рассеяние вычислялось относительно ϕ(x) ≠ y(x) , то средний квадрат отклонения увеличился бы. Поэтому для оценки функции регрессии пользуются условным средним ϕ(x) = y(x) . При многофакторном анализе в многомерном пространстве ищется уравнение гиперплоскости
ϕ(x) = y(x) .
Для нахождения оценок параметров θ1 = b0 , θ 2 = b1 , … , доставляющих минимум функции Qост, вычисляются и приравниваются к нулю все частные
производные этой функции |
∂Qост |
= 0, |
∂Qост |
= 0, K, откуда |
|
|
|
|
∂b |
|
∂b |
|
|
|
|
|
0 |
|
1 |
|
|
|
∂ϕ(xi ) − ∑ϕ(xi ) |
∂ϕ(xi |
) = 0, |
|
|
∑yi |
|
|
|
i |
∂b0 |
i |
∂b0 |
|
|
|
|
|
∂ϕ(xi ) − ∑ϕ(xi ) |
∂ϕ(xi |
) = 0, |
|
|
∑yi |
|
(12.2) |
|
i |
∂b1 |
i |
∂b1 |
|
|
|
|
|
|
|
. |
|
|
|
|
|
K |
|
|
|
|
|
|
|
|
|
|
|
Определение 12.4. Система (12.2) называется системой нормальных уравнений.
Величина Qост неотрицательна при любых b0, b1, … , и у нее должен существовать хотя бы один минимум. Поэтому, если система нормальных уравнений имеет единственное решение, то оно доставляет глобальный минимум для Qост и никаких дополнительных исследований на экстремум проводить не нужно.
12.2. Парная регрессионная модель
Проиллюстрируем основные идеи регрессионного анализа на примере исследования влияния на зависимую переменную Y одного фактора X.
12.2.1. Стратегия регрессионного анализа
Кривая регрессии подбирается таким образом, чтобы более точно пройти через область расположения точек (xi, yi). Мерой рассеяния всех yi относительно
ϕ(x) = y(x) является остаточная дисперсия
|
sост2 = |
Qост |
, |
(12.3) |
|
n −l |
|
|
|
|
где l – число связей, накладываемых функцией ϕ(x) на выборку, равно числу параметров, входящих в аналитическое выражение для ϕ(x). Для θ = (b0 ,b1 ) l=2.
Остаточная (необъясненная) дисперсия sост2 является той частью рассеяния переменной Y, которую нельзя объяснить действием наблюдаемого фактора X. Дисперсия sост2 служит оценкой точности подбора функции
регрессии и полноты набора факторов (признаков), включенных в анализ. Если найдена истинная функция регрессии, то sост2 =σε2 .
Чем сложнее параметрический класс (вид) функции регрессии, тем точнее может быть описана зависимость между X и Y для выборочных данных объема n. Любая функция может быть со сколь угодно высокой точностью заменена многочленом, причем увеличение точности достигается за счет повышения степени многочлена. При этом растет число коэффициентов l. Так, взяв многочлен степени n−1, можно линию регрессии провести по точкам
yi , i =1, n . Однако при этом n=l, и знаменатель в (12.3) станет равным нулю. Данный факт говорит о том, что у полученной модели sост2 = s2y , т.е.
независимая переменная X не объясняет ничего! И прогноз поведения признака Y по этой модели не имеет смысла.
Если объем выборки достаточен n>>l, то увеличением числа связей можно пренебречь.
При малых (недостаточных) выборках увеличение числа связей l приводит к увеличению дисперсии sост2 и снижению точности прогноза Y. Поэтому для
недостаточных выборок, основываясь на принципе простоты, целесообразно использовать простой класс функций, например, линейную модель регрессии,
которая в одномерном случае имеет вид y(x) = b0 + b1 x . Здесь l=2.
При необходимости добавляют квадратичный член, член третьего порядка и т.д. Добавляемые члены получаются, как правило, со все меньшими коэффициентами. Добавки проверяются на выполнение условия, чтобы не
увеличилась дисперсия sо2ст за счет увеличения числа связей l, и на значимость по критерию Фишера – что уменьшение дисперсии sост2 является значимым (неслучайным).
12.2.2. Линейная одномерная модель регрессии
Функция регрессии ищем в виде ϕ(x) = y(x) = b0 + b1 x . Сумма квадратов остатков равна
n
Qост = ∑( yi −b0 −b1 xi )2 .
i=1
Система нормальных уравнений принимает вид:
∑ yi − ∑(b0 + b1 xi ) = 0, |
|
i |
i |
∑ yi xi − ∑(b0 + b1 xi )xi = 0. |
|
i |
i |
После простых преобразований:
nb0 + b1 ∑ xi = ∑ yi , |
|
|
i |
i |
= ∑ xi yi . |
|
b0 ∑ xi |
+ b1 |
∑ xi2 |
(12.4) |
i |
|
i |
i |
|
Тогда коэффициент наклона регрессии и свободный член регрессии равны:
n∑xi yi − |
|
|
|
|
|
|
|
|
|
∑xi |
∑ yi |
|
i |
|
i |
|
|
|
i |
|
, |
n∑xi2 − |
|
|
2 |
|
|
|
|
|
∑xi |
|
|
i |
|
|
|
i |
|
|
|
∑ yi − b1 ∑ xi |
. |
|
|
|
|
i |
i |
|
|
|
|
|
(12.5) |
n |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Для свободного члена равенство (12.5) можно переписать в виде
b0 |
= |
1 |
∑ yi − b1 |
1 |
∑ xi = |
|
− b1 |
|
, |
y |
x |
|
|
n |
i |
n |
i |
откуда y = b0 + b1 x .
Это означает, что средняя точка (x, y) совместного распределения величин X, Y всегда лежит на линии регрессии. Поэтому при замене x на x − x получим
|
|
y− y = b1 (x − x) . |
(12.6) |
Отсюда следует, что для определения линии регрессии достаточно знать лишь ее коэффициент наклона b1. Равенство для b1 можно упростить, если использовать найденное значение выборочного коэффициента корреляции rxy:
где sy и sx − оценки стандартных отклонений наблюдений yi и xi вокруг своих
средних y и x .
Из последнего выражения для b1 видна роль коэффициента корреляции:
чем меньше rxy, тем ближе линия регрессии к горизонтальному положению, т.е.
тем ближе к состоянию неизменности будут средние значения наблюдений yi.
Пример 12.1. Для анализа зависимости объема потребления Y (у.е.) домохозяйства от располагаемого дохода X (у.е.) отобрана выборка объема n=12 (помесячно в течение года), результаты которой приведены в таблице:
Таблица 12.1
i |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
xi |
107 |
109 |
110 |
113 |
120 |
122 |
123 |
128 |
136 |
140 |
145 |
150 |
yi |
102 |
105 |
108 |
110 |
115 |
117 |
119 |
125 |
132 |
130 |
141 |
144 |
Необходимо определить вид зависимости и оценить по МНК параметры уравнения регрессии.
Решение. Для определения вида зависимости построим диаграмму рассеяния (рис. 12.1)
Рис. 12.1. Диаграмма рассеяния
По расположению точек на диаграмме рассеяния полагаем, что
зависимость между Y и X линейная: Y = b0 + b1 X .
Для наглядности вычислений по МНК построим таблицу:
Таблица 12.2
|
|
|
2 |
|
2 |
|
|
2 |
i |
xi |
yi |
xi |
xiyi |
yi |
yi |
ei |
ei |
1 |
107 |
102 |
11449 |
10914 |
10404 |
103,5832 |
-1,583 |
2,507 |
2 |
109 |
105 |
11881 |
11445 |
11025 |
105,4554 |
-0,455 |
0,207 |
3 |
110 |
108 |
12100 |
11880 |
11664 |
106,3914 |
1,609 |
2,587 |
4 |
113 |
110 |
12769 |
12430 |
12100 |
109,1997 |
0,800 |
0,641 |
5 |
120 |
115 |
14400 |
13800 |
13225 |
115,7522 |
-0,752 |
0,566 |
6 |
122 |
117 |
14884 |
14274 |
13689 |
117,6244 |
-0,624 |
0,390 |
7 |
123 |
119 |
15129 |
14637 |
14161 |
118,5605 |
0,440 |
0,193 |
8 |
128 |
125 |
16384 |
16000 |
15625 |
123,2409 |
1,759 |
3,094 |
9 |
136 |
132 |
18496 |
17952 |
17424 |
130,7295 |
1,270 |
1,614 |
10 |
140 |
130 |
19600 |
18200 |
16900 |
134,4739 |
-4,474 |
20,015 |
11 |
145 |
141 |
21025 |
20445 |
19881 |
139,1543 |
1,846 |
3,407 |
12 |
150 |
144 |
22500 |
21600 |
20736 |
143,8347 |
0,165 |
0,027 |
Сумма |
1503 |
1448 |
190617 |
183577 |
176834 |
- |
1,4 10-14 |
35,249 |
Среднее |
125,25 |
120,6667 |
15884,75 |
15298,08 |
14736,17 |
- |
- |
- |