Ведение в социально - экономическую статистику. Учебник. Новосибирск, 2004. 739 с
.pdf20.1. Дисперсионный анализ без повторений |
613 |
лагается по эффектам всех возможных взаимодействий факторов (здесь и далее модели записываются в оценках параметров, т.е. β меняются на b):
|
G |
|
X = |
ZJ bJ , |
(20.4) |
|
J =0 |
|
|
G |
|
X = |
ZJ bJ , |
(20.5) |
J=0
амодель в покомпонентном представлении (20.2) еще и без линейного внутригруппового индекса:
|
|
|
G |
|
|
|
|
|
xI = b0 + bIJ(J ). |
|
(20.6) |
|
|
|
J =1 |
|
|
Модель (20.5) можно переписать более компактно: |
|
|
|||
|
|
|
X = Zb. |
|
(20.7) |
|
Поскольку матрицы ZJ имеют размерности N K−J ( K−J = |
J |
(kj − 1), |
||
K0 |
G |
KJ |
= K = N (как это было показано в п. 4.3), то матрица Z |
||
= 1), а |
|||||
− |
J =0 |
− |
|
|
|
квадратна, и b = Z−1X . Но для получения общих результатов, имеющих значение и для частных моделей, в которых эффекты высоких порядков принимаются за случайную ошибку, используется техника регрессионного анализа:
b= M −1m = ( N1 Z Z)−1 N1 Z X.
Вэтом параграфе сделанные утверждения будут иллюстрироваться примером,
вкотором n = 2, k1 = k2 = 2 и модели (20.4) и (20.5) записываются следующим образом:
x11 |
|
1 |
1 |
0 |
|
|
1 |
0 |
|
|
1 |
0 |
0 |
0 |
b1112 |
|
x12 |
= |
1 |
1 |
0 |
b1 |
+ |
0 |
1 |
b2 |
+ |
0 |
1 |
0 |
0 |
b12 |
, |
|
b0 + |
|
|
1 |
|
|
1 |
|
|
|
|
12 |
||||
x21 |
|
1 |
0 |
1 |
b21 |
|
1 |
0 |
b22 |
|
0 |
0 |
1 |
0 |
b2112 |
|
x22 |
|
1 |
0 |
1 |
|
|
0 |
1 |
|
|
0 |
0 |
0 |
1 |
b2212 |
|
614 |
|
|
|
Глава 20. Дисперсионный анализ |
|
x11 |
|
1 |
−1 |
−1 |
1 |
x12 |
= |
1 b0 + |
−1 b21 + |
1 b22 + |
−1 b2212. |
x21 |
|
1 |
1 |
−1 |
−1 |
x22 |
|
1 |
1 |
1 |
1 |
Каждая из матриц ZJ является прямым произведением ряда матриц и векторов:
ZJ = |
|
Ikj , если j J . |
|
|
|
|
|
|
G |
1kj |
, если j / J |
|
|
В этом легко убедиться, рассуждая по индукции. Так, в рассматриваемом при-
мере: |
|
|
|
|
|
|
|
|
Z0 = |
1 |
1 , Z1 = |
1 |
0 |
1 , |
|
||
|
|
1 |
|
1 |
0 |
1 |
1 |
|
Z2 = |
1 |
1 |
0 , Z12 = |
1 |
0 |
1 |
0 . |
|
|
1 |
|
0 |
1 |
0 |
1 |
0 |
1 |
Матрицы CJ можно представить следующим образом:
CJ = Cj = Cj , если j J .
JG
1, если j / J
Тогда, используя свойство коммутативности прямого и «обычного» умножения
матриц (см. п. 9.1), можно показать следующее: |
|
|
|
|
|
|||
ZJ = ZJ CJ = |
|
Ikj , если j J |
Cj , если j J |
= |
|
|||
|
|
|
|
|
|
|
|
|
|
G |
1kj , если j / J |
1, если j / J |
|
|
|
||
|
|
|
|
|
||||
|
|
|
= |
|
Cj |
, если j J |
. (20.8) |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
G |
1kj |
, если j / J |
|
|
|
|
|
|
|
|
20.1. Дисперсионный анализ без повторений |
|
|
615 |
||||||||
Теперь можно уточнить структуру матрицы M . Она состоит из блоков |
|||||||||||
|
|
|
|
|
|
M J¯J = |
1 |
ZJ¯ ZJ , |
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
N |
|
|
|
|
|
|
|
|
|
|
¯ |
|
|
|
|
|
и все внедиагональные блоки (при J = J ), благодаря (20.8), равны 0. |
|||||||||||
Действительно, |
|
|
|
|
|
|
|
|
|
||
|
1 |
|
|
|
j |
¯ |
|
j |
|
||
M J¯J = |
|
C |
|
, если j J |
C |
|
, если j J |
||||
|
|
|
|
|
|
||||||
|
|
G |
1 |
|
, если j / J¯ |
1 |
|
, если j / J |
|||
|
N |
|
|
||||||||
|
|
|
|
kj |
|
|
kj |
|
|||
¯ |
|
|
|
|
|
|
|
|
|
|
|
и, если j J , / J , то в ряду прямых произведений матриц возникает матрица |
|||||||||||
(точнее, вектор-столбец) C |
j |
1kj |
¯ |
|
|
|
|||||
|
; если j / J , J , то появляется матрица (вектор- |
строка) |
1kj Cj . И та, и другая матрица (вектор-столбец или вектор-строка) по |
|||||||||||||||||||||||||||
|
|
|
|
|
|
|
j |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
¯ |
= 0 |
¯ |
= J . |
построению матриц C |
|
равны нулю. Следовательно, M |
|
при J |
||||||||||||||||||||||||
Для диагональных блоков выполняются следующие соотношения: |
|
|||||||||||||||||||||||||||
|
|
|
|
M J J = M J = |
1 |
|
kj |
|
Cj Cj = |
1 |
|
Cj Cj = M j , |
|
|||||||||||||||
|
N G−J |
|
|
|||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
K |
J |
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
J |
|
|
|
|
J |
|
|
|
|
J |
|
|
где M j |
= |
1 |
Cj Cj = |
|
1 |
(1 |
|
1 |
|
+ I |
kj −1 |
). |
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||
|
|
kj |
|
kj kj −1 kj −1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
В рассматриваемом примере M = I4 . |
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||
Вектор m состоит из блоков mJ : |
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||
|
|
|
|
|
mJ = |
1 |
ZJ X = |
1 |
CJ ZJ X = |
1 |
CJ XJ , |
|
|
|||||||||||||||
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||
|
|
|
|
|
|
|
|
|
N |
|
|
|
|
N |
|
|
|
|
|
KJ |
|
|
|
|
||||
где XJ |
= |
KJ |
ZJ X — вектор-столбец средних по сочетаниям значений факто- |
|||||||||||||||||||||||||
N |
||||||||||||||||||||||||||||
ров J . Его компоненты в пункте 4.3 обозначались xI(J ) |
( xIJ(J ) |
— добавлен верх- |
ний индекс J — является средним значением x по тем наблюдениям, в которых 1-й фактор из множества J находится на ij1 -м уровне, 2-й — на ij2 -м уровне и т.д.); X0 = x¯, XG = X . Это следует из структуры матрицы ZJ .
После решения системы нормальных уравнений
mJ = M J bJ , J = 1, . . . , G
и перехода к «полным» векторам параметров эффектов получается следующее:
|
|
|
|
|
bJ = CJ (CJ CJ )−1CJ XJ = BJ XJ = Bj XJ , |
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
J |
|
|
|
j |
j |
|
j |
j |
1 |
|
j |
|
1 |
|
kj |
kj |
|
0 |
|
где B |
|
= C |
(C |
|
C |
)− |
C |
|
= Ikj − |
kj |
1 |
|
( 1 |
= 1kj 1kj ), B |
|
= 1. |
20.1. Дисперсионный анализ без повторений |
617 |
Для доказательства этого факта обе части соотношения (20.5) умножаются
|
KJ |
J |
|
|
|
|
|
|
|
|
¯ |
|
|
слева на |
N |
Z |
|
(текущим множеством в сумме становится J ): |
|
||||||||
|
|
|
|
|
KJ |
J |
G KJ |
J |
J¯ J¯ |
|
|||
|
|
|
|
|
|
Z |
X = |
|
|
Z |
Z |
b , |
(20.11) |
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
N |
|
¯ |
N |
|
|
|
||
|
|
|
|
|
|
|
|
J =0 |
|
|
|
¯
ирассматривается произведение ZJ ZJ из правой части полученного соотношения, которое представляется следующим образом:
|
|
|
|
Ikj , если j J |
|
j |
|
¯ |
|
|
|
|
|
|
C |
|
, |
если j J . |
(20.12) |
||
|
|
|
G |
1 , |
если j / J |
1 |
|
, |
если j / J¯ |
|
|
|
|
|
|
|
|||||
|
|
|
|
kj |
|
kj |
|
|
|
|
Возможны четыре случая. |
|
|
|
|
|
|||||
1) |
|
|
J¯, тогда в этом произведении возникает сомножитель |
kj |
||||||
j / J, j |
|
1 Cj , |
который равен нулю, т.е. в правой части соотношения (20.11) остаются только
|
¯ |
|
|
|
|
|
|
|
такие слагаемые, для которых J J . |
|
|
|
|
|
|
|
|
2) |
¯ |
|
|
|
|
|
|
|
j / J, j / J , тогда возникает сомножитель kj , и, следовательно, каждое |
||||||||
слагаемое в правой части (20.11) получает сомножитель |
N |
, который сокраща- |
||||||
|
||||||||
|
|
KJ |
|
|
|
KJ |
||
|
|
|
|
|
|
|
||
ется с уже имеющимся сомножителем |
|
. |
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
¯ |
N |
|
|
|
|
|
|
3) |
|
|
|
j |
. |
|
|
|
j J, j J , тогда возникает сомножитель C |
|
|
|
|||||
4) |
¯ |
|
|
|
|
|
|
|
j J, j / J , тогда возникает сомножитель 1kj . |
¯ |
|||||||
Таким образом, рассматриваемое произведение в точности равно ZJ J . По- |
||||||||
скольку левая часть соотношения есть XJ |
по определению, доказательство за- |
|||||||
вершено. |
|
|
|
|
|
|
|
Соотношение (20.9) дает правило расчета bJ , если все параметры более старших эффектов известны. При J = 0 это соотношение означает
X0 = x¯ = b0.
Далее последовательно рассчитываются параметры все более младших эффектов.
Техника применения F -критерия для проверки степени значимости отдельных факторов и их сочетаний приведена в пункте 4.3. Здесь важно отметить, что она применима только в рамках гипотезы о нормальности распределения x.
20.2. Дисперсионный анализ с повторениями |
619 |
Видно, что система нормальных уравнений для оценки параметров этой модели в точности совпадает с системой нормальных уравнений для исходной модели, т.е. оценки параметров в исходной и сокращенной моделях одинаковы.
Остаточная сумма квадратов в исходной модели равна |
|
e1e1 + e e, |
(20.13) |
в сокращенной модели — |
|
N1e¯12 + e e. |
(20.14) |
Пусть первые N1 наблюдений в исходной модели имеют нижний индекс 1i, где i = 1, . . . , N1 . Тогда
e1i = x1i − z1a = x¯1 + x1i − x¯1 − z1a = e¯1 + (x1i − x¯1)
и
e1e1 = e21i =
= (¯e1 − (x1i − x¯1))2 = N1e¯21 + 2¯e1 (x1i − x¯1) + (x1i − x¯1)2.
←−−−−−−−−−−−→
=0
Сравнение (20.13) и (20.14) с учетом полученного результата завершает доказательство.
В исходной модели (20.1) строки матрицы Z, относящиеся к одной конечной группе, одинаковы, что позволяет в конечном счете перейти к сокращенной модели,
|
|
|
|
|
|
|
IK |
NI , и пусть |
существенно меньшей размерности. В исходной модели N = |
||||||||
|
|
|
|
|
|
|
I=I1 |
|
xI , sI2 |
— средняя и дисперсия в I -й конечной группе, |
|
||||||
s2 = |
|
1 |
N |
I |
s2 |
— внутригрупповая дисперсия, |
|
|
N |
|
|||||||
e |
|
|
I |
|
|
|||
x¯ = |
1 |
|
NI xI |
— общая средняя, |
|
|||
N |
|
|||||||
|
|
|
|
|
|
|||
sq2 = |
1 |
NI (xI − x¯)2 — общая межгрупповая дисперсия. |
|
|||||
N |
|
Еще в пункте 4.3 было доказано, что
s2 = s2e + s2q .
На основании этого тождества, учитывая, что количество степеней свободы внутригрупповой дисперсии равно N − K − 1, а межгрупповой — K, можно проверить статистическую гипотезу о значимости влияния всех факторов сразу на изучаемую переменную. Но в данном случае можно провести более детальный анализ
620 |
Глава 20. Дисперсионный анализ |
влияния отдельных факторов и их сочетаний, аналогичный тому, который проводился в случае модели без повторений. В таком анализе используется сокращенная модель, дающая (как это было показано выше) такие же оценки параметров регрессии, что и исходная модель, но представляющая не всю дисперсию, а только межгрупповую:
G |
|
N XG = N ZJ bJ = N ZJ bJ , |
(20.15) |
J =0
где XG — вектор средних по конечным группам xI , N — диагональная матрица численностей конечных групп NI .
Эта модель отличается от моделей (20.4) и (20.5) только наличием матричного
множителя N . Но это отличие принципиальное. Оно влечет потерю всех тех «хороших» свойств, которыми обладала модель без повторений. В частности, матрица M в общем случае перестает быть блочно-диагональной, эффекты разных сочетаний факторов становятся зависимыми, а дисперсионное тождество теряет простую структуру.
С моделью (20.15) можно работать как с обычной регрессионной моделью, используя известные критерии проверки разных статистических гипотез (понимая при этом, что результаты проверки будут неоднозначны, в силу взаимозависимостей регрессоров). Но следует иметь в виду, что оценки параметров в этой модели
смещены (что, впрочем, не влияет на результаты проверки гипотез). В частности, b0 = x¯.
Для того чтобы исключить смещенность оценок, необходимо правильно строить матрицы C, используемые при устранении линейных зависимостей в матрице Z. Это связано с тем, что теперь должны равняться нулю не простые, а взвешенные суммы компонент векторов βJ по каждому элементу нижнего мультииндекса I(J ).
j
В частности, если Ni — численность группы, в которой j-й фактор находится
j
на ij -м уровне, то
|
|
1 |
j |
· · · |
j |
|
Cj = |
−N1j ( N2 |
Nkj |
) |
Ikj −1
(понятно, что когда численности всех конечных групп равны единице, эта матрица приобретает обычную структуру).
Можно показать, что специальный выбор структуры матриц CJ может обес-
печить максимальную «разреженность» матрицы |
M , т.е. обеспечить равенство |
||||||||
|
0G |
(G |
= 0), M |
¯ |
¯ |
J ). Работая со структурой матриц C |
J |
|
|
нулю блоков M |
|
|
(J |
|
, |
можно обнаружить частный случай, когда модель с повторениями обладает теми
20.3. Упражнения и задачи |
621 |
же свойствами, что и модель без повторений. Этот случай имеет место, если каждый последующий (более младший) фактор делит все полученные ранее группы в одинаковой пропорции. Однако усилия, которые необходимы для доказательства этих фактов, далеко не соответствуют их практической значимости. Так, вряд ли можно ожидать, что ряд групп, имеющих разную численность, можно разбить на подгруппы в одинаковой пропорции — хотя бы в силу целочисленности образуемых подгрупп.
Впринципе, с моделью межгрупповой дисперсии (20.15) можно работать
ибез сомножителя N , т.е. в рамках «хороших» свойств модели без повторений. Для этого достаточно предположить, что исходная модель (20.1) неоднородна по дисперсии ошибок в разных наблюдениях. А именно: считать, что дисперсия ошибки наблюдения обратно пропорциональна численности конечной группы, в которую оно входит (чем больше наблюдений — повторений — в конечной группе, тем меньше дисперсия ошибки в отдельном наблюдении). Тогда сокращенная модель будет однородной по дисперсии и для ее оценки окажется применим простой МНК.
20.3. Упражнения и задачи
Упражнение 1
Провести дисперсионный анализ (без повторений) данных,
приведенных в таблице 20.1:
Таблица 20.1
Имеются 2 фактора по 3 уровня каждый (I, II, III и A, B, C, |
|
|
|
|
|||
|
|
|
|
||||
соответственно). Рассчитать коэффициенты b, а также Z, Z, |
A |
B |
C |
||||
b , C1 , C2 , C12 , B1 |
, B2 , B12 |
, M , m. |
|
|
|
|
|
I |
3 |
0 |
4 |
||||
|
|
|
|||||
|
|
|
|
|
|
|
|
Упражнение 2 |
|
|
II |
0 |
7 |
0 |
|
|
|
|
|
|
|
||
|
|
III |
2 |
8 |
3 |
||
|
|
|
В Таблице 20.2 приведены данные о зарплатах 52-х пре-
подавателей американского колледжа: SX — пол (жен. — 1, муж. – 0); ученое звание: RK1 — assistant professor, RK2 — associate professor, RK3 — full professor; DG — ученая степень (доктор — 1, магистр — 0); SL — средний заработок за академический год, долл.
2.1.Провести дисперсионный анализ с помощью обычной регрессии.
2.2.Провести дисперсионный анализ с помощью взвешенной регрессии, когда совокупность наблюдений с одинаковыми значениями независимых факторов заменяется одним групповым наблюдением.