ЭКОНОМЕТРИКА и математическая экономика / Эконометрика. Учебник продвинутый (2005)
.pdf4.2. Регрессионный анализ |
|
|
|
|
|
153 |
||
|
|
A |
|
|
r |
На рисунке 4.2 в плоскости (в про- |
||
|
|
x1 |
|
|
странстве) переменных x1 , x2 |
при- |
||
|
|
|
C |
|
||||
|
|
|
|
|
||||
|
E |
|
|
|
менение прямой регрессии означает |
|||
|
|
|
|
|
||||
|
|
|
D |
|
|
минимизацию суммы квадратов рас- |
||
|
|
B |
|
|
|
|||
|
F |
|
|
|
стояний от точек облака наблюдений |
|||
|
|
|
|
|
||||
|
|
|
|
|
|
|||
|
|
|
|
|
|
до линии регрессии, измеренных па- |
||
|
|
0 |
|
|
x2 |
|||
|
|
|
|
раллельно оси x1. При применении |
||||
|
|
|
|
|
||||
|
|
|
|
|
|
|||
|
|
|
|
|
|
обратной регрессии эти |
расстояния |
|
1 |
|
|
|
|
измеряются параллельно оси x2 . |
|
||
|
|
|
|
|
|
lr — линия регрессии, |
|
|
|
|
Рис. 4.2 |
|
|
|
OA — вектор-строка |
i-го |
на- |
|
|
|
|
|
блюдения xˆi = (ˆxi1, xˆi2), |
|
|
|
|
|
|
|
|
|
|
|
AB — расстояние до линии регрессии, измеренное параллельно оси xˆ1 , равное величине ei1 ,
AC — расстояние, измеренное параллельно оси xˆ2 , равное величине ei2 ,
AD — расстояние, измеренное перпендикулярно линии регрессии, равное ei ,
OE — вектор-строка a параметров ортогональной регрессии.
Очевидно, что оценить параметры регрессии можно, измеряя расстояния до линии регрессии перпендикулярно самой этой линии (на рисунке — отрезок AD). Такая регрессия называется ортогональной. В уравнении такой регрессии обе переменные остаются в левой части с коэффициентами, сумма квадратов которых должна равняться единице (длина вектора параметров регрессии должна равняться единице):
a1xˆi1 + a2xˆi2 = ei, i = 1, . . . , N |
(4.33) |
||
a2 |
+ a2 |
= 1. |
|
1 |
2 |
|
|
В матричной форме: |
|
|
|
|
|
ˆ |
(4.34) |
|
|
Xa = e, |
|
|
|
a a = 1, |
|
ˆ |
|
где X — матрица наблюдений за переменными, размерности N 2, a — вектор- |
|
столбец параметров регрессии. |
|
Само уравнение регрессии можно записать еще и так: |
|
xˆia = ei, i = 1, . . . , N . |
(4.35) |
Чтобы убедиться в том, что такая регрессия является ортогональной, достаточно вспомнить из линейной алгебры, что скалярное произведение вектора на вектор
154 |
Глава 4. Введение в анализ связей |
единичной длины равно длине проекции этого вектора на единичный вектор. В левой части (4.35) как раз и фигурирует такое скалярное произведение. На рисунке вектором параметров a является OE, проекцией вектора наблюдений OA(ˆxi) на этот вектор — отрезок OF , длина которого (xˆia) в точности равна расстоянию от точки облака наблюдений до линии регрессии, измеренному перпендикулярно этой линии (ei ).
Следует иметь в виду, что и в «обычной» регрессии, в левой части которой остается одна переменная, коэффициент при этой переменной принимается равным единице, т.е. фактически используется аналогичное ортогональной регрессии требование: вектор параметров при переменных в левой части уравнения должен иметь единичную длину.
В противоположность ортогональной «обычные» регрессии называют простыми. В отечественной литературе простой часто называют «обычную» регрессию с одной факторной переменной. А регрессию с несколькими факторными переменными называют множественной.
Теперь остаточную дисперсию в матричной форме можно записать следующим образом:
|
|
|
s2 |
= |
1 |
e e = |
1 |
a Xˆ Xaˆ |
= a M a, |
|
|
|
|
|
|
|
|
|
|||||
|
|
|
e |
|
N |
|
N |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
где M = |
1 |
Xˆ Xˆ |
— матрица ковариации переменных, равная |
m11 |
m12 . |
||||||
N |
|
||||||||||
|
|
|
|
|
|
|
|
|
m21 |
m22 |
|
|
|
|
|
|
|
|
|
|
|
Для минимизации остаточной дисперсии при ограничении на длину вектора параметров регрессии строится функция Лагранжа:
L (a, λ) = a M a − λa a,
где λ — множитель Лагранжа (оценка ограничения).
Далее находятся производные этой функции по параметрам регрессии, и эти производные приравниваются к нулю. Результат таких операций в матричной форме представляется следующим образом (поскольку M — симметричная матрица:
M = M ): |
|
(M − λI) a = 0. |
(4.36) |
Таким образом, множитель Лагранжа есть собственное число матрицы ковариации M , а вектор оценок параметров регрессии — соответствующий правый собственный вектор этой матрицы (см. Приложение A.1.2).
Матрица M является вещественной, симметричной и положительно полуопределенной (см. Приложение A.1.2).
4.2. Регрессионный анализ |
155 |
Последнее справедливо, т.к. квадратичная форма µ M µ при любом векторе µ неотрицательна. Действительно, эту квадратичную форму всегда можно представить как
|
|
|
1 |
ˆ |
|
||
сумму квадратов компонент вектора η = |
|
|
|
||||
√ |
|
Xµ: |
|
||||
N |
|
||||||
|
|
|
|
|
|
|
|
µ |
M µ = |
1 |
µ ˆ ˆ |
|
η 0. |
||
|
N |
X Xµ = η |
Из линейной алгебры известно, что все собственные числа такой матрицы вещественны и неотрицательны, следовательно λ неотрицательно.
После умножения обеих частей уравнения (4.36) слева на a из него следует,
что
se2 = a M a = λa a |
a a=1 |
= λ, |
т.е. минимизации остаточной дисперсии соответствует поиск минимального собственного числа матрицы ковариации переменных M . Соответствующий этому собственному числу правый собственный вектор этой матрицы есть вектор оценок параметров ортогональной регрессии a (см. Приложение A.1.2). Кроме того, в соответствии со свойствами матрицы M , сумма ее собственных чисел равна сумме ее диагональных элементов (следу матрицы), и, т.к. λ — меньшее из двух собственных чисел, то λ < 12 (m11 + m12) (случай двух одинаковых собственных чисел не рассматривается, т.к. он имеет место, когда связь между переменными отсутствует, и m12 = 0).
Оценка свободного члена b, как и прежде, получается из условия прохождения линии регрессии через точку средних: b = xa¯ , где x¯ — вектор-строка средних значений переменных.
Расчетное значение xˆi дает вектор OD (см. рис. 4.2), который равен разности векторов OA и OF , т.е. (в матричной форме):
ˆ c ˆ −
X = X ea .
Теперь можно дать еще одну оценку параметров уравнения (4.18):
a12 ( ) = −a2 , a1
b1 ( ) = x¯1 − a12 ( ) x¯2,
ei1 ( ) = 1 ei. a1
Полученная оценка углового коэффициента a12 ( ) лежит между его оценками по прямой и обратной регрессиям. Действительно, из (4.36) следует, что
a |
( |
|
) = |
|
a2 |
= |
m12 |
|
= |
m11 − λ |
. |
|
−a1 |
m22 − λ |
|
||||||||
12 |
|
|
|
|
m12 |
156 |
Глава 4. Введение в анализ связей |
90°
x1 x1
>90°
x2
kx2
Рис. 4.3
Отсюда, в |
частности, следует, что величины |
m11 |
− λ |
и |
m22 |
− λ |
имеют один |
|||||||
|
1 |
|
|
|
|
|
|
|||||||
знак, и, т.к. λ < |
2 (m11 |
+ m12), то обе эти величины положительны. |
|
|||||||||||
Поэтому, если m12 0, то |
|
|
|
|
|
|
|
|
|
|||||
|
|
|
m11 |
(4.32) |
|
|
(4.26) |
|
m12 |
|
|
|||
|
|
|
|
|
= a12 (2) > a12 |
( ) > a12 |
= |
|
|
, |
|
|
||
|
|
|
m12 |
m22 |
|
|
а если m12 0, то a12 (2) < a12 ( ) < a12.
Понятно, что эти 3 оценки совпадают тогда и только тогда, когда λ = s2e = 0, т.е. зависимость функциональна.
В действительности любое число, лежащее на отрезке с концами a12, a12 (2) (т.е. либо [a12, a12 (2)], если m12 0, либо [a12 (2) , a12], если m12 0), может являться МНК-оценкой параметра α12 , т.е. оценкой этого параметра является γ1a12 + γ2a12 (2) при любых γ1 и γ2 , таких что γ1 0, γ2 0, γ1 + γ2 = 1. Каждая из этих оценок может быть получена, если расстояния от точек облака наблюдения до линии регрессии измерять под определенным углом, что достигается с помощью предварительного преобразования в пространстве переменных.
Убедиться в этом можно, рассуждая следующим образом.
Пусть получена оценка углового коэффициента по ортогональной регрессии (рис. 4.3, слева). Теперь проводится преобразование в пространстве переменных: xˆ2 умножается на некоторое число k > 1, и снова дается оценка этого коэффициента по ортогональной регрессии (рис. 4.3, справа). После возвращения в исходное пространство получается новая оценка углового коэффициента, сопоставимая со старой (возвращение в исходное пространство осуществляется умножением оценки коэффициента, полученной в преобразованном пространстве, на число k).
Этот рисунок не вполне корректен, т.к. переход в новое пространство переменных и возвращение в исходное пространство ведет к смещению линии регрессии. Однако
4.2. Регрессионный анализ |
157 |
смысл происходящего он поясняет достаточно наглядно: новая оценка получена так, как будто расстояния от точек облака наблюдений до линии регрессии измеряются под углом, не равным 90◦. Должно быть понятно, что в пределе, при k → ∞, расстояния до линии регрессии будут измеряться параллельно оси xˆ1 и полученная оценка углового коэффициента совпадет с a12 . Наоборот, в пределе при k → 0 эта оценка совпадет с a12 (2).
Выбор оценок параметров регрессии на имеющемся множестве зависит от характера распределения ошибок измерения переменных. Это — предмет изучения во II части книги. Пока можно предложить некоторые эмпирические критерии. Например, следующий.
Общая совокупность (множество наблюдений) делится на две части: обучающую и контрольную. Оценка параметров производится по обучающей совокупности. На контрольной совокупности определяется сумма квадратов отклонений фактических значений переменных от расчетных. Выбирается та оценка, которая дает минимум этой суммы. В заключение выбранную оценку можно дать по всей совокупности.
Рассмотренный случай двух переменных легко обобщить на n переменных (без доказательств: они даются во II части книги). Основное уравнение регрессии записывается следующим образом: x1 = x−1α−1 + β1 + ε1, где x−1 = [x2, . . . , xn] — вектор-строка всех переменных кроме первой, вектор факторных переменных,
|
α12 |
α |
. |
= . |
|
−1 |
. |
α1n
— вектор-столбец параметров регрессии при факторных переменных, а в матрич-
ной форме: |
ˆ |
|
ˆ |
|
ˆ |
|
|
X1 |
= X−1a−1 + e1 , где X−1 — матрица размерности N × (n − 1) |
||||||
наблюдений за факторными переменными. |
|
||||||
По аналогии с (4.21, 4.26): |
|
||||||
|
|
|
|
|
|
a−1 = M−−11m−1, |
(4.37) |
|
|
|
|
|
|
b1 = x¯1 − x¯−1a−1, |
|
где M 1 = |
1 |
Xˆ |
|
Xˆ |
1 |
— матрица ковариации факторных переменных между со- |
|
|
|||||||
− |
N |
−1 |
− |
|
|
|
бой,
1 ˆ ˆ — вектор-столбец ковариации факторных переменных с мо- m−1 = N X−1X1
делируемой переменной,
158 Глава 4. Введение в анализ связей
x¯−1 1 N ˆ−1 — вектор-строка средних значений факторных переменных.
= N 1 X
Расчетные значения моделируемой переменной, т.е. ее математические ожида-
ния, есть |
|
ˆ c |
ˆ |
X1 |
= X−1a−1. |
Как и в случае двух переменных объясненной дисперсией является дисперсия расчетных значений моделируемой переменной:
|
|
1 |
|
Xˆ |
|
Xˆ |
|
|
|
|
|
(4.37) |
|
|
(4.37) |
|
−1m |
|
|
s2 |
= |
|
a |
|
a |
−1 |
= a |
M a |
−1 |
= a |
m |
−1 |
= m |
M |
−1 |
. |
|||
|
|||||||||||||||||||
q1 |
|
N −1 |
|
−1 |
|
−1 |
−1 |
−1 |
−1 |
|
−1 |
|
−1 |
|
(4.38)
Коэффициент множественной корреляции r1,−1 есть коэффициент корреляции между моделируемой переменной и ее расчетным значением (cov — обозначение ковариации):
|
|
1 |
a Xˆ |
|
Xˆ |
= a |
|
|
|
|
(4.38) |
|
|
|
|||
cov (xc |
, x |
) = |
|
|
m |
−1 |
= |
s2 , |
|
||||||||
N |
|
|
|||||||||||||||
1 |
1 |
|
−1 |
−1 |
1 |
−1 |
|
|
|
|
q1 |
|
|||||
r1,−1 = |
|
cov (x1c , x1) |
= |
sq21 |
= |
|
sq1 |
, |
|||||||||
|
|
sq1s1 |
|
|
s1 |
||||||||||||
|
var (x1c ) var (x1) |
|
Коэффициент детерминации, равный квадрату коэффициента множественной корреляции:
s21
R2 = q ,
s21
показывает долю объясненной дисперсии в общей.
Если связь отсутствует и α−1 = 0 (нулевая гипотеза), то расчетная статистика
Фишера |
|
|
F c = |
|
R2 (N − n) |
|
− R2) (n − 1) |
|
(1 |
имеет F -распределение с n − 1 степенями свободы в числителе и N − n степенями свободы в знаменателе — Fn−1,N −n . Логика использования этой статистики сохраняется прежней.
При использовании в общем случае записи уравнения регрессии в форме со скрытым свободным членом
˜
X1 = X−1a˜−1 + e,
4.2. Регрессионный анализ |
|
|
|
|
|
|
159 |
||||||||||||||
где |
|
˜ |
|
|
— матрица [X−1, 1N ] размерности N ×(n + 1), a˜−1 — вектор |
a−1 |
, |
||||||||||||||
|
X−1 |
b1 |
|||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
оператор МНК-оценивания записывается как |
|
|
|
|
|||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
a˜−1 = M˜ −−11m˜ −1, |
|
|
(4.39) |
|||
где |
|
m˜ |
− |
1 |
= |
1 |
X˜ |
|
|
X1 , M˜ |
1 = |
1 |
X˜ |
X˜ |
1. |
|
|
|
|
||
|
N |
|
|
|
|
||||||||||||||||
|
|
|
|
|
N |
−1 |
|
|
− |
|
−1 |
− |
|
|
|
|
|
||||
|
Достаточно простые алгебраические преобразования показывают, что этот опе- |
||||||||||||||||||||
ратор эквивалентен (4.37). |
|
|
|
|
|
|
|
|
|||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Полезной является еще одна геометрическая |
||||||
|
|
|
|
|
|
|
|
A |
|
|
|
|
|
иллюстрация регрессии — в пространстве наблю- |
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
дений (см. рис. 4.4 и 4.5). |
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
При |
n = 2 (n — количество переменных), |
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
OA — вектор xˆ1 , |
|
OB — вектор xˆ2 , |
OC — |
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
вектор проекции xˆ1 |
на xˆ2, равный расчетному |
|||||
O |
|
|
|
|
|
|
C |
B |
|
||||||||||||
|
|
|
|
|
|
|
значению xˆ1c , CA — вектор остатков e1 , так что: |
||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
Рис. 4.4 |
|
|
|
xˆ1 = a12xˆ2 + e1 . Косинус угла между OA и OB |
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
равен коэффициенту корреляции. |
|
|
||||
|
При n = 3, OA — вектор xˆ1, OB — вектор |
|
|
|
|
||||||||||||||||
xˆ2 , |
|
OC — вектор xˆ3 , |
OD — вектор проекции |
|
A |
|
|
||||||||||||||
xˆ1 |
на плоскость, определяемую xˆ2 и xˆ3, равный |
|
|
|
|
||||||||||||||||
расчетному значению xˆc |
, DA — вектор остатков |
|
F |
|
|
||||||||||||||||
|
|
|
|
|
|
|
|
|
|
1 |
|
|
xˆ1c на xˆ2 , равный |
|
|
C |
|||||
e1 , |
|
OE — вектор проекции |
|
|
|
||||||||||||||||
a12xˆ2 , OF — вектор проекции xˆ1c на xˆ3 , равный |
O |
|
|
||||||||||||||||||
a13xˆ3 , так что |
xˆ1 = a12xˆ2 + a13xˆ3 + e1 . Косинус |
|
|
||||||||||||||||||
|
|
|
|
||||||||||||||||||
угла между OA и плоскостью, определенной xˆ2 |
|
D |
|
|
|||||||||||||||||
и xˆ3 , (т.е. между OA и OD) равен коэффициенту |
|
E |
|
|
|||||||||||||||||
|
|
|
|
||||||||||||||||||
множественной корреляции. |
|
|
|
|
|
|
|
|
|||||||||||||
|
Кроме оценки a−1 |
можно получить оценки |
|
B |
|
|
|||||||||||||||
|
|
|
|
|
|||||||||||||||||
a−1 (j) , j = 2, . . . , n, последовательно переводя |
|
Рис. 4.5 |
|
|
|||||||||||||||||
в левую часть уравнения переменные xˆj , приме- |
|
|
|
|
няя МНК и алгебраически возвращаясь к оценкам исходной формы уравнения.
Для представления ортогональной регрессии в общем случае подходят формулы (4.34, 4.36) и другие матричные выражения, приведенные выше при описании ортогональной регрессии. Необходимо только при определении векторов и матриц, входящих в эти выражения, заменить «2» на «n».
С помощью преобразований в пространстве переменных перед использованием ортогональной регрессии и последующего возвращения в исходное пространство
160 |
Глава 4. Введение в анализ связей |
в качестве оценок a−1 можно получить любой вектор из множества (симплекса)
n |
n |
γ1a−1 + γj a−1 (j) , γj 0, j = 1, . . . , n, |
λj = 1. |
j=2 |
j=1 |
Это — подмножество всех возможных МНК-оценок истинных параметров α−1 .
4.3. Дисперсионный анализ
Дисперсионный анализ заключается в представлении (разложении) дисперсии изучаемых признаков по факторам и использовании F -критерия для сопоставления факторных «частей» общей дисперсии с целью определения степени влияния факторов на изучаемые признаки. Примеры использования дисперсионного анализа даны в предыдущем пункте при рассмотрении общей дисперсии моделируемой переменной как суммы объясненной и остаточной дисперсии.
Дисперсионный анализ может быть одномерным или многомерным. В первом случае имеется только один изучаемый (моделируемый) признак, во втором случае их несколько. В данном курсе рассматривается только первый случай. Применение методов этого анализа основывается на определенной группировке исходной совокупности (см. п. 1.9). В качестве факторных выступают группирующие признаки. То есть изучается влияние группирующих признаков на моделируемый. Если группирующий (факторный) признак один, то речь идет об однофакторном дисперсионном анализе, если этих признаков несколько — о многофакторном анализе. Если в группировке для каждого сочетания уровней факторов имеется строго одно наблюдение (численность всех конечных групп в точности равна единице), говорят о дисперсионном анализе без повторений; если конечные группы могут иметь любые численности — с повторениями. Многофакторный дисперсионный анализ может быть полным или частичным. В первом случае исследуется влияние всех возможных сочетаний факторов (смысл этой фразы станет понятным ниже). Во втором случае принимаются во внимание лишь некоторые сочетания факторов.
В этом пункте рассматриваются две модели: однофакторный дисперсионный анализ с повторениями и полный многофакторный анализ без повторений.
Пусть исходная совокупность xi, i = 1, . . . , N сгруппирована по одному фактору, т.е. она разделена на k групп:
xill — значение изучаемого признака в il -м наблюдении (il = 1, . . . , Nl ) в l-й группе (l = 1, . . . , k); Nl = N .
4.3. Дисперсионный анализ |
161 |
Рассчитываются общая средняя и средние по группам:
|
1 |
|
k |
Nl |
1 |
k |
|
|
x¯ = |
|
|
xill = |
|
Nlx¯l, |
|||
|
|
|
|
N l=1 |
||||
|
N l=1 il=1 |
|
||||||
|
1 |
Nl |
|
|
|
|
||
x¯l = |
|
xill, |
|
|
|
|||
|
|
|
|
|
|
|
||
|
Nl |
|
|
|
|
|||
|
|
il=1 |
|
|
|
|||
|
|
|
|
|
|
|
общая дисперсия, дисперсии по группам и межгрупповая дисперсия (s2q ):
|
1 |
|
k |
Nl |
s2 = |
|
l=1 il=1 (xill − x¯)2, |
||
|
|
|||
N |
||||
|
1 |
|
Nl |
|
sl2 = |
|
il=1 (xill − x¯l)2, |
||
|
||||
Nl |
||||
|
1 |
|
k |
Nl (¯xl − x¯)2. |
sq2 = |
|
|
||
|
|
|
||
N |
|
l=1 |
||
|
|
|
|
Общую дисперсию можно разложить на групповые и межгрупповую дисперсии:
s2 = |
1 |
k Nl |
((xill − x¯l) + (¯xl − x¯))2 = |
|
|
|
|
|
|
|||||||||||||
|
|
|
|
|
|
|
|
|
||||||||||||||
|
|
|
|
|
|
|
|
|
|
|||||||||||||
|
N l=1 il =1 |
|
|
|
|
|
|
|||||||||||||||
|
1 |
|
k |
|
Nl |
|
|
2 |
|
k |
Nl |
|
|
|
1 |
|
k |
Nl |
||||
= |
l=1 il =1 (xill |
− x¯l)2 + |
|
|
|
|
(xill − x¯l) (¯xl − x¯) + |
|
l=1 il=1 (x¯l − x¯)2 = |
|||||||||||||
|
|
|
|
|
|
|||||||||||||||||
N |
N l=1 il =1 |
N |
||||||||||||||||||||
|
1 |
|
k |
|
|
1 Nl |
|
|
|
2 |
k |
Nl |
|
|
1 |
|
k |
|||||
= |
|
|
|
|
Nl |
|
|
(xill − x¯l)2 + |
|
|
|
(¯xl − x¯) (xill − x¯l) + |
|
|
Nl (¯xl − x¯)2 = |
|||||||
N |
|
|
Nl |
il=1 |
|
N |
l=1 |
N |
||||||||||||||
|
|
l=1 |
|
|
|
|
|
|
|
|
il=1 |
|
|
|
|
|
l=1 |
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
←−−−−−−−−→ |
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
=0 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
←−−−−−−−−−−−−−−−−−−→ |
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
=0 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
k |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
= |
|
Nlsl2 + sq2 = se2 + sq2. |
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
N l=1 |
|
|
|
|
Данное представление общей дисперсии изучаемого признака аналогично полученному в начале предыдущего пункта при рассмотрении регрессии, построенной по данным совместного эмпирического распределения признаков. В том случае «группами» выступали значения первого признака при тех или иных значениях второго признака. В данном случае (в терминах дисперсионного анализа)
s2e — внутригрупповая дисперсия; s2q — межгрупповая дисперсия.
162 Глава 4. Введение в анализ связей
Тот факт, что среднее слагаемое в вышеприведенном выражении равно нулю, означает линейную независимость внутригрупповой и межгрупповой дисперсий.
Чем выше межгрупповая дисперсия по сравнению с внутригрупповой, тем вероятнее, что группирующий (факторный) признак влияет на изучаемый признак. Степень возможного влияния оценивается с помощью F -статистики:
s2 (N − k) F c = q .
s2e (k − 1)
В случае если влияние отсутствует (нулевая гипотеза), эта статистика имеет распределение Fk−1,N −k (межгрупповая дисперсия имеет k − 1 степеней свободы, внутригрупповая — N − k), что объясняет указанный способ расчета F -статистики. Логика проверки нулевой гипотезы та же, что и в предыдущих случаях.
Рассмотрение модели однофакторного дисперсионного анализа с повторениями завершено.
Пусть теперь имеется группировка исходной совокупности xi , i = 1, . . . , N по n факторам; j-й фактор может принимать kj уровней, j = 1, . . . , n. Все численности конечных групп равны единице: NI = 1, для любого I . Такая совокупность может быть получена по результатам проведения управляемого эксперимента. В экономических исследованиях она может быть образована в расчетах по математической модели изучаемой переменной: для каждого сочетания уровней факторов проводится один расчет по модели.
В этом случае
n
|
N = |
|
kj = |
kj , |
|
|
|
|||
|
j=1 |
G |
|
|
|
|||||
где через G, как |
и в пункте 1.9, |
обозначено полное |
множество |
факторов |
||||||
J = {12 . . . n}, xI |
— значение изучаемого признака при сочетании уровней фак- |
|||||||||
торов I = {i1i2 . . . in}. |
|
|
|
|
|
|
|
|
|
|
Общая средняя изучаемого признака: |
|
|
|
|
||||||
|
b0 = x¯ = |
1 |
|
xI . |
|
|
|
|||
|
N |
|
|
|
||||||
|
|
|
|
|
I |
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
Каждый j-й фактор делит исходную совокупность на kj |
групп по |
N |
эле- |
|||||||
|
|
|
|
|
|
|
|
|
|
kj |
ментов. Для каждого из уровней ij |
j-го фактора (для каждой из таких групп) |
|||||||||
рассчитывается среднее значение изучаемого признака: |
|
|
|
|||||||
|
xij (j) = |
kj |
|
xI , |
|
|
|
|||
|
|
|
|
|
||||||
|
|
|
N I−ij (j) |
|
|
|