Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Учебное пособие С.Д. Шапорев ПРИКЛАДНАЯ СТАТИСТИКА.pdf
Скачиваний:
626
Добавлен:
26.03.2015
Размер:
2.25 Mб
Скачать

распределений и для обработки данных применяются методы дисперсионного анализа. В других случаях предположение о нормальности не является правомерным, и тогда используют различные непараметрические методы анализа, из которых наиболее разработаны ранговые методы.

Введем некоторые общепринятые термины, позволяющие получить в сжатом виде описание структуры эксперимента. Основным является понятие фактора – это качество или свойство, в соответствии с которым классифицируются данные и которое должно оказывать влияние на конечный результат. Каждый фактор имеет несколько различных уровней. Уровень - конкретная реализация фактора - используется для описания рассматриваемого свойства, определяющего каждую категорию применяемой классификации.

Структура или схема эксперимента, обычно называемая планом эксперимента, описывается входящими в него факторами и способом комбинирования разных уровней различных факторов. Наконец, величину результата часто называют откликом.

Для сравнения влияния факторов на результат необходим определенный статистический материал. Обычно его получают следующим образом: каждый из k способов обработки применяется несколько раз (не обязательно одно и то же число раз) к исследуемому объекту, затем результаты регистрируются. Данные таких испытаний могут быть сведены в табл. 5.

 

 

 

 

 

 

Т а б л и ц а 5

 

 

 

 

 

 

 

 

 

 

Обработки (соот-

 

 

 

 

 

 

k

 

 

ветствуют уровням

1

3

 

 

 

 

 

факторов)

 

 

 

 

 

 

 

 

 

 

x11

x12

 

 

x1k

 

Результаты на-

x21

x22

 

 

x2k

 

 

 

 

блюдений

 

 

 

 

 

 

 

xn 1

xn

2

2

 

xn

k

k

 

1

 

 

 

 

 

 

6.2. Дисперсионный анализ

Для описания данных табл. 5 в большинстве случаев оказывается приемлемой аддитивная модель. Она предполагает, что значение отклика xij можно представить в виде суммы вклада (воздействия) фактора и не-

зависимой от вклада фактора случайной величины. Обычно модель однофакторного дисперсионного анализа записывается в виде

xij = μ + Tj + εij , i = 1,2,...,n j , j =1,2,...,k .

(6.2.1)

159

 

Здесь μ - математическое ожидание X в генеральной совокупности, Tj = μ j μ - эффект влияния j -го уровня фактора, т.е. отклонение от общего среднего уровня при j -й обработке, μ j - матожидание X в j -й группе, εij - случайная ошибка наблюдений.

Обычно предполагается только непрерывность закона распределения величин εij и их независимость. Однако во многих случаях о распределе-

нии εij можно сказать больше, например, предполагают, что величины εij N(0, D), т.е. имеют нормальное распределение с нулевым средним и

общей дисперсией, которая неизвестна. Дополнительная информация о законе распределения случайных величин εij позволяет использовать бо-

лее сильные методы в модели однофакторного анализа как для проверки гипотез, так и для оценки параметров. Совокупность этих методов носит название однофакторного дисперсионного анализа.

Чаще всего дисперсионный анализ основан на следующих правдоподобных допущениях о случайных величинах εij .

1.Математическое ожидание каждой остаточной случайной величины равно нулю. Это означает, что вся изменчивость в математических ожиданиях охватывается параметрами. Это очень правдоподобное предположение, ибо влияние второго члена в модели (6.1.1) всегда много меньше первого.

2.Остаточные случайные величины взаимно независимы, Это допущение не столь очевидно, как первое. Смысл его состоит в том, что между различными наблюдениями не существует какой-либо связи, которую нельзя было бы объяснить с помощью членов, описывающих определяемые эффекты.

3.Все остаточные случайные величины имеют одинаковое среднеквадратическое отклонение. Это предположение об однородности дисперсий. Во многих случаях это допущение не выполняется, поэтому прежде чем проводить дисперсионный анализ какого-либо набора данных, важно рассмотреть возможные колебания D .

4.Каждая остаточная случайная величина распределена по нормальному закону. В общем случае справедливость этого допущения наименее вероятна, чем трех остальных. Значительная часть дисперсионного анализа может проводиться без принятия этого допущения, необходимого лишь для обоснования использования некоторых формально точных критериев для проверки значимости и формул оценивания.

Допущения, описанные выше, имеют форму:

160

1)M (εij )= 0;

2)εij взаимно независимы;

3)

D(εij )= D = const;

(6.2.2)

4)

εij N(0, D).

 

Если

уровни исследуемого

фактора фиксированы, то эффекты

Tj = μj μ

являются фиксированными постоянными и их сумма равна

нулю, так как в эксперименте выбраны все возможные значения уровней. Обратимся теперь к табл. 5. Изменчивость или вариация наблюдаемых значений xij может быть вызвана изменчивостью уровней фактора и

изменчивостью значения случайных величин, описывающих неопределяемые эффекты.

Вычислим среднее значение для каждой группы и общее среднее всех наблюдений:

 

 

 

 

 

 

 

n j

 

 

 

 

 

 

 

 

 

 

 

 

 

k

 

k n j

k

 

 

 

 

=

1

xij =

1

 

xj ,

j = 1,2,...,k

,

 

 

= 1

n j

 

j

=

1 ∑∑xij , n = n j ,

x

 

j

 

 

x

x

 

 

n j

 

 

 

 

 

 

n j i=1

 

 

 

 

 

 

 

 

 

 

 

n j=1

 

n j=1i=1

j=1

 

 

 

 

 

1

 

n j

 

 

 

 

1

k

1

k n j

 

 

 

 

 

 

 

ε

j

=

 

εij ,

 

ε

=

n j

ε

j =

∑∑εij . С учетом этих формул пер-

 

 

 

 

 

n

 

n

 

 

 

 

 

 

n j i=1

 

 

 

 

j =1

 

j =1i=1

 

 

 

 

 

 

вое уравнение модели однофакторного дисперсионного анализа (6.2.1) можно упростить. Просуммируем формулу (6.2.1) по i в пределах от еди-

 

 

 

 

 

 

 

 

 

 

 

 

 

n j

n j

n j

n j

 

 

 

ницы

до

n j .

 

 

Получим

 

xij = μ + Tj +εij

или

 

 

 

 

 

 

 

 

 

 

 

 

 

i=1

i=1

i=1

i=1

 

 

 

n j

 

 

j

= n jμ + n jT j + n j

 

j . Окончательно

 

 

 

 

 

 

x

ε

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j

= μ +T j

+

 

j .

 

 

 

(6.2.3)

 

 

 

 

 

 

 

 

 

x

ε

 

 

 

 

 

 

Продолжим суммирование по j

в пределах от единицы до k . Тогда

k n j

k n j

k

n j

k n j

 

 

 

 

 

k

 

k

k

 

 

∑∑xij =∑∑μ + ∑∑Tj +

∑∑εij , т.е. nx

= μn j +

Tjn j + n j ε j .

j=1i=1

j=1i=1

j=1i=1

j=1i=1

 

 

 

 

 

j=1

 

j=1

j=1

Так как μ j = μ + Tj - отклонение значений μ j

от среднего значения μ , то

 

 

 

1

k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

μ =

n jμ j , т.е. средневзвешенное значений μ j .

 

 

 

 

 

n

 

 

 

 

 

 

 

 

j =1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

161

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k

k

 

 

 

 

 

 

k

 

k

 

 

 

k

 

 

 

Тогда μn = n jμ j = n j (μ + T j )= n jμ + n jT j = μn +n jT j .

 

 

 

 

 

 

 

 

 

 

j =1

j =1

 

 

 

 

 

 

j =1

j =1

j =1

 

 

 

 

 

k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Отсюда n jT j

= 0 . Окончательно второе уравнение модели имеет вид

 

 

 

 

 

j =1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

nx

= nμ + nε или

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

= μ +

 

.

 

 

 

 

 

 

 

(6.2.4)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

ε

 

 

 

 

 

 

 

 

Вычтем из

уравнения

(6.2.3) уравнение

(6.2.4),

получим

 

 

j

 

= T j +

 

j

 

.

Тогда

M (

 

j

 

)= M (Tj +

 

j

 

)= Tj ,

так как

 

x

x

ε

ε

x

x

ε

ε

M (εij )= 0 по допущениям (6.2.2). Аналогично D(x j x)= D .

Выведем теперь основное тождество дисперсионного анализа. Рассмотрим

k n j

 

 

 

 

 

 

 

 

 

 

k n j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k n j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k

n j

∑∑(xij

 

 

)2 =

∑∑[(xij

 

 

j )(

 

 

 

 

 

 

 

j )]2

= ∑∑(xij

 

 

 

j )2 + ∑∑(

 

 

 

j )2

x

x

x

x

x

x

x

j=1i=1

 

 

 

 

 

 

 

 

 

j=1i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j=1i=1

 

 

 

 

 

 

 

 

 

 

 

j=1i=1

k

nj

 

 

 

 

 

 

 

k nj

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k

 

nj

 

 

 

 

 

 

 

 

 

 

k

 

 

 

nj

2∑∑(xij

 

j )(

 

 

j )= ∑∑(xij

 

 

j

)2 + ∑∑(

 

 

 

j )2

2(

 

 

 

j )(xij

 

j ).

x

x

x

x

 

x

x

x

x

x

j=1i=1

 

 

 

 

 

 

 

j=1i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j=1i=1

 

 

 

 

 

 

 

 

 

 

j=1

 

 

 

i=1

 

n

 

 

 

n

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Но

j (xij

 

j )= j

xij j

 

j

 

 

= n j

 

 

 

j

 

j j

1 = n j

 

 

j

 

jn j

= 0 , тогда

x

x

 

 

x

x

x

x

 

i=1

 

 

i=1

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

последнее

 

 

 

 

 

 

 

выражение

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

примет

 

 

 

 

 

 

 

 

 

вид

k n j

 

 

 

 

 

 

 

 

 

 

k n j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k

n j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

∑∑

(xij

 

)2 = ∑∑

(

 

 

j )2 + ∑∑(xij

 

j )2

 

или

 

 

 

 

 

 

 

 

 

 

x

x

x

x

 

 

 

 

 

 

 

 

 

 

 

j=1i=1

 

j=1i=1

 

 

 

 

 

 

 

 

 

 

 

j =1i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k n j

 

 

 

 

 

 

 

 

 

 

k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k n j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

∑∑

(xij

 

)2 = n j

(

 

j

 

)2

+ ∑∑

(xij

 

j )2 .

 

 

 

(6.2.5)

 

x

x

x

x

 

 

 

 

 

j=1i=1

 

 

 

 

 

 

 

 

 

j =1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j=1i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таким образом, общая сумма квадратов отклонений наблюдений от общего среднего x разбивается на сумму квадратов отклонений выбороч-

ных средних

x j

от общего среднего x

и сумму квадратов отклонений

наблюдений

xij

от выборочных средних групп x j (внутри групп), т.е.

 

 

k n j

 

k

Q = Q1 + Q2 , где Q = ∑∑

(xij x)2 , Q1 = n j (x j

 

)x 2 ,

x

 

 

j =1i =1

 

j =1

 

 

 

162

 

 

 

Q2 = k n j (xij x j )2 . j =1i =1

В формулу (6.2.5) входят три члена. Рассмотрим их подробнее. Член

Q1

 

1

k

=

n j (x j x)2 равен дисперсии групповых средних, в него входят

n

n

 

j =1

k слагаемых, «свобода» изменения которых ограничена одним соотноше-

 

 

 

 

1

k n j

 

 

1 n j

 

 

n x

+ n

2

x

2

+ ... + n

k

x

k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

нием x =

 

∑∑xij

 

=

 

n j x j

=

=

1 1

 

 

 

 

 

 

 

 

 

 

.

Из

этой

n

 

n

 

n

+ n

2

+ ... + n

k

 

 

 

 

 

 

 

 

 

 

 

j =1i =1

 

 

 

i =1

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

формулы

вытекает

единственное

 

 

 

 

уравнение

 

 

 

 

связи

(x1 x)n1 + (x2 x)n2 + ... + (xk x)nk = 0 . Поэтому говорят,

что величи-

на Q1 имеет (k 1) степень свободы.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Величина Q2 n

 

равна средней из групповых дисперсий. В формулу

расчета Q2

входят

n1 + n2 +... + nk

= n

 

слагаемых. Свобода первых

n1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

n1

 

 

 

 

 

слагаемых

ограничена

одним

 

соотношением

x1 =

 

 

 

 

 

xi,1

 

или

 

 

 

n

 

 

 

(x11 x1)+ (x21 x1)+ ... +

(xn 1 x1)= 0 . Таким образом,

 

 

 

1 i =1

 

 

 

 

 

«свобода»

изме-

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

нения k слагаемых ограничена k

условиями. Это означает,

что величина

Q2

имеет (n k ) степеней свободы.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Наконец, в формулу Q n

входят

n1 + n2 +... + nk

 

= n

 

слагаемых.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

k

n j

 

 

 

На

них

наложено

одно

 

ограничение

 

 

 

x

=

 

 

∑∑xij

=

 

 

(x11 + x12 + ... + x1n

 

)+ (x21 + x22 + ... + x2n

 

 

 

 

 

 

 

 

 

 

 

 

n

 

j =1i =1

 

 

 

 

 

2

)+ ... + xk1 + xk 2

+ ... + xkn

j

=

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

или

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x)+ ... + (x2n

 

x)+

(x11 x)+ (x12 x)+ ... + (x1n x)+ (x21 x)+ (x22

2

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

+ (xk1 x)+ (xk 2 x)+ ... + xkn j x

= 0 .

Поэтому

Q имеет

 

(n 1) сте-

пень свободы.

По 3-му условию (6.2.2) все генеральные групповые дисперсии должны быть равными, т.е. D1 = D2 = ... = Dk = D . Найдем несмещенные

оценки D .

163

Во-первых, убедимся в том, что несмещенная оценка дисперсии D

 

 

 

 

 

 

 

 

 

(n k) ,

 

 

 

 

 

 

 

Q

2

 

 

 

 

 

 

 

 

 

 

 

 

равна

 

 

 

Q

2

т.е.

M

 

 

 

 

= D .

 

 

Действительно,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Q

 

 

1

 

 

k n j

 

 

 

2

 

 

 

1

 

 

k

n j

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

∑∑

ij

 

 

 

 

 

 

 

 

 

ij

 

 

 

n k

 

 

n k

 

 

 

 

 

n k

 

 

M

2

 

 

=

 

 

 

M

(x

x j )

=

 

 

 

 

 

 

M

(x

 

x j

) =

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j =1i =1

 

 

 

 

 

 

 

 

 

 

j =1 i=1

 

 

 

 

 

 

 

 

 

1

 

k

 

 

(n j D j

) ,

 

 

 

 

 

 

 

 

 

 

 

 

 

D j

 

 

1

n j

(xij

 

j )2 =

=

 

M

 

 

 

 

где

 

 

 

 

 

 

 

 

=

 

x

n k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j =1

 

 

 

 

 

 

j )2 +... + (xn j j

 

 

)2

 

 

 

 

 

 

 

n j i=1

 

 

 

 

(x1 j

 

j )2 + (x2 j

 

 

j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

x

x

x

- выборочная групповая дис-

 

 

 

 

 

 

 

 

 

 

 

n j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

персия, вычисленная по результатам наблюдений при

j -м уровне факто-

ра,

j = 1,2,..., k .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Q

2

 

 

Далее

M

 

 

=

 

 

 

n k

 

1

k

 

 

1

k

~

 

M (n j D j

)=

 

M [(n j 1)D j ]=

 

 

n k j =1

 

 

n k j =1

 

 

1

 

k

~

1

k

 

 

 

1

k

=

 

 

(n j 1)M (D j )=

 

(n j 1)D j =

 

 

 

D j (n j 1)=

n k

n k

n

k

 

 

j =1

 

j =1

 

j =1

 

1

 

 

 

 

~

n j

 

 

 

 

=

 

 

D j (n k ) = D j = D , так как D j =

 

 

 

D j

- несмещенные оцен-

n k

 

n j 1

 

 

 

 

 

~

 

 

ки групповых дисперсий,

т.е.

 

 

 

 

 

M (D j )= D j . Последнее равенство верно

только в том случае, когда наблюдения в

j - й группе независимы и про-

водятся в одинаковых условиях. Это справедливо по 2-му условию (6.2.2).

 

Q

2

 

 

Итак, M

 

 

= D .

 

 

n k

 

Рассмотрим теперь вопрос о различии обработок (факторов) в табл. 5. Он сводится к выяснению различия между T1,T2 ,...,Tk . Гипотеза об одно-

родности данных

означает равенства

μ1 = μ2 = ... = μk , т.е.

T1 = T2 = ... = Tk = 0 .

Альтернатива об упорядоченности эффектов обра-

ботки (о влиянии фактора) превращается в T1 T2 ... Tk , а различие между i -м и j -м уровнем фактора, естественно, характеризуется величиной μi μ j = Ti Tj . Итак, пусть H0 : μ1 = μ2 = ... = μk и выполняются условия (6.2.2).

164

Тогда при каждом уровне фактора величина X будет иметь нормальное распределение с одним и тем же математическим ожиданием и одной и той же дисперсией, равной D , т.е. переход от одного уровня фактора к другому не вносит никаких изменений: имеется одна генеральная совокупность, и результаты наблюдений, приведенные в табл. 5 – это выборка объема n из этой генеральной совокупности. А так как наблюдения независимы и проведены в одинаковых условиях, то несмещенная оценка об-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

~

 

 

 

 

 

1

 

 

k

n j

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

щей

дисперсии D

 

и

есть

 

D

 

=

 

 

 

 

 

 

∑∑(xij x) .

 

Таким образом,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

1 j =1i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

k n j

 

2

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

M

 

 

 

 

∑ ∑(xij x)

= M

 

 

 

 

 

 

Q = D .

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

j =1i =1

 

 

 

 

 

n 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Убедимся теперь в том, что при выполнении условий гипотезы H0

и

условий (6.2.2) величина

1

 

 

Q

 

 

также является несмещенной оценкой

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k 1

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Q

 

 

 

 

 

 

1

 

M (Q )

 

 

1

 

M (Q Q

 

)

 

общей

 

 

дисперсии.

 

 

M

 

 

 

1

 

 

=

 

 

 

 

=

 

 

 

2

=

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k

1 k 1

1

 

 

k 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

 

 

1

[M (Q)− M (Q2 )] =

 

1

 

[(n 1)D − (n k )D] = D .

 

 

 

 

 

 

 

k

1

 

k 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Итак, имеются три несмещенные оценки одной и той же дисперсии

D , причем оценка Q2

(n-k)

 

является несмещенной оценкой в любом

случае, а оценки Q (n-1)

 

и Q1

 

(k 1) - только при выполнении гипотезы

H0 , т.е. только тогда, когда исследуемый фактор не влияет на результат.

 

 

 

 

Проверка гипотезы H0 о равенстве групповых математических ожида-

ний

основывается

 

на

 

 

сравнении

 

 

дисперсий

s

2

= Q (k 1)

 

 

и

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

1

 

 

 

s22 = Q2 (n k) . Вспомним сначала механизм создания случайной величи-

ны с χ2 -распределением (см. подразд. 4.7, п. 2). Поскольку верны допуще-

ния (6.2.2), а s2

и s2

являются несмещенными оценками дисперсии D , то

1

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(k 1)s2

 

 

(n k )s2

 

 

 

 

 

 

 

 

 

 

1

χk21 и

 

 

 

2

χn2

k .

 

 

(6.2.6)

 

 

 

 

 

D

 

 

 

 

 

D

 

 

 

 

 

 

 

 

 

 

 

 

 

Величины χ2

и χ2

k

независимы в силу независимости s2

и s2 .

 

 

k 1

 

n

 

 

 

 

 

 

 

 

 

 

 

1

 

2

 

 

 

 

 

 

 

 

χ2

1

(k 1)

 

s2

 

Q

(k 1)

 

Тогда (см. подразд. 2.3) отношение

 

k

 

 

 

=

1

=

1

 

имеет

 

χn2k (n k)

s22

Q2 (n k)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

165

 

 

 

 

 

 

 

 

 

 

 

F - распределение с числом степеней свободы k 1 и n k ,

 

 

 

 

 

 

 

 

 

 

 

 

Q1

(k 1)

Fk 1,nk .

 

 

 

 

 

 

 

 

 

(6.2.7)

 

 

 

 

 

 

 

 

 

 

 

Q2

(n k)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Итак,

H0

: T1

= T2 = ... = Tk

= 0,

 

 

 

 

 

 

 

 

Гипотеза H

0

принимает-

 

 

 

 

 

H1 : Ti

Tj , i j, 1

i k, 1 j k.

 

 

 

 

 

 

 

 

 

ся

 

на уровне

значимости

α, если выборочное значение

статистики

Fk 1,nk меньше F1−α 2 (k 1, n k)

или больше Fα 2 (k 1, n k). В этом

случае

 

 

и s22 = Q2

 

(n k)

являются несмещенными оценками матема-

x

 

тического ожидания и дисперсии выборки (наблюдений

xij ). Оценка s22

не зависит от вида нулевой гипотезы

H

0

.

Оценка s2

существенно ис-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

пользует основное предположение гипотезы

H0 . Она дает близкий к D

результат только в том случае,

когда гипотеза H0

верна. При нарушении

H

0

оценка s2

имеет тенденцию к возрастанию, тем большему, чем боль-

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ше отклонение от H0 . Сопоставляя друг с другом две эти оценки, мы мо-

жем заключить, что H0 следует отвергнуть, если они оказываются значи-

мо различны.

 

 

 

 

 

 

 

 

 

 

 

 

 

и Q2 удобно проводить по форму-

 

 

Практически вычисление Q,Q1

 

лам: Q = A C, Q1 = B C,

Q2 = A B , где

 

 

 

 

 

 

 

 

 

 

 

 

 

k n j

 

 

k

 

 

 

n j

 

2

 

k

 

 

 

 

 

 

 

 

 

k n j

2

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

1

 

 

 

 

 

1

 

2

 

 

 

1

 

 

 

1

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

A = ∑∑xij ,

B =

 

 

 

xij

=

 

 

xj

, C =

 

 

∑∑xij

=

 

 

x

 

. (6.2.8)

n

 

 

n

 

n

n

 

 

 

j =1i =1

 

 

j =1

 

j i=1

 

j =1

 

j

 

 

 

 

 

j =1i=1

 

 

 

 

 

 

 

 

Для

контроля

 

правильности

 

расчетов

 

используют

 

тождество

Q = Q1 + Q2 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Если гипотеза о равенстве средних отклоняется, то требуется определить, какие именно группы средних имеют значимое различие. Для этого часто используются не сами оценки величин T j , а некоторые линейные

комбинации этих величин. Для их определения вводится понятие контраста. Контрастом параметров T в модели аддитивного влияния фактора на

k

отклик называется величина Lk = c jT j , где c j , j =1,2,...,k - констан-

j =1

ты, однозначно определяемые из формулировок основной и альтернатив-

k

ной гипотез, причем c j = 0 . Ясно, что разность Ti T j является про-

j =1

166