Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

4сем / Лекции _4_сем pdf / 15_16 _Дисп_анализ

.pdf
Скачиваний:
35
Добавлен:
23.02.2015
Размер:
293.16 Кб
Скачать

Лекции 15-16 ОСНОВЫ ДИСПЕРСИОННОГО АНАЛИЗА

В лекциях рассматриваются методы описания зависимостей между случайными переменными в том случае, когда последние носят качественный характер. Формулировка и проверка соответствующих статистических гипотез и является содержанием дисперсионного анализа.

15.1.Исходные понятия

15.2.Групповое и общее среднее. Групповая, внутригрупповая, межгрупповая и общая дисперсии

15.3.Однофакторный анализ при полностью случайном плане эксперимента

16.1.Однофакторный анализ при группировке по случайным блокам

16.2.Двухфакторный анализ при полностью случайном плане эксперимента

15.1.Исходные понятия

Объектами исследования дисперсионного анализа являются стохастиче-

ские связи между откликом и факторами, когда последние носят не количественный, а качественный или именованный характер. Примерами таких факторов могут служить:

–способ крепления детали при ее обработке;

–режим функционирования установки;

–уровень квалификации оператора;

–методика обучения (или лечения);

–название фирмы и т.д.

Будем обозначать факторы через A , B , C ,…, а отклик при этом – через X . Каждый из факторов имеет несколько уровней, или градаций. Так, например, если X – это степень износа покрышки на колесе автомобиля, а выбранные факторы A и B – это тип дороги и тип рисунка протектора, то различные уровни фактора A – различные типы дорог, различные уровни фактора B – различные рисунки протектора.

Пусть наблюдаемый объект обладает таким свойством, которое характеризуется переменным (откликом) X и подвержено влиянию некоторых учитываемых факторов A , B и других, не контролируемых в данном эксперименте факторов. Задача дисперсионного анализа состоит в том, чтобы по результатам наблюдений за этим объектом дать ответ на вопрос: следует ли считать действие факторов A и B существенным (значимым) на фоне остальных (неучтенных) факторов или нет?

152

Лекции 15–16

Формулировка и проверка соответствующих статистических гипотез для ответа на этот вопрос и является содержанием дисперсионного анализа. В зависимости от числа анализируемых факторов различают однофакторный, двухфакторный и т.д. дисперсионный анализ. Далее будут рассмотрены простейшие задачи однофакторного и двухфакторного дисперсионного анализа с постоянными (неслучайными ) факторами.

Если исследуется влияние одного фактора, то математическая модель однофакторного эксперимента выглядит как

xij = X +αj +εij , ( )

где xij – значение признака X , полученное в i -м эксперименте (i =1,...,n j ), со-

ответствующем j -му уровню фактора A ( j =1,..., p), X – общее среднее, αj – вклад в величину xij , обусловленный действием фактора A (эффект фактора A на j -м уровне, αj неслучайная величина), εij – случайная компонента, вызванная влиянием всех прочих факторов. Принимается предположение, что εij

распределена по нормальному закону с нулевым средним и неизвестной дисперсией. Последнее допущение позволяет проводить проверку статистических гипотез, используя уже известные критерии, основанные на нормальном законе распределения наблюдаемых в эксперименте случайных величин.

Если рассматривается влияние двух факторов ( A и B ), то математическая модель эксперимента имеет следующий вид

xijk = X +αi + βj +γij +εijk , ( )

где xijk – значение признака, полученное в k -м наблюдении на i -м уровне фак-

тора A и на j -м уровне фактора B , X – общее среднее, αi – эффект фактора A на i -м уровне, βj – эффект фактора B j -м уровне, γij – эффект, вызванный взаимодействием факторов, εijk – случайная компонента.

15.2.Групповое и общее среднее. Групповая, внутригрупповая, межгрупповая и общая дисперсии

Пусть все значения признака X некоторой совокупности (генеральной или выборочной) разбиты на несколько групп. Рассмотрим каждую группу как отдельную совокупность соответствующего объема.

ОГрупповое среднее – среднее арифметическое значений признака X в данной группе.

ООбщее среднее – среднее арифметическое значений признака X во всей совокупности.

Основы дисперсионного анализа

153

ТОбщее среднее равно среднему арифметическому групповых средних, взвешенному по объемам групп.

Доказательство:

Обозначим объем совокупности n , число групп m , групповые средние xk ,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

m

 

 

общее

среднее

x ,

 

число элементов

в k -й группе

nk , nk = n .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x1

,x2

k =1

 

 

Пусть в

 

k -й группе наблюдаются значения признака

,...,xn . Тогда

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(Σx)

 

 

 

 

 

k

 

 

групповое среднее xk

=

x1 + x2

+...+ xn

 

=

k , где (Σx)k

– сумма значе-

 

 

 

 

k

 

 

 

 

 

nk

 

 

 

nk

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ний признака для элементов k -й группы, и (Σx)k

= xk nk .

 

 

 

 

 

Общее среднее

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

+ x

2

+...+ x

n

 

 

1

m

 

1

 

 

m

 

 

n x +n x

2

+...+n x

m

 

x =

 

1

 

 

 

 

=

 

 

(

Σx)k =

 

 

nk xk =

1 1

2

 

m

.

 

 

 

n

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

n k =1

 

n k =1

 

 

 

 

 

 

 

ОГрупповая дисперсия – дисперсия значений признака X, принадлежащих группе, относительно группового среднего,

 

1

n

Dk (гр) =

k (xik xk )2 (суммирование идет по элементам k -й группы).

nk

 

i=1

ОВнутригрупповая дисперсия – среднее арифметическое дисперсий, взвешенное по объемам групп,

D(внутр) =

1 nk Dk(гр) = n1D1(гр) +n2 D2(гр) +...+ nm Dь(гр) .

 

m

 

 

 

n k =1

 

 

n

 

ОМежгрупповая дисперсия – дисперсия групповых средних относительно общего среднего,

D(межгр) = 1 m nk (xk x )2 .

n k =1

ООбщая дисперсия – дисперсия значений признака X, принадлежащих всей совокупности, относительно общего среднего,

D(общ) = 1 n (xi x )2 ,

n i=1

(суммирование идет по всей совокупности). Справедливо следующее утверждение:

ТЕсли совокупность состоит из нескольких групп, то общая дисперсия равна сумме внутригрупповой и межгрупповой дисперсий.

Доказательство:

 

 

n

 

 

m nk

 

 

m nk

 

D(общ) =

1

(xi x )2

=

1 ∑∑(xi x )2

=

1

∑∑(xi xk + xk x )2 =

 

n i=1

 

 

n k =1 i=1

 

n k =1 i=1

 

 

1

m nk

 

 

 

 

 

xk )(xk x )

 

=

∑∑ (xi xk )2 +(xk x )2 +2 (xi

=

 

n k =1 i=1

 

 

 

 

 

 

 

154

 

 

 

 

 

 

 

Лекции 15–16

 

 

m nk

 

m nk

 

 

m nk

xk )(xk x )=

=

1

∑∑(xi xk )2 +

1 ∑∑(xk x )2 +

2

∑∑(xi

 

n k =1 i=1

 

n k =1 i=1

 

n k =1 i=1

 

 

 

m

m

 

m

 

nk

 

=

1

nk Dk(гр) +

1 nk (xk x )2 +

2 (xk x ) (xi xk ) =

 

n k =1

n k =1

 

n k =1

 

i=1

= D(внутр) + D(межгр)

Пример:

Пусть совокупность состоит из двух групп, статистические ряды для них имеют вид:

xi

2

 

 

 

4

 

 

 

 

 

5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xi

 

 

 

 

3

 

 

8

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

mi

1

 

 

 

7

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

mi

 

 

 

2

 

 

3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Объемы

 

 

групп

 

 

n1 =mi =10 ,

 

 

n2 = mi′ = 5 ,

 

 

 

 

объем

 

 

 

 

совокупности

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n = n1 +n2

=15 , число значений признака в совокупностях ν1 = 3 , ν2

= 2 .

 

Групповые средние

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x =

mi xi

 

1 2 +7 4

+2 5

 

 

 

 

 

 

 

 

 

 

 

 

x =

 

mixi

 

 

 

2 3

+3 8

 

 

i=1

 

 

 

 

 

 

 

 

=

= 4 ,

 

 

 

 

 

 

 

 

 

i=1

 

 

=

= 6 ,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

n1

 

 

 

 

 

 

 

10

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

n2

 

 

 

 

 

 

 

 

 

5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n1 x1 +n2 x2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

общее среднее

 

 

 

 

 

 

 

 

 

 

 

x =

 

 

= 4 10 +6 5 =

14 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n +n

 

 

 

 

 

 

 

15

 

 

 

 

 

 

 

 

3

 

 

 

 

 

 

 

 

 

 

 

 

Групповые дисперсии

 

 

 

 

 

 

 

 

 

 

1

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

= 1 (2 4)

 

 

+7 (

4 4)

 

 

 

+2 (5 4)

 

 

 

 

 

 

 

 

 

D1(гр) =

 

 

 

1 mi (xi x1 )2

2

 

2

 

2

 

 

6 ,

 

 

 

 

 

 

 

 

 

 

 

=

 

 

 

 

 

 

 

 

 

 

 

 

 

3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n1

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

10

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

10

 

 

 

 

D2(гр) = 1 mi

(xi x2 )2

= 2 (3 6)

2

+3 (8 6)

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

= 6 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n2

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Внутригрупповая дисперсия

10 0,6 +5 6

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

m

 

 

 

 

 

 

 

= 12 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

D(внутр)

=

nk Dk(гр) =

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n k =1

 

 

 

 

 

 

 

 

 

 

 

 

15

 

 

 

 

 

 

 

 

 

5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Межгрупповая дисперсия

 

 

 

 

 

 

 

10 (4

 

 

 

)2 +5 (6

 

 

 

)2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

m

 

 

 

 

 

 

 

 

2

 

 

 

14

 

 

14

 

 

8

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3

 

3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

D(

межгр)

=

 

 

 

nk (xk

x )

 

=

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

15

 

 

 

 

 

 

 

9

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n k =1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Общая дисперсия

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1 (2

14

)2

+7 (4

14

)2 +

2 (5

14

)2 +

2 (3

14

)2 +3 (8

 

14

 

)2

 

 

148

 

 

D

=

3

3

3

3

3

=

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(общ)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

15

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

45

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

D

 

 

 

+ D

межгр)

= 12

+ 8

=

148 = D

 

 

 

 

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(внутр)

 

 

 

 

(

5

9

 

 

45

 

 

 

 

(общ)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Основы дисперсионного анализа

 

 

155

 

 

Если

групповые

средние

не

различаются,

x1 = x2 = ... = xm = x ,

то

 

!

 

 

 

m

x )2 = 0

и

внутригрупповая

дисперсия совпадает

с

 

 

D(межгр) = 1 nk (xk

 

 

 

n k =1

 

 

 

 

 

 

 

общей,

D(внутр) = D(общ) . Если

же групповые средние различаются, то

 

 

различаются и D(внутр) и D(общ).

Именно на сопоставление дисперсий и

 

 

опирается дисперсионный анализ.

 

 

15.3.Однофакторный анализ при полностью случайном плане эксперимента

Рассмотрим наиболее простой план эксперимента – полностью случайный (рандомизированный). При таком способе получения и анализа данных не предпринимаются никакие действия, способствующие повышению надежности заключений при том же объеме данных или уменьшению объема данных при том же уровне надежности. Исследуем вначале влияние на значение признака только одного фактора. Разобьем результаты наблюдений на p групп (выборок), различающихся между собой уровнем фактора. Число наблюдений в каждой группе может быть различным, обозначим число наблюдений в j -й группе ( j =1,2, ..., p ) через nj . Значения признака в j -й группе обозначим через xij ,

где i =1,2, ..., np , i – порядковый номер наблюдения в j -й группе. Результаты наблюдений оформим в виде таблицы:

Номер

 

 

 

 

выборки

Наблюденные значе-

Объем

Сумма

Групповое

(уровень

ния признака

выборки

среднее

 

фактора)

 

 

 

 

 

x11 , x21 , ..., xi1 , ..., xn11

n1

T1 = xi1

 

 

 

 

 

 

=

 

1

 

 

xi1

1

 

 

 

X1

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

n1

i

 

 

 

 

 

 

 

 

 

 

 

 

x1 j , x2 j , ..., xij , ..., xn1 j

nj

Tj = xij

 

 

 

 

 

 

 

=

 

1

 

xij

j

 

 

X j

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

nj

i

 

 

 

 

 

 

 

 

 

 

 

p

x1 p , x2 p , ..., xip , ..., xn1 p

np

Tp = xip

 

 

 

 

 

 

=

 

1

xip

 

X p

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

np

i

 

 

N = nj

G = ∑∑xij

 

 

 

 

=

1

 

∑∑xij

 

Сумма

X

 

 

N

 

 

 

j

i j

 

 

 

 

 

 

 

 

 

i

j

В таблице представлены (кроме собственно значений признака) объемы выборок, суммы значений и средние значения, соответствующие данному зна-

156

Лекции 15–16

чению признака, а также общие: число наблюдений, сумма значений и среднее значение.

В соответствии с основной идеей дисперсионного анализа мы должны рассмотреть две дисперсии: первая, межгрупповая, обусловлена влиянием изучаемого фактора (дисперсия групповых средних); вторая, внутригрупповая, описывает влияние неучтенных факторов.

Соответствующие суммы квадратов отклонений запишем в виде

∑∑(xij X )2 = ∑∑(xij X j + X j X )2 =

i

j

i

j

= ∑∑i j (xij X j )2 + 2 (xij X j )(X j X )+(X j X )2 =

=∑∑(xij X j )2 +∑∑(X j X )2 + 2∑∑(xij X j )(X j X ) =

Слагаемое

Обозначив

i

j

i

j

i

j

= ∑∑(xij X j )2 +nj (X j X )2 .

i

j

 

 

 

 

 

 

 

 

 

 

 

 

 

j

 

 

 

 

 

 

 

 

 

 

 

 

 

2∑∑(xij

 

 

j )(

 

j

 

)=2(

 

 

j

 

 

)(xij

 

j )=

X

X

X

X

X

X

i

j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=0 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=2(X j X )

xij nj X j

 

 

 

 

 

 

 

 

 

 

j

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

∑∑(xij

 

 

)2 =Q0 , = ∑∑(xij

 

j )2 =Q1 ,

 

X

X

 

 

i

j

 

 

 

 

 

 

 

 

 

 

 

 

i

j

 

∑∑(

 

j

 

)2 = nj (

 

j

 

)2 =Q2 ,

 

X

X

X

X

 

 

i

j

 

 

 

 

 

 

 

 

j

 

 

 

 

 

 

 

 

 

 

 

 

 

перепишем разложение в виде Q0 =Q1 + Q2 , где Q0 – общая сумма квадратов отклонений, Q1 – сумма квадратов отклонений от групповых средних (сумма квадратов остаточных отклонений), Q2 – взвешенная сумма квадратов отклоне-

ний групповых средних от общего среднего.

Для получения оценок дисперсий необходимо каждую сумму квадратов разделить на число степеней свободы ν . Обозначим через ν0 число степеней

свободы, учитываемое при расчете общей дисперсии, ν1 – при расчете внутригрупповой дисперсии, ν2 – при расчете межгрупповой дисперсии. При расчете

несмещенной оценки дисперсии число степеней свободы равно N 1, так как одна степень свободы теряется при определении среднего, т.е. ν0 = N 1. Ана-

логично при оценке внутригрупповых дисперсий ν1 = N p , так как p степе-

ней свободы теряется при вычислении p групповых средних X j . Наконец, при оценке межгрупповой дисперсии ν2 = p 1, так как групповые средние варьи-

руют вокруг одного общего среднего. Очевидно,

ν1 +ν2 = N p + p 1 = N 1 =ν0 .

Основы дисперсионного анализа

 

 

 

 

 

 

 

 

157

Используя полученные суммы квадратов и числа степеней свободы, вы-

числим несмещенные оценки трех дисперсий:

 

 

 

 

 

s2 =

Q0

 

, s2 =

Q1

, s2

=

Q2

 

.

0

N 1

1

N p

2

 

p 1

 

Группы, на которые разбита вся совокупность результатов, соответствуют различным значениям фактора, поэтому s12 характеризует рассеяние внутри групп, (случайная вариация признака, s12 называют также остаточной дисперсией); s22 характеризует рассеяние групповых средних (систематическая вариа-

ция). Задачу проверки существенности влияния исследуемого фактора можно, как обсуждалось в предыдущем параграфе, представить как задачу о сравнении внутригрупповой и межгрупповой дисперсий. Если влияние фактора отсутству-

ет, то s12 и s22 являются независимыми оценками дисперсии генеральной совокупности σ2 . Если же фактор оказывает существенное влияние, то отношение s22 : s12 превзойдет критический предел и выборки следует считать взятыми из

разных совокупностей (отличающихся уровнем воздействия фактора). Сравнение дисперсий двух выборок производится с помощью F - распре-

деления Фишера – Снедекора. Выдвигается нулевая гипотеза H0 : X 1 = X 2 = ... = X p = X об отсутствии влияния фактора По выборочным данным

 

2

 

 

p 1

 

 

вычисляются оценки дисперсий s12 и s22 и их отношение

F =

s2

;

 

 

. В

s12

 

 

 

 

N p

 

фигурных скобках после отношения дисперсий указаны числа степеней свободы, учтенных при расчете s12 и s22 . Задавшись уровнем значимости α , определяем по таблице критическое значение Fα и сравниваем вычисленное значение F с критическим. Если F Fα , то нет оснований отвергать нулевую гипотезу, влияние фактора не существенно; если же F > Fα , то нулевая гипотеза отвер-

гается и статистически подтверждается влияние фактора.

Результаты вычислений удобно оформить в виде таблицы, носящей название таблицы дисперсионного анализа.

Характер

Сумма квадратов

Число

Оценка

степеней

вариации

дисперсии

 

 

 

 

 

 

 

 

 

 

 

свободы

 

 

 

 

 

 

Систематическая

Q2 = nj (

 

j

 

 

)2

 

 

 

 

 

 

Q2

 

 

X

X

p 1

s22

=

(межгрупповая)

j

 

 

 

 

 

 

 

 

 

 

 

 

 

p 1

 

 

Остаточная

Q1 = ∑∑(xij

 

 

j )2

 

 

 

 

Q1

 

X

N p

s12

=

 

N p

(внутригрупповая)

i

j

 

 

 

 

Q0 = Q1 +Q2

= ∑∑(xij

 

)2

 

 

 

 

 

 

 

Итого:

X

N 1

 

––

 

 

i j

 

 

 

 

 

 

 

158

Лекции 15–16

Для вычисления сумм квадратов удобно воспользоваться формулами:

2

 

G2

 

Tj2

G2

 

Q0 = xij

N

, Q2 =

 

N

, Q1 =Q0 Q2 ,

 

ij

 

j

n j

 

где Tj = xij – сумма значений признака при определенном значении фактора,

G = ∑∑i xij – общая сумма значений признака.

i j

Пример:

Для проверки влияния методики обучения производственным навыкам на качество подготовки отбираются случайным образом четыре группы учеников, которые после окончания обучения (по разным методикам) показали следующие результаты (см. таблицу ниже).

Группа

 

Выработка, шт.

 

 

Число

 

Суммарная

 

Групповое

(методика)

 

 

 

учени-

 

выработка,

 

 

 

среднее

 

 

 

 

 

 

 

 

 

 

ков

 

шт.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

60, 80, 75, 80, 85, 70

 

 

6

 

 

450

 

 

 

 

 

 

75

 

2

75, 66, 85, 80, 70, 80,

 

 

7

 

 

546

 

 

 

 

 

 

78

 

80, 90

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

426

 

 

 

 

 

 

 

 

 

 

3

60, 80, 65, 60, 86, 75

 

 

6

 

 

 

 

 

 

 

 

71

 

4

95, 85, 100, 80

 

 

 

4

 

 

360

 

 

 

 

 

 

90

 

 

Итого:

 

 

 

 

 

 

 

23

 

 

1782

 

 

 

 

 

77,48

 

Вычисляя суммы, имеем G =1782 , N = 23 ,

 

 

Tj2

 

 

 

 

 

 

2

 

 

 

 

 

G2

 

 

 

 

 

 

 

 

 

 

 

 

xij =140481,

N

=138066,3,

 

 

 

=138984

 

 

 

 

 

 

j

 

 

 

 

 

 

 

 

 

 

 

j

nj

 

 

 

 

и заполняем таблицу дисперсионного анализа.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Характер

 

 

 

 

 

 

 

 

 

 

 

 

Число

 

 

 

 

Оценка

 

 

 

 

Сумма квадратов

 

степеней

 

 

 

 

 

вариации

 

 

 

 

 

 

 

 

дисперсии

 

 

 

 

 

 

 

 

 

 

 

 

свободы

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Систематическая

 

 

 

 

Q2 = 917,7

 

 

 

3

 

 

917,7

= 305,9

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3

 

 

 

 

 

Остаточная

 

 

 

 

Q1 =1497,0

 

 

 

19

 

 

1497,0

= 78,8

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

19

 

 

 

 

Итого

 

 

 

 

 

Q0 = 2414,7

 

 

 

22

 

 

 

 

 

 

––

 

Экспериментальное значение критерия F

= 305,9 = 3,88 . Для уровня значи-

 

 

 

 

 

 

 

 

 

 

 

 

78,8

 

 

 

 

 

 

 

 

 

 

мости α = 0,05

табличное значение критерия F

= 3,13 . Так как

 

F > F , ну-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

α

 

 

 

 

 

 

 

 

 

α

левая гипотеза

H0 :

 

1 =

 

2 = ... =

 

p =

 

с вероятностью 0,95

отклоняется,

X

X

X

X

т.е. методика обучения значимо влияет на производственные навыки.

Основы дисперсионного анализа

159

16.1.Однофакторный анализ при группировке по случайным блокам

Пусть проверяется различие в урожайности нескольких сортов сельскохозяйственной культуры. Если все участки земли по плодородию примерно одинаковы, то лучше всего прибегнуть к полностью случайному плану размещения сортов по участкам. Однако участки чаще всего различаются между собой, и это будет вызывать дополнительный разброс в экспериментальных данных. Для устранения влияния неоднородности выделенную для эксперимента площадь делят на участки, которые назовем блоками, с примерно одинаковым качеством земли в пределах каждого блока (между блоками могут существовать большие различия в отношении качества земли). Затем каждый блок делят на столько делянок, сколько испытывается сортов культуры. Распределение сортов по делянкам производится в случайном порядке. Такой метод планирования эксперимента получил название метод случайных блоков. В отличие от полностью случайного плана число единиц наблюдения для каждого уровня фактора должно быть одинаковым, т.е. n1 = n2 = ... = nj = ... = np = n . Модель эксперимен-

та можно записать в виде

xij = X +αi + βj +εij ,

где αi – эффект блоков, βj – эффект уровня фактора, εij – случайная компонента.

Преимущество метода случайных блоков в том, что с его помощью уменьшается разброс данных наблюдения. Результаты наблюдений сводятся в таблицу:

Уровень

Результат наблюдения по блокам

 

 

Сумма по

Среднее по

фактора

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

строкам

уровням

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

фактора

 

1

2

 

i

 

n

 

1

x

 

x

21

 

x

 

x

n1

T

 

 

X1

 

11

 

 

 

 

i1

 

 

 

1

 

 

2

x

 

x

 

 

x

 

x

 

 

T

 

 

 

 

 

 

 

22

n2

 

 

X2

 

12

 

 

 

 

i2

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j

x1 j

x2 j

 

 

xij

 

 

xnj

Tj

 

 

 

 

 

 

 

 

 

X j

 

 

 

 

 

 

 

p

x1 p

x2 p

 

 

xip

 

 

xnp

Tp

 

 

 

 

 

 

 

 

X p

Сумма по вертикали

 

B1

 

B2

 

Bi

 

Bp

G

 

 

 

 

 

 

 

 

X

Среднее по блокам

 

 

 

 

 

 

 

 

 

 

 

 

 

p

––

 

 

 

––

 

B

1

 

B

2

 

B

i

 

B

 

 

 

160

Лекции 15–16

Общую сумму квадратов Q0 = ∑∑(xij X )2 разобьем на три составляю-

i j

щие:

Q0 = ∑∑(xij X )2 = ∑∑(xij Bi + Bi X j + X j X + X X )2 =

i

j

i

j

ij (xij Bi X j + X )+(Bi X )+(X j X ) 2 =

=∑∑i j (xij Bi X j + X )2 +(Bi X )2 +(X j X )2 + 2i j (X j X )(Bi X )+= ∑∑

+2∑∑ (xij Bi X j + X )(Bi X )+(xij Bi X j + X )(X j X ) .

i j

Все суммы перекрестных произведений обращаются в ноль, например,

2∑∑(X j X )(Bi X )= 2(X j X )(Bi X )= 0,

i j

 

 

 

j

 

 

 

i

так как

 

 

 

 

 

 

 

 

(

 

 

)=

 

n

 

= 0 .

Bi

X

Bi

X

i

 

 

 

i

 

 

 

 

Оставшиеся суммы квадратов можно преобразовать:

Q0 = ∑∑i j (xij X )2 = ∑∑i j (xij Bi X j + X )2 +(Bi X )2 +(X j X )2 =

= ∑∑(xij Bi X j + X )2 + p(Bi X )2 +n(X j X )2 = Q1 +Q2 +Q3 ,

i

j

i

j

где первое слагаемое, Q1 , описывает остаточную вариацию, второе, Q2 – вариацию между блоками, третье, Q3 – межгрупповую вариацию, обусловленную изменением уровня фактора.

Расчет удобно вести следующим образом: вычислить Q0 , Q2 и Q3 непо-

 

Q0 = xij2 G

2

 

 

Bi2

G

2

 

 

Tj2

G

2

средственно,

 

,

Q2 =

i

 

, Q3

=

j

,

 

p

 

n

 

ij

N

 

 

N

 

 

N

а Q1 вычислить как их разность,

Q1 = Q0 Q2 Q3 .

 

 

 

 

 

Снова организуем данные в таблицу. Числа степеней свободы для Q0 , Q2 ,

Q3 очевидны, а

число

степеней

свободы

для

 

Q1

найдем

из

соотношения

ν1 =ν0 ν2 ν3 .

 

 

 

 

 

 

 

 

 

 

 

 

 

Соседние файлы в папке Лекции _4_сем pdf