Статистические методы анализа и обработки наблюдений
..pdfа.2. ОДНОФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ |
191 |
сионный анализ — это разложение общей дисперсии |
s2 |
на составляющие, которые характеризовали бы фактор |
А |
и фактор случайности в отдельности. |
|
Фактор случайности оценить нетрудно благодаря нали чию повторных наблюдений на каждом уровне. Для уровня
А ,■выборочная дисперсия |
равна |
Д . Е <*‘7 - X:У |
|
7= 1 |
L 7 = 1 |
Пользуясь этой формулой, получаем серию выборочных дисперсий s2, Sg, ..., si, характеризующих фактор случай ности на всех уровнях А-х. Если у нас нет априорной уве ренности в том, что генеральная дисперсия воспроизводи мости а2 одинакова на всех уровнях, то дисперсии s2, s\, ..., s| нужно сравнить методами п. 6.3.
Если между дисперсиями s2 нет значимых различий, то их все можно использовать для оценки генеральной диспер сии а2 по принципу «текущих измерений» (см. п. 4.4). Мы получим оценку
S О |
к |
п |
4 k (п— 1) LЕ *?, |
||
2 |
|
|
|
1= 1 |
/=1 |
имеющую k(n—1) степеней свободы.
После того как найдена дисперсия s§, связанная со слу чайностью, можно уже дать приближенную оценку для дисперсии фактора А:
а\ « s2 —s2.
Эта оценка, однако, слишком груба из-за погрешностей ве
личин s2 и So. Более точную оценку для аА находят из сле дующих соображений. Влияние фактора А наиболее заметно
на изменении средних х{ по отдельным уровням. Действи тельно, дисперсия случайности для средних значений в п раз меньше, чем для отдельных наблюдений (см. п. 4.4). Поэтому
1
k—1/=1Z (*< —*)2
8.2. ОДНОФАКТОРНЫЙ |
|
ДИСПЕРСИОННЫЙ АНАЛИЗ |
193 |
||
|
|
|
|
Т а б л и ц а |
8.1 |
Номер наблюде |
|
|
Уровни фактора |
|
|
ния |
А, |
|
Л 2 |
|
|
j |
|
Ак |
|
||
|
|
|
|
|
|
1 |
|
|
*21 |
*А1 |
|
2 |
*12 |
|
|
||
|
*22 |
*Й2 |
|
||
|
|
|
|||
п |
*1 п |
|
*2П |
|
|
И т о г и |
|
|
* 2 |
|
|
б) находят |
сумму квадратов |
всех наблюдений: |
|
||
|
|
k |
П |
|
|
|
Qi = |
2 |
2 |
хЬ' |
|
|
|
;= i/=1 |
|
|
|
в) находят сумму квадратов итогов по столбцам, делен |
|||||
ную на число параллельных наблюдений: |
|
||||
|
|
|
k |
|
|
|
<?2 = |
| L |
*?; |
|
|
|
|
|
i=i |
|
|
г) находят квадрат общего итога, деленный на число всех наблюдений:
д) вычисляют дисперсии s* и sg по формулам
„2 Q1 Q2 |
„2 Qa Qз |
s° ~ £ ( r t - l ) ’ |
ЬА — k — 1 • |
Проделав указанные вычисления, можно перейти к срав нению дисперсий s\ и sg. Если их различие оказывается не
значимым, то получаем оценку генеральной дисперсии7
7 Е. И. Пустыльник
194 |
§8. ДИСПЕРСИОННЫЙ АНАЛИЗ |
имеющую kti—1 степень свободы. Если же различие s24
и So оказывается значимым, то находим оценку влияния фактора А:
В качестве примера применим дисперсионный анализ к исследованию влияния нескольких различных катали заторов на выход конечного продукта заданной химической
реакции. |
Обозначая катализаторы |
через A lf А 2, |
..., |
А к, |
||||||
получим |
уровни |
общего |
«фактора |
катализа» А. |
В табли |
|||||
це 8.2 приведены данные |
по выходу |
продукта |
реакции |
|||||||
в граммах. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Таблица |
8.2 |
||
Номер наблюде |
|
|
|
Катализаторы |
|
|
|
|||
ния |
А, |
|
|
А г |
А3 |
А, |
|
А„ |
|
|
|
|
|
|
|
|
|||||
1 |
|
3,2 |
|
|
2,6 |
2,9 |
3,7 |
|
3,0 |
|
2 |
|
3,1 |
|
|
3,1 |
2,6 |
3,4 |
|
3,4 |
|
3 |
|
3,1 |
|
|
2,7 |
3,0 |
3,2 |
|
3,2 |
|
4 |
|
2,8 |
|
|
2,9 |
3,1 |
3,3 |
|
3,5 |
|
5 |
|
3,3 |
|
|
2,7 |
3,0 |
3,5 |
|
2,9 |
|
6 |
|
3,0 |
|
|
2,8 |
2,8 |
3,3 |
|
3,1 |
|
Ит о г и |
18,5 |
|
|
16,8 |
17,4 |
20,4 |
|
19,1 |
||
Непосредственные |
вычисления |
дают |
Qj = 285,6; |
Q2= |
||||||
= 284,7; |
Q3=283,4, откуда sg = - 5- 6~-2-84’7= 0,036, |
s2= |
||||||||
284 у _283 4 |
|
Найденные |
дисперсии сравним |
по |
||||||
= — :—^----—= 0,325. |
||||||||||
критерию |
|
|
0 |
325 |
|
|
|
При |
||
Фишера: /=’ = ^ ^ |
= 9,03. По таблице VII |
ложения находим F0(95 (4,25)=2,8. Мы видим, что F > 2,8, поэтому различие катализаторов следует признать значи мым. Нетрудно оценить дисперсию «фактора катализа»:
0,325 —0,036
0,048.
6
8.2. ОДНОФА КТО РНЫ Й ДИСПЕРСИОННЫЙ АНАЛИЗ |
195 |
Дисперсионный анализ фактически представляет собой сравнение нескольких средних, о котором мы уже говорили в п. 6.4. Это сравнение проводится в целом и поэтому яв ляется лишь первым этапом исследования. Обнаружив, что уровни фактора А в целом значимо различаются, мы можем перейти к попарному сравнению уровней с помощью крите рия Стьюдента (см. п. 6.4). Так, в рассмотренном примере мы можем поставить вопрос, значимо ли различаются катали затор А 4 (дающий самый высокий выход) и следующий за ним катализатор А ь. Рекомендуем читателям самостоятельно проверить, что различие между А 4 и А ь значимо при р=0,05 и незначимо при р=0,025 (т. е., по существу, сомнительно).
Не всегда удается провести на каждом уровне фактора А одинаковое число наблюдений. При этом можно, конечно, ориентируясь на уровень с наименьшим числом повторных наблюдений, отбросить лишние наблюдения в остальных уровнях. Такое отбрасывание, однако, нежелательно, так как резко снизит точность проводимого анализа. Тем более, что однофакторный дисперсионный анализ с успехом можно проводить и при неравных столбцах (кстати, именно этот общий случай рассматривался в п. 6.4 при сравнении не скольких средних). Соответствующая схема вычислений лишь немногим отличается от случая равных столбцов.
Итак, пусть на уровне А ( было проведено п,- параллель-
ных |
|
k |
|
|
всех |
наблюдений и пусть N = 2 /1,- есть общее число |
|||||
|
|
/ = г |
|
|
|
наблюдений. Проводим следующие вычисления: |
|
||||
а) находим сумму квадратов всех наблюдений: |
|
||||
|
QI = 2 |
2 |
|
Ah |
|
б) |
i= i /=i |
|
|
||
находим сумму квадратов итогов по столбцам, делен |
|||||
ных на число наблюдений в соответствующем столбце: |
|
||||
|
‘ |
|
х?. |
|
|
|
Q . = L £ ; |
|
|||
в) |
« = |
1 |
|
1 |
на число |
находим квадрат общего итога, деленный |
|||||
всех наблюдений: |
|
|
\ 24 |
|
|
|
/ к |
|
|
4= 1
196 §8. ДИСПЕРСИОННЫЙ АНАЛИЗ
г) вычисляем дисперсии |
и s° по формулам: |
|
с2_Q i — Q2 |
2 _ Q2 Фз |
|
-о |
N_ k • |
k — 1 |
После указанных |
вычислений проверяют значимость |
SA
отношения —g- по критерию Фишера, исходя из fx= k—1, so
fz= N —k степеней свободы. Если это отношение незначимо, то получаем оценку генеральной дисперсии
„2 |
Qi *2з |
— |
N — 1 ’ |
имеющую N—1 степень свободы. Если же это отношение значимо, то вычисляем дисперсию фактора А по формуле
(k — 1) N
k — '( \4s i —SD-
N!- 2
8.3.Двухфакторный дисперсионный анализ. Дисперси онный анализ особенно эффективен при одновременном изу чении нескольких факторов. При классическом методе ис следования подобное изучение проводят, варьируя лишь один фактор, а остальные оставляя неизменными. В связи
сэтим затрачивается много времени, ибо для каждого фак тора проводится своя серия наблюдений, не используемая
вдальнейшем при изучении других факторов. Есть у такого способа и еще один недостаток — он не позволяет изучать взаимодействие факторов при одновременном их изменении.
Всех этих недостатков лишен дисперсионный анализ, при котором каждое наблюдение служит для одновременной оценки всех факторов и их взаимодействий. Особенно ценно то, что при этом можно зачастую не делать параллельных наблюдений, ограничиваясь лишь одним наблюдением для каждого сочетания уровней изучаемых факторов.
Полное описание многофакторного анализа занимает очень много места. С добавлением каждого нового фактора усложняются таблицы и формулы для расчетов. Эти таблицы и формулы имеются в специальной литературе по дисперси онному анализу (см. указатель в конце книги), к которой
мы и фтощлем читателя, нуждающегося в них. В настоящей
8.3. ДВУХФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ |
197 |
же книге мы ограничимся лишь рассмотрением случая двух факторов, раскрыв на его примере основные идеи дис персионного анализа *).
Итак, пусть изучаются одновременно два фактора А и В на уровнях А г, А 2, .... Ak и Вг, В2, .... Вт. Результаты на блюдений занесем в таблицу 8.3. Через X,- здесь обозначены
Т а б л и ц а 8.3
|
Аг |
А 2 |
Ак |
И т о г и |
S. |
* 1 1 |
* 2 1 |
*ftl |
*1 |
в 2 |
* 1 2 |
* 2 2 |
Xk2 |
* 2 |
В т |
* 1/Л |
* 2 т |
x km |
И т о г и |
* 1 |
X 2 |
Xk |
итоги данных по столбцам, через X) — по строкам. Через хi и х] обозначим средние по столбцам и строкам, т. е.
- |
Xi |
— |
х) |
' |
m ’ |
' |
k |
Посмотрим, из каких компонент складывается рассеи вание средних по строкам или по столбцам. Очевидно, на каждое такое рассеивание оказывает влияние лишь один из факторов А и В, так как все уровни второго фактора
усреднены. Так, рассеивание х{ (средние по столбцам) не
зависит от фактора В, рассеивание х) (средние по строкам) не зависит от фактора А. Кроме того, на всех рассеивани ях сказывается влияние фактора случайности с дисперсией
*) Об одном важном частном случае многофакторного диализа гдрорится в следующем пункту.
193 |
|
|
§8. ДИСПЕРСИОННЫЙ АНАЛИЗ |
|
|
|
|||
0 “ |
— |
О2 |
X/. |
Окончательно получаем, |
что |
|
|
||
— ДЛЯ Х[ |
И у |
ДЛЯ |
|
|
|||||
Г= дХ |
(xi ~ |
ХУ |
А 1 |
т |
—гХ (x' i ~ х) |
а‘в + Т - |
|||
|
|
|
|
а2. + |
- , |
|
■2 |
I |
° 2 |
(8. 1)
где через л: обозначено среднее всех данных таблицы. Получившиеся равенства позволяют оценить дисперсии
факторов А и В, если будет известна оценка генеральной дисперсии наблюдений а2. Казалось бы, для оценки послед ней дисперсии нет никаких предпосылок, так как полностью отсутствуют параллельные наблюдения. И тем не менее, дисперсию о2 удается оценить, сравнивая рассеивание сред них с рассеиванием самих наблюдений.
Найдем дисперсию наблюдений по i'-му столбцу:
гп
(Xij x i)2-
/=1
Эта дисперсия, очевидно, возникла под влиянием фактора В и фактора случайности, поэтому sf^o^+ cr2. Равенство станет
более точным, если s2заменить средневзвешенной дисперсией по всем столбцам, т. е.
+ |
S? = ^ r z i ) Z |
L |
(*</-*/)*• |
(8-2) |
|
( = 1 |
1 = |
1 |
|
Полученная оценка содержит одновременно обе дисперсии, о2 и а2в . Ранее у нас была получена еще одна оценка, содер
жащая |
эти же дисперсии— это равенство (8.1). Вычитая |
|
(8 .1) из |
(8.2), получим, |
что |
|
k |
m |
^k ~ k { m — 1)
откуда
l
(As — l)(m — 1)
S |
X |
(XiJ |
x i)2 m _ l X (* / x )2' |
»=i |
/= l |
/= i |
|
k |
|
m |
|
X X (xij— xi f — feX w - хУ |
|||
i=i |
i=i |
i=i |
Полученное равенство дает оценку искомой дисперсии а2 через некоторую величину, зависящую от всех наблюдений-
8.3. ДВУХФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ |
199 |
По своей природе эта величина является выборочной дис персией с (k—1)(т—1) степенями свободы; будем эту дис персию обозначать через sg. Кроме того, введем обозначения
к_
s .4 |
= YZ7\ 2 |
— * ) 2 ^ |
rna\ + s\t |
|
1= 1 |
|
|
|
т |
|
|
sl = ^ = 1 L |
W — х)2 » |
ka%+ sj. |
|
|
/'= 1 |
|
|
Величины S 2A и |
также можно считать выборочными диспер |
сиями с k—1 и т—1 степенями свободы соответственно. Итак, мы получили все необходимые данные для прове
дения анализа. Окончательно схему вычислений можно представить следующим образом:
а) находят сумму квадратов всех наблюдений:
|
к |
т |
Q i= |
2 |
2 *?,; |
|
*' = 1 /=1 |
|
б) находят сумму квадратов итогов по столбцам, делен |
||
ную на число наблюдений |
в столбце: |
b - z t x h
i = 1
в) находят сумму квадратов итогов по строкам, делен ную на число наблюдений в строке:
i=1
г) находят квадрат общего итога, деленный на число всех наблюдений:
(наличие двойной формулы можно использовать для про верки правильности вычислений);
д) вычисляют дисперсии sg, s2A, s2B по формулам
„ а |
Q 1 + Q4 — Q z— |
Q 3 |
„ 2 _ Q 2 |
Qi |
„ 2 |
<?3 Q* |
s° ~ |
(k — 1) ( m — |
1) * |
ft — |
1 ’ |
Ьв |
in — 1 • |
- 8 . ДИСПЕРСИОННЫЙ АНАЛИЗ
После того как будут проделаны все необходимые вы числения, можно приступить к непосредственному анализу влияний факторов А и В. Для того чтобы влияние фактора А можно было признать значимым, нужно, чтобы s2A значимо
отличалось от sg; то же самое справедливо для фактора В и дисперсии s2 . Сравнение дисперсий, как обычно, прово-
дится по критерию^ |
е. вычисляются отношения |
|
2 |
2 |
|
SA |
и —g- и сравниваются с табличными значениями F-pac- |
|
—у |
||
so |
so |
|
пределения.
Допустим, что выбран уровень значимости р. Влияние фактора А признается значимым, если
-р
где в F-распределении берутся h = k—1, /2=(/г—1)(т—1) степеней свободы., Дисперсия фактора А оценивается в этом случае равенством
S2О
т
Аналогично, влияние фактора В считается значимым, если
1-Я»
где на этот раз берутся fi= m —1, /2= (fe— 1)(т—1) степеней свободы. Дисперсия фактора В оценивается при этом ра венством
S2О
аВ2
SA
Если — ^ :Fl _p, то влияние фактора А нужно признать
незначимым. В этом случае обе дисперсии |
и s§ можно |
использовать для оценки генеральной дисперсии а2. Это приведет к равенству
2 _ |
( f c - l ) s * + ( * — l ) ( m - l ) s 20 |
Q i - Q s |
СТ~ |
(ft— l) + (ft— 1)(/я — 1) |
— m (ft— I) • |