Цифровая обработка сигналов (сборник книг) / Дронов С.В. Многомерный статистическийц анализ, 2003
.pdf7.3. Два фактора |
81 |
7.3Полный двухфакторный анализ с равными количествами параллельных испытаний
Основное соотношение при наличии двух факторов приобретает вид
DX = DAX + DBX + DABX + DOX;
ãäå DAX; DBX; DABX части дисперсии наблюдаемой величины, объясняемые изменчивостью факторов A; B и совместной изменчивостью
обоих факторов соответственно, D
с точки зрения рассматриваемых Oфакторовостаточная.При часть,исследованиине объяснимаякакой-
либо практической задачи этим методом следует иметь ввиду, что выбираемые факторы должны быть практически независимы между собой,
поскольку, если изменение фактора A приводит к (заранее понятному)
изменению фактора B, то корректное решение задачи в предлагаемой форме невозможно.
В этой ситуации данные для проведения дисперсионного анализа располагаются в трехвходовой таблице: по одному ее измерению располага-
ются обозначения t уровней фактора A, по другому g уровней фактора B, по третьему n значений величины X, полученных при фиксации факторов A; B на определенных уровнях. С учетом этого условимся эле-
менты таблицы обозначать xijk; i = 1; :::; t; j = 1; :::; g; k = 1; :::; n: Êàê
понятно из заголовка раздела, здесь мы ограничиваемся случаем, когда в каждой "клетке", возникающей при фиксировании уровней A; B ñî-
держится одно и то же число n > 1 наблюдений. Дело в том, что отказ от этого предположения ведет к значительному усложнению и без того непростых формул (см. ниже). Интересующихся общим случаем, логика которого в принципе ничем не отличается от рассматриваемого здесь более простого варианта отсылаем к [9], [10, главы 35-37].
Перейдем к формулам. Сохраняя смысл обозначений предыдущего раздела (но увеличивая количество этих обозначений), запишем
QA = |
1 |
|
t |
0 g n |
xijk |
12 |
|
1 |
|
0 t g |
n |
xijk12 |
; |
||||
|
|
|
|
X @X X |
|
A |
ngt |
@X X kX |
|
A |
|
||||||
|
ng i=1 |
j=1 k=1 |
|
|
|
i=1 j=1 |
=1 |
|
12 |
|
|||||||
QB = |
1 |
|
g |
t n |
xijk |
! |
2 |
1 |
|
0 t g |
n |
xijk |
; |
||||
|
|
|
|
X X kX |
|
|
|
|
|
|
@X X X |
|
A |
|
|||
|
|
|
|
|
|
ngt |
|
|
|||||||||
|
|
nt j=1 |
i=1 =1 |
|
|
i=1 j=1 k=1 |
|
|
|
82 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Глава 7. Дисперсионный анализ |
||||||||||
QAB = |
|
1 t g |
n |
xijk |
|
|
2 |
|
|
|
|
1 |
|
t |
0 g |
n |
xijk12 |
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||
n i=1 j=1 |
k=1 |
|
|
|
ng i=1 |
=1 |
|
||||||||||||||||||||
|
|
|
|
|
! |
|
j=1 |
|
|
A |
|||||||||||||||||
|
|
|
|
|
X X X |
|
|
|
|
|
|
|
|
|
|
|
|
|
X |
@X kX |
|
|
|
||||
1 |
|
|
g t |
n xijk |
|
2 |
+ |
1 |
|
0 t |
g n |
xijk12 |
; |
|
|||||||||||||
|
|
|
X X kX |
! |
|
|
|
|
|
|
|
|
|
@X X X |
|
|
A |
|
|
||||||||
nt j=1 i=1 |
=1 |
|
|
|
|
|
ngt |
i=1 j=1 k=1 |
|
|
|
|
|
||||||||||||||
|
|
|
|
|
t g |
n |
|
|
|
|
|
|
1 |
|
|
t |
g |
n |
|
|
2 |
|
|
||||
|
|
|
|
|
xijk2 |
|
|
|
|
|
|
! ; |
|
|
|||||||||||||
|
QO = |
|
n |
|
|
|
|
|
xijk |
|
|
||||||||||||||||
|
|
|
|
|
X X kX |
|
|
|
|
|
|
|
|
|
X X X |
|
|
|
|
|
|
||||||
|
|
|
|
|
i=1 j=1 =1 |
|
|
|
|
|
|
|
|
|
i=1 j=1 |
k=1 |
|
|
|
|
|
|
|||||
Q = i=1 j=1 |
=1 xijk2 |
ngt |
0i=1 j=1 k=1 xijk |
1 |
2 |
|
|
||||||||||||||||||||
: |
|
|
|||||||||||||||||||||||||
|
|
|
|
|
t g |
n |
|
|
|
|
|
1 |
|
|
|
t |
g n |
|
|
|
|
|
|
||||
|
|
|
|
|
X X kX |
|
|
|
|
|
|
@X X X |
|
|
A |
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
После этого рассчитаем оценки всех компонент, разделив соответствующие величины Q на количества степеней свободы:
DAX = |
QA |
; |
DBX = |
QB |
|
; DABX = |
|
QAB |
; |
|||
t 1 |
g |
1 |
(t 1)(g 1) |
|||||||||
|
DOX = |
QO |
; DX = |
Q |
|
: |
|
|||||
|
|
|
|
|
||||||||
|
(n 1)tg |
tgn 1 |
|
Значения критерия для оценки наличия частного влияния каждого из факторов и их взаимодействия вычисляются по формулам
FA = DAX + DABX ; FB = DBX + DABX ;
DOX DOX
FAB = DABX ; DOX
а затем сравниваются с критическими точками распределения Фишера. Числа степеней свободы при этом считаются так: первая равна сумме чисел свободы слагаемых числителя, вторая число степеней свобо-
ды знаменателя ((n 1)tg). Например, для FA
F(t Приведем1)g;(n 1)tg. числовой пример, заимствованный из книги G.A.Ferguson.
Statistical Analysis In Psychology and Education, McGraw-Hill Inc., 1966. Исследовалось время прохождения крысами лабиринта в зависимости
от двух факторов степени активности ( A) и условий воспитания (B). Выделялись следующие уровни первого фактора отличная активность
7.3. Два фактора |
83 |
(A ), средняя (A ) и низкая (A
íÿ1 свободные условия2 ( 3). Для второго фактора имелось два уров-
B ) и воспитание в клетке (B
четании уровней было поставлено1 2). При каждом соэкспериментов собраны в таблице. n = 8 повторных испытаний. Данные
84 |
|
|
|
|
|
|
Глава 7. |
Дисперсионный анализ |
||||
|
|
|
Время прохождения лабиринта |
|
|
|||||||
в зависимости от активности A и воспитания B |
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
k |
A1 |
A2 |
A |
|
k |
A |
A2 |
A3 |
|
|
|
|
1 |
|
26 |
41 |
36 |
|
1 |
51 |
39 |
42 |
|
|
|
2 |
|
41 |
26 |
|
2 |
96 |
104 |
92 |
|
|
|
|
|
39 |
|
|
|||||||
|
|
3 |
|
28 |
19 |
59 |
|
3 |
97 |
130 |
156 |
|
|
|
4 |
|
92 |
59 |
27 |
|
4 |
22 |
122 |
144 |
|
|
B1 |
5 |
|
14 |
82 |
87 |
B2 |
65 |
3635 |
11492 |
124133 |
|
|
6 |
|
16 |
86 |
99 |
|
||||||
|
|
7 |
|
29 |
45 |
126 |
|
7 |
28 |
87 |
68 |
|
|
|
8 |
|
31 |
37 |
104 |
|
8 |
76 |
64 |
142 |
|
Промежуточные данные вычислений собраны в следующей таблице
|
|
Суммы наблюдений в "клетках" |
||||
|
|
|
A1 |
A2 |
A3 |
суммы по строкам |
|
B1 |
|
277 |
395 |
577 |
1249 |
суммы |
B2 |
|
718441 |
1147752 |
1478901 |
33432094 |
|
по столбцам |
|
|
|
|
|
|
|
|
|
|
|
|
По этой таблице нетрудно подготовить данные, необходимые для вычислений вариативностей Q:
X X X |
xijk!2 |
|
X X kX |
|
|
|
||||||
3 |
2 |
8 |
= 2137469; |
3 |
2 |
8 |
xijk!2 |
= |
4015617; |
|||
j=1 i=1 |
k=1 |
|
|
|
j=1 |
i=1 |
=1 |
|
|
|
||
X |
@X X |
xijk |
A |
= 5944837; |
@X X kX |
xijk |
A |
= |
11175649: |
|||
2 |
0 3 |
8 |
12 |
0 3 |
2 |
8 |
12 |
|||||
i=1 |
j=1 k=1 |
|
|
|
j=1 i=1 |
=1 |
|
|
|
|
Кроме того, по исходной таблице данных можно получить
3 2 8
X X X x2ijk = 309851:
j=1 i=1 k=1
Заметим по ходу дела, что для того, чтобы избегнуть таких больших числовых значений, можно было перед началом вычислений из всех данных нашей таблицы вычесть одно и то же число в нашем случае удобно, например, 80, поскольку величина дисперсии не зависит от постоянного сдвига, а абсолютные величины вычисляемых характеристик при этом
7.4. Общий случай |
85 |
станут более "удобоваримы". Однако эти вопросы нас не волнуют, потому что сегодня все промежуточные вычисления проделает компьютер, и нам не придется заботиться о таких "мелочах".
Остальные результаты приводятся ниже.
|
Результаты двухфакторного анализа |
||||
|
в примере с лабиринтом |
||||
|
вид вариативности |
Q |
ñò.ñâ. |
|
оценка дисперсии D |
|
|
|
|
|
|
|
по фактору A |
14875,52 |
2 |
|
7437,76 |
|
по фактору B |
18150,04 |
1 |
|
18150,04 |
|
взаимодействие AB |
1332,04 |
2 |
|
666,02 |
|
остаточная (O) |
42667,38 |
42 |
|
1015,89 |
|
общая |
77024,98 |
47 |
|
1638,83 |
Наконец, рассчитаем значения критериев. |
|
|
|||
|
FA = 7; 98; |
FB = 18; 52; |
FA;B = 0; 66: |
Отметим, что
FA > F (4; 42; 0; 99) = 3; 83; FB > F (3; 42; 0; 99) = 4; 31;
FA;B < F (2; 42; 0; 99) = 5; 18;
где через F (k; m; ) обозначены квантили распределения Фишера с k; m степенями свободы уровня .
Это означает, что по отдельности вклады факторов A; B в изменчи- вость времени прохождения лабиринта значительны (их можно оценить
как соответственно QA=Q 0; 19 è QB=Q 0; 24 всей изменчивости этого времени), а вклад, объясняемый через взаимодействие факторов,
составляет QAB=Q 0; 02 менее двух процентов, и мы можем не учи- тывать это влияние.
7.4Некоторые рекомендации относительно общего случая
В заключение этой главы несколько слов о том, как производить расче- ты в случае неравных чисел наблюдений в клетках и числа факторов,
большего двух. Пусть сначала у нас имеется один фактор и m уровней
86 |
|
|
|
|
|
|
|
|
|
|
|
Глава 7. |
Дисперсионный анализ |
|||||||||||||
с количеством опытов |
n1; :::; nm |
в клетках соответственно, |
m |
|
||||||||||||||||||||||
При этом формулы |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
N = Pj=1 nj |
. |
||||||
|
(7.3) заменятся на |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||
|
|
m |
|
nj |
|
x2 |
|
|
1 |
|
|
P |
m |
(P |
n=1j xi;j |
2 |
2 |
|
|
|
||||||
Q = |
|
|
|
|
|
; |
|
|
||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||
|
|
j=1 |
|
i=1 |
|
|
i;j |
|
N |
|
j=1 |
inj |
xi;j) |
|
|
|
|
|||||||||
QO |
P |
P |
|
nj |
|
|
|
|
|
|
|
|
; |
|
(7.4) |
|||||||||||
= |
|
j=1 n |
i=1 xi;j |
|
|
|
j=1 |
Pi nj |
|
|||||||||||||||||
|
|
|
m |
|
|
|
|
2 |
|
|
|
|
|
m |
|
=1 |
|
|
|
|
|
|
|
|||
QA = |
|
P |
( Pj |
|
xi;j)2 |
|
|
|
P |
|
|
nj |
|
|
|
2 |
: |
|
||||||||
Pj=1 |
|
Pi |
nj |
|
|
|
|
N |
Pj=1 Pi=1 xi;j |
|
|
|||||||||||||||
|
|
m |
|
|
=1 |
|
|
|
|
|
|
1 |
|
|
m |
|
|
|
|
|
|
|
|
|
Остальные расчеты производятся так же, как и в случае одинаковых чисел наблюдений в клетках. Единственное отличие - в вычислении числа степеней свободы (и, соответственно, нормировочного коэффициента -
знаменателя для DO). Он будет равен N m.
Рассмотрим вкратце ситуацию с числом факторов, большим двух (при этом равного количества опытов в клетках не требуется). Заметим также, что случай двух факторов тоже может обрабатываться по излагаемой ниже методике, причем результаты совпадут с теми, что были изложены в предыдущем разделе.
Оценим влияние каждого из факторов в отдельности. Для этого все имеющиеся данные соберем в "укрупненные клетки", соответствующие изменению уровней этого фактора (как бы считая, что остальные факторы отсутствуют). В случае, например, двух факторов, клетки по которым расположены в квадратной таблице, укрупнению будут соответствовать клетки-столбцы, в которые объединены все данные, располагавшиеся ранее в этом столбце. После такого объединения используем формулы (7.4).
Для оценивания взаимодействий факторов оставим только клетки, отвечающие всевозможным сочетаниям уровней этих факторов. Напри-
мер, если факторов было два, один из которых имел m, а второй r уровней, то мы как бы образуем новый фактор, описывающий взаимодействие
двух факторов и имеющий mr уровней. После очевидного (если это необходимо) укрупнения клеток вновь прибегаем к формулам (7.4). При этом,
конечно же, в роли фактора A выступает взаимодействие факторов AB (èëè ABC, ADEY , ...).
Глава 8
Общая проблема классификации и снижения размерности
8.1Сущность задачи снижения размерности
Пусть при изучении n объектов у каждого из них измеряется большое количество p показателей. Если число p достаточно велико, то с ростом
n возникает ряд проблем: объем информации очень велик, а нужно ли хранить ее всю? И как наглядно представить себе весь этот объем информации, чтобы извлечь из нее некую суть, необходимую для принятия
решения? Тут-то и появляется желание уменьшить число p без нарушения существенной (для рассматриваемой задачи) структуры данных. Конечно, чтобы решить сформулированную задачу математически строго, необходимо многим употребленным сейчас нами понятиям придать точ- ный смысл. Именно этим мы сейчас и займемся. Дальнейшее изложение этой главы следует, в основном, [2].
Итак, цели, которые может ставить перед собой задача снижения размерности, можно разбить на следующие группы:
1.большая наглядность полученных данных, возможность построения графиков и диаграмм в пространствах небольшого количества измерений;
2.лаконизм, обозримость и простота зависимостей после построения
87
88 |
Глава 8. Снижение размерности |
математической модели, за счет участия в ней меньшего количества переменных;
3. резкое снижение объемов хранимой информации.
Конечно же, закрыть список на этом нельзя, но чаще всего решаются именно перечисленные задачи. Какими способами можно сократить
размерность p задачи? Очевидно, за счет выбора значительно меньшего числа новых показателей q. Это могут быть как некоторые из уже
имевшихся ранее показателей (какие-то из p можно в силу тех или иных причин удалить из рассмотрения без значительного ущерба) или новые показатели могут образовываться как комбинации старых. Возможны разные варианты требований к новым показателям, так или иначе обеспечивающих оптимальность их выбора, например:
сохранение (в разных смыслах) наибольшей возможной доли информации , имевшейся в исходной выборке;
взаимная независимость новых показателей (или, по крайней мере, их некоррелированность), что обеспечивает невозможность сокращения их количества без существенной потери информативности;
наименьшее возможное искажение геометрической структуры данных при переходе от изображения исходной выборки облаком то-
÷åê â p-мерном пространстве к такому же изображению в q-мерном пространстве ...
(список можно продолжать). В зависимости от выбранного варианта может быть построен критерий оптимальности некоторая числовая характеристика качества снижения размерности и поставлена математиче- ская задача на оптимальное снижение размерности. Эти критерии оптимальности бывают внутренние, т.е. определяющиеся структурой исходных данных и строящиеся только по этим данным, и внешние, которые для своего построения привлекают соображения, лежащие за пределами самих наблюдений.
Имеются следующие основные типы предпосылок к тому, что задачу снижения размерности удастся эффективно решить:
1.сильная связь между исходными показателями, в результате которой информация, содержащаяся в них, дублируется;
8.2. Модель и примеры |
89 |
2. слабая информативность некоторых показателей, которые состоят в основном из случайных помех. Это чаще всего выражается в том, что они мало изменяются при переходе от объекта к объекту, что позволяет исключить их из наших данных, даже повысив при этом количество полезной информации в оставшихся данных;
3. возможность объединения нескольких показателей в один, что бывает возможно, если на самом деле интересующее нас решение связано не с каждым показателем в отдельности, а с некоторым интегративным показателем.
Отметим, наконец, что задачу классификации, т.е. объединения данных в некоторые группы, с которой мы уже имели дело раньше под названием "задача группировки", можно рассматривать, как частный случай задачи снижения размерности. Дело в том, что индивидуальное (большое) разнообразие данных после успешного решения задачи классификации переходит в групповое разнообразие с некоторыми усредненными (одинаковыми) показателями данных в пределах одного класса. В
ðîëè p здесь выступает объем выборки, в роли q p число классов (групп) после завершения классификации.
Перейдем к формальной постановке общей задачи с рассмотрением некоторых частных случаев.
8.2Формальная постановка задачи снижения размерности. Частные случаи
Пусть x(1); :::; x(p) наблюдаемые у каждого из n объектов показатели (случайные величины), X = (x(1); :::; x(p)) p-мерный вектор, Z = Z(X)q-мерная векторная функция,
Z(X) = (Z(1)(X); :::; Z(q)(X));
Имеется функция Kq(Z(X)), принимающая неотрицательные значениямера информативности или критерий оптимальности. Этот критерий
определяется сущностью решаемой задачи. Задан также класс F, êîòî-
^
рому должна принадлежать функция Z. Построить такую функцию Z из класса F, такую, что
^
Kq(Z(X)) = max Kq(Z(X)):
Z2F
90 |
Глава 8. Снижение размерности |
Тот или иной выбор критерия оптимальности и класса допустимых преобразований приводит к разного рода методам снижения размерностей. Далее следует краткий обзор наиболее важных из них. Подробно эти методы будут рассмотрены в следующих главах.
8.2.1Метод главных компонент
Будем искать такие q линейных комбинаций исходных показателей, которые объясняют максимально возможную долю изменчивости (суммы
дисперсий) p исходных показателей.
Здесь F класс линейных преобразований вида
p |
x(k)); j = 1; :::; q; |
Z(j) = cj;k(x(k) |
|
kX |
|
=1 |
|
причем на коэффициенты накладываются условия нормировки
p |
|
|
cj;k2 |
= 1; |
j = 1; :::; q; |
kX |
|
|
=1 |
|
|
p |
|
i; j = 1; :::; q; i 6= j: |
X ci;kcj;k = 0; |
k=1
Последнее условие, конечно же, означает, что столбцы матрицы коэффи-
циентов C ортогональны и, как векторы, имеют единичные нормы. Критерием оптимальности здесь будет
Pq DZ(j)
j=1
Kq(Z) = Pp Dx(j) :
j=1
8.2.2Экстремальная группировка признаков
Поставим задачу разбить исходные показатели на заранее заданное число групп (1); :::; (q) и одновременно внутри каждой группы заменить
p показателей одним (интегративным) показателем, являющимся линей-
ной комбинацией x(j); j = 1; :::; p так, чтобы внутри одной группы показатели были коррелированы сильно, а между группами наблюдалась бы относительно слабая корреляция.