Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Цифровая обработка сигналов (сборник книг) / Дронов С.В. Многомерный статистическийц анализ, 2003

.pdf
Скачиваний:
112
Добавлен:
05.03.2016
Размер:
958.12 Кб
Скачать

7.3. Два фактора

81

7.3Полный двухфакторный анализ с равными количествами параллельных испытаний

Основное соотношение при наличии двух факторов приобретает вид

DX = DAX + DBX + DABX + DOX;

ãäå DAX; DBX; DABX части дисперсии наблюдаемой величины, объясняемые изменчивостью факторов A; B и совместной изменчивостью

обоих факторов соответственно, D

с точки зрения рассматриваемых Oфакторовостаточная.При часть,исследованиине объяснимаякакой-

либо практической задачи этим методом следует иметь ввиду, что выбираемые факторы должны быть практически независимы между собой,

поскольку, если изменение фактора A приводит к (заранее понятному)

изменению фактора B, то корректное решение задачи в предлагаемой форме невозможно.

В этой ситуации данные для проведения дисперсионного анализа располагаются в трехвходовой таблице: по одному ее измерению располага-

ются обозначения t уровней фактора A, по другому g уровней фактора B, по третьему n значений величины X, полученных при фиксации факторов A; B на определенных уровнях. С учетом этого условимся эле-

менты таблицы обозначать xijk; i = 1; :::; t; j = 1; :::; g; k = 1; :::; n: Êàê

понятно из заголовка раздела, здесь мы ограничиваемся случаем, когда в каждой "клетке", возникающей при фиксировании уровней A; B ñî-

держится одно и то же число n > 1 наблюдений. Дело в том, что отказ от этого предположения ведет к значительному усложнению и без того непростых формул (см. ниже). Интересующихся общим случаем, логика которого в принципе ничем не отличается от рассматриваемого здесь более простого варианта отсылаем к [9], [10, главы 35-37].

Перейдем к формулам. Сохраняя смысл обозначений предыдущего раздела (но увеличивая количество этих обозначений), запишем

QA =

1

 

t

0 g n

xijk

12

 

1

 

0 t g

n

xijk12

;

 

 

 

 

X @X X

 

A

ngt

@X X kX

 

A

 

 

ng i=1

j=1 k=1

 

 

 

i=1 j=1

=1

 

12

 

QB =

1

 

g

t n

xijk

!

2

1

 

0 t g

n

xijk

;

 

 

 

 

X X kX

 

 

 

 

 

 

@X X X

 

A

 

 

 

 

 

 

 

ngt

 

 

 

 

nt j=1

i=1 =1

 

 

i=1 j=1 k=1

 

 

 

получим распределение

82

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Глава 7. Дисперсионный анализ

QAB =

 

1 t g

n

xijk

 

 

2

 

 

 

 

1

 

t

0 g

n

xijk12

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n i=1 j=1

k=1

 

 

 

ng i=1

=1

 

 

 

 

 

 

!

 

j=1

 

 

A

 

 

 

 

 

X X X

 

 

 

 

 

 

 

 

 

 

 

 

 

X

@X kX

 

 

 

1

 

 

g t

n xijk

 

2

+

1

 

0 t

g n

xijk12

;

 

 

 

 

X X kX

!

 

 

 

 

 

 

 

 

 

@X X X

 

 

A

 

 

nt j=1 i=1

=1

 

 

 

 

 

ngt

i=1 j=1 k=1

 

 

 

 

 

 

 

 

 

 

t g

n

 

 

 

 

 

 

1

 

 

t

g

n

 

 

2

 

 

 

 

 

 

 

xijk2

 

 

 

 

 

 

! ;

 

 

 

QO =

 

n

 

 

 

 

 

xijk

 

 

 

 

 

 

 

X X kX

 

 

 

 

 

 

 

 

 

X X X

 

 

 

 

 

 

 

 

 

 

 

i=1 j=1 =1

 

 

 

 

 

 

 

 

 

i=1 j=1

k=1

 

 

 

 

 

 

Q = i=1 j=1

=1 xijk2

ngt

0i=1 j=1 k=1 xijk

1

2

 

 

:

 

 

 

 

 

 

 

t g

n

 

 

 

 

 

1

 

 

 

t

g n

 

 

 

 

 

 

 

 

 

 

 

X X kX

 

 

 

 

 

 

@X X X

 

 

A

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

После этого рассчитаем оценки всех компонент, разделив соответствующие величины Q на количества степеней свободы:

DAX =

QA

;

DBX =

QB

 

; DABX =

 

QAB

;

t 1

g

1

(t 1)(g 1)

 

DOX =

QO

; DX =

Q

 

:

 

 

 

 

 

 

 

(n 1)tg

tgn 1

 

Значения критерия для оценки наличия частного влияния каждого из факторов и их взаимодействия вычисляются по формулам

FA = DAX + DABX ; FB = DBX + DABX ;

DOX DOX

FAB = DABX ; DOX

а затем сравниваются с критическими точками распределения Фишера. Числа степеней свободы при этом считаются так: первая равна сумме чисел свободы слагаемых числителя, вторая число степеней свобо-

ды знаменателя ((n 1)tg). Например, для FA

F(t Приведем1)g;(n 1)tg. числовой пример, заимствованный из книги G.A.Ferguson.

Statistical Analysis In Psychology and Education, McGraw-Hill Inc., 1966. Исследовалось время прохождения крысами лабиринта в зависимости

от двух факторов степени активности ( A) и условий воспитания (B). Выделялись следующие уровни первого фактора отличная активность

7.3. Два фактора

83

(A ), средняя (A ) и низкая (A

íÿ1 свободные условия2 ( 3). Для второго фактора имелось два уров-

B ) и воспитание в клетке (B

четании уровней было поставлено1 2). При каждом соэкспериментов собраны в таблице. n = 8 повторных испытаний. Данные

84

 

 

 

 

 

 

Глава 7.

Дисперсионный анализ

 

 

 

Время прохождения лабиринта

 

 

в зависимости от активности A и воспитания B

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k

A1

A2

A

 

k

A

A2

A3

 

 

 

1

 

26

41

36

 

1

51

39

42

 

 

 

2

 

41

26

 

2

96

104

92

 

 

 

 

39

 

 

 

 

3

 

28

19

59

 

3

97

130

156

 

 

 

4

 

92

59

27

 

4

22

122

144

 

 

B1

5

 

14

82

87

B2

65

3635

11492

124133

 

 

6

 

16

86

99

 

 

 

7

 

29

45

126

 

7

28

87

68

 

 

 

8

 

31

37

104

 

8

76

64

142

 

Промежуточные данные вычислений собраны в следующей таблице

 

 

Суммы наблюдений в "клетках"

 

 

 

A1

A2

A3

суммы по строкам

 

B1

 

277

395

577

1249

суммы

B2

 

718441

1147752

1478901

33432094

 

по столбцам

 

 

 

 

 

 

 

 

 

 

 

По этой таблице нетрудно подготовить данные, необходимые для вычислений вариативностей Q:

X X X

xijk!2

 

X X kX

 

 

 

3

2

8

= 2137469;

3

2

8

xijk!2

=

4015617;

j=1 i=1

k=1

 

 

 

j=1

i=1

=1

 

 

 

X

@X X

xijk

A

= 5944837;

@X X kX

xijk

A

=

11175649:

2

0 3

8

12

0 3

2

8

12

i=1

j=1 k=1

 

 

 

j=1 i=1

=1

 

 

 

 

Кроме того, по исходной таблице данных можно получить

3 2 8

X X X x2ijk = 309851:

j=1 i=1 k=1

Заметим по ходу дела, что для того, чтобы избегнуть таких больших числовых значений, можно было перед началом вычислений из всех данных нашей таблицы вычесть одно и то же число в нашем случае удобно, например, 80, поскольку величина дисперсии не зависит от постоянного сдвига, а абсолютные величины вычисляемых характеристик при этом

7.4. Общий случай

85

станут более "удобоваримы". Однако эти вопросы нас не волнуют, потому что сегодня все промежуточные вычисления проделает компьютер, и нам не придется заботиться о таких "мелочах".

Остальные результаты приводятся ниже.

 

Результаты двухфакторного анализа

 

в примере с лабиринтом

 

вид вариативности

Q

ñò.ñâ.

 

оценка дисперсии D

 

 

 

 

 

 

 

по фактору A

14875,52

2

 

7437,76

 

по фактору B

18150,04

1

 

18150,04

 

взаимодействие AB

1332,04

2

 

666,02

 

остаточная (O)

42667,38

42

 

1015,89

 

общая

77024,98

47

 

1638,83

Наконец, рассчитаем значения критериев.

 

 

 

FA = 7; 98;

FB = 18; 52;

FA;B = 0; 66:

Отметим, что

FA > F (4; 42; 0; 99) = 3; 83; FB > F (3; 42; 0; 99) = 4; 31;

FA;B < F (2; 42; 0; 99) = 5; 18;

где через F (k; m; ) обозначены квантили распределения Фишера с k; m степенями свободы уровня .

Это означает, что по отдельности вклады факторов A; B в изменчи- вость времени прохождения лабиринта значительны (их можно оценить

как соответственно QA=Q 0; 19 è QB=Q 0; 24 всей изменчивости этого времени), а вклад, объясняемый через взаимодействие факторов,

составляет QAB=Q 0; 02 менее двух процентов, и мы можем не учи- тывать это влияние.

7.4Некоторые рекомендации относительно общего случая

В заключение этой главы несколько слов о том, как производить расче- ты в случае неравных чисел наблюдений в клетках и числа факторов,

большего двух. Пусть сначала у нас имеется один фактор и m уровней

86

 

 

 

 

 

 

 

 

 

 

 

Глава 7.

Дисперсионный анализ

с количеством опытов

n1; :::; nm

в клетках соответственно,

m

 

При этом формулы

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

N = Pj=1 nj

.

 

(7.3) заменятся на

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

m

 

nj

 

x2

 

 

1

 

 

P

m

(P

n=1j xi;j

2

2

 

 

 

Q =

 

 

 

 

 

;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j=1

 

i=1

 

 

i;j

 

N

 

j=1

inj

xi;j)

 

 

 

 

QO

P

P

 

nj

 

 

 

 

 

 

 

 

;

 

(7.4)

=

 

j=1 n

i=1 xi;j

 

 

 

j=1

Pi nj

 

 

 

 

m

 

 

 

 

2

 

 

 

 

 

m

 

=1

 

 

 

 

 

 

 

QA =

 

P

( Pj

 

xi;j)2

 

 

 

P

 

 

nj

 

 

 

2

:

 

Pj=1

 

Pi

nj

 

 

 

 

N

Pj=1 Pi=1 xi;j

 

 

 

 

m

 

 

=1

 

 

 

 

 

 

1

 

 

m

 

 

 

 

 

 

 

 

 

Остальные расчеты производятся так же, как и в случае одинаковых чисел наблюдений в клетках. Единственное отличие - в вычислении числа степеней свободы (и, соответственно, нормировочного коэффициента -

знаменателя для DO). Он будет равен N m.

Рассмотрим вкратце ситуацию с числом факторов, большим двух (при этом равного количества опытов в клетках не требуется). Заметим также, что случай двух факторов тоже может обрабатываться по излагаемой ниже методике, причем результаты совпадут с теми, что были изложены в предыдущем разделе.

Оценим влияние каждого из факторов в отдельности. Для этого все имеющиеся данные соберем в "укрупненные клетки", соответствующие изменению уровней этого фактора (как бы считая, что остальные факторы отсутствуют). В случае, например, двух факторов, клетки по которым расположены в квадратной таблице, укрупнению будут соответствовать клетки-столбцы, в которые объединены все данные, располагавшиеся ранее в этом столбце. После такого объединения используем формулы (7.4).

Для оценивания взаимодействий факторов оставим только клетки, отвечающие всевозможным сочетаниям уровней этих факторов. Напри-

мер, если факторов было два, один из которых имел m, а второй r уровней, то мы как бы образуем новый фактор, описывающий взаимодействие

двух факторов и имеющий mr уровней. После очевидного (если это необходимо) укрупнения клеток вновь прибегаем к формулам (7.4). При этом,

конечно же, в роли фактора A выступает взаимодействие факторов AB (èëè ABC, ADEY , ...).

Глава 8

Общая проблема классификации и снижения размерности

8.1Сущность задачи снижения размерности

Пусть при изучении n объектов у каждого из них измеряется большое количество p показателей. Если число p достаточно велико, то с ростом

n возникает ряд проблем: объем информации очень велик, а нужно ли хранить ее всю? И как наглядно представить себе весь этот объем информации, чтобы извлечь из нее некую суть, необходимую для принятия

решения? Тут-то и появляется желание уменьшить число p без нарушения существенной (для рассматриваемой задачи) структуры данных. Конечно, чтобы решить сформулированную задачу математически строго, необходимо многим употребленным сейчас нами понятиям придать точ- ный смысл. Именно этим мы сейчас и займемся. Дальнейшее изложение этой главы следует, в основном, [2].

Итак, цели, которые может ставить перед собой задача снижения размерности, можно разбить на следующие группы:

1.большая наглядность полученных данных, возможность построения графиков и диаграмм в пространствах небольшого количества измерений;

2.лаконизм, обозримость и простота зависимостей после построения

87

88

Глава 8. Снижение размерности

математической модели, за счет участия в ней меньшего количества переменных;

3. резкое снижение объемов хранимой информации.

Конечно же, закрыть список на этом нельзя, но чаще всего решаются именно перечисленные задачи. Какими способами можно сократить

размерность p задачи? Очевидно, за счет выбора значительно меньшего числа новых показателей q. Это могут быть как некоторые из уже

имевшихся ранее показателей (какие-то из p можно в силу тех или иных причин удалить из рассмотрения без значительного ущерба) или новые показатели могут образовываться как комбинации старых. Возможны разные варианты требований к новым показателям, так или иначе обеспечивающих оптимальность их выбора, например:

сохранение (в разных смыслах) наибольшей возможной доли информации , имевшейся в исходной выборке;

взаимная независимость новых показателей (или, по крайней мере, их некоррелированность), что обеспечивает невозможность сокращения их количества без существенной потери информативности;

наименьшее возможное искажение геометрической структуры данных при переходе от изображения исходной выборки облаком то-

÷åê â p-мерном пространстве к такому же изображению в q-мерном пространстве ...

(список можно продолжать). В зависимости от выбранного варианта может быть построен критерий оптимальности некоторая числовая характеристика качества снижения размерности и поставлена математиче- ская задача на оптимальное снижение размерности. Эти критерии оптимальности бывают внутренние, т.е. определяющиеся структурой исходных данных и строящиеся только по этим данным, и внешние, которые для своего построения привлекают соображения, лежащие за пределами самих наблюдений.

Имеются следующие основные типы предпосылок к тому, что задачу снижения размерности удастся эффективно решить:

1.сильная связь между исходными показателями, в результате которой информация, содержащаяся в них, дублируется;

8.2. Модель и примеры

89

2. слабая информативность некоторых показателей, которые состоят в основном из случайных помех. Это чаще всего выражается в том, что они мало изменяются при переходе от объекта к объекту, что позволяет исключить их из наших данных, даже повысив при этом количество полезной информации в оставшихся данных;

3. возможность объединения нескольких показателей в один, что бывает возможно, если на самом деле интересующее нас решение связано не с каждым показателем в отдельности, а с некоторым интегративным показателем.

Отметим, наконец, что задачу классификации, т.е. объединения данных в некоторые группы, с которой мы уже имели дело раньше под названием "задача группировки", можно рассматривать, как частный случай задачи снижения размерности. Дело в том, что индивидуальное (большое) разнообразие данных после успешного решения задачи классификации переходит в групповое разнообразие с некоторыми усредненными (одинаковыми) показателями данных в пределах одного класса. В

ðîëè p здесь выступает объем выборки, в роли q p число классов (групп) после завершения классификации.

Перейдем к формальной постановке общей задачи с рассмотрением некоторых частных случаев.

8.2Формальная постановка задачи снижения размерности. Частные случаи

Пусть x(1); :::; x(p) наблюдаемые у каждого из n объектов показатели (случайные величины), X = (x(1); :::; x(p)) p-мерный вектор, Z = Z(X)q-мерная векторная функция,

Z(X) = (Z(1)(X); :::; Z(q)(X));

Имеется функция Kq(Z(X)), принимающая неотрицательные значениямера информативности или критерий оптимальности. Этот критерий

определяется сущностью решаемой задачи. Задан также класс F, êîòî-

^

рому должна принадлежать функция Z. Построить такую функцию Z из класса F, такую, что

^

Kq(Z(X)) = max Kq(Z(X)):

Z2F

90

Глава 8. Снижение размерности

Тот или иной выбор критерия оптимальности и класса допустимых преобразований приводит к разного рода методам снижения размерностей. Далее следует краткий обзор наиболее важных из них. Подробно эти методы будут рассмотрены в следующих главах.

8.2.1Метод главных компонент

Будем искать такие q линейных комбинаций исходных показателей, которые объясняют максимально возможную долю изменчивости (суммы

дисперсий) p исходных показателей.

Здесь F класс линейных преобразований вида

p

x(k)); j = 1; :::; q;

Z(j) = cj;k(x(k)

kX

 

=1

 

причем на коэффициенты накладываются условия нормировки

p

 

 

cj;k2

= 1;

j = 1; :::; q;

kX

 

 

=1

 

 

p

 

i; j = 1; :::; q; i 6= j:

X ci;kcj;k = 0;

k=1

Последнее условие, конечно же, означает, что столбцы матрицы коэффи-

циентов C ортогональны и, как векторы, имеют единичные нормы. Критерием оптимальности здесь будет

Pq DZ(j)

j=1

Kq(Z) = Pp Dx(j) :

j=1

8.2.2Экстремальная группировка признаков

Поставим задачу разбить исходные показатели на заранее заданное число групп (1); :::; (q) и одновременно внутри каждой группы заменить

p показателей одним (интегративным) показателем, являющимся линей-

ной комбинацией x(j); j = 1; :::; p так, чтобы внутри одной группы показатели были коррелированы сильно, а между группами наблюдалась бы относительно слабая корреляция.