Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Полтавский национальный технический университет им. Ю. Кондратюка

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Цифровая обработка сигналов (сборник книг) / Дронов С.В. Многомерный статистическийц анализ, 2003

.pdf

Скачиваний:

112

Добавлен:

05.03.2016

Размер:

958.12 Кб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 89 / 259 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

7.3. Два фактора

7.3Полный двухфакторный анализ с равными количествами параллельных испытаний

Основное соотношение при наличии двух факторов приобретает вид

DX = DAX + DBX + DABX + DOX;

ãäå DAX; DBX; DABX части дисперсии наблюдаемой величины, объясняемые изменчивостью факторов A; B и совместной изменчивостью

обоих факторов соответственно, D

с точки зрения рассматриваемых Oфакторовостаточная.При часть,исследованиине объяснимаякакой-

либо практической задачи этим методом следует иметь ввиду, что выбираемые факторы должны быть практически независимы между собой,

поскольку, если изменение фактора A приводит к (заранее понятному)

изменению фактора B, то корректное решение задачи в предлагаемой форме невозможно.

В этой ситуации данные для проведения дисперсионного анализа располагаются в трехвходовой таблице: по одному ее измерению располага-

ются обозначения t уровней фактора A, по другому g уровней фактора B, по третьему n значений величины X, полученных при фиксации факторов A; B на определенных уровнях. С учетом этого условимся эле-

менты таблицы обозначать xijk; i = 1; :::; t; j = 1; :::; g; k = 1; :::; n: Êàê

понятно из заголовка раздела, здесь мы ограничиваемся случаем, когда в каждой "клетке", возникающей при фиксировании уровней A; B ñî-

держится одно и то же число n > 1 наблюдений. Дело в том, что отказ от этого предположения ведет к значительному усложнению и без того непростых формул (см. ниже). Интересующихся общим случаем, логика которого в принципе ничем не отличается от рассматриваемого здесь более простого варианта отсылаем к [9], [10, главы 35-37].

Перейдем к формулам. Сохраняя смысл обозначений предыдущего раздела (но увеличивая количество этих обозначений), запишем

QA =

0 g n

xijk

0 t g

xijk12

;

X @X X

ngt

@X X kX

ng i=1

j=1 k=1

i=1 j=1

QB =

t n

xijk

0 t g

xijk

;

X X kX

@X X X

ngt

nt j=1

i=1 =1

i=1 j=1 k=1

получим распределение

Глава 7. Дисперсионный анализ

QAB =

1 t g

xijk

0 g

xijk12

n i=1 j=1

k=1

ng i=1

j=1

X X X

@X kX

g t

n xijk

0 t

g n

xijk12

;

X X kX

@X X X

nt j=1 i=1

ngt

i=1 j=1 k=1

t g

xijk2

! ;

QO =

xijk

X X kX

X X X

i=1 j=1 =1

i=1 j=1

k=1

Q = i=1 j=1

=1 xijk2

ngt

0i=1 j=1 k=1 xijk

t g

g n

X X kX

@X X X

После этого рассчитаем оценки всех компонент, разделив соответствующие величины Q на количества степеней свободы:

DAX =

;

DBX =

; DABX =

QAB

;

t 1

(t 1)(g 1)

DOX =

; DX =

(n 1)tg

tgn 1

Значения критерия для оценки наличия частного влияния каждого из факторов и их взаимодействия вычисляются по формулам

FA = DAX + DABX ; FB = DBX + DABX ;

DOX DOX

FAB = DABX ; DOX

а затем сравниваются с критическими точками распределения Фишера. Числа степеней свободы при этом считаются так: первая равна сумме чисел свободы слагаемых числителя, вторая число степеней свобо-

ды знаменателя ((n 1)tg). Например, для FA

F(t Приведем1)g;(n 1)tg. числовой пример, заимствованный из книги G.A.Ferguson.

Statistical Analysis In Psychology and Education, McGraw-Hill Inc., 1966. Исследовалось время прохождения крысами лабиринта в зависимости

от двух факторов степени активности ( A) и условий воспитания (B). Выделялись следующие уровни первого фактора отличная активность

7.3. Два фактора

(A ), средняя (A ) и низкая (A

íÿ1 свободные условия2 ( 3). Для второго фактора имелось два уров-

B ) и воспитание в клетке (B

четании уровней было поставлено1 2). При каждом соэкспериментов собраны в таблице. n = 8 повторных испытаний. Данные

84							Глава 7.			Дисперсионный анализ
			Время прохождения лабиринта
в зависимости от активности A и воспитания B

		k		A1	A2	A		k	A	A2	A3
		1		26	41	36		1	51	39	42
		2		41	26	36		2	96	104	92
		2		41	26	39		2	96	104	92
		3		28	19	59		3	97	130	156
		4		92	59	27		4	22	122	144
	B1	5		14	82	87	B2	65	3635	11492	124133
	B1	6		16	86	99	B2	65	3635	11492	124133
		7		29	45	126		7	28	87	68
		8		31	37	104		8	76	64	142

Промежуточные данные вычислений собраны в следующей таблице

		Суммы наблюдений в "клетках"
			A1	A2	A3	суммы по строкам
	B1		277	395	577	1249
суммы	B2		718441	1147752	1478901	33432094
	по столбцам

По этой таблице нетрудно подготовить данные, необходимые для вычислений вариативностей Q:

X X X

xijk!2

X X kX

= 2137469;

xijk!2

4015617;

j=1 i=1

k=1

j=1

i=1

@X X

xijk

= 5944837;

@X X kX

xijk

11175649:

0 3

i=1

j=1 k=1

j=1 i=1

Кроме того, по исходной таблице данных можно получить

3 2 8

X X X x2ijk = 309851:

j=1 i=1 k=1

Заметим по ходу дела, что для того, чтобы избегнуть таких больших числовых значений, можно было перед началом вычислений из всех данных нашей таблицы вычесть одно и то же число в нашем случае удобно, например, 80, поскольку величина дисперсии не зависит от постоянного сдвига, а абсолютные величины вычисляемых характеристик при этом

7.4. Общий случай

станут более "удобоваримы". Однако эти вопросы нас не волнуют, потому что сегодня все промежуточные вычисления проделает компьютер, и нам не придется заботиться о таких "мелочах".

Остальные результаты приводятся ниже.

	Результаты двухфакторного анализа
	в примере с лабиринтом
	вид вариативности	Q	ñò.ñâ.		оценка дисперсии D

	по фактору A	14875,52	2		7437,76
	по фактору B	18150,04	1		18150,04
	взаимодействие AB	1332,04	2		666,02
	остаточная (O)	42667,38	42		1015,89
	общая	77024,98	47		1638,83
Наконец, рассчитаем значения критериев.
	FA = 7; 98;	FB = 18; 52;		FA;B = 0; 66:

Отметим, что

FA > F (4; 42; 0; 99) = 3; 83; FB > F (3; 42; 0; 99) = 4; 31;

FA;B < F (2; 42; 0; 99) = 5; 18;

где через F (k; m; ) обозначены квантили распределения Фишера с k; m степенями свободы уровня .

Это означает, что по отдельности вклады факторов A; B в изменчи- вость времени прохождения лабиринта значительны (их можно оценить

как соответственно QA=Q 0; 19 è QB=Q 0; 24 всей изменчивости этого времени), а вклад, объясняемый через взаимодействие факторов,

составляет QAB=Q 0; 02 менее двух процентов, и мы можем не учи- тывать это влияние.

7.4Некоторые рекомендации относительно общего случая

В заключение этой главы несколько слов о том, как производить расче- ты в случае неравных чисел наблюдений в клетках и числа факторов,

большего двух. Пусть сначала у нас имеется один фактор и m уровней

Глава 7.

Дисперсионный анализ

с количеством опытов

n1; :::; nm

в клетках соответственно,

При этом формулы

N = Pj=1 nj

(7.3) заменятся на

n=1j xi;j

Q =

;

j=1

i=1

i;j

j=1

inj

xi;j)

;

(7.4)

j=1 n

i=1 xi;j

j=1

Pi nj

QA =

( Pj

xi;j)2

Pj=1

Pj=1 Pi=1 xi;j

Остальные расчеты производятся так же, как и в случае одинаковых чисел наблюдений в клетках. Единственное отличие - в вычислении числа степеней свободы (и, соответственно, нормировочного коэффициента -

знаменателя для DO). Он будет равен N m.

Рассмотрим вкратце ситуацию с числом факторов, большим двух (при этом равного количества опытов в клетках не требуется). Заметим также, что случай двух факторов тоже может обрабатываться по излагаемой ниже методике, причем результаты совпадут с теми, что были изложены в предыдущем разделе.

Оценим влияние каждого из факторов в отдельности. Для этого все имеющиеся данные соберем в "укрупненные клетки", соответствующие изменению уровней этого фактора (как бы считая, что остальные факторы отсутствуют). В случае, например, двух факторов, клетки по которым расположены в квадратной таблице, укрупнению будут соответствовать клетки-столбцы, в которые объединены все данные, располагавшиеся ранее в этом столбце. После такого объединения используем формулы (7.4).

Для оценивания взаимодействий факторов оставим только клетки, отвечающие всевозможным сочетаниям уровней этих факторов. Напри-

мер, если факторов было два, один из которых имел m, а второй r уровней, то мы как бы образуем новый фактор, описывающий взаимодействие

двух факторов и имеющий mr уровней. После очевидного (если это необходимо) укрупнения клеток вновь прибегаем к формулам (7.4). При этом,

конечно же, в роли фактора A выступает взаимодействие факторов AB (èëè ABC, ADEY , ...).

Глава 8

Общая проблема классификации и снижения размерности

8.1Сущность задачи снижения размерности

Пусть при изучении n объектов у каждого из них измеряется большое количество p показателей. Если число p достаточно велико, то с ростом

n возникает ряд проблем: объем информации очень велик, а нужно ли хранить ее всю? И как наглядно представить себе весь этот объем информации, чтобы извлечь из нее некую суть, необходимую для принятия

решения? Тут-то и появляется желание уменьшить число p без нарушения существенной (для рассматриваемой задачи) структуры данных. Конечно, чтобы решить сформулированную задачу математически строго, необходимо многим употребленным сейчас нами понятиям придать точ- ный смысл. Именно этим мы сейчас и займемся. Дальнейшее изложение этой главы следует, в основном, [2].

Итак, цели, которые может ставить перед собой задача снижения размерности, можно разбить на следующие группы:

1.большая наглядность полученных данных, возможность построения графиков и диаграмм в пространствах небольшого количества измерений;

2.лаконизм, обозримость и простота зависимостей после построения

88	Глава 8. Снижение размерности

математической модели, за счет участия в ней меньшего количества переменных;

3. резкое снижение объемов хранимой информации.

Конечно же, закрыть список на этом нельзя, но чаще всего решаются именно перечисленные задачи. Какими способами можно сократить

размерность p задачи? Очевидно, за счет выбора значительно меньшего числа новых показателей q. Это могут быть как некоторые из уже

имевшихся ранее показателей (какие-то из p можно в силу тех или иных причин удалить из рассмотрения без значительного ущерба) или новые показатели могут образовываться как комбинации старых. Возможны разные варианты требований к новым показателям, так или иначе обеспечивающих оптимальность их выбора, например:

сохранение (в разных смыслах) наибольшей возможной доли информации , имевшейся в исходной выборке;

взаимная независимость новых показателей (или, по крайней мере, их некоррелированность), что обеспечивает невозможность сокращения их количества без существенной потери информативности;

наименьшее возможное искажение геометрической структуры данных при переходе от изображения исходной выборки облаком то-

÷åê â p-мерном пространстве к такому же изображению в q-мерном пространстве ...

(список можно продолжать). В зависимости от выбранного варианта может быть построен критерий оптимальности некоторая числовая характеристика качества снижения размерности и поставлена математиче- ская задача на оптимальное снижение размерности. Эти критерии оптимальности бывают внутренние, т.е. определяющиеся структурой исходных данных и строящиеся только по этим данным, и внешние, которые для своего построения привлекают соображения, лежащие за пределами самих наблюдений.

Имеются следующие основные типы предпосылок к тому, что задачу снижения размерности удастся эффективно решить:

1.сильная связь между исходными показателями, в результате которой информация, содержащаяся в них, дублируется;

8.2. Модель и примеры

2. слабая информативность некоторых показателей, которые состоят в основном из случайных помех. Это чаще всего выражается в том, что они мало изменяются при переходе от объекта к объекту, что позволяет исключить их из наших данных, даже повысив при этом количество полезной информации в оставшихся данных;

3. возможность объединения нескольких показателей в один, что бывает возможно, если на самом деле интересующее нас решение связано не с каждым показателем в отдельности, а с некоторым интегративным показателем.

Отметим, наконец, что задачу классификации, т.е. объединения данных в некоторые группы, с которой мы уже имели дело раньше под названием "задача группировки", можно рассматривать, как частный случай задачи снижения размерности. Дело в том, что индивидуальное (большое) разнообразие данных после успешного решения задачи классификации переходит в групповое разнообразие с некоторыми усредненными (одинаковыми) показателями данных в пределах одного класса. В

ðîëè p здесь выступает объем выборки, в роли q p число классов (групп) после завершения классификации.

Перейдем к формальной постановке общей задачи с рассмотрением некоторых частных случаев.

8.2Формальная постановка задачи снижения размерности. Частные случаи

Пусть x(1); :::; x(p) наблюдаемые у каждого из n объектов показатели (случайные величины), X = (x(1); :::; x(p)) p-мерный вектор, Z = Z(X)q-мерная векторная функция,

Z(X) = (Z(1)(X); :::; Z(q)(X));

Имеется функция Kq(Z(X)), принимающая неотрицательные значениямера информативности или критерий оптимальности. Этот критерий

определяется сущностью решаемой задачи. Задан также класс F, êîòî-

рому должна принадлежать функция Z. Построить такую функцию Z из класса F, такую, что

Kq(Z(X)) = max Kq(Z(X)):

Z2F

90	Глава 8. Снижение размерности

Тот или иной выбор критерия оптимальности и класса допустимых преобразований приводит к разного рода методам снижения размерностей. Далее следует краткий обзор наиболее важных из них. Подробно эти методы будут рассмотрены в следующих главах.

8.2.1Метод главных компонент

Будем искать такие q линейных комбинаций исходных показателей, которые объясняют максимально возможную долю изменчивости (суммы

дисперсий) p исходных показателей.

Здесь F класс линейных преобразований вида

p	x(k)); j = 1; :::; q;
Z(j) = cj;k(x(k)	x(k)); j = 1; :::; q;
kX
=1

причем на коэффициенты накладываются условия нормировки

p
cj;k2	= 1;	j = 1; :::; q;
kX
=1
p		i; j = 1; :::; q; i 6= j:
X ci;kcj;k = 0;		i; j = 1; :::; q; i 6= j:

k=1

Последнее условие, конечно же, означает, что столбцы матрицы коэффи-

циентов C ортогональны и, как векторы, имеют единичные нормы. Критерием оптимальности здесь будет

Pq DZ(j)

j=1

Kq(Z) = Pp Dx(j) :

j=1

8.2.2Экстремальная группировка признаков

Поставим задачу разбить исходные показатели на заранее заданное число групп (1); :::; (q) и одновременно внутри каждой группы заменить

p показателей одним (интегративным) показателем, являющимся линей-

ной комбинацией x(j); j = 1; :::; p так, чтобы внутри одной группы показатели были коррелированы сильно, а между группами наблюдалась бы относительно слабая корреляция.

<<< < Предыдущая 1 2 3 4 5 6 7 89 / 259 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Соседние файлы в папке Цифровая обработка сигналов (сборник книг)

#
05.03.2016902.07 Кб91Белодедов М.В. Методы проектирования цифровых фильтров, 2004.pdf
#
05.03.2016863.2 Кб83Граничин О.Н. Введения в методы стохастической оптимизации и оценивания, 2003.pdf
#
05.03.2016958.12 Кб112Дронов С.В. Многомерный статистическийц анализ, 2003.pdf
#
05.03.2016109.31 Кб73Лазарев С. Быстрое Преобразование Ффурье,1999.pdf
#
05.03.20162.18 Кб56Цифровая обработка сигналов (сборник книг).txt