Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Назаметдинов Анализ данных 2012

.pdf
Скачиваний:
10
Добавлен:
12.11.2022
Размер:
5.66 Mб
Скачать

Модель (5.1) не позволяет однозначно оценить параметры, поскольку можно добавить к m и вычесть из ai произвольную кон-

станту. Неоднозначность снимается условием репараметризации

N1a1+N2a2+…+Npap=0. (5.2)

Оценивание параметров производится по методу наименьших квадратов (МНК). Для минимизации остаточной суммы квадра-

 

 

 

 

 

 

 

p

Ni

~

 

 

 

найдем первые производные:

 

 

тов SR

 

 

 

 

 

ˆ

ˆ

2

 

 

( yij

m ai )

 

 

 

 

 

 

 

 

 

 

i 1

j 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

SR

 

 

 

 

p

Ni

~

ˆ

 

 

 

 

p

Ni

~

ˆ p

p

ˆ

;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ˆ 2 ( yij m

ai ) 2( yij m Ni Ni ai ) 0

 

m

 

 

 

i 1 j 1

 

 

 

 

 

 

i 1 j 1

 

i 1

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

SR

 

 

 

Ni

~

ˆ

ˆ

 

 

 

Ni

~

ˆ

ˆ

 

 

 

 

 

ˆ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2( ( yij m ai ) 2( yij

mNi

Ni ai ) 0 .

 

 

 

ai

 

 

j 1

 

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

p

 

 

 

 

 

 

 

 

 

 

 

 

Обозначим N Ni . Из выражений для производных с учетом

(5.2) получаем:

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

p

Ni

 

 

 

 

 

1

Ni

 

 

 

 

 

 

 

m

 

yij

y..,

ai

 

yij m yi y.., i 1,2,..., p .

(5.3)

 

ˆ

N i 1 j 1

~

~

ˆ

 

 

Ni j 1

~

ˆ

~

~

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(Точка на месте индекса означает усреднение по этому индексу.) Результаты измерений принято представлять в виде табл.5.1.

 

 

 

 

 

 

 

Таблица 5.1

Уровни

 

 

 

 

Сумма

 

Среднее

 

Наблюдения

 

внутри

 

по уров-

фактора

 

 

 

 

 

 

 

уровня

 

ню

 

 

 

 

 

 

 

~

 

 

~

N1

~

 

~

1

 

 

 

 

y11

 

 

y1N1

yij

 

y 1

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

~

 

 

~

N p

~

 

~

р

yp1

 

y pN p

yij

 

y p.

 

 

 

 

 

i 1

 

 

 

101

В ДА основной интерес представляет не столько сами оценки, сколько их сравнение и, в первую очередь, проверка гипотезы Н0: а1=а2=…=ар=0, означающей одинаковость, неразличимость, воздействий всех р уровней. Со статистической точки зрения задачу ДА можно сформулировать так: для каждой из р генеральных совокупностей получено по выборке объемом Ni и необходимо сопоставить р значений выборочных средних.

ДА базируется на разложении общей суммы квадратов S0 откло-

нений наблюдений

~

от общего среднего

~

на составляющие,

yij

y

связанные с рассеянием между уровнями Sму и рассеянием внутри отдельных уровней Sву:

S0

p Ni

 

 

p Ni

 

( yij y )

2

, Sму= ( yi

 

 

~ ~

 

~

 

i 1 j 1

 

 

i 1 j 1

 

y )

 

p

Ni

 

2

, Sву= ( yij

~

 

 

~

 

 

i 1

j 1

 

~ 2 . yi )

Подобное разложение получается следующим образом. Обе части тождества

~ ~ ~ ~

~ ~

yij y ( yij yi ) ( yi y )

возводят в квадрат и суммируют по i и j:

~ ~

2

~

~

2

 

~

~

 

( yij y )

 

( yij yi )

 

( yi y )

 

i j

 

i j

 

 

i

j

 

(5.4)

 

 

 

~

~

~

~

 

 

 

 

 

 

2 ( yij

yi )(yi y ).

 

 

 

i

j

 

 

 

 

 

Последнее слагаемое в правой части формулы (5.4) обращается в нуль в силу выполнения следующей очевидной цепочки равенств:

 

p Ni

~

~

~

~

 

p

~

~

Ni

~

~

 

 

 

 

 

 

 

 

 

 

( yij yi )(yi

y )

( yi

y ) ( yij

yi )

 

i 1 j 1

 

 

 

 

i 1

 

 

j 1

 

 

 

 

 

 

 

p

~

~

Ni

~

Ni

~

p

~

~

 

Ni

~

 

 

Ni

 

Ni

~

 

 

 

 

 

 

 

 

 

 

( yi

y )( yij yi ) ( yi y )( yij

 

 

 

yij ) 0 .

 

Ni

 

i 1

 

j 1

 

j 1

 

i 1

 

 

 

j 1

 

 

 

 

i 1

 

Соотношение (5.4) приобретает вид S 0 =S м у +S в у . Суммы S0, Sму,

Sву имеют N-1,

p-1,

N-p степеней свободы соответственно. Если

имеет место проверяемая гипотеза Н0, то каждое из отношений:

102

s02

S

0

 

, sму2

 

Sму

 

,

sву2

Sву

N 1

p 1

N p

 

 

 

 

 

может служить оценкой дисперсии 2 случайных возмущений. В силу нормальности возмущений отношение sму2 / sву2 имеет F-рас-

пределение. Полученные значения представляют в виде табл. 5.2.

Таблица 5.2

Источник из-

Сумма

ЧСС

Среднее

F-отношение

менчивости

квадратов

 

 

 

 

Между

Sму

p-1

sму s2

Fр= s2

/ s2

уровнями

 

 

му

му

ву

 

 

 

 

 

 

Внутри

Sву

N-p

s2ву

 

 

уровней

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S0

N-1

 

 

 

 

 

 

 

 

 

Гипотеза Н0: а1=а2=…=ар=0 отвергается при выбранном уровне надежности (обычно, 95 %), если F р > F Т , где FТ – табличное значение F-распределения при ЧСС числителя и знаменателя p-1 и N-p соответственно. При F р F Т делается вывод, что результаты наблюдений не противоречат гипотезе Н0.

5.2. Двухфакторный ДА

Исследуемая переменная у определяется теперь двумя факторами: A и В с p и q уровнями соответственно. На каждой из p q ком-

бинаций уровней доступно по одному наблюдению. Для N = p q

выборок единичного объема постулируется модель

~

i 1,2,...p; j 1,2,...,q ,

yij m ai bj uij ,

где m, ai, bj – параметры, uij – случайная компонента с теми же свойствами, что и в однофакторном ДА. Условий репараметриза-

p

q

ции здесь два: ai 0,

bj 0 .

i 1

j 1

103

Применяя МНК, находят оценки параметров:

 

 

 

 

 

 

 

1

 

p

q

~

 

~

 

 

 

ˆ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

m

 

 

yij

y ,

 

 

 

 

 

 

 

pq i 1 q 1

 

 

 

ˆ

1

q

~

 

~

 

~ ~

 

 

ai

 

yij

y yi y ,

i 1,2,..., p ,

q

 

j 1

 

 

 

 

 

 

 

 

 

 

 

1

 

 

p ~

 

~

 

 

 

 

bj

 

 

 

yij y , j 1,2,...,q .

 

 

 

 

 

 

 

 

p i 1

 

 

 

 

 

Основная задача двухфакторного ДА – проверка равенства нулю

параметров ai и bj, т.е. проверка гипотез:

НА: а1=а2=…=ар=0 и

НВ: b1=b2=…=bq=0.

Как и в однофакторном ДА, общую сумму квадратов S0 отклонений от общего среднего можно разложить на составляющие – теперь уже три:

p

~

~

 

 

,

 

2

SA= q ( yi y )

 

 

i 1

 

 

 

 

 

q

~

~

 

 

 

 

 

2

,

SB= p ( y j y )

 

j 1

обусловленные изменчивостью между уровнями факторов А и В соответственно, плюс слагаемое

p

q

 

 

,

SR ( yij yi y j y )

2

 

 

~ ~ ~ ~

 

i 1

j 1

 

 

 

связанное со случайной составляющей (экспериментальная ошибка).

Схема вывода соотношения

S 0 = S A + S B + S R

та же, что и в однофакторном ДА.

За основу положено тождество:

~ ~ ~ ~

~ ~

~ ~ ~

yij y ( yi y ) ( y j y..) ( yij yi y j

(5 . 5)

~ .

y )

104

Исходные данные и результаты двухфакторного ДА принято представлять в виде табл.5.3 и 5.4.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 5.3

Уровни

 

 

Уровни фактора В

 

 

 

 

 

Среднее

 

 

 

 

фактора А

 

 

1

2

q

 

 

 

 

 

 

по строкам

 

 

 

 

~

~

~

 

 

 

 

 

~

 

 

 

 

1

 

 

 

y11

y12

y1q

 

 

 

 

 

y

 

 

 

 

 

 

 

~

~

~

 

 

 

 

 

 

1

 

 

 

 

2

 

 

 

 

 

 

 

~

 

 

 

 

 

 

 

y21

y22

y

2q

 

 

 

 

 

y2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

p

 

 

~

~

~

 

 

 

 

 

 

y p

 

 

 

 

 

 

 

 

y p1

y p 2

y pq

 

 

 

 

 

 

 

 

 

Среднее

 

 

~

~

~

 

 

 

 

 

~

 

 

 

 

по столбцам

 

 

y 1

y 2

y p

 

 

 

 

 

y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 5.4

Источник

 

Сумма

 

 

 

 

 

 

Среднее

 

 

F-

 

 

 

 

измен-

 

квад-

ЧСС

 

 

 

 

 

 

 

 

 

 

 

 

 

 

квадратов

 

 

отношение

 

чивости

 

ратов

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Фактор А

 

SA

p-1

 

 

 

sA2

 

SA

 

 

FA

sA2

 

 

 

 

 

 

p 1

 

 

 

s2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

q-1

 

 

 

2

 

SB

 

 

FB

s 2

 

Фактор В

 

SB

 

 

 

sB

 

 

 

 

A

 

 

 

 

 

q 1

 

 

 

s 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Ошибка

 

SR

(p-1)

 

s

2

 

 

 

SR

 

 

 

 

 

 

 

 

(q-1)

 

 

( p 1)(q

1)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S0

pq-1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Гипотеза НА (НВ) считается приемлемой, если FA FТА (FВ FТВ), где FТА , FТВ – табличные значения F-распределения с ЧСС числителя и знаменателя в соответствии с табл.5.4.

5.3. Многофакторный ДА

Увеличение числа факторов не обнаруживает особенностей с точки зрения анализа, однако сопровождается существенным увеличением объема наблюдений. Для некоторых частных случаев

105

удается избежать полного перебора всех возможных комбинаций уровней факторов. Так, для трехфакторного ДА с одинаковым количеством уровней по каждому фактору предложены так называемые планы латинского квадрата.

Пусть каждый фактор А, В, С имеет р уровней. Предполагается, что факторы между собой не взаимодействуют, так что модель наблюдений имеет вид

~ijk i j k ijk ,

y m a b c u

где m, ai, bj, ck – параметры, uijk – независимые нормально распределенные величины. Сами наблюдения образуют квадрат р р. Уровни фактора С представлены третьим индексом k. Значения индекса образуют латинский квадрат, для которого значения k=1,2,…p встречаются по одному разу в каждой строке и каждом столбце.

Пример четырехуровневого латинского квадрата приведен в табл.5.5.

 

 

 

 

Таблица 5.5

Уровни

 

Уровни фактора В

 

 

фактора А

1

2

3

 

4

1

~

~

~

 

~

y111

y122

y133

 

y144

2

~

~

~

 

~

y212

y221

y234

 

y243

3

~

~

~

 

~

y313

y324

y332

 

y341

4

~

~

~

 

~

y414

y423

y431

 

y442

С помощью МНК с учетом условий репараметризации получают оценки параметров, опирающиеся на выборочные средние. Для

факторов А и В это будут оценки, аналогичные двухфакторному

ДА: средние по строке

~

по столбцу

~

~

yi . ,

y. j и по таблице

y.. . Сред-

 

 

 

~

 

1

~

 

 

 

ние по фактору С есть y k

 

yijk .

 

 

р

 

 

 

 

 

 

 

i, j

 

 

 

 

 

 

 

 

 

 

 

 

 

~

 

1

~

 

~

~

~

 

Для табл.5.5

y 1

 

 

( y111 y221

y431

y341) .

 

4

 

 

 

 

 

 

 

 

 

 

106

Сумма квадратов отклонений S0 от общего среднего ~ разлага- y

ется на четыре слагаемых, три из которых – S A , S B , S C – связаны с влиянием факторов, а четвертое SR – остаток, который влиянием факторов объяснить не удалось (ошибка наблюдений):

~

~

 

 

 

 

 

p

 

~

 

 

 

 

 

 

 

p

~

 

 

 

2

, SA

 

 

 

 

 

 

2

,

 

 

 

 

2

,

S0 ( yijk y )

 

p ( yi y )

 

 

SB p ( y j y )

 

i, j.k

 

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

p

~

~

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

,

SR S0 SA SB SC .

 

 

SC p ( y k y )

 

 

 

 

 

 

k 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

При справедливости нуль-гипотез НА , НВ , НС

величины

 

 

sA2

SA

 

 

, sB2

 

 

SB

, sC2

 

SC

 

, s2

 

 

SR

 

 

 

 

 

 

 

 

 

 

( p 1)( p 2)

 

 

 

p 1

 

 

p 1

 

 

 

p 1

 

 

 

 

являются оценками дисперсии σ2. Проверка гипотез проводится по той же схеме, что и в двухфакторном ДА.

Примеры применения ДА даются в п.6.3.

Вопросы и упражнения

1.Поясните происхождение термина «дисперсионный анализ».

2.Какими свойствами обладает случайный компонент?

3.Одинаковы ли объемы выборок в однофакторном ДА?

4. Зачем вводится условие репараметризации?

5.Получите формулу для разложения суммы квадратов в случае двухфакторного ДА.

6.Изменятся ли результаты дисперсионного анализа, если ко всем наблюденным значениям добавить одно и то же число?

7.Повлияет ли на проверку Н0-гипотезы изменение масштаба переменных?

107

6. ПЛАНИРОВАНИЕ ЭКСПЕРИМЕНТА

6.1.Планирование эксперимента

сколичественными переменными

Ошибки в определении как коэффициентов регрессии, так и прогнозного значения выходной переменной существенно зависят от дисперсионной матрицы (FF)-1. В свою очередь, матрица F определяется матрицей наблюдений X, или, как её ещё называют, матрицей планирования. Поэтому при возможности активного вмешательства в проведение работы следует планировать размещение экспериментальных точек так, чтобы при ограниченном числе экспериментов получить оценки коэффициентов регрессии с наименьшей погрешностью. Отсюда следует, что с помощью планирования могут быть снижены затраты времени и средств и повышена эффективность экспериментального исследования.

6.1.1. Основные понятия планирования эксперимента

Выше матрица X определялась как форма представления множества всех наблюденных значений входных переменных или точек проведения экспериментов. Само это множество называют планом и обозначают также через X. Будем предполагать, что область варьирования Ω переменных х ограничена.

Центром x0 (x10 , x20 ,...,xn0 ) плана называют точку, каждая координата которой является средним значением соответствующих

 

 

 

N

 

координат точек плана, т.е.

xi0

1

xij ,

i 1,2,...,n . План назы-

N

 

 

j 1

 

вается центральным, если x0 0 .

В теории планирования эксперимента разрабатываются планы, представленные в некоторой стандартной форме. Обычно рассматривают центральные планы. Границы изменения переменных также стандартизированы, обычно 1 xi 1, i 1,2,...,n . Переход к

стандартизованному масштабу эквивалентен линейному преобразованию переменных:

108

 

2

 

 

*

 

xi*max xi*min

 

 

 

xi

 

 

xi

 

 

 

,

(6.1)

*

 

 

 

*

 

 

2

 

 

 

 

xi max xi min

 

 

 

 

 

где

x*

значение переменной i в исходной шкале измерения;

 

i

 

 

 

 

x*

, x*

– предельные значения переменной x* . Из (6.1) следует,

i max

i min

 

 

i

 

что при xi* xi*max

xi 1 , а при xi* xi*min

xi 1 .

 

Представление

плана эксперимента

в виде матрицы X

не

является единственно возможным. Введем понятие спектра

пла-

на, под которым понимается совокупность всех точек плана, отличающихся уровнем хотя бы одной из входных переменных. Тогда план X может быть представлен следующим образом:

 

x1

x2

...

xr

,

 

h1

h2

...

hr

 

где x j ,

j 1,2,...,r – точки спектра плана;

hj – количество повто-

 

 

 

 

 

r

рений эксперимента в точке x j. Очевидно,

hj N .

 

 

 

 

 

j 1

Если

от величины hi перейти

к

нормированным величинам

l j = h j / N , то получают нормированный план.

План, заданный с помощью совокупности величин

L x1

x2

...

xr

,

l1

l2

...

lr

 

r

 

 

 

 

где l j 1, а величины lj

могут

принимать любые значения

i 1

между нулем и единицей, называется непрерывным.

Следует заметить, что всякому дискретному плану X соответствует нормированный, а, следовательно, и непрерывный план L . В то же время, не для всякого N можно найти дискретный план, в котором соотношение частот было бы точно таким, как у непрерывного плана L .

109

Кроме рассмотренных, вводят ещё ряд характеристик плана эксперимента, связанных с видом модели, для оценки коэффициентов которой план используется.

Матрица M F' F размерности (k 1) (k 1) называется ин-

формационной матрицей плана. План Х называется ортогональ-

ным, если его информационная матрица диагональна. План Х называется насыщенным, если r =( k + 1) , сверхнасыщенным, если r < ( k + 1) , и ненасыщенным при r > ( k + 1) . Здесь r – число точек спектра плана, (k+1) число членов в уравнении регрессии (число коэффициентов регрессии).

6.1.2. Критерии планирования эксперимента

Как уже отмечалось, цель планирования эксперимента состоит в выборе числа и условий проведения экспериментов, обеспечивающих получение наилучшего в определенном плане результата исследования. Конкретизация понятия “наилучший” зависит от особенностей процесса, таких, как вид модели, стоимость отдельного эксперимента, время исследования и т.д., а также целей исследования − получение модели во всей области, либо поиск экстремальных значений выходной переменной. Критерии планирования эксперимента, применяемые в теоретических и практических исследованиях, используют две характеристики, важные при проведении любого экспериментального исследования: во-первых, число экспериментов, т.е. характеристика, влияющая на стоимость и длительность эксперимента, а также на точность результатов (как правило, используются ненасыщенные планы, для которых оказывается возможным проверить адекватность модели); во-вторых, план должен быть таким, чтобы его информационная матрица была невырожденной. Только в этом случае система линейных уравнений, к которой приводит критерий наименьших квадратов, имеет единственное решение.

Все многообразие критериев планирования эксперимента можно разбить на две большие группы. Первую составляют критерии, непосредственно учитывающие точностные свойства получаемых оценок. Среди них можно выделить критерии, связанные с точно-

110