Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Назаметдинов Анализ данных 2012

.pdf
Скачиваний:
10
Добавлен:
12.11.2022
Размер:
5.66 Mб
Скачать

стью нахождения коэффициентов регрессии (критерии A- и D- оптимальности), и критерии, требующие максимальной точности оценки выходной переменной (критерий G-оптимальности). Вторую группу составляют критерии, зародившиеся в практике планирования эксперимента и ориентированные на удобство расчетов и организации проведения экспериментов (критерии ортогональности и композиционности).

Смысл перечисленных критериев можно пояснить, используя понятие эллипсоида рассеяния случайного вектора. Для случайного вектора а размерности k 1, ковариационная матрица которого есть cov a, эллипсоид рассеяния задается выражением

(a Ma) cov 1 a (a Ma) k 3,

описывающим эллипсоид в (k 1) -мерном пространстве с цент-

ром в точке Ма. Эта геометрическая фигура имеет такие размеры, что ковариационная матрица случайного вектора, равномерно распределенного в пределах эллипсоида, совпадает с матрицей cov a. Следовательно, чем больше рассеяние вектора относительно его математического ожидания, тем большие размеры имеет эллипсоид рассеяния.

Критерий А-оптимальности

Поскольку точностной характеристикой вектора коэффициентов регрессии является ковариационная матрица, а критерии планирования желательно иметь в скалярной форме, то необходима некоторая свертка ковариационной матрицы. Критерий A-оптималь-

ности в качестве свертки использует след матрицы С (F' F) 1 .

Поскольку диагональные элементы матрицы С пропорциональны дисперсии оценок коэффициентов регрессии, то при минимизации следа матрицы С минимизируется, по сути дела, суммарная либо средняя дисперсия оценок коэффициентов модели:

tr C( X ) mintr C( X ) .

A X

Известно, что сумма диагональных элементов матрицы равняется сумме её собственных значений. Поскольку квадраты длины осей эллипсоида рассеяния пропорциональны собственным значениям ковариационной матрицы, то критерий A-оптималь-

111

ности требует минимизации диагонали параллелепипеда, описанного у эллипсоида рассеяния.

Критерий D-оптимальности

Критерий D-оптимальности требует такого расположения точек в области планирования , при котором определитель матрицы

(F ' F ) 1 имеет минимальную величину. Иными словами, план X *

 

 

 

 

 

 

 

 

 

 

 

D

D-оптимален, если

 

 

 

 

 

 

 

 

 

C( X D* )

 

min

 

C( X )

 

min

 

(F' F) 1

 

.

 

 

 

 

 

 

 

 

 

X

 

 

 

X

 

 

 

 

Известно, что объем V эллипсоида рассеяния пропорционален корню из величины определителя ковариационной матрицы, т.е.

V ~

 

ˆ

 

. С учетом (3.8) V

 

(F ' F )

1

 

.

cov a

 

 

 

 

 

 

 

 

 

 

 

 

Чем меньше величина определителя, тем меньше, как правило, разброс оценок коэффициентов относительно их математических ожиданий. Исключением является случай, когда эллипсоид рассеяния имеет сильно вытянутую форму.

Критерий G-оптимальности

План X * G-оптимален, если он обеспечивает наименьшую величину максимальной дисперсии оценки зависимой переменной:

max y2ˆ

( XG* ) min max y2ˆ

( X ) min max f '(x)(F' F) 1 f (x) .

x

X x

X x

Критерий ортогональности

Критерий ортогональности требует выбора плана X , обеспечивающего диагональность информационной матрицы. Использование этого критерия имеет целью упростить вычисления и обеспечить независимость оценок коэффициентов регрессии.

Критерий композиционности

Критерий композиционности требует выбора плана, который включал бы в себя точки оптимального плана моделей более низкого порядка. Это обеспечивает сокращение числа опытов при поэтапном усложнении модели.

На практике желательно использовать планы, удовлетворяющие одновременно нескольким критериям. В общем случае такого сочетания свойств не наблюдается. В теории планирования экспе-

112

римента доказана так называемая теорема эквивалентности, утверждающая, что непрерывный D-оптимальный план является также G-оптимальным. Условие D-оптимальности дискретного плана X имеет следующий вид:

max Nf (x)(F F) 1 f (x) k 1 .

(6.2)

x

 

Если для дискретного D-оптимального плана имеет

место

N(F F) 1 I , то этот план является также A-оптимальным.

 

6.1.3. Планы факторных экспериментов

Полный факторный эксперимент

В факторном эксперименте рассматриваются ортогональные планы, предназначенные для моделей, описываемых неполными полиномами вида

~

a0

a1x1 ... an xn a12x1x2

... an 1,n xn 1xn

y

a123x1x2 x3 ... an 2,n 1,n xn 2 xn 1xn ... a12...n x1x2...xn u.

Для таких моделей достаточно рассматривать планы, в которых каждая переменная (фактор) принимает значения только на двух

уровнях: xmin* и xmax* . Нормированные переменные при этом будут

принимать значения –1 и +1. Множество всех точек в n -мерном пространстве, координаты которых равны –1 или +1, называется

полным факторным планом (ПФП) типа 2n . Число точек такого плана N 2n . Сам эксперимент называют полным факторным

экспериментом (ПФЭ) типа 2n . Примеры полных факторных планов для n=1 и n=2:

 

 

 

 

1

1

1

,

 

1

1

X (1)

 

X (2)

 

.

1

 

 

1

1

 

 

 

 

 

 

 

 

 

 

1

1

Матрица планирования X (n 1)

ПФП 2n 1 может быть получена с

помощью матрицы X (n)

ПФП 2n следующим образом:

113

X

X (n 1) X

(n)

(n)

k ,

где k – вектор-столбец, состоящий из 2n единиц. Легко видеть, полные планы являются центральными, а их информационная матрица имеет вид:

F F 2n I .

Дробный факторный эксперимент (ДФЭ)

Из-за показательного роста числа экспериментов с увеличением размерности пространства ПФП оказываются практически не-

приемлемыми при больших n . Однако из матрицы ПФП 2n может быть отобрана некоторая часть, называемая дробным факторным планом (ДФП), которая сохраняет свойство ортогональности. Правило построения ДФП состоит в следующем. Задается порядок дробности p . Из n входных переменных отбирают n-p переменных (их называют основными), и для них строят полный факторный план X (n p) . Этот план затем дополняют p столбцами, соответст-

вующими оставшимся переменным. Для определения способа образования этих столбцов вводится понятие генератора (генерирующего соотношения) плана. Генератор представляет собой произведение граничных значений ( 1 ) основных переменных, определяющее граничные значения элементов каждого из дополнительных p столбцов матрицы плана. Так, для построения линейной мо-

дели от трех переменных y a0 a1x1 a2 x2 a3x3 можно восполь-

зоваться ДФП типа 23 1 с генератором x3 x1x2 :

114

 

x

x

x

x x

 

1

2

3

1

2

 

1

1

 

1

 

1

1

 

1

 

1

1

 

1

 

1

1

 

1

 

Чем выше размерность пространства , тем большее число генераторов плана можно предложить. Целесообразно выбирать такие из них, которые соответствуют незначимым взаимодействиям. Действительно, в состав базисных функций входят и левая, и правая части генератора и, поскольку от эксперимента к эксперименту они меняются одинаковым образом, различить эффекты, соответствующие частям генератора, не представляется возможным. Так, если в качестве генератора выбрано соотношение x4 x1x2 x3 , то

получить раздельные оценки для a4 и a123 нельзя. Соответствующий ДФП позволяет оценить лишь суммарное воздействие линейного фактора x4 и тройного взаимодействия x1 x2 x3 . Подобные

оценки называют смешанными. Однако, если взаимодействие незначимо, т.е. a123 0 , то aˆ4 будет практически несмешанной оцен-

кой. Для определения порядка смешивания вводят понятие контраста плана. Контраст – это генерирующее соотношение, задающее элементы столбца свободного члена матрицы F . (Со свободным членом уравнения регрессии связывается фиктивная переменная x0 , тождественно равная единице.) Контраст получают из генери-

рующего соотношения умножением на переменную, стоящую слева от знака равенства. Для ДФП с генератором x4 x1x2 x3 контраст

есть

1 x x

2

x

3

x

4

, так как x2

1. Чтобы определить, с какими пе-

 

1

 

 

i

 

ременными или взаимодействиями смешана оценка некоторой данной переменной, необходимо умножить обе части контраста на эту переменную. При этом получают порядок смешивания оценок коэффициентов при использовании данного плана.

115

Пусть, к примеру, исследуется объект из трех переменных х1 , x2 , x3 , полная модель которого есть

y a0 a1x1 a2 x2 a3x3 a12x1x2 a13x1x3 a23x2 x3 a123x1x2 x3. (6.3)

(В выражении (6.3) и далее случайное возмущение опускается.) В ходе исследования было решено ограничиться линейным (по переменным) описанием

 

 

 

 

 

y a0 a1x1 a2 x2 a3x3 ,

 

 

 

 

(6.4)

что

дало

основание

воспользоваться

ДФЭ

 

23 1

с

 

генератором

x3

x1 x2

с определяющим контрастом 1 x1x2 x3 .

 

 

 

 

Порядок смешивания для переменных x1 , x2 , x3 , следующий:

 

 

x

x2 x

2

x

3

x

2

x

3

,

x

2

x x

3

,

x

3

x x

2

.

(6.5)

 

 

1

1

 

 

 

 

 

1

 

 

 

 

1

 

 

С учетом (6.5) сгруппируем подобные члены в модели (6.3):

 

 

y (a0

a123) (a1 a23)x1 (a2 a13)x2

(a3 a12)x3 .

(6.6)

Сравнивая (6.6) и (6.4) , видим, что при оценивании линейной модели (6.4) получаются не чистые оценки свободного члена a0 и

линейных эффектов a1 , a2 , a3 , а оценки комбинаций, включающих

двойные и тройные (для свободного члена) эффекты:

aˆ0 a0 a123, aˆ1 a1 a23, aˆ2 a2 a13, aˆ3 a3 a12 .

Таким образом, платой за сокращение числа экспериментов стала совместность оценок. Если же поставить дополнительно четыре эксперимента с генератором x3 x1x2 , то получим оценки

 

aˆ

a a

, aˆ

 

a

a , aˆ

 

a a , aˆ

a a

 

 

0

0 123

 

1

 

1

23

2

2 13

3

3 12 .

 

 

Восемь оценок aˆ

, , aˆ

, aˆ , , aˆ

дают возможность получить

 

 

 

0

 

 

3

0

 

3

 

 

 

 

 

раздельные оценки эффектов.

Так,

(aˆ aˆ ) / 2

есть оценка

a , а

 

 

 

 

 

 

 

 

 

 

 

1

2

 

 

1

(aˆ

aˆ ) / 2 – оценка

a

23

и так далее. Это и понятно, поскольку две

1

2

 

 

 

 

 

 

 

 

 

 

 

 

 

серии экспериментов с генераторами

x3

x1 x2

и x3

x1 x2

дают

вкупе полный факторный эксперимент, который обеспечивает раздельное оценивание коэффициентов.

В отсутствие априорной информации о значимости взаимодействий предпочтение отдается генераторам, отвечающим взаимо-

116

действиям высокого порядка, поскольку коэффициенты регрессии при них по абсолютной величине, как правило, меньше.

К достоинствам факторных планов следует отнести их хорошие

точностные свойства. Легко доказать, что они являются

 

D-, G-, A-

оптимальными. К примеру,

у ПФП 22 ,

используемого для оценки

коэффициентов модели вида

 

y a0 a1x1 a2 x2 a12x1x2 , матрица

плана X и матрица значений базисных функций F имеют вид:

 

 

 

 

 

 

1 1

 

 

1 1

1

1

 

 

 

 

 

 

 

X

1 1

 

 

1 1

1

1

 

 

 

 

 

 

 

 

 

 

 

 

, F

 

1

 

.

 

 

 

 

 

 

 

 

 

1 1

 

 

1 1

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

1

 

 

 

 

 

 

 

 

 

,

 

1

 

 

1

 

 

1

1

 

 

(6.2)

-

Отсюда F F

 

(F

F) 1

 

1

4

I . Левая часть выражения

 

4I

 

 

 

 

при

мет вид (1 x2 x2 x2 x2 ) , поскольку f

x (1, x , x , x x ) . Мак-

 

1

 

2

1

2

 

 

 

 

 

 

 

1

2

1

2

 

 

симум выражения (1 x2

 

x2

x2 x2 ) достигается в вершинах ква-

 

 

 

 

 

1

 

 

 

2

 

1

2

 

 

 

 

 

 

 

 

драта: 1 x1

1,

1 x2

1 и равняется четырем. Число оценива-

емых коэффициентов (k+1) также четыре. Следовательно, условие (6.2) выполняется.

6.1.4. Центральные композиционные планы

В случае, когда при использовании линейной регрессионной модели значения коэффициентов регрессии близки к нулю, необходимо добавлять в уравнение квадратичные слагаемые, т.е. модель выбирается в виде полного полинома второго порядка:

n

 

n

 

y a0 ai xi ai, j xi x j aii xi2 .

(6.7)

i 1

i, j

i 1

 

Для подобного рода моделей разработаны центральные композиционные планы (ЦКП). ЦКП включает в себя точки соответствующего факторного эксперимента, а также две звездные точки на каждую переменную и центральную точку.

Звездные точки располагаются на координатной оси симметрично относительно начала координат на величину α.

117

Для двумерного случая модель, ЦКП и матрица значений базисных функций имеют вид:

y a0 a1x1

a2 x2 a3 x1x2 a4 x12 a5 x22 ,

 

 

(6.8)

1

1

1 1 1

 

1 1 1

 

 

 

- 1

1

 

 

 

 

 

 

 

 

-1 1

1

 

 

 

 

1 -1 1

 

 

1

- 1

1 1 -1

-1 1

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1 -1 -1

 

 

 

 

 

 

1

 

 

- 1

- 1

 

 

1 1

 

X

α

0

, F 1

α

 

 

 

0

 

0

 

 

 

α2

0

.

(6.9)

- α

0

 

1 - α 0

 

0 α2

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

α

 

1 0

 

 

 

α

 

0

 

 

 

0 α2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

- α

1 0 - α

 

0

 

 

 

0 α2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

0

1 0

 

 

 

0

 

0

 

 

 

0

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Поскольку информационная матрица С=F’F потеряла свойство

ортогональности, модель (6.7) преобразовывают:

 

 

 

y a'0 ai xi aij xi x j aii (xi2 β) ,

 

 

где β – некоторая константа сдвига.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Для модели (6.8) матрица F (6.9) примет вид:

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

2

 

 

 

 

1

1

1 1 1 - β

 

 

1 - β

 

 

 

 

 

1

-1 1 -1 1 - β2

 

1 - β2

 

 

 

 

 

1

-1 -1 1 - β

2

 

1 - β

2

 

 

 

 

1

 

 

 

 

 

 

 

 

-1 -1 1

1 - β

2

 

1 - β

2

 

 

 

 

1

 

 

 

 

 

 

 

F 1

α 0

0 α2 - β2

 

- β2

.

 

 

 

 

- α 0

0 α

2

- β

2

 

- β

2

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

2

 

 

 

2

 

 

 

1

0

α

0

 

- β

 

 

 

α

 

- β

 

 

 

 

1

0 - α

0

 

- β2

 

α2 - β

2

 

 

 

1

0

0

0

 

- β2

 

 

- β2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Для обеспечения ортогональности С=F’F требуется равенство нулю как суммы элементов всех столбцов, кроме первого, так и попарного их произведения. В итоге получим систему из двух уравнений относительно неизвестных параметров α и β :

118

 

2n 1- β + 2 α2 - β - 2n - 2 β = 0;

 

2n 1- β 2 + 4β α2 - β + 2n - 4 β2 + β2 = 0.

Отсюда можно найти выражение для плеча:

α 2n 1 N 2n2 .

6.1.5.D-оптимальные планы

Втеории D-оптимального планирования существенно используются непрерывные планы, для которых информационная L и

дисперсионная D матрицы определяются как обобщения соответствующих матриц дискретных планов:

 

 

 

 

 

N

r

r

L

1

F F

1

f (x j ) f (x j )

hi

f (xi ) f (xi ) li f (xi ) f (xi ),

 

 

 

 

N

 

N j 1

i 1 N

i 1

 

 

 

 

 

r

 

 

 

D L 1 N (F F ) 1 ( li f (xi ) f (xi ) 1 .

 

 

 

 

 

i 1

 

 

 

Здесь,

как обычно, F

матрица значений базисных функций,

f(xj) – вектор-строка значений базисных функций в точке xj. Так, для матрицы плана, состоящего из четырех точек ПФП 22 и двух точек в центре плана (N=6), непрерывный план есть

l x1

x2

x3

x4

x5 ,

1/ 6

1/ 6

1/ 6

1/ 6

1/ 3

где первые четыре точки спектра x1,x2,x3,x4 сответствуют ПФП 22; х5=(0,0) – центральная точка. Матрицы L и D для этого плана при

поиске модели y=a0+a1x1+a2x2 имеют вид:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

0

0

 

1

0

0

 

L

1

F F

0 2 / 3

0

,

D L 1 0 3 / 2

0

.

 

6

 

 

 

 

 

 

 

 

 

 

0

0

2 / 3

0

0

3 / 2

 

 

 

Введем функцию

d(x, l) f (x)Df (x) , пропорциональную дис-

персии оценки прогнозного значения функции отклика у в точке х (сравните с (3.33)). Упомянутая выше теорема эквивалентности утверждает, непрерывный план l, обеспечивающий минимум опре-

119

делителя матрицы D (что эквивалентно максимуму определителя матрицы L) одновременно доставляет максимум по х функции d(x,l).

Построение D-оптимальных планов является сложной вычислительной задачей. Аналитический путь здесь оказывается возможным в некоторых простейших случаях. Приведем в качестве примера процедуру получения D-оптимального плана на отрезке [-1,1]

для полиномиальной модели от одной переменной y = a0 + a1x + a2x2+ …+adxd .

Спектр плана сосредоточен в d+1 точке с одинаковой частотой l1=l2=…=ld+1=1/(d+1). Координаты точек находятся как корни урав-

нения

(1-x2)d (x)=0,

где d (x) – производная от d-го полинома Лежандра.

В общем виде n-й полином Лежандра Pn (x) определяется сле-

n

дующей формулой Pn (x)

1

 

 

d

(x2

1)n .

Приведем несколько

n

 

 

 

 

n

 

 

 

n!2

 

dx

 

 

 

 

 

 

 

первых полиномов Лежандра:

 

 

 

 

 

 

 

 

 

 

 

 

P0 (x) 0,

P1(x) x,

P2 (x)

 

1

 

(3x2

1),

P3 (x)

1

(5x3

3x) .

2

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

Так, для квадратичного полинома y = a0 + a1x + a2x2 эксперименты должны проводиться с частотой 1/3. Для нахождения точек спектра составим уравнение

(1 x2 ) 12 (3x2 1) 0 ,

корни которого есть: x1= –1, x2=0, x3=1.

Аналитические решения найдены также для квадратичных полиномов на гиперкубе (планы Кифера и Коно).

В общем случае для построения D-оптимальных планов используются численные процедуры, связанные с максимизацией определителя информационной матрицы F’F. Процедура носит итерационный характер: начиная от некоторого начального плана Х0 и соответствующей матрицы F0 на первом шаге итерации решается оп-

тимизационная задача по поиску точки x*1 такой, что

120