Назаметдинов Анализ данных 2012
.pdfстью нахождения коэффициентов регрессии (критерии A- и D- оптимальности), и критерии, требующие максимальной точности оценки выходной переменной (критерий G-оптимальности). Вторую группу составляют критерии, зародившиеся в практике планирования эксперимента и ориентированные на удобство расчетов и организации проведения экспериментов (критерии ортогональности и композиционности).
Смысл перечисленных критериев можно пояснить, используя понятие эллипсоида рассеяния случайного вектора. Для случайного вектора а размерности k 1, ковариационная матрица которого есть cov a, эллипсоид рассеяния задается выражением
(a Ma) cov 1 a (a Ma) k 3,
описывающим эллипсоид в (k 1) -мерном пространстве с цент-
ром в точке Ма. Эта геометрическая фигура имеет такие размеры, что ковариационная матрица случайного вектора, равномерно распределенного в пределах эллипсоида, совпадает с матрицей cov a. Следовательно, чем больше рассеяние вектора относительно его математического ожидания, тем большие размеры имеет эллипсоид рассеяния.
Критерий А-оптимальности
Поскольку точностной характеристикой вектора коэффициентов регрессии является ковариационная матрица, а критерии планирования желательно иметь в скалярной форме, то необходима некоторая свертка ковариационной матрицы. Критерий A-оптималь-
ности в качестве свертки использует след матрицы С (F' F) 1 .
Поскольку диагональные элементы матрицы С пропорциональны дисперсии оценок коэффициентов регрессии, то при минимизации следа матрицы С минимизируется, по сути дела, суммарная либо средняя дисперсия оценок коэффициентов модели:
tr C( X ) mintr C( X ) .
A X
Известно, что сумма диагональных элементов матрицы равняется сумме её собственных значений. Поскольку квадраты длины осей эллипсоида рассеяния пропорциональны собственным значениям ковариационной матрицы, то критерий A-оптималь-
111
ности требует минимизации диагонали параллелепипеда, описанного у эллипсоида рассеяния.
Критерий D-оптимальности
Критерий D-оптимальности требует такого расположения точек в области планирования , при котором определитель матрицы
(F ' F ) 1 имеет минимальную величину. Иными словами, план X * |
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
D |
D-оптимален, если |
|
|
|
|
|
|
|
|
|||
|
C( X D* ) |
|
min |
|
C( X ) |
|
min |
|
(F' F) 1 |
|
. |
|
|
|
|
|
|
||||||
|
|
|
X |
|
|
|
X |
|
|
|
|
Известно, что объем V эллипсоида рассеяния пропорционален корню из величины определителя ковариационной матрицы, т.е.
V ~ |
|
ˆ |
|
. С учетом (3.8) V |
|
(F ' F ) |
1 |
|
. |
cov a |
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
Чем меньше величина определителя, тем меньше, как правило, разброс оценок коэффициентов относительно их математических ожиданий. Исключением является случай, когда эллипсоид рассеяния имеет сильно вытянутую форму.
Критерий G-оптимальности
План X * G-оптимален, если он обеспечивает наименьшую величину максимальной дисперсии оценки зависимой переменной:
max y2ˆ |
( XG* ) min max y2ˆ |
( X ) min max f '(x)(F' F) 1 f (x) . |
x |
X x |
X x |
Критерий ортогональности
Критерий ортогональности требует выбора плана X , обеспечивающего диагональность информационной матрицы. Использование этого критерия имеет целью упростить вычисления и обеспечить независимость оценок коэффициентов регрессии.
Критерий композиционности
Критерий композиционности требует выбора плана, который включал бы в себя точки оптимального плана моделей более низкого порядка. Это обеспечивает сокращение числа опытов при поэтапном усложнении модели.
На практике желательно использовать планы, удовлетворяющие одновременно нескольким критериям. В общем случае такого сочетания свойств не наблюдается. В теории планирования экспе-
112
римента доказана так называемая теорема эквивалентности, утверждающая, что непрерывный D-оптимальный план является также G-оптимальным. Условие D-оптимальности дискретного плана X имеет следующий вид:
max Nf (x)(F F) 1 f (x) k 1 . |
(6.2) |
x |
|
Если для дискретного D-оптимального плана имеет |
место |
N(F F) 1 I , то этот план является также A-оптимальным. |
|
6.1.3. Планы факторных экспериментов
Полный факторный эксперимент
В факторном эксперименте рассматриваются ортогональные планы, предназначенные для моделей, описываемых неполными полиномами вида
~ |
a0 |
a1x1 ... an xn a12x1x2 |
... an 1,n xn 1xn |
y |
a123x1x2 x3 ... an 2,n 1,n xn 2 xn 1xn ... a12...n x1x2...xn u.
Для таких моделей достаточно рассматривать планы, в которых каждая переменная (фактор) принимает значения только на двух
уровнях: xmin* и xmax* . Нормированные переменные при этом будут
принимать значения –1 и +1. Множество всех точек в n -мерном пространстве, координаты которых равны –1 или +1, называется
полным факторным планом (ПФП) типа 2n . Число точек такого плана N 2n . Сам эксперимент называют полным факторным
экспериментом (ПФЭ) типа 2n . Примеры полных факторных планов для n=1 и n=2:
|
|
|
|
1 |
1 |
1 |
, |
|
1 |
1 |
|
X (1) |
|
X (2) |
|
. |
|
1 |
|
|
1 |
1 |
|
|
|
|
|
|
|
|
|
|
|
1 |
1 |
Матрица планирования X (n 1) |
ПФП 2n 1 может быть получена с |
||||
помощью матрицы X (n) |
ПФП 2n следующим образом: |
113
X
X (n 1) X
(n)
(n)
k ,
где k – вектор-столбец, состоящий из 2n единиц. Легко видеть, полные планы являются центральными, а их информационная матрица имеет вид:
F F 2n I .
Дробный факторный эксперимент (ДФЭ)
Из-за показательного роста числа экспериментов с увеличением размерности пространства ПФП оказываются практически не-
приемлемыми при больших n . Однако из матрицы ПФП 2n может быть отобрана некоторая часть, называемая дробным факторным планом (ДФП), которая сохраняет свойство ортогональности. Правило построения ДФП состоит в следующем. Задается порядок дробности p . Из n входных переменных отбирают n-p переменных (их называют основными), и для них строят полный факторный план X (n p) . Этот план затем дополняют p столбцами, соответст-
вующими оставшимся переменным. Для определения способа образования этих столбцов вводится понятие генератора (генерирующего соотношения) плана. Генератор представляет собой произведение граничных значений ( 1 ) основных переменных, определяющее граничные значения элементов каждого из дополнительных p столбцов матрицы плана. Так, для построения линейной мо-
дели от трех переменных y a0 a1x1 a2 x2 a3x3 можно восполь-
зоваться ДФП типа 23 1 с генератором x3 x1x2 :
114
|
x |
x |
x |
x x |
|
1 |
2 |
3 |
1 |
2 |
|
|
1 |
1 |
|
1 |
|
1 |
1 |
|
1 |
|
|
1 |
1 |
|
1 |
|
|
1 |
1 |
|
1 |
|
Чем выше размерность пространства , тем большее число генераторов плана можно предложить. Целесообразно выбирать такие из них, которые соответствуют незначимым взаимодействиям. Действительно, в состав базисных функций входят и левая, и правая части генератора и, поскольку от эксперимента к эксперименту они меняются одинаковым образом, различить эффекты, соответствующие частям генератора, не представляется возможным. Так, если в качестве генератора выбрано соотношение x4 x1x2 x3 , то
получить раздельные оценки для a4 и a123 нельзя. Соответствующий ДФП позволяет оценить лишь суммарное воздействие линейного фактора x4 и тройного взаимодействия x1 x2 x3 . Подобные
оценки называют смешанными. Однако, если взаимодействие незначимо, т.е. a123 0 , то aˆ4 будет практически несмешанной оцен-
кой. Для определения порядка смешивания вводят понятие контраста плана. Контраст – это генерирующее соотношение, задающее элементы столбца свободного члена матрицы F . (Со свободным членом уравнения регрессии связывается фиктивная переменная x0 , тождественно равная единице.) Контраст получают из генери-
рующего соотношения умножением на переменную, стоящую слева от знака равенства. Для ДФП с генератором x4 x1x2 x3 контраст
есть |
1 x x |
2 |
x |
3 |
x |
4 |
, так как x2 |
1. Чтобы определить, с какими пе- |
|
1 |
|
|
i |
|
ременными или взаимодействиями смешана оценка некоторой данной переменной, необходимо умножить обе части контраста на эту переменную. При этом получают порядок смешивания оценок коэффициентов при использовании данного плана.
115
Пусть, к примеру, исследуется объект из трех переменных х1 , x2 , x3 , полная модель которого есть
y a0 a1x1 a2 x2 a3x3 a12x1x2 a13x1x3 a23x2 x3 a123x1x2 x3. (6.3)
(В выражении (6.3) и далее случайное возмущение опускается.) В ходе исследования было решено ограничиться линейным (по переменным) описанием
|
|
|
|
|
y a0 a1x1 a2 x2 a3x3 , |
|
|
|
|
(6.4) |
||||||||||||||
что |
дало |
основание |
воспользоваться |
ДФЭ |
|
23 1 |
с |
|
генератором |
|||||||||||||||
x3 |
x1 x2 |
с определяющим контрастом 1 x1x2 x3 . |
|
|
|
|
||||||||||||||||||
Порядок смешивания для переменных x1 , x2 , x3 , следующий: |
||||||||||||||||||||||||
|
|
x |
x2 x |
2 |
x |
3 |
x |
2 |
x |
3 |
, |
x |
2 |
x x |
3 |
, |
x |
3 |
x x |
2 |
. |
(6.5) |
||
|
|
1 |
1 |
|
|
|
|
|
1 |
|
|
|
|
1 |
|
|
||||||||
С учетом (6.5) сгруппируем подобные члены в модели (6.3): |
|
|||||||||||||||||||||||
|
y (a0 |
a123) (a1 a23)x1 (a2 a13)x2 |
(a3 a12)x3 . |
(6.6) |
Сравнивая (6.6) и (6.4) , видим, что при оценивании линейной модели (6.4) получаются не чистые оценки свободного члена a0 и
линейных эффектов a1 , a2 , a3 , а оценки комбинаций, включающих
двойные и тройные (для свободного члена) эффекты:
aˆ0 a0 a123, aˆ1 a1 a23, aˆ2 a2 a13, aˆ3 a3 a12 .
Таким образом, платой за сокращение числа экспериментов стала совместность оценок. Если же поставить дополнительно четыре эксперимента с генератором x3 x1x2 , то получим оценки
|
aˆ |
a a |
, aˆ |
|
a |
a , aˆ |
|
a a , aˆ |
a a |
|
|||||
|
0 |
0 123 |
|
1 |
|
1 |
23 |
2 |
2 13 |
3 |
3 12 . |
|
|||
|
Восемь оценок aˆ |
, , aˆ |
, aˆ , , aˆ |
дают возможность получить |
|||||||||||
|
|
|
0 |
|
|
3 |
0 |
|
3 |
|
|
|
|
|
|
раздельные оценки эффектов. |
Так, |
(aˆ aˆ ) / 2 |
есть оценка |
a , а |
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
1 |
2 |
|
|
1 |
(aˆ |
aˆ ) / 2 – оценка |
a |
23 |
и так далее. Это и понятно, поскольку две |
|||||||||||
1 |
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
серии экспериментов с генераторами |
x3 |
x1 x2 |
и x3 |
x1 x2 |
дают |
вкупе полный факторный эксперимент, который обеспечивает раздельное оценивание коэффициентов.
В отсутствие априорной информации о значимости взаимодействий предпочтение отдается генераторам, отвечающим взаимо-
116
действиям высокого порядка, поскольку коэффициенты регрессии при них по абсолютной величине, как правило, меньше.
К достоинствам факторных планов следует отнести их хорошие
точностные свойства. Легко доказать, что они являются |
|
D-, G-, A- |
||||||||||||||||||
оптимальными. К примеру, |
у ПФП 22 , |
используемого для оценки |
||||||||||||||||||
коэффициентов модели вида |
|
y a0 a1x1 a2 x2 a12x1x2 , матрица |
||||||||||||||||||
плана X и матрица значений базисных функций F имеют вид: |
|
|||||||||||||||||||
|
|
|
|
|
1 1 |
|
|
1 1 |
1 |
1 |
|
|
|
|
||||||
|
|
|
X |
1 1 |
|
|
1 1 |
1 |
1 |
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
, F |
|
1 |
|
. |
|
|
|
|
||||
|
|
|
|
|
1 1 |
|
|
1 1 |
1 |
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
1 |
|
|
|
|
|
|
|
|
|
, |
|
1 |
|
|
1 |
|
|
1 |
1 |
|
|
(6.2) |
- |
||||
Отсюда F F |
|
(F |
F) 1 |
|
1 |
4 |
I . Левая часть выражения |
|||||||||||||
|
4I |
|
|
|
|
при |
||||||||||||||
мет вид (1 x2 x2 x2 x2 ) , поскольку f |
x (1, x , x , x x ) . Мак- |
|||||||||||||||||||
|
1 |
|
2 |
1 |
2 |
|
|
|
|
|
|
|
1 |
2 |
1 |
2 |
|
|
||
симум выражения (1 x2 |
|
x2 |
x2 x2 ) достигается в вершинах ква- |
|||||||||||||||||
|
|
|
|
|
1 |
|
|
|
2 |
|
1 |
2 |
|
|
|
|
|
|
|
|
драта: 1 x1 |
1, |
1 x2 |
1 и равняется четырем. Число оценива- |
емых коэффициентов (k+1) также четыре. Следовательно, условие (6.2) выполняется.
6.1.4. Центральные композиционные планы
В случае, когда при использовании линейной регрессионной модели значения коэффициентов регрессии близки к нулю, необходимо добавлять в уравнение квадратичные слагаемые, т.е. модель выбирается в виде полного полинома второго порядка:
n |
|
n |
|
y a0 ai xi ai, j xi x j aii xi2 . |
(6.7) |
||
i 1 |
i, j |
i 1 |
|
Для подобного рода моделей разработаны центральные композиционные планы (ЦКП). ЦКП включает в себя точки соответствующего факторного эксперимента, а также две звездные точки на каждую переменную и центральную точку.
Звездные точки располагаются на координатной оси симметрично относительно начала координат на величину α.
117
Для двумерного случая модель, ЦКП и матрица значений базисных функций имеют вид:
y a0 a1x1 |
a2 x2 a3 x1x2 a4 x12 a5 x22 , |
|
|
(6.8) |
|||||||||||||||
1 |
1 |
1 1 1 |
|
1 1 1 |
|
|
|||||||||||||
|
- 1 |
1 |
|
|
|
|
|
|
|
|
-1 1 |
1 |
|
|
|||||
|
|
1 -1 1 |
|
|
|||||||||||||||
1 |
- 1 |
1 1 -1 |
-1 1 |
1 |
|
|
|||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 -1 -1 |
|
|
|
|
|
|
1 |
|
|||||||||
|
- 1 |
- 1 |
|
|
1 1 |
|
|||||||||||||
X |
α |
0 |
, F 1 |
α |
|
|
|
0 |
|
0 |
|
|
|
α2 |
0 |
. |
(6.9) |
||
- α |
0 |
|
1 - α 0 |
|
0 α2 |
0 |
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0 |
α |
|
1 0 |
|
|
|
α |
|
0 |
|
|
|
0 α2 |
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0 |
- α |
1 0 - α |
|
0 |
|
|
|
0 α2 |
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0 |
0 |
1 0 |
|
|
|
0 |
|
0 |
|
|
|
0 |
0 |
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Поскольку информационная матрица С=F’F потеряла свойство |
|||||||||||||||||||
ортогональности, модель (6.7) преобразовывают: |
|
|
|
||||||||||||||||
y a'0 ai xi aij xi x j aii (xi2 β) , |
|
|
|||||||||||||||||
где β – некоторая константа сдвига. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
Для модели (6.8) матрица F (6.9) примет вид: |
|
|
|
|
|||||||||||||||
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
2 |
|
|
|
|
|
1 |
1 |
1 1 1 - β |
|
|
1 - β |
|
|
|
|
|
|||||||||
1 |
-1 1 -1 1 - β2 |
|
1 - β2 |
|
|
|
|
||||||||||||
|
1 |
-1 -1 1 - β |
2 |
|
1 - β |
2 |
|
|
|
|
|||||||||
1 |
|
|
|
|
|
|
|
||||||||||||
|
-1 -1 1 |
1 - β |
2 |
|
1 - β |
2 |
|
|
|
|
|||||||||
1 |
|
|
|
|
|
|
|
||||||||||||
F 1 |
α 0 |
0 α2 - β2 |
|
- β2 |
. |
|
|
|
|||||||||||
|
- α 0 |
0 α |
2 |
- β |
2 |
|
- β |
2 |
|
|
|
|
|||||||
1 |
|
|
|
|
|
|
|
|
|
||||||||||
|
|
|
|
|
|
|
2 |
|
|
2 |
|
|
|
2 |
|
|
|
||
1 |
0 |
α |
0 |
|
- β |
|
|
|
α |
|
- β |
|
|
|
|
||||
1 |
0 - α |
0 |
|
- β2 |
|
α2 - β |
2 |
|
|
|
|||||||||
1 |
0 |
0 |
0 |
|
- β2 |
|
|
- β2 |
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Для обеспечения ортогональности С=F’F требуется равенство нулю как суммы элементов всех столбцов, кроме первого, так и попарного их произведения. В итоге получим систему из двух уравнений относительно неизвестных параметров α и β :
118
|
2n 1- β + 2 α2 - β - 2n - 2 β = 0; |
|
2n 1- β 2 + 4β α2 - β + 2n - 4 β2 + β2 = 0. |
Отсюда можно найти выражение для плеча:
α 2n 1 N 2n2 .
6.1.5.D-оптимальные планы
Втеории D-оптимального планирования существенно используются непрерывные планы, для которых информационная L и
дисперсионная D матрицы определяются как обобщения соответствующих матриц дискретных планов:
|
|
|
|
|
N |
r |
r |
|
L |
1 |
F F |
1 |
f (x j ) f (x j ) |
hi |
f (xi ) f (xi ) li f (xi ) f (xi ), |
||
|
|
|
||||||
|
N |
|
N j 1 |
i 1 N |
i 1 |
|||
|
|
|
|
|
r |
|
|
|
D L 1 N (F F ) 1 ( li f (xi ) f (xi ) 1 . |
||||||||
|
|
|
|
|
i 1 |
|
|
|
Здесь, |
как обычно, F – |
матрица значений базисных функций, |
f(xj) – вектор-строка значений базисных функций в точке xj. Так, для матрицы плана, состоящего из четырех точек ПФП 22 и двух точек в центре плана (N=6), непрерывный план есть
l x1 |
x2 |
x3 |
x4 |
x5 , |
1/ 6 |
1/ 6 |
1/ 6 |
1/ 6 |
1/ 3 |
где первые четыре точки спектра x1,x2,x3,x4 сответствуют ПФП 22; х5=(0,0) – центральная точка. Матрицы L и D для этого плана при
поиске модели y=a0+a1x1+a2x2 имеют вид:
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
0 |
0 |
|
1 |
0 |
0 |
|
L |
1 |
F F |
0 2 / 3 |
0 |
, |
D L 1 0 3 / 2 |
0 |
. |
||
|
||||||||||
6 |
|
|
|
|
|
|
|
|
|
|
|
0 |
0 |
2 / 3 |
0 |
0 |
3 / 2 |
||||
|
|
|
||||||||
Введем функцию |
d(x, l) f (x)Df (x) , пропорциональную дис- |
персии оценки прогнозного значения функции отклика у в точке х (сравните с (3.33)). Упомянутая выше теорема эквивалентности утверждает, непрерывный план l, обеспечивающий минимум опре-
119
делителя матрицы D (что эквивалентно максимуму определителя матрицы L) одновременно доставляет максимум по х функции d(x,l).
Построение D-оптимальных планов является сложной вычислительной задачей. Аналитический путь здесь оказывается возможным в некоторых простейших случаях. Приведем в качестве примера процедуру получения D-оптимального плана на отрезке [-1,1]
для полиномиальной модели от одной переменной y = a0 + a1x + a2x2+ …+adxd .
Спектр плана сосредоточен в d+1 точке с одинаковой частотой l1=l2=…=ld+1=1/(d+1). Координаты точек находятся как корни урав-
нения
(1-x2)P´d (x)=0,
где P´d (x) – производная от d-го полинома Лежандра.
В общем виде n-й полином Лежандра Pn (x) определяется сле-
n
дующей формулой Pn (x) |
1 |
|
|
d |
(x2 |
1)n . |
Приведем несколько |
||||||||
n |
|
|
|
|
n |
||||||||||
|
|
|
n!2 |
|
dx |
|
|
|
|
|
|
|
|||
первых полиномов Лежандра: |
|
|
|
|
|
|
|
|
|
|
|
|
|||
P0 (x) 0, |
P1(x) x, |
P2 (x) |
|
1 |
|
(3x2 |
1), |
P3 (x) |
1 |
(5x3 |
3x) . |
||||
2 |
|
2 |
|||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
Так, для квадратичного полинома y = a0 + a1x + a2x2 эксперименты должны проводиться с частотой 1/3. Для нахождения точек спектра составим уравнение
(1 x2 ) 12 (3x2 1) 0 ,
корни которого есть: x1= –1, x2=0, x3=1.
Аналитические решения найдены также для квадратичных полиномов на гиперкубе (планы Кифера и Коно).
В общем случае для построения D-оптимальных планов используются численные процедуры, связанные с максимизацией определителя информационной матрицы F’F. Процедура носит итерационный характер: начиная от некоторого начального плана Х0 и соответствующей матрицы F0 на первом шаге итерации решается оп-
тимизационная задача по поиску точки x*1 такой, что
120