лекции Анализ Данных
.pdfПАРАГРАФ 1. Определение.
Планирование эксперимента – выбор числа и условия проведения опыта необходимо для решения заданных задач (с рассмотренной точностью)
Идея
Оптимальное управление эксперимента при неполном знании изучаемого объекта.
Необходимо:
1.min число опытов;
2.обеспечить варьирование всех параметров, от которых зависит объект;
3.действия экспериментатора формализовать.
Эксперимент бывает:
-пассивный: при котором экспериментатор не может управлять изучаемым объектом)
-активный: экспериментатор активно влияет на изучаемый объект.
ПАРАГРАФ 2. ОБЪЕКТ ИССЛЕДОВАНИЯ.
х1…х2 – управляемые параметры хН1…хН2 – неуправляемые параметры Y1…Y2 – свойства О.Н.
Эксперимент
-экстремальный: к-й ставится для решения задач оптимизации – оптимизация соотношений между факторами и свойством системы Поиск максимума и минимума
-интерполяционный: ставится для нахождения связи свойств объекта исследовании (ОИ) и входными параметрами .
ПАРАГРАФ 3. ПАРАМЕТР ОПТИМИЗАЦИИ.
Требование:
1.задан количественно;
2.однозначный (функциональная зависимость между Y и факторами);
3.существовать для мобильной комбинации значение которого могут принимать факторы;
4.универсальный (всесторонний характер О.Н.)
5.эффективный (определяется с max возможной для данных условий точностью).
ПАРАГРАФ 4. ФАКТОРЫ.
Требования:
1.задаваться количественно;
2.// - // - // область определения (совокупность всех знаний которые может принимать фактор)
3.управляемые (эксперимент может поддерживать фактор на заданном уровне сколько угодно);
4.Однозначность и независимость.
ПАРАГРАФ 5. МОДЕЛЬ.
Y = F (x1,...x2 ) описать изучаемый объект, либо написать функцию оптим.
Задать модель – выбрать вид функции оптимальных параметров, полученных на основе эксперимента.
Модель адекватна, если она позволяет предсказать свойства ОИ с требуемой точностью.
ПАРАГРАФ 6. КОДИРОВАНИЕ ФАКТОРОВ.
xосн1 = |
хmin 1 + xmax 2 |
i=1,х – т. Основного уровня |
|
2 |
|||
|
|
- все точки планируются вокруг т. xосн1
(Ii) Интервал варьирования - величина, добавление которой к основному уровню дает max значение, а а при вычитании min значение фактора.
x |
= |
xi − xоснi |
|
i |
|
|
(1.1) |
|
|
Ii |
xi = {xmax 1; xmax i }
Какие значения будет принимать кодированный фактор х1-? x1 = {−1,1}= {−;t}
ГЛАВА 2.
ПЛАНИРОВАНИЕ ЭКСПЕРИМЕНТА.
ПАРАГРАФ 1. ПОЛНЫЙ ФАКТОРНЫЙ ЭКСПЕРИМЕНТ (ПФЭ)
- реализуются возможные комбинации
Уровни значения факторов.
j |
X1 |
X2 |
… |
Xk |
Y |
Факторы закодированы |
i |
|
|
|
|
|
По формуле (1.1) |
1 |
Xn |
X12 |
… |
Xik |
Y1 |
N = mk |
|
|
|
|
|
|
N – число опытов |
… |
|
|
|
|
|
|
|
|
|
|
|
k – число факторов |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
m – число уровней (к-е может принимать каждый фактор) |
… |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
N |
Xn1 |
Xn2 |
… |
Xnk |
Yn |
|
|
|
|
|
|
|
|
Свойства полного факторного эксперимента:
N
1. симметричность ∑xij = 0
i =1
N
2. Ортогональность ∑xij xil = 0, l ≠ j
i=1
3. Нормировка ∑xij = N
i=1
F = b0 +b1x1 +... +bk xk
Функция оптим. в виде уравнения регрессии. Коэф-ты легко определить.
N |
x |
N |
1y |
N |
|
bj = ∑ |
ij |
b0 = ∑ |
bij = ∑xij xi / N |
||
|
i |
||||
N |
|||||
N |
|||||
i =1 |
i=1 |
i=1 |
Y = b0 +b1xi +... +b2 x2
ПФЭ 22
N = mk = 22
x1 = {xmin ; xmax}
x1 = {xmin 2; xmax 2}
x2 = {−;+}
Изобразим область эксперимента в факторном пространстве.
|
|
X1 |
X2 |
Y |
|
|
X1 |
X2 |
Y |
1 |
1 |
+ |
+ |
Y1 |
Ù |
1 |
Xmin |
Xmax |
Y1 |
2 |
1 |
+ |
- |
Y2 |
1 |
Xmin |
Xmax |
Y2 |
|
3 |
1 |
- |
- |
Y3 |
|
1 |
Xmin |
Xmax |
Y3 |
4 |
1 |
- |
+ |
Y4 |
|
1 |
Xmin |
Xmax |
Y4 |
Y =b0 + b1 x1 + b2 x2
|
|
∑xi0 yi |
|
y1 + y2 + y3 + y4 |
|
|
y1 + y2 − y3 − y4 |
|
|
|
y1 − y2 − y3 + y4 |
b |
= |
i=1 |
= |
; b |
= |
; b |
2 |
= |
|||
0 |
4 |
4 |
1 |
4 |
|
4 |
|||||
|
|
|
|
σb1, 2 = σ2y - среднее квадратичное отклонение
Звучание, полный факторный эксперимент позволяет определить не только коэффициенты регрессии I порядка, но и коэф-ты уравнении, которые учитывают взаимодействие факторов.
Y =b0 |
+ b1 x1 +... + bk xk + b12 x1 x2 +... |
||||||
|
X0 |
X1 |
X2 |
X1X2 |
Y |
b = |
y1 − y2 + y3 − y4 |
1 |
+1 |
-1 |
-1 |
+1 |
Y1 |
12 |
4 |
|
|
|
|
|
|
|
|
2 |
+1 |
-1 |
+1 |
-1 |
Y2 |
|
|
3 |
+1 |
+1 |
+1 |
+1 |
Y3 |
|
|
4 |
+1 |
+1 |
-1 |
-1 |
Y4 |
|
|
ПАРАГРАФ 2. ДРОБНЫЕ ФАКТОРНЫЕ ЭКСПЕРИМЕНТЫ.
При увеличении числа факторов количество опытов растет по степенной зависимости. Если ограничиться линейной зависимостью, то число опытов можно сократить, используя дробно-факторный эксперимент (ДФЭ) (идея: мы принебрегаем эффектом взаимодействия факторов, вводим новый фактор)
Замечание №1: ДДФЭ отвечает всем свойствам ПФЭ (нормирование, симметрия, ортогональность);
Замечание №2: Если при ДФЭ реализ-ся половина ПФЭ, то ДФЭ обознач-ся 2k −1 , к – число факторов, 2 – число уровней, к-е может принимать фактор.
ПФЭ 22
Ур-е регрессии: Y =b0 + b1 x1 + b2 x2 + b12 x1 x2 Матрица регрессии (1)
Вводим нов x3
|
X0 |
X1 |
X2 |
X3 |
Y |
ДФЭ 23−1 |
|
|
|
|
|
|
|
1 |
+1 |
-1 |
-1 |
+1 |
Y1 |
Y =b + b x + b x |
|
+ b x |
|
||||
|
|
|
|
|
|
0 |
1 |
1 |
2 |
2 |
3 |
3 |
|
2 |
+1 |
-1 |
+1 |
-1 |
Y2 |
||||||||
|
|
|
|
|
|
|
|||||||
3 |
+1 |
+1 |
+1 |
+1 |
Y3 |
|
|
|
|
|
|
|
|
4 |
+1 |
+1 |
-1 |
-1 |
Y4 |
|
|
|
|
|
|
|
ПАРАГРАФ 3. ПЛАНИРОВАНИЕ II ПОРЯДКА.
Фун-ю отклика в области экстремума как правило удается описать ур-ем регрессии II порядка, вида Y =b0 + b1 x1 +... + bk xk + b11 x12 ...
Возможно использование центрального композиционного плана.
Построим:
Y =b0 + b1 x1 + b2 x2 + b12 x1 x2 + b11 x12 + b22 x22
Для того чтобы найти все коэф-ты уравнения необходимо чтобы каждому фактору приши 3 значения.
Матрица планирования не кодированных факторов.
|
Х1 |
|
|
|
Х2 |
|
|
Y |
|
|
|
|||
1 |
xmax1 |
|
|
xmax 2 |
|
|
Y1 |
|
|
|
||||
2 |
xmax1 |
|
|
xmax 2 |
|
|
Y2 |
|
|
|
||||
3 |
xmin 1 |
|
|
|
xmin 21 |
Y3 |
|
|
|
|||||
4 |
xmin 1 |
|
|
|
xmin 2 |
|
|
Y4 |
|
|
|
|||
5 |
x |
|
|
|
x |
осн2 |
|
|
Y5 |
|
|
|
||
|
осн1 |
|
|
|
|
|
|
|
|
|
|
|
||
6 |
xосн1 +αI12 |
|
xосн2 |
|
|
Y6 |
|
|
|
|||||
7 |
x |
|
|
|
x |
осн1 |
−αI 2 |
Y7 |
|
|
|
|||
|
осн1 |
|
|
|
|
2 |
|
|
|
|
|
|||
8 |
xосн1 −αI12 |
|
xосн2 |
|
|
Y8 |
|
|
|
|||||
9 |
x |
|
|
|
x |
осн1 |
+αI 2 |
Y9 |
|
|
|
|||
|
осн1 |
|
|
|
|
2 |
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|||||
|
X0 |
X1 |
X2 |
X1X2 |
X12 |
|
X 22 |
Y |
|
|||||
1 |
+1 |
|
+1 |
+1 |
+1 |
|
+1 |
|
+1 |
Y1 |
Ядро |
|||
2 |
+1 |
|
+1 |
-1 |
|
-1 |
|
+1 |
|
+1 |
Y2 |
|||
3 |
+1 |
|
-1 |
-1 |
|
+1 |
|
+1 |
|
+1 |
Y3 |
|
||
4 |
+1 |
|
-1 |
+1 |
-1 |
|
+1 |
|
+1 |
Y4 |
Осн ур |
|||
5 |
+1 |
|
0 |
|
0 |
|
0 |
|
|
Y5 |
||||
|
0 |
|
|
|
0 |
|
|
|||||||
6 |
+1 |
|
α |
0 |
|
0 |
|
α 2 |
|
0 |
|
Y6 |
|
|
7 |
+1 |
|
0 |
- α |
0 |
|
0 |
|
α2 |
Y7 |
Зв.точки |
|||
8 |
+1 |
|
- α |
0 |
0 |
|
α 2 |
|
0 |
|
Y8 |
|
||
9 |
+1 |
|
0 |
α |
0 |
|
0 |
|
α2 |
Y9 |
|
Замечание №1: область которой соотв-ют опыты 1,2,3,4 наз-ся – ядром Замечание №2: постр. План не явл-ся ортогон-м
-скалярное произведение некот-х столбцов ≠ 0
-не может не завис. опред все коэф-ты ур-я регрессии!
Построим ортогон-й план (ортог-м постр план ЦХП)
ПАРАГРАФ 4. ОРТОГОНАЛЬНЫЙ ПЛАН II ПОРЯДКА
|
X0 |
X1 |
X2 |
X1X2 |
X12 −ϕ |
X 22 −ϕ |
Y |
Подберем α и φ так чтобы скалярное |
||||||||
|
|
|
|
|
|
|
|
произведение любых 2-х вект-х столбцов |
||||||||
1 |
+1 |
+1 |
+1 |
+1 |
1- φ |
1- φ |
Y1 |
|||||||||
|
|
|
|
|
|
|
|
обращалось в 0. |
|
|||||||
2 |
+1 |
+1 |
-1 |
-1 |
1- φ |
1- φ |
Y2 |
|
||||||||
3 |
+1 |
-1 |
-1 |
+1 |
1- φ |
1- φ |
Y3 |
|
|
|
1 |
|
|
|
||
4 |
+1 |
-1 |
+1 |
-1 |
1- φ |
1- φ |
Y4 |
|
|
|
|
|
|
|
||
|
(N0 N) |
2 |
|
− N0 |
|
|||||||||||
|
|
|
|
|
|
|
|
|
||||||||
5 |
+1 |
0 |
0 |
0 |
- φ |
- φ |
Y5 |
α = |
|
|
|
|
|
|
|
|
|
2 |
|
|
|||||||||||||
6 |
+1 |
α |
0 |
0 |
2 |
- φ |
Y6 |
|
|
|
|
|
||||
α - φ |
|
|
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
7 |
+1 |
0 |
- α |
0 |
- φ |
α 2 - φ |
Y7 |
|
2 |
|
|
|||||
ϕ = |
N0 + |
2α |
|
|
|
|||||||||||
8 |
+1 |
- α |
0 |
0 |
α 2 - φ |
- φ |
Y8 |
|
|
|
|
|
||||
|
|
|
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
N |
|
|
|
|
|
|
9 |
+1 |
0 |
α |
0 |
- φ |
α 2 - φ |
Y9 |
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
N |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
∑xij yi |
|||
N – полное число опытов |
|
|
b |
j |
= |
i=1 |
|
|
|
|||||
|
|
N |
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
∑xij2 |
|||
N = N0 + 2k + n0 |
|
|
|
|
|
|
|
i=1 |
|
|
|
|||
|
|
|
|
|
|
|
|
σ 2 |
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|||
N0 – число опытов в ядре |
|
|
|
|
σbj2 = |
y |
- дисперсия |
|||||||
|
|
|
|
N |
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
∑xij2 |
||
n0 – число опытов на основном уровне |
|
|
|
|
|
i=1 |
||||||||
|
|
|
|
|
|
|
|
|||||||
2k – количество звездных точек |
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
α = 1 |
|
|
|
|
|
|
|
X0 |
X1 |
X2 |
X1X2 |
X12 −ϕ |
X 22 −ϕ |
Y |
|
|
|
|
|
|
|
1 |
+1 |
+1 |
+1 |
+1 |
1/3 |
1/3 |
Y1 |
φ = 2/3 |
|
|
|
|
|
|
2 |
+1 |
+1 |
-1 |
-1 |
1/3 |
1/3 |
Y2 |
|
|
|
|
|
|
|
3 |
+1 |
-1 |
-1 |
+1 |
1/3 |
1/3 |
Y3 |
|
|
|
|
|
|
|
4 |
+1 |
-1 |
+1 |
-1 |
1/3 |
1/3 |
Y4 |
|
|
|
|
|
|
|
5 |
+1 |
0 |
0 |
0 |
-2/3 |
-2/3 |
Y5 |
|
|
|
|
|
|
|
6 |
+1 |
α |
0 |
0 |
1/3 |
-2/3 |
Y6 |
|
|
|
|
|
|
|
7 |
+1 |
0 |
- α |
0 |
-1/3 |
1/3 |
Y7 |
|
|
|
|
|
|
|
8 |
+1 |
- α |
0 |
0 |
1/3 |
-2/3 |
Y8 |
|
|
|
|
|
|
|
9 |
+1 |
0 |
α |
0 |
-2/3 |
1/3 |
Y9 |
|
|
|
|
|
|
|
Обработка результатов эксперимента.
Допустим, мы провели М парал-х опытов и получили такие результаты:
M : y(i) ; y(1) ...y( N )
Будем считать, что наиболее близкое к истинному среднее значение:
M
∑y(i)
y = i=1M
Абсолютная ошибка измерения – это величина, показывающее отклонение измер. величины от среднего значения
y (i) = y − yi
Для оценки погрешности измерений абс. ошибку использовать нельзя.
Среднее квадратичное отклонение (σ ) - величина, равная корню квадратному из дисперсии.
Дисперсия – ср. квадратичное отклонение случайной величины от его среднего.
M
∑ y (i)2
σ 2 = i=M1 −1
Виды ошибок:
Систематические ошибки – ошибки, связанные с неучтенными факторами при проведении эксперимента (будем считать что их нет).
Случайные ошибки – ошибки, зависящие от большого числа факторов, каждый из которых вносит небольшой вклад, к-й не явл-ся доминирующим.
Будем считать что истинное значение лежит в интервале [y −δ, y +δ] δ - доверительный интервал.
Вероятность того что мы попали в этот диапазон называется доверительным интервалом. Иногда исп-ют термин «уровень значимости» = 1 – доверит-ная вероятность.
δ =σ ttp,m - доверит-й интервал. t – коэф-т Стьюдента.
δ =σ ttp, f p = 0.95
F = M – 1 – число степеней свободы
ГРУБЫЕ ОШИБКИ.
При проведении эксперимента возможен брак, к-й приводит к грубым ошибкам. Эти результаты нужно исключить из обрат. Для этих целей исп-ют критерий Стьюдента, к-й заключается в след-м: ошибки явл-ся грубыми, если экспериментное значение коэф. Стьюдента больше табличного значения.
|
y |
− y(i) |
> t p,M - критерий Стьюдента |
|
|
|
|
|
|
σ |
|
|
|
|
Пример: Пусть получены следующие значения.
[2,95]-? tp = 4,5 t0.95 , 3 = 4,3
2,40
2,60 y = 2,5
2,50
ОДНОРОДНОСТЬ СОВОКУПНОСТИ ДИСПЕРСИИ.
Дисперсии должны быть однородны. Для проверки однозначности пользуемся критерием Фишера, к-й заключ-ся в следующем: «Если экспериментальное значение Фишера превышает его табличное значение, то дисперсия явл-ся неоднородной» (большой разброс
взначениях дисперсии)».
σ2
σmax2 > Ff1 , f2 min
f1,f2 – число степеней свободы f1 = M1 -1 , f2 = M2 -1
ДИСПЕРСИЯ ВОСПРОИЗВОДИМОСТИ.
Оценивается дисперсии всего плана эксперимента, а не только одной строки.
Дисперсия воспроизводимости – дисперсия, полученная в рез-те усреднения опытов.
|
|
N M |
i )2 |
||
|
∑∑( yi(q) − |
y |
|||
σ 2 |
= |
i=1 q=1 |
|
|
|
y |
|
(M −1) N |
|
|
|
|
|
|
|
||
|
|
|
|
|
|
Для каждого вектор-строки имеет М опытов.
ОБРАБОТКА РЕЗУЛЬТАТОВ ЭКСПЕРИМЕНТА
Основана на следующих постулатах:
-Значения, получившиеся в результате эксперимента, явл-ся случайными величинами с нормальным законом распределния;
-Значения факторов явл-ся не случайными величинами; точность задания фактора существенно превышает погрешность измерений, получаемых в результате проведения эксперимента;
-Дисперсия величин, полученных в эксперименте, не зависит от их абсолютных величин.
Мы провели серию опытов, на основе результатов строим кривую.
Величина, равная разнице между эксперимент-м значением и полученной по модели, назся невязкой.
Величина невязки, как правило, отличается от 0.
Причина невязки:
-ошибки при проведении опытов;
-непригодность модели;
ПРОВЕРКА АДЕКВАТНОСТИ МОДЕЛИ (часть 1)
Остаточная сумма квадратов – величина, равная сумме квадратов невязок.
Для оценки адекватности модели оценивают дисперсию адекватности:
|
|
N |
σ 2 |
|
∑ yi2 |
= |
i |
|
|
||
ад |
|
f * |
|
|
f * - число степеней свободы;
yi - остаточная сумма квадратов.
Число степеней свободы – величина, равная разности числа опытов и числа констант, к-е определ-ся при проведении этих опытов.
f * = N − (k +1)
(k +1) соотв-ет b0 в случае ур-я регрессии k – число значимых коэф-тов регрессии.
ПРОВЕРКА КОЭФ-ТОВ РЕГРЕССИИ НА ЗНАЧИМОСТЬ.
Коэф-т регрессии явл-ся незначимым, если он не превышает по модулю своего доверит-го интервала ( не может его отличить от погрешности). Все незначимые коэф-ты регрессии необходимо исключить из конечного ур-я регрессии.
|
by |
< |
by |
|
=> коэф-т незначимый. |
|
|
|
|
|
|
||
|
by =σby |
t p,M |
||||
Все вычисления не относятся к b0 |
||||||
|
|
|
σ |
2 |
|
|
σ 2 |
= |
|
y |
|
||
∑xij2 |
||||||
|
bij |
|
ПРОВЕРКА АДЕКВАТНОСТИ МОДЕЛИ (часть 2).
Модель явл-ся неадекватной, если экспериментальное значение коэф-та Фишера больше его табличного значения
σ 2
σад2 > Ff * f y
Корреляция - это статистическая взаимосвязь одной или нескольких величин, при кот-х изменение одной или неск-х величин приводит к изменению одной или неск-х величин.
Мерой корреляции Kξη = ξη −ξη σξση
1. Kξη < 0 – увеличение одной приводит к уменьшению другой 2. Kξη > 0 – увеличение одной приводит к увеличению другой 3. Kξη = 0 – независимы, корреляция отсутствует
4. | Kξη | =< 1 |
|
|
|
|
|
|
|
|||||||
5. | |
Kξη | = 1 взаимосвязь между ξ и η линейная. |
|||||||||||||
a |
11 |
y |
1 |
+ a |
12 |
y |
2 |
+... + a |
1n |
y |
n |
= f |
n |
|
|
|
|
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
M |
|
|
|
|
ÙAy = f , |
|
|
|
am y1 |
+... + ann yn |
= fn |
|
||||||||
|
|
|
|
Где А – матрица составленная из коэф-тов неизвестных.
a |
a ... |
11 |
12 |
A = a21 |
a22 ... |
... |
... |
a1n a2n y
ann
y1 = M fyn
f1
=Mfn