
А.В. Бирюков Методы анализа и обработки наблюдений
.pdf10
|
|
|
|
|
Таблица 12 |
n |
6 |
8 |
10 |
15 |
20 |
r |
0,71 |
0,63 |
0,58 |
0,48 |
0,42 |
n |
30 |
40 |
50 |
70 |
90 |
r |
0,35 |
0,30 |
0,27 |
0,23 |
0,20 |
|
5.2. Коэффициент ранговой корреляции Спирмена |
Пусть имеются пары наблюдений (xi, yi), i=1,2,…,n. Значения xi и yi независимо друг от друга расположим по возрастанию и ранжируем, приписывая ранги 1,2,3 и т.д. в порядке возрастания элементов выборок.
Разность рангов у соответствующих друг другу значений xi и yi обозначим через λI (от ранга xi вычитается ранг yi). Тогда статистика Спирмена r0 [-1;1] имеет вид:
n
r0 =1−6∑λi2 / n(n2 −1) (5.2)
i=1
Корреляция признается значимой (неслучайной), если найденное значение статистики (5.2) превосходит критическое (табл.13).
Таблица 13
n |
6 |
8 |
10 |
12 |
14 |
16 |
r0 |
0,77 |
0,60 |
0,55 |
0,50 |
0,46 |
0,42 |
n |
18 |
20 |
22 |
24 |
26 |
28 |
r0 |
0,40 |
0,38 |
0,36 |
0,34 |
0,33 |
0,32 |
5.3. Метод наименьших квадратов
При наличии зависимости между случайными величинами х, у естественно искать ее аналитическое выражение у=f(x), называемое уравнением регрессии или регрессионной моделью. Если имеются экспериментальные данные (xi, yi), i=1,2,…, n, т.е. n точек с координатами xi, yi, то через них требуется провести линию так, чтобы сумма квадратов отклонений экспериментальных значений yi от расчетных f(xi) была бы минимальной. Другими словами, требуется найти значения параметров функции y=f(x), при которых величина
11
Q = ∑n [yi − f (xi )]2 |
(5.3) |
i=1 |
|
достигает минимума.
Решение этой задачи осуществляется известными методами поиска минимума функции нескольких переменных. Для этого частные производные от Q по параметрам приравниваются к нулю и решается получившаяся система уравнений относительно параметров.
5.4. Линейная регрессия
Метод наименьших квадратов хорошо иллюстрирует поиск линейной регрессии y=кх+в c двумя параметрами к и в. Для нее величина (5.3) имеет вид:
|
|
Q = ∑n (yi −кxi −в)2 |
(5.4) |
|
|
i=1 |
|
Приравнивая к нулю частные производные от Q по параметрам к и |
|||
в, получим систему уравнений |
|
||
∑n |
(xi yi −кx2 −вxi )= 0 , |
|
|
i=1 |
i |
|
|
∑n (yi −кx2 −в)= 0 |
(5.5) |
||
i=1 |
|
i |
|
|
|
|
Разделим обе части этих уравнений на объем выборки n и перейдем к средним значениям:
|
__ |
_ |
_ |
|
|
xy−кx2 |
−вx = 0 , |
|
|
|
_ _ |
|
|
(5.6) |
|
y−кx −в = 0, |
|||
_ |
_ |
|
|
__ |
где x , |
y - средние значения величин x, y; |
xy - среднее произведение; |
_
x2 - средний квадрат.
Второе из уравнений (5.6) показывает, что искомая прямая прохо-
_ _
дит через точку с координатами ( x , y ). Исключая из системы уравне-
ний параметр в, окончательно получим:
_ _
y − y = к(x − x) ,
|
12 |
|
|
|
|
|
|
|
|
__ |
_ _ |
|
_ |
_ |
2 |
|
|
к = |
|
|
|
|
2 |
− x |
|
(5.7) |
xy− x y |
/ x |
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
5.5. Адекватность регрессионной модели
Регрессионная модель y=f(x) адекватна, если она пригодна для прогнозирования величины y по значению величины х. Проверка модели на адекватность основывается на сравнении остаточной дисперсии S2 с
дисперсией случайности S02 . Остаточная дисперсия с числом степеней
свободы f1=n-к имеет вид: |
|
∑n [yi − f (xi )]2 |
|
|
S 2 = |
1 |
, |
(5.8) |
|
|
||||
|
n −кi=1 |
|
|
где n – объем выборки, к – число параметров модели.
Для вычисления дисперсии случайности необходимо иметь параллельные наблюдения, т.е. несколько значений yi при фиксированном значении xi. Пусть m – число параллельных наблюдений, а y0 – среднее значение y в группе параллельных наблюдений. Тогда дисперсия случайности с числом степеней свободы f2=m-1 имеет вид:
S02 = |
1 |
∑m (yi − y0 )2. |
(5.9) |
|
|||
|
m −1i=1 |
|
Регрессионная модель признается адекватной, если остаточная дисперсия не превосходит дисперсию случайности при их сравнении по какому-либо критерию (например, по критерию Пиллаи). Такое сравне-
ние проводится лишь в случае S 2 > S02. Если же S 2 < S02 , то регрессионная модель адекватна.
6.Временные ряды
6.1.Случайность временного ряда
Временным рядом длины n называется числовая последовательность z1, z2,…, zn, полученная в результате наблюдений за некоторой величиной z через равные промежутки времени. Если значения z подвержены колебаниям, то возникает вопрос, не являются ли эти колебания случайными.
Простейший критерий случайности временного ряда основан на подсчете числа поворотных точек m, т.е. числа пиков и впадин на гра-

13
фическом изображении ряда. Для случайного ряда величина m имеет нормальное распределение с параметрами
_ |
(6.1) |
m = 2(n −2) / 3, σ 2 = (16n −29) / 90, |
_
где m , σ2 – среднее и дисперсия случайной величины m. Следовательно, с надежностью 0,95 временной ряд можно считать случайным, т.е. не зависящим от времени, если
_ |
(6.2) |
m −m ≤ 2σ |
6.2. Временной тренд
Временным трендом называется зависимость величины z от времени t, выраженная некоторой функцией z=z(t). Поскольку любую дифференцируемую функцию можно с желаемой точностью аппроксимировать полиномом, то временной тренд обычно представляют в полиномиальном виде. Чаще всего для этого используются полиномы первой или второй степени.
Если временной ряд содержит полиномиальный тренд с наложенной на него случайной компонентой, то было бы естественно исследовать, нельзя ли исключить тренд путем рассмотрения разностных рядов вида
(z2-z1), (z3-z2),…, (zn-zn-1) |
(6.3) |
Второй разностный ряд получается из первого аналогичным обра- |
|
зом и т.д. Обозначим дисперсию К-го разностного ряда через S2(к) и |
|
рассмотрим вспомогательную дисперсию |
|
D(к) = S 2 (к)(к!)2 /(2к)! |
(6.4) |
С увеличением порядка разностного ряда дисперсия (6.4) убывает. Если начиная с некоторого значения порядка К=К0 это убывание становится незначимым (при сравнении дисперсий, например, по критерию Пиллаи), то число К0-1 равно степени полинома, описывающего временной тренд. При этом разностный ряд порядка К0 является случайным (несодержащим тренд), а его дисперсия S2(К0) есть дисперсия случайности, т.е. дисперсия случайной компоненты временного ряда.
На практике, как было отмечено, для описания временного тренда достаточными оказываются полиномы z=at+в и z=at2+вt+c. Их коэффициенты легко найти методом наименьших квадратов.
14
6.3. Автокорреляция
Для временного ряда z1, z2,…, zn естественным является вопрос о коррелированности значений (z1, z2), (z2, z3),…, (zn-1, zn). Ответ на этот вопрос дает вычисление соответствующего коэффициента корреляции r1. Если окажется, что найденное значение r1, меньше критического, то корреляция между членами ряда отсутствует, т.е. ряд является случайным.
В общем случае можно исследовать корреляцию для пар значений
(z1, zк), (z2, zк+1) и т.д., вычисляя коэффициент корреляции rк. Набор значений rк называют коррелограммой временного ряда, которая со-
держит важную информацию о временных рядах.
7. Планирование эксперимента
Спланированный эксперимент позволяет получить во много раз больше информации об изучаемом объекте по сравнению с пассивными наблюдениями. Здесь мы рассмотрим два случая планирования эксперимента: изучение объекта по схеме «черного ящика» методами дисперсионного анализа и планирование с целью построения многофакторной регрессионной модели.
7.1.Дисперсионный анализ
Рассмотрим некоторый объект, изучение которого детерминированными методами невозможно. Пусть Х – выходной параметр, т.е. основная характеристика объекта, подлежащая изучению. Вариация значений выходного параметра обусловлена влиянием многих факторов. Из каких-либо априорных соображений выделим из них группу основных факторов, а остальные отнесем к случайным.
Для конкретизации дальнейшей схемы рассуждений будем считать основными факторы А,В,С,Д. Сила влияния каждого из них на выход-
ной параметр определяется факторными дисперсиями S12 , S22 , S32 , S42 , а совокупное влияние случайных факторов – дисперсией S02 . Задача пла-
нирования эксперимента состоит в разложении общей дисперсии выходного параметра S2 на сумму факторных дисперсий и дисперсии случайности, т.е.
S2= S 2 |
+ S 2 |
+ S 2 |
+ S 2 |
+ S 2 |
(7.1) |
1 |
2 |
3 |
4 |
0 |
|

15
Однофакторный анализ
Пусть основным фактором является лишь один фактор А, который варьируется, например, на трех уровнях А1, А2, А3. Проводя на каждом уровне по три параллельных наблюдения за выходным параметром, получим следующую матрицу эксперимента:
А1 |
А2 |
А3 |
Х11 |
Х12 |
Х13 |
Х21 |
Х22 |
Х23 |
Х31 |
Х32 |
Х33 |
Дисперсию случайности S02 можно найти как среднее значение дис-
персий элементов в каждом столбце матрицы. Она будет иметь 6 степеней свободы. Общая дисперсия всех элементов матрицы
S2= S12 +S02 имеет 8 степеней свободы.
Влияние фактора А на выходной параметр признается значимым, если F = S 2 / S02 превосходит критическое значение статистики Фишера.
В этом случае факторную дисперсию находим как разность
S12 = S 2 −S02 .
Двухфакторный анализ
Основные факторы – А и В. Каждый из них варьируется на трех уровнях. Матрица эксперимента имеет вид:
|
А1 |
А2 |
А3 |
В1 |
Х11 |
Х21 |
Х31 |
В2 |
Х12 |
Х22 |
Х32 |
В3 |
Х13 |
Х23 |
Х33 |
Здесь уже параллельные наблюдения отсутствуют. Каждому сочетанию уровней факторов отвечает единственное значение выходного параметра.
Обозначим сумму элементов i-го столбца матрицы через ui,а сумму элементов i-й строки – через Vi. Схему вычислений для анализа результатов эксперимента представим следующим образом. Найдем величины
|
E −∑xij2 , |
|
F1 = |
1 |
∑ui2 , |
||||
|
|
2 |
|||||||
F2 |
= |
1 |
∑Vi2 |
, |
G = |
|
1 |
(∑xij )2 , |
|
2 |
9 |
||||||||
|
|
|
|
|
|
где i,j=(1, 2, 3). Введем в рассмотрение вспомогательные дисперсии:

16
S 2 |
= |
1 |
(F −E), |
S 2 |
= |
1 |
(F −E), |
|
2 |
2 |
|||||||
A |
|
1 |
B |
|
2 |
у которых по две степени свободы. При этом дисперсия случайности
S02 = 14 (E +G −F1 −F2 )
имеет четыре степени свободы.
Для того, чтобы влияние факторов А и В на выходной параметр можно было признать значимым, нужно, чтобы дисперсии S A2 и SB2 зна-
n 2
чимо превосходили дисперсию случайности Q=∑(yi−кi−xв) (при их сравнении по
i=1
какому-либо критерию). В этом случае факторные дисперсии оцениваются как
S 2 |
= |
1 |
(S 2 |
−S 2 ), |
S 2 |
= |
1 |
(S 2 |
−S 2 ). |
|
2 |
2 |
|||||||||
1 |
|
A |
0 |
2 |
|
B |
0 |
Трехфакторный анализ
Основные факторы – А, В, С. Прежде всего возникает вопрос, можно ли сохранить число опытов (в наше случае равное 9) при изучении влияния третьего фактора.
Этого можно достигнуть таким расположением уровней третьего фактора С1, С2, С3, чтобы в каждой строке и каждом столбце матрицы присутствовали все уровни фактора С. Такой план эксперимента имеет вид:
|
А1 |
А2 |
А3 |
В1 |
С1 |
С2 |
С3 |
В2 |
С2 |
С3 |
С1 |
В3 |
С3 |
С1 |
С2 |
Например, значение выходного параметра Х32 получено при усло-
вии: А=А3, В=В2, С=С1.
Схема вычислений по сравнению с предыдущей преобразуется следующим образом. Величины Е, F1, F2, G остаются неизменными. Дополнительно к ним находим:
F3 = 12 ∑wi2 ,
где wi – сумма значений выходного параметра на i-м уровне фактора С. Находим также вспомогательную дисперсию
SC2 = 12 (F3 −E)

17
с двумя степенями свободы. Дисперсия случайности
S02 = 12 (E +2G −F1 −F2 −F3 )
имеет две степени свободы.
Влияние фактора С признается значимым, если дисперсия SC2 значимо превосходит дисперсию случайности S02 . При этом факторная
дисперсия находится как
S32 = 12 (SC2 −S02 )
Четырехфакторный анализ
Факторы А, В, С, Д варьируются на четырех уровнях, а число всех опытов равно 16. План эксперимента имеет вид:
|
А1 |
А2 |
А3 |
A4 |
В1 |
С1D1 |
C2D2 |
C3D3 |
C4D4 |
В2 |
C2D3 |
C1D4 |
C4D1 |
C3D2 |
В3 |
C3D4 |
C4D3 |
C1D2 |
C2D1 |
B4 |
C4D2 |
C3D1 |
C2D4 |
C1D3 |
Например, значение выходного параметра Х43 получено при условии А=А4, В=В3, С=С2, D=D1. За счет увеличения числа опытов схема вычислений несколько преобразуется. Величина Е равна сумме квадратов всех 16 элементов матрицы. Остальные величины имеют вид:
G = |
|
1 |
|
(∑xij )2 , |
F1 |
= |
1 |
|
∑ui2 |
, |
|||
16 |
|
3 |
|||||||||||
|
|
|
1 |
|
|
|
|
|
|
||||
F2 = |
|
∑Vi2 , |
F3 = ∑wi2 , |
|
|||||||||
3 |
|
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
где i,j=(1, 2, 3, 4). К ним добавляется величина
F4 = 13 ∑zi2 ,
где zi – сумма значений выходного параметра на i-м уровне фактора D. Вспомогательные дисперсии
S 2 |
= |
1 |
|
(F |
−E), |
S 2 |
= |
1 |
|
(F −E), |
|||||
3 |
3 |
||||||||||||||
A |
|
|
1 |
|
B |
|
2 |
||||||||
S 2 |
= |
|
1 |
(F |
|
−E), |
S 2 |
= |
|
1 |
(F −E) |
||||
|
|
|
|
||||||||||||
C |
|
3 |
3 |
|
D |
|
3 |
4 |
|||||||
|
|
|
|
|
|
|
|
имеют по три степени свободы, а дисперсия случайности

18
S02 = 13 (E +3G −F1 −F 2−F3 −F4 )
также имеет три степени свободы. Структура анализа такая же, как и прежде. Влияние фактора D признается значимым, если дисперсия SD2 значимо превосходит дисперсию случайности S02 . При этом факторная дисперсия находится как
S42 = 13 (SD2 −S02 )
Найденные таким образом дисперсии S12 , S22 , S32 , S42 , S02 могут служить ранжировкой факторов по силе влияния на выходной параметр.
7.2. Планирование эксперимента при построении многофакторной регрессионной модели
Рассмотрим конкретный случай, когда на выходной параметр у влияют три количественных фактора Х1, Х2, Х3. Требуется найти регрессионную модель y=f(X1, X2, X3), называемую функцией отклика.
Каждый фактор принимает значения на некотором отрезке xi [ai, вi], i=1, 2, 3, охватывающие весь рабочий диапазон. Поэтому областью эксперимента является трехмерный параллелепипед.
При планировании эксперимента натуральные значения факторов X1, X2, X3 переводятся в кодированные значения Z1, Z2, Z3 по формулам
zi=(2Xi-вi-ai)/(вi-ai).
При этом значениям xi=ai, xi=вi соответствуют значения zi=-1, zi=+1, называемые нижним и верхним уровнями фактора. Совокупность опытов, проведенных при всевозможных сочетаниях уровней факторов, называется полным факторным экспериментом. Для полного трехфакторного эксперимента число опытов равно 8.
При составлении плана эксперимента верхний уровень факторов обозначается знаком (+), а нижний – знаком (-). План полного трехфакторного эксперимента имеет вид:
№ |
z1 |
z2 |
z3 |
y |
1 |
+ |
+ |
+ |
y1 |
2 |
- |
+ |
+ |
y2 |
3 |
+ |
- |
+ |
y3 |
4 |
- |
- |
+ |
y4 |
5 |
+ |
+ |
- |
y5 |
|
|
|
19 |
|
|
|
|
|
|
|
|
6 |
- |
+ |
|
- |
y6 |
7 |
+ |
- |
|
- |
y7 |
8 |
- |
- |
|
- |
y8 |
Например, значение выходного параметра y3 получено при условии: факторы x1 и x3 находятся на верхнем уровне, а фактор x3 – на нижнем.
Приведенная матрица эксперимента называется основной. Перемножение ее столбцов дает следующую дополнительную матрицу:
№ |
z1z2 |
z1z3 |
z2z3 |
z1z2z3 |
y |
1 |
+ |
+ |
+ |
+ |
y1 |
2 |
- |
- |
+ |
- |
y2 |
3 |
- |
+ |
- |
- |
y3 |
4 |
+ |
- |
- |
+ |
y4 |
5 |
+ |
- |
- |
- |
y5 |
6 |
- |
+ |
- |
+ |
y6 |
7 |
- |
- |
+ |
+ |
y7 |
8 |
+ |
+ |
+ |
- |
y8 |
Проведенный таким образом эксперимент позволяет построить следующую регрессионную модель:
y=H0+H1z1+H2z2+H3z3+H12z1z2+H13z1z3+H23z2z3.
Свободный член этого уравнения Н0 является значением выходного параметра в центре эксперимента и определяется как среднее значение
Н0=(у1+у2+…+у8)/8
Коэффициенты уравнения Н1, Н2, Н3 называются линейными эффектами и равны средним значениям выходного параметра с учетом знаков столбцов основной матрицы планирования, т.е.
Н1=(у1-у2+у3-у4+у5-у6-у7-у8)/8 , Н2=(у1+у2-у3-у4+у5+у6-у7-у8)/8 , Н3=(у1+у2+у3+у4-у5-у6-у7-у8)/8
Коэффициенты модели Н12, Н13, Н23 называются эффектами парных взаимодействий факторов и вычисляются как средние значения выходного параметра с учетом знаков в столбцах дополнительной матрицы планирования, т.е.
Н12=(у1-у2-у3+у4+у5-у6-у7+у8)/8 , Н13=(у1-у2+у3-у4-у5+у6-у7+у8)/8 , Н23=(у1+у2-у3-у4-у5-у6+у7+у8)/8