- •Раздел 1. Статистическая обработка результатов пассивных экспериментов 7
- •Раздел II . Планирование активных экспериментов 40
- •Эксперименты естественные и искусственные (пассивные и активные)
- •Раздел I. Статистическая обработка данных пассивных экспериментов [1-12]
- •1.Основы регрессионного анализа
- •Определение параметров линейной регрессии методом наименьших квадратов
Раздел I. Статистическая обработка данных пассивных экспериментов [1-12]
1.Основы регрессионного анализа
-
Определение параметров линейной регрессии методом наименьших квадратов
Первая постановка задачи. Опыты проведены таким образом, что каждому значению величины х отвечает несколько значений случайной величины (СВ) Y. При этом предполагается что истинное условное математическое ожидание линейно связано с величиной х:
.
(1.1)
Излагаемый далее метод определения
статистических оценок коэффициентов
строго говоря, основывается на следующих
допущениях:
-
условная дисперсия случайной величины Y практически не зависит от величины х (свойство гемоскедастичности);
-
условный закон распределения случайной величины Y – нормальный.
При жестком соблюдении приведенных
условий статистические оценки
коэффициентов
,
произведенные с помощью метода наименьших
квадратов будут оптимальными и обладать
наименьшей дисперсией. Однако, метод
наименьших квадратов можно применять
и при менее строгом соблюдении приведенных
условий при отсутствии гарантии минимума
дисперсии определяемых коэффициентов
линейной регрессии.
Запишем статистическую оценку линии регрессии (1.1) в виде:
.
(1.2)
Согласно методу наименьших квадратов статистические оценки коэффициентов линейной регрессии В0 и В1 определятся путем минимизации суммы квадратов отклонений реализаций случайной величины Y (yj) в каждом из n опытов от соответствующей оценки линейной регрессии (1.2):
.
(1.3)
Минимум
отвечает выполнению двух условий:
и
.
(1.4)
Решение уравнений (1.4) можно записать в матричном виде:
,
(1.5)
где
,
,
,
,
.
Решение (1.5) приводит к следующим
выражениям для коэффициентов
:
,
,
(1.6)
где
,
(1.7)
.
(1.8)
Показатель ошибки предсказания уравнением регрессии результатов опыта определяется оценкой остаточной дисперсии, определяемой как:
.
(1.9)
В выражении (1.9) в знаменателе стоит число степеней свободы (число независмых слагаемых в числителе). Это число равно разности числа слагаемых (числа опытов) и числа коэффициентов регрессии, определенных на основе тех же n опытов.
Значение остаточной дисперсии позволяет
получить "коридор" для линии
регрессии. Для этой цели будем рассматривать
коэффициенты
,
как случайные величины:
и
.
(1.10)
При этом линия регрессии также будет случайной:
.
(1.11)
При допущении независимости дисперсии
Y от величины x
запишется в виде:
.
(1.12)
В случае достаточно большого числа
опытов (n>30) можно
принять в качестве
её оценку по (1.6) -
.
Тогда, принимая закон распределения
оценки условного математического
ожидания нормальным, получим выражение
для доверительной вероятности попадания
оценки условного математического
ожидания в интервал
с центром, отвечающим истинной линии
регрессии:
![]()
.
При меньшем числе опытов при определении
доверительного коридора следует принять
закон распределения оценки условного
математического ожидания в виде закона
Стьюдента (по закону Стьюдента распределена
центрировання нормированная случайная
величина Т, характеризуемая
).
При этом доверительная вероятность
попадания в коридор
определится как:
-1.
(1.13)
При
=0.95
![]()
,
а
![]()
.
Следовательно, с увеличением числа
опытов коридор для оценки линии регрессии
сужается.
Пример. Пусть в результате эксперимента получены следующие 9 значений величины Y: при x1=x2=x3=1 y1=1, y2=2, y3=3;
при x4=x5=x6=2 y4=2, y5=3, y6=4;
при x7=x8=x9=3 y7=3, y8=4, y9=5.
При этих данных
=2,
=14/3,
=3
,
и оценка линии регрессии записывается
в виде:
.
(1.14)
В рассматриваемом примере
и
.
Оценки условных среднеквадратических отклонений оказываются равными:
.
Поскольку число опытов мало, то корридор
для линии регрессии определяем при
условии, что оценки условных математических
ожиданий распределены в сечениях по
закону Стьюдента. Тогда при Pдов=0.95
коридор определяется как
(рис.1.1).
И
з
рисунка видно, что наименьший раствор
коридора отвечает среднему значению
.
Рис.1.1. Коридор для линейной регрессии,
отвечающий Pдов=0.95
Вторая постановка задачи. В результате экспериментов получены n разных пар значений x и y (в пределе все значения xj различны). В этом случае построение коридора для линии регрессии уже не представляется возможным. При использовании метода наименьших квадратов построение линии регрессии не отличается от изложенного выше. Достоверность полученной линии регрессии проверяется с помощью критерия Фишера. Значение этого критерия показывает, во сколько раз полученная линия регрессии предсказывает результаты опытов лучше, чем среднее значение Y. Критерий Фишера для решения этой задачи формируется в виде:
,
(1.15)
где
- несмещенная оценка остаточной дисперсии,
определяемая по выражению (1.9):
.
(1.16)
В выражении (1.16) 1 и 2 - числа степеней свободы при определении оценок соответствующих дисперсий.
Уровень значимости рассматриваемой гипотезы определяется как:
,
(1.17)
где
- функция распределения Фишера при
полученном значении критерия F
по (1.17).
Пример. Рассматривая результаты экспериментов, приведенные выше, как 9 пар значений X и У, определим уровень значимости предсказания результатов
опыта в виде полученной линии регрессии вида (1.14):

Следовательно, с уровнем значимости q=0.762 статистическая оценка линии регрессии вида (1.9) описывает истинную регрессию Y на X.
Множественная линейная регрессия. Выше рассматривались методы оценки линейной регрессии при статистической связи между двумя величинами Y и X. В практике, однако, возникают задачи, когда необходимо получить оценку условного математического ожидания случайной величины Y, статистически линейно связанной с несколькими величинами Xk (k=1…m):
.
(1.18)
Статистическую оценку множественной линейной регрессии (1.18) запишем в виде:
.
(1.19)
Матрица-столбец искомых коэффициентов
может
быть получена методом наименьших
квадратов путем определения глобального
минимума величины
,
(1.20)
т.е. решения системы из m уравнений:
при k=1…m.
(1.21)
Решение уравнений (1.21), записанное в матричной форме, будет
,
(1.22)
где
,(1.23)
.(1.24)
Статистическая значимость полученной
оценки множественной линейной регрессии
может быть оценена при использовании
критерия Фишера:
,
(1.25)
где
,
(1.26)
.
(1.27)
Статистическая оценка линейной регрессии при нормальном законе на плоскости. При нормальном законе на плоскости условное математическое ожидание представляет собой линейную функцию. Действительно, в случае нормального закона условная плотность распределения одной случайной величины, например, Y записывается как:
.(1.28)
Выражение (1.28) можно переписать в виде:
![]()
,
(1.29)
где условные математическое ожидание и среднее квадратическое отклонение определятся как:
,
(1.30)
.
(1.31)
Из выражений (1.30) и (1.31) видно, что условная дисперсия СВ У не зависит от реализаций СВ X, а условное математическое ожидание этой случайной величины связано с реализациями Х линейно, причем угловой коэффициент прямой равен
.
(1.32)
В случае некоррелировнных величин X и Y (r=0) условные математические ожидания совпадают с безусловными.
Статистическая оценка условного математического ожидания, т.е. линия регрессии при нормальном законе на плоскости записывается в виде:
.
(1.33)
Поскольку при нормальном законе на плоскости равенство нулю коэффициента корреляции между СВ означает их независимость, то величина углового коэффициента характеризует стохастическую связь между ними. Поэтому рассмотрим способ статистической оценки углового коэффициента B в выражении (1.33), характеризующего стохастическую связь между СВ X и Y.
Запишем выражение для В в виде
,
(1.34)
где R - случайная величина коэффициента корреляции.
Примем, что
,
а
,
где - статистическая
оценка коэффициента корреляции,
полученная в опытах.
Тогда, принимая в выражении (1.34) SX и SY не случайными величинами, получим:
,
.
(1.35)
Поскольку при определении числовых характеристик B приняты оценки дисперсий X , Y и коэффициента корреляции R, то закон распределения СВ В может быть принят нормальным лишь при достаточно большом количестве опытов (n>30). В этом случае, вероятность того, что интервал (-)…(+) накроет полученную статистическую оценку В (mB=), определится как:
(1.36)
В случае малого числа опытов Фишер ввел оценку
.
(1.37)
Эта оценка может быть принята распределенной по нормальному закону даже при относительно малом числе опытов, при этом
,
.
(1.38)
Доверительная вероятность попадания СВ Z в интервал (mZ-)…(mZ+) определится как
(1.39)
В выражение (1.39) может быть введена оценка коэффициента корреляции :
.
(1.40)
Разрешая это неравенство относительно R, получим:
,
(1.41)
где
.
Пример. Результаты экспериментов, использованные в примере по определению линии регрессии, приведены в виде корреляционной табл.1.1. Примем, что система СВ X и Y подчинена нормальныму закону на плоскости. Определиим статистическую оценку линии регрессии и коридор для неё при Рд=0.95. Точечные оценки математических ожиданий и дисперсий X и Y определяются по выражениям, известным из курса "Основы математической статист ики":
=2,
=2;
=0.75,
;
=1.5;
![]()
Таблица 1.1.
Корреляционная таблица
|
Y |
Х |
|||
|
1 |
2 |
3 |
|
|
|
1 |
1 |
0 |
0 |
1 |
|
2 |
1 |
1 |
0 |
2 |
|
3 |
1 |
1 |
1 |
3 |
|
4 |
0 |
1 |
1 |
2 |
|
5 |
0 |
0 |
1 |
1 |
|
|
3 |
3 |
3 |
9/9 |
Оценку корреляционного момента и коэффициента корреляции определим как:
=0.75;
![]()
Следовательно:
![]()
;
.
Поскольку число опытов мало, для определения коридора линии регрессии используем выражение (1.41). При Рд=0.95 =1.37 и 0.4992<<0.8343, 0.703<B<1.175.
На рис 1.2 приведен график коридора для линии регрессии, построенный по приведенным данным. Из рисунка видно, что X и Y являются линейно зависимыми случайными величинами, причем угловые коэффициенты линейных зависимостей пропорциональны коэффициентам корреляции, значения которых с доверительной вероятностью Pд=0.95 лежат в диапазоне 0.499…0.834.
Р
ис.1.2.
Коридор линейной регрессии при нормальном
законе распределения СВ X
и Y на плоскости
