
Математическая обработка результатов экспериментальных данных ГЭПП / Obosnov Metod
.docОБОСНОВАНИЕ МЕТОДИКИ ОБРАБОТКИ ДАННЫХ
Установление закономерностей, которыми подчинены массовые случайные явления, основано на изучении методами теории вероятностей статистических данных – результатов наблюдений.
Первая задача математической статистики – указать способы сбора и группировки статистических сведений, полученных в результате наблюдений или в результате специально поставленных экспериментов.
Вторая задача математической статистики – разработать методы анализа статистических данных в зависимости от целей исследования. Сюда относятся:
-
оценка неизвестной вероятности события; оценка неизвестной функции распределения; оценка параметров распределения, вид которого известен; оценка зависимости случайной величины от одной или нескольких случайных величин.
-
проверка статистических гипотез о виде неизвестного распределения или о величине параметров распределения, вид которого неизвестен.
Современная математическая статистика способы распределения числа необходимых испытаний до начала исследования (планирование эксперимента), в ходе исследования (последовательный анализ) и решает многие другие задачи. Современную математическую статистику определяют как науку о принятии решений в условиях неопределенности.
В наших исследованиях имеющиеся данные нельзя считать выборкой из многомерной нормальной совокупности, потому что одна из рассматриваемых переменных не является случайной. В таком случае попытаемся определить кривую (поверхность), которая даст наилучшее (в смысле метода наименьших квадратов) приближение к исходным данным. Соответствующий метод приближения носит название регрессионного анализа.
Задачей регрессионного анализа и в частности задачей математической обработки результатов эксперимента является установление формы зависимости между переменными, оценка функции регрессии, оценка неизвестных значений (прогноз значений) зависимой переменной.
Предварительно необходимо провести математические операции над случайными величинами. Найдем математическое ожидание дискретной случайной величины. Закон распределения дискретной случайной величины даст исчерпывающую информацию о ней, так как позволит вычислить вероятности любых событий, связанных со случайной величиной.
Далее, для обработки статистических данных, в качестве получения научных и практических выводов, будем использовать основные положения регрессионного анализа.
О целесообразности использования регрессионного анализа говорят постулаты.
Первый постулат. Параметр оптимизации Y есть случайная величина с нормальным законом распределения. Дисперсия воспроизводимости – одна из характеристик этого закона распределения.
При наличии большого экспериментального материала (десятки параллельных опытов) гипотезу о нормальном распределении можно проверить стандартными статистическими тестами (например, х2 - критерием).
Второй постулат. Дисперсия Y не зависит от абсолютной величины у.
Выполнимость этого постулата проверяется с помощью критериев однородности дисперсий в разных точках факторного пространства. Нарушение этого постулата недопустимо. Если однородность дисперсий все же отсутствует, то необходимо такое преобразование Y, которое делает дисперсии однородными. Часто используют логарифмическое преобразование, с которого обычно начинаются поиски.
Третий постулат. Значения факторов есть неслучайные величины. Это несколько неожиданное утверждение практически означает, что установление каждого фактора на заданный уровень и его поддержание существенно точнее, чем ошибка воспроизводимости. Нарушение этого постулата приводит к трудностям при реализации матрицы планирования.
Четвертый постулат, налагает ограничения на взаимосвязь между значениями факторов. Он выполняется автоматически в силу ортогональности матрицы планирования.
В регрессионном анализе рассматривается односторонняя зависимость случайной зависимой переменной Y от одной (или нескольких) неслучайной независимой переменной Х, называемой часто объясняющей переменной. Такая зависимость может быть представлена в виде модельного уравнения регрессии (1)
Мх(Y)=(х). (1)
В силу воздействия неучтенных случайных факторов и причин отдельные наблюдения y будут в большей или меньшей мере отклонятся от функции регрессии (х). В этом случае уравнение взаимосвязи двух переменных (парная регрессионная модель) может быть представлено в виде:
y=(х)+,
где – случайная переменная, характеризующая отклонение от функции регрес-
сии.
Эту переменную будем называть возмущающей или просто возмущением. Таким образом, в регрессионной модели зависимая переменная Y есть некоторая функция (х) сточностью до случайного возмущения .
В нашем случае необходимо рассматривать регрессионный анализ, для которого функция (х) линейна относительно оцениваемых параметров:
Мх(Y)=0+1х. (2)
В нашем случае, для оценки параметров линейной функции регрессии взята выборка, содержащая n пар значений переменных (хi, ni), где i=1,2,…,n. В этом случае линейная парная регрессионная модель примет вид:
yi=0+1х+i. (3)
Аспектами выбора данного анализа являются также его основные предпосылки:
-
зависимая переменная yi (или возмущения i) есть величина случайная, а объясняющая переменная хi – величина неслучайная;
-
математическое ожидание возмущения i равно 0:
М(i)=0; (4)
-
дисперсия зависимой переменной yi (или возмущения i) постоянна для любого i:
D(i)=2; (5)
-
переменные yi и yj (или возмущения i и j) не коррелированы:
М(i j)=0 (ij); (6)
– зависимая переменная yi (или возмущения i) есть нормально распределенная случайная величина.
Для получения уравнения регрессии достаточно первых четырех предпосылок. Требование выполнения пятой предпосылки необходимо для оценки точности уравнения регрессии и его параметров.
Оценкой модели (3) по выборке является уравнение регрессии
y(х)=B0+B1x. (7)
Для определения коэффициентов регрессии
применим метод наименьших квадратов,
согласно которому неизвестные параметры
B0 и B1 выбираются таким
образом, чтобы сумма квадратов отклонений
эмпирических групповых средних
, вычисленных по формуле
,
(8)
от значений
,
найденных по уравнению регрессии, была
минимальной:
(9)
На основании необходимого условия экстремума функции двух переменных
S=S(b0,b1) приравниваем нулю ее частные производные, т.е.
,
(10)
откуда после преобразований получим систему нормальных уравнений для определения параметров линейной регрессии:
.
(5)
Учитывая (2), преобразуем выражения:
.
(6)
.
(7)
Теперь с учетом
,
(8)
разделив обе части уравнений (5) на n, получим систему нормальных уравнений в виде:
,
(9)
где соответствующие средние определяются по формулам:
,
,
(10)
.
(11)
Подставляя значение
из первого уравнения системы в уравнение
регрессии получим
или
Коэффициент b1 в уравнении регрессии, называемый выборочным коэффициентом регрессии Y по X, будем обозначать символом byx. Теперь уравнение регрессии Y по X запишется так:
Коэффициент регрессии Y по X показывает, на сколько единиц в среднем изменяется переменная Y при увеличении переменной X на одну единицу.
Решая систему ,найдем
,
(12)
где s2x – выборочная дисперсия переменной Х:
;
(13)
- выборочный корреляционный момент или выборочная ковариация:
.
(14)
Рассуждая аналогично и полагая уравнение регрессии линейным, можно привести его к виду:
,
(15)
где
(16)
- выборочный коэффициент регрессии X по Y, показывающий, на сколько единиц в среднем изменяется переменная X при увеличении переменной Y на одну единицу;
(17)
- выборочная дисперсия переменной Y.
Так как числитель в предпоследних двух
формулах для byx и bxy совпадают,
а знаменатели – положительные величины,
то коэффициенты регрессии byx и
bxy имеют одинаковые знаки,
определяемые знаком .
Из уравнений регрессии следует, что
коэффициенты byx и 1/bxy
определяют угловые коэффициенты
(тангенсы углов наклона) к оси 0х
соответствующих линий регрессии,
пересекающихся в точке
.
Воздействие неучтенных случайных факторов и ошибок наблюдений в модели (3) определяется с помощью остаточной дисперсии 2. Оценкой этой дисперсии является выборочная остаточная дисперсия
,
(18)
где –
групповая средняя, найденная по уравнению
регрессии;
–
выборочная оценка возмущения i.
В знаменателе выражения (18) стоит число степеней свободы n-2, а не n, так как две степени свободы теряются при определении двух параметров прямой b0 и b1.
Определим интервальную оценку и проверим значимость уравнения регрессии. Для этого необходимо построить доверительный интервал для функции регрессии, то есть для условного математического ожидания Мх(Y), который с заданной надежностью (доверительной вероятностью) =1- накрывает неизвестное значение Мх(Y).
Найдем дисперсию групповой средней yх, представляющей выборочную оценку Мх(Y). С этой целью уравнение регрессии представим в виде:
.
(19)
Дисперсия групповой средней равна сумме дисперсий двух независимых слагаемых выражения (19):
.
(20)
Дисперсия выборочной средней
равна:
.
(21)
Для нахождения дисперсии
представим
коэффициент регрессии в виде:
.
(22)
Тогда
.
(23)
Найдем оценку дисперсии групповых средних (20), учитывая (21) и (23) и заменяя 2 ее оценкой s2:
.
(24)
Исходя из того, что статистика
имеет t-распределение Стьюдента с k=n-2 степенями свободы можно построить доверительный интервал для условного математического ожидания
,
(25)
где –
стандартная ошибка групповой средней
yх.
Из формул (24) и (25) видно, что величина
доверительного интервала зависит от
значения объясняющей переменной х: при
она минимальна, а по мере удаления х от
величина доверительного интервала
увеличивается. Таким образом прогноз
значений (определение неизвестных
значений) зависимой переменной y по
уравнению регрессии оправдан, если
значение объясняющей переменной не
выходит за диапазон ее значений по
выборке (причем тем более точный, чем
ближе х к
).
Другими словами, экстраполяция кривой
регрессии, то есть ее использование вне
пределов обследованного диапазона
значений объясняющей переменной (даже
если она оправдана для рассматриваемой
переменной исходя из смысла решаемой
задачи) может привести к значительным
погрешностям.
Проверить значимость уравнения регрессии – значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной.
Проверка значимости уравнения регрессии производится на основе дисперсионного анализа. Дисперсионный анализ применим как вспомогательное средство для изучения качества регрессионной модели.
Согласно основной идее дисперсионного анализа
(26)
или
Q=QR+Qe, (27)
где Q – общая сумма квадратов отклонений зависимой переменной от средней, а QR и Qe – соответственно сумма квадратов обусловленная регрессией, и остаточная сумма квадратов, характеризующая влияние неучтенных факторов.
Уравнение регрессии значимо на уровне , если фактически наблюдаемое значение статистики
,
(28)
где –
табличное значение F –
критерия Фишера-Снедока, определенное
на уровне значимости
при k1=m-1
и k2=n-m
степенях свооды; m – число оцениваемых
параметров уравнения регрессии; n –
число наблюдений.
Учитывая смысл величин sR2 и s2, можно сказать, что значение F оказывает, в какой мере регрессия лучше оценивает значение зависимой переменной по сравнению с ее средней.
В случае линейной парной регрессии m=2 и уравнение регрессии значимо на уровне , если
.
(29)
Коэффициент корреляции выраженный через дисперсии примет вид:
.
(30)