- •Введение
- •Статистическое исследование математической сложной модели электрической цепи в программе Excel. Ввод исходных данных.
- •Расчет токов для каждой серии случайныхвеличин.
- •Статистический анализ в Excel.
- •(Синей) функции распределения
- •Построение гистограммы.
- •Корреляционный анализ
- •Регрессионный анализ
Регрессионный анализ
Регрессионный анализ, заключается в определении аналитического выражения связи зависимости случайной величины Y с независимыми случайными величинами X1, X2, …Xm. Форма связи результативного признака Y с факторами X1, X2, …Xm, получила название уравнения регрессии. В зависимости от типа выбранного уравнения различают линейную и нелинейную регрессию. В зависимости от числа взаимосвязанных признаков различают парную и множественную регрессию.
При изучении регрессии следует придерживаться определенной последовательности этапов:
Знание аналитической формы уравнения регрессии и определение параметров регрессии.
Определение в регрессии степени стохастической взаимосвязи результативного признака и факторов, проверка общего качества уровня регрессии.
Проверка статистической значимости каждого коэффициента уравнения регрессии и определения их доверительных интервалов.
Этап 1:
Уравнение линейной множественной регрессии имеет вид:
где
- теоретические значения результативного
признака, полученные путем подстановки
соответствующих значений факторных
признаков в уравнение регрессии;
,
,
-
значения факторных признаков;
,
,
-
- параметры уравнения (коэффициенты
регрессии).
Параметры уравнения регрессии могут быть определены с помощью метода наименьших квадратов (именно этот метод и используется в MicrosoftExcel). Сущность данного метода заключается в нахождении параметров модели (ai), при которых минимизируется сумма квадратов отклонений эмпирических (фактических) значений результативного признака от теоретических, полученных по выбранному уравнению регрессии, т е.
Рассматривая S в качестве функции параметров аi,- и проводя математические преобразования (дифференцирование), получаем систему нормальных уравнений с т неизвестными (по числу параметров аi):
Рисунок 1 – Система нормальных уравнений.
Решив систему уравнений, находим значения параметров аiявляющихся коэффициентами искомого теоретического уравнения регрессии.
Этап 2:
Для определения величины степени стохастической взаимосвязи результативного признака Y и факторов X необходимо знать следующие дисперсии:
• общую дисперсию результативного признака 7, отображающую влияние как основных, так и остаточных факторов:
где
-
среднее значение результативного
признака Y.
• факторную дисперсию результативного признака Y, отображающуювлияние только основных факторов:
• остаточную дисперсию результативного признака Y, отображающуювлияние только остаточных факторов:
При корреляционной связи результативного
признака и факторов выполняется
соотношение:
Для анализа общего качества уравнения линейной многофакторной регрессии используют обычно множественный коэффициент детерминацииR2, называемый также квадратом коэффициента множественной корреляции R. Множественный коэффициент детерминации рассчитывается по формуле:
- этот коэффициент характеризует адекватность построения модели.
Так как в большинстве случаев уравнение регрессии приходится строить на основе выборочных данных, то возникает вопрос об адекватности построенного уравнения генеральным данным. Для этого проводится проверка статистической значимости коэффициента детерминации R2 на основе F-критерия Фишера:
где n- число наблюдений;
т - число факторов в уравнении регрессии.
В математической статистике доказывается, что если гипотезаH0 : R2 = 0 выполняется, то величина F имеет F-распределение с к = т и l=n-m-1числом степеней свободы.
Гипотеза H0
: R2 = 0 о незначимости
коэффициента детерминации R2
отвергается, если
.
При значениях R >0,7 считается, что вариация результативного признака Y обусловлена в основном влиянием включенных в регрессионную модель факторов X.
Для оценки адекватности уравнения регрессии часто также используют показатель средней ошибки аппроксимации:
Этап 3:
Возможна ситуация, когда часть вычисленных коэффициентов регрессии не обладает необходимой степенью значимости, т.е. значения данных коэффициентов будут меньше их стандартной ошибки. В этом случае такие коэффициенты должны быть исключены из уравнения регрессии. Поэтому проверка адекватности построенного уравнения регрессии наряду с проверкой значимости коэффициента детерминации R2 включает в себя также и проверку значимости каждого коэффициента регрессии.
Значимость коэффициентов регрессии проверяется с помощью t-критерия Стьюдента:
где
-
стандартное значение ошибки для
коэффициента регрессии
В математической статистике доказывается, что если гипотезаH0 : R2 = 0
выполняется, то величина t имеет распределение Стьюдента с k: = п—т-1 числом степеней свободы,то есть:
Гипотеза H0
: R2 = 0 о незначимости
коэффициента регрессии отвергается,
если
.
Кроме того, зная значениеtкр,
можно найти границы доверительныхинтервалов
для коэффициентов регрессии:
В программе Excel множественная линейная регрессия проводится с помощью инструмента регрессия пакета анализа.
Факторами регрессии являются сопротивления в цепи. Выходным параметром является ток. С помощью инструмента регрессия выводим графики остатков, нормированной вероятности, подборов.
Стандартная ошибка считается по формуле:
Проводя регрессионный анализ в программе Excel, мы копируем все исходные данные сопротивлений и один ток. Таблицу «Регрессионная статистика» получаем с помощью пакета анализа инструмента регрессия. За входной интервал Y выбирается значение тока, за входной интервал X значение всех сопротивлений. Выводим графики остатков, нормальной вероятности,подборов.
Рисунок22–
Пакет анализа «Регрессия»
Регрессионная статистика |
|
Множественный R |
0,999311136 |
R-квадрат |
0,998622746 |
Нормированный R-квадрат |
0,998425996 |
Стандартная ошибка |
0,014371973 |
Наблюдения |
65 |
Множественный R –это - коэффициент корреляцииR
R-квадрат – коэффициент детерминации R2
Стандартная ошибка считается по формуле:
.
Дисперсионный анализ
|
|||||
|
df |
SS |
MS |
F |
Значимость F |
Регрессия |
8 |
8,387032637 |
1,0483791 |
5075,57889 |
3,4945E-77 |
Остаток |
56 |
0,011567001 |
0,0002066 |
|
|
Итого |
64 |
8,398599639 |
|
|
|
Столбец df– число степеней свободы равное 8.
Для строки регрессия число степеней свободы определяется количеством факторных признаков m в уровне регрессии kф=m.
Для строки остаток число степеней свободы определяется числом наблюдений n и количеством переменных в уравнении регрессии m+1:k0=n-(m+1). Для строки итого число степеней свободы определяется суммой ky=kф+k0
Столбец SS– сумма квадратов отклонений Для строки регрессия – эта сумма квадратов отклонений теоретических данных от среднего:
Для строки остаток – эта сумма квадратов отклонений эмпирических данных от теоретических:
Для строки итого – эта сумма квадратов отклонения эмпирических данных от среднего:
.
Столбец МS- дисперсии, рассчитываемые по формуле:
.
Для строки регрессия – это факторная
дисперсия
.
Для строки остаток – это остаточная
дисперсия
.
Столбец F – расчетное значение F-критерия Фишера.
Столбец значимости F – значение уровня значимости, соответствующее вычисляемому значению Fp. Так как F= 5,48E-74, т.е. F>Значимость F, то множественный коэффициент детерминации существенно больше нуля.
Таблица сигнетированных коэффициентов регрессии ai и их статистические оценки:
|
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Y-пересечение |
30,29477907 |
0,120558273 |
251,2874348 |
3,58935E-87 |
r02 |
0,002144276 |
0,018378273 |
0,116674496 |
0,907535431 |
r03 |
-1,04181665 |
0,016857368 |
-61,80185817 |
3,19994E-53 |
R1 |
-0,093832835 |
0,007013105 |
-13,37964285 |
4,37819E-19 |
R2 |
-1,044756656 |
0,006880408 |
-151,8451629 |
6,13378E-75 |
R3 |
-0,461880757 |
0,010724085 |
-43,0694793 |
1,27712E-44 |
R4 |
-0,262025783 |
0,004122728 |
-63,5564135 |
6,81881E-54 |
R5 |
0,003132049 |
0,002929717 |
1,069061947 |
0,289628377 |
R6 |
-0,254001846 |
0,004044628 |
-62,79980536 |
1,32132E-53 |
Нижние 95% |
Верхние 95% |
Нижние 95,0% |
Верхние 95,0% |
30,05327183 |
30,53628631 |
30,05327183 |
30,53628631 |
-0,034671829 |
0,038960381 |
-0,034671829 |
0,038960381 |
-1,075586015 |
-1,008047284 |
-1,075586015 |
-1,008047284 |
-0,107881772 |
-0,079783898 |
-0,107881772 |
-0,079783898 |
-1,058539769 |
-1,030973543 |
-1,058539769 |
-1,030973543 |
-0,483363681 |
-0,440397833 |
-0,483363681 |
-0,440397833 |
-0,270284599 |
-0,253766967 |
-0,270284599 |
-0,253766967 |
-0,00273688 |
0,009000978 |
-0,00273688 |
0,009000978 |
-0,26210421 |
-0,245899483 |
-0,26210421 |
-0,245899483 |
Выводы
Инструмент «Описательная статистика» позволил создать статистический отсчет, содержащий информацию о центральной тенденции изменчивости входных данных.
В программе Microsoft Excel получили модель электрической цепи с помощью, которой можно легко рассчитать значения токов при изменяющихся сопротивлениях.
Корреляционный анализ позволил установить, ассоциированы ли наборы данных по величине, то есть большие значения из одного набора данных связанных с большими значениями другого набора (положительная корреляция), или, наоборот малые значения одного набора связаны с большими значениями другого (отрицательная корреляция), или данные двух диапазонов никак не связанны (нулевая корреляция).
Линейный регрессионный анализ заключается в подборе графика для набора наблюдений с помощью метода наименьших квадратов. Регрессия используется для анализа воздействия на отдельную зависимую переменную значений одной или более независимых переменных.
Выведена
формула
, с помощью которой можно провести
различные исследования, например,
определить влияние случайной величины
на ток. В результате нашли абсолютную
и относительную погрешности расчётов.
