
Простая и полиномиальная регрессия.
Цель моей работы – это определение зависимости количества человек, воспользовавшихся заточкой коньков на катке «Метеор» от общего количества людей, посетивших каток за день.
Microsoft Excel
Количество людей, воспользовавшихся заточкой коньков (y) |
Количество людей, посетивших каток (x) |
102 |
1214 |
183 |
1688 |
189 |
2051 |
201 |
2320 |
173 |
1545 |
90 |
1050 |
149 |
1720 |
100 |
908 |
43 |
430 |
106 |
850 |
116 |
1341 |
Коэффициент корреляции – 0,94 Наклон – 0,08 Отрезок – 15,4
Коэффициент корреляции достаточно велик. Связь между статистическими данными существует на уровне 94%.
Уравнение регрессии:
у = 0,08*х+15,4
Количество людей, заточивших коньки |
|
Квадратичное отклонение |
25122 |
Математическое ожидание |
132 |
Среднее значение отклонений |
42,7 |
Дисперсия |
2512,2 |
Среднее квадратичное отклонение |
50,1 |
Доверительный интервал |
29,6 |
Общее количество посетителей |
|
Квадратичное отклонение |
3115330 |
Математическое ожидание |
1374,2 |
Среднее значение отклонений |
445,9 |
Дисперсия |
311533 |
Среднее квадратичное отклонение |
558,1 |
Доверительный интервал |
329,8 |
Общее уравнение регрессии у на х
(у-1374,2)/558,1 = 0,94*(х – 132)/50,1
MathCad
Проверка гипотезы о равенстве нулю коэффициента корреляции
Uэксп=1,761
Uэксп > U теор, следовательно, на заданном уровне вероятности гипотеза противоречит данным выборки
StatGraph
Summary Statistics
Col_1 Col_2
------------------------------------------------------------
Count 11 11
Average 132,0 1374,27
Variance 2512,2 311533,0
Standard deviation 50,1219 558,151
Minimum 43,0 430,0
Maximum 201,0 2320,0
Stnd. skewness -0,184407 0,102085
Stnd. kurtosis -0,635274 -0,30906
Sum 1452,0 15117,0
------------------------------------------------------------
Confidence Intervals for Col_1
95,0% confidence interval for mean: 132,0 +/- 33,6724 [98,3276;165,672]
95,0% confidence interval for standard deviation: [35,021;87,9604]
Confidence Intervals for Col_2
95,0% confidence interval for mean: 1374,27 +/- 374,972 [999,301;1749,24]
95,0% confidence interval for standard deviation: [389,99;979,517]
Graphics options
Regression Analysis - Linear model: Y = a + b*X
-----------------------------------------------------------------------------
Dependent variable: Col_1
Independent variable: Col_2
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
Intercept 15,4273 14,4787 1,06552 0,3144
Slope 0,084825 0,0098246 8,63394 0,0000
-----------------------------------------------------------------------------
Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 22415,7 1 22415,7 74,54 0,0000
Residual 2706,31 9 300,701
-----------------------------------------------------------------------------
Total (Corr.) 25122,0 10
Correlation Coefficient = 0,944602
R-squared = 89,2273 percent
Standard Error of Est. = 17,3407
The StatAdvisor
---------------
В выводе отображены результаты выбранной линейной модели для отношения между Col_2 и Col_1. Уравнение выбранной модели:
Col_1 = 15,4273 + 0,084825*Col_2
Так как P-value меньше 0,01, то существует статистически значимое отношение между колонками 1 и 2 на уровне 99%.
R-Squared статистика показывает что линейная модель объясняет 89,22% данных в Col_2. Коэффициент корреляции равен 0,94 и показывает относительно сильную зависимость между величинами. Стандартная ошибка оценки демонстрирует, что стандартное отклонение остатков равно 17,34. Это значение может быть использовано для формирования предполагаемых интервалов новых наблюдений.
Comparison of Alternative Models
--------------------------------------------------
Model Correlation R-Squared
--------------------------------------------------
Double reciprocal 0,9739 94,84%
Multiplicative 0,9576 91,71%
Square root-X 0,9451 89,32%
Linear 0,9446 89,23%
Square root-Y 0,9369 87,77%
S-curve -0,9365 87,71%
Logarithmic-X 0,9281 86,14%
Exponential 0,9139 83,52%
Reciprocal-X -0,8447 71,35%
Reciprocal-Y -0,8217 67,52%
Logistic <no fit>
Log probit <no fit>
--------------------------------------------------
Наиболее точной моделью для обработки данной выборки является двойная обратная модель, которая на 3% точнее выбранной нами линейной модели. Однако, формула для двойной обратной модели сложнее, а разница в точности не столь велика, чтобы предпочесть более лёгкой линейной модели более точную мультипликативную модель.
Unusual Residuals
----------------------------------------------------------------------------
Predicted Studentized
Row X Y Y Residual Residual
----------------------------------------------------------------------------
----------------------------------------------------------------------------