
- •Лекция 5 регрессионный анализ
- •5.1. Общие положения
- •5.2. Линейная однофакторная зависимость
- •5.3. Аппроксимация экспериментальных данных нелинейными
- •5.4. Аппроксимация экспериментальных данных нелинейными
- •• • • •
- •5.5. Параболическая регрессия
- •5.6. Множественная регрессия
- •Применение дисперсионного анализа для оценки качества уравнений регрессии
5.5. Параболическая регрессия
Ещё один вид однофакторной регрессии – аппроксимация степенными полиномами вида:
(5.5.1)
Естественно
желание получить как можно простую
зависимость, ограничиваясь степенным
полиномам второй степени, т.е. параболической
зависимостью:
(5.5.2)
Вычислим частные производные по коэффициентам b0, b1 и b2:
(5.5.3)
Приравнивая производные нулю получим нормальных систему уравнений:
(5.5.4)
Решая систему
нормальных уравнений (5.5.2) для конкретного
случая значений xi*,
yi*;
получим
оптимальные
значения b0,
b1
и b2.
Для
аппроксимации зависимостью (5.5.2) и тем
более (5.5.1) не получены простые формулы
для вычисления коэффициентов и как
правило их вычисление производят по
стандартным процедурам в матричном
виде:
(5.5.5)
На рис.5.5.1
приведён типовой пример аппроксимации
параболической
зависимостью:
у
9
• (5;9)
8
7
•
4
•
(1;1) •
1
•
1
2 3 4 5 х
Рис.5.5.1. Координаты экспериментальных точек и аппроксимиру-
щая
их параболическая зависимость
Пример
5.1. Провести
аппроксимацию результатов эксперимента,
приведённых в таблице 5.1.1, линейным
уравнением регрессии
.
Таблица 5.1.1
|
|
1 |
1 |
2 |
4 |
3 |
7 |
4 |
8 |
5 |
9 |
Построим экспериментальные точки по координатам, указанным в таблице 5.1.1 на графике, представленном на рис.5.1.1.
у
9
•
8
•
7
•
4
•
1 •
1 2 3 4 5 х
Рис.5.1.1
По рис.5.1.1, на котором для предварительной оценки проведём прямую линию, сделаем заключение, что в расположении экспериментальных точек имеется явно выраженная нелинейность, но она не очень значительная и поэтому имеет смысл провести их аппроксимацию линейной зависимостью. Отметим, что для получения корректно-математического заключения требуется построить прямую линию методом наименьших квадратов.
До проведения регрессионного анализа целесообразно вычислить
коэффициент линейной корреляции между переменными х и у:
Существенность корреляционной связи определяется по критическому значению коэффициента линейной корреляции, вычисляемого по формуле:
Критическое значение критерия Стьюдента tкрит находится по статистическим таблицам для рекомендуемого уровня значимости α=0.05 и для n-2 степеней свободы. Если вычисленное значение rxy не меньше критического значения rкрит, то корреляционная связь между переменными x и y считается сушественной. Произведём вычисления:
Ввиду того, что
делаем заключение, что корреляционная
связь между переменнымих
и у
является существенной и она может быть
линейной.
Вычислим коэффициенты уравнения регрессии:
Таким образом, получили линейное уравнение регрессии:
По уравнению регрессии проведём прямую линию на рис.5.1.2.
у
(5;9.8)
9
•
8
•
7
•
4
•
1 •
(0;-0.2) 1
2 3 4 5 х
Рис.5.1.2. Координаты экспериментальных точек и аппроксимиру-
щая
их линейная зависимость
По уравнению регрессии вычислим значения функции по экспериментальным точкам таблицы 5.1.1 и разницу между экспериментальными и вычисленными значениями функции, которые представим в таблице 5.1.2.
Таблица 5.1.2
|
|
|
|
|
1 |
1 |
1,8 |
0,8 |
0,64 |
2 |
4 |
3,8 |
0,2 |
0,04 |
3 |
7 |
5,8 |
1,2 |
1,44 |
4 |
8 |
7,8 |
0,2 |
0,04 |
5 |
9 |
9,8 |
0,8 |
0,64 |
Вычислим среднюю квадратическую ошибку и её отношение к среднему значению:
По отношению стандартной ошибки к среднему значению получен неудовлетворительный результат, так как превышено рекомендуемое значение в 0.05.
Проведём оценку уровня значимости коэффициентов уравнения регрессии по критерию Стьюдента:
Из статистической
таблицы для
3
степеней свободы выпишем строки с
уровнем значимости -
и значением критерия Стьюдента–
t
в таблицу 5.1.3.
Таблица 5.1.3
|
0,01 |
0,02 |
0,05 |
0,10 |
0,2 |
0,3 |
|
5,841 |
4,541 |
3,183 |
2,353 |
1,638 |
1,250 |
Уровень значимости коэффициентов уравнения регрессии:
Отметим, что по
уровню значимости для коэффициента
получен удовлетворительный
результат, а для коэффициента
неудовлетворительный.
Проведём оценку качества полученного уравнения регрессии по показателям, вычисляемым на основе дисперсионного анализа:
Проверка:
Результат проверки – положительный, что свидетельствует о корректности проведённых вычислений.
Вычислим критерий Фишера:
при двух степенях
свободы:
По статистическим таблицам находим критические значения критерия Фишера для двух рекомендуемых градаций уровня значимости:
Так как вычисленное значение критерия Фишера превосходит критическое дл уровня значимости 0,01, то будем считать, что уровень значимости по критерию Фишера меньше 0,01, что будем считать удовлетворительным.
Вычислим коэффициент множественной детерминации:
для двух степеней свободы
По статистической
таблице для рекомендуемого уровня
значимости 0,05и двух найденных степеней
свободы находим критическое значение
коэффициента множественной детерминации:
Так
как вычисленное значение коэффициента
множественной детерминации превышает
критическое значение для уровня
значимости
,
то уровень значимости по коэффициенту
множественной детерминации
и полученный результат поданному
показателю будем считать удовлетворительным.
Таким образом, полученные расчётные параметры по отношению стандартной ошибки к среднему значению и уровню значимости по критерию Стьюдента являются неудовлетворительными, поэтому целесообразно для аппроксимации подобрать другую аппроксимирующую зависимость.
Пример 5.2.
Аппроксимация экспериментального
распределения случайных чисел
математической зависимостью
Экспериментальное распределение случайных чисел, приведённое в таблице 5.1.1, при аппроксимации линейной зависимостью, не привело к удовлетворительному результату, в т.ч. по незначимости коэффициента уравнения регрессии при свободном члене, поэтому для улучшения качества аппроксимации попробуем её провести линейной зависимостью без свободного члена:
Вычислим значение коэффициента уравнения регрессии:
Таким образом,
получили уравнение регрессии:
По полученному уравнению регрессии вычислим значения функции и разницу между экспериментальными и вычисленными значениями функции, которые представим в виде таблицы 5.2.1.
Таблица 5.2.1
xi |
|
|
|
|
1 |
1 |
1,9454545 |
-0,9454545 |
0,8938842 |
2 |
4 |
3,8909090 |
0,1090910 |
0,0119008 |
3 |
7 |
5,8363635 |
1,1636365 |
1,3540499 |
4 |
8 |
7,781818 |
0,2181820 |
0,0476033 |
5 |
9 |
9,7272725 |
-0,7272725 |
0,5289252 |
По уравнению
регрессии
на рис.5.2.1 проведём прямую линию.
у
(5;9.73)
9
•
8
•
7
•
4
•
1 •
(0;0)
1 2
3 4 5 х
Рис.5.2.1. Координаты экспериментальных точек и аппроксимиру-
ющая
их линейная зависимость
Для оценки качества аппроксимации проведём вычисления показателей качества аналогично вычислениям, приведённым в примере 5.1.
(осталось старым);
с 4-мя степенями
свободы;
для
По результатам проведённой аппроксимации отметим, что по уровню значимости коэффициента уравнения регрессии получен удовлетворительный результат; отношение стандартной ошибки к среднему значению улучшилось, но всё ещё осталось выше рекомендуемого значения 0.05, поэтому рекомендуется повторить аппроксимацию более сложной математической зависимостью.
Пример
5.3. Для
улучшения качества аппроксимации
примеров 5.1 и 5.2 проведём нелинейную
аппроксимацию зависимостью
.
Для этого первоначально произведём
промежуточные вычисления и их результаты
поместим в таблицу 5.3.1.
Суммы
строк
Код
Значения
X |
1 |
2 |
3 |
4 |
5 |
15 |
X2 |
1 |
4 |
9 |
16 |
25 |
55 |
lnX |
0 |
0,6931 |
1,0986 |
1,3863 |
1,6094 |
4,7874 |
Y |
1 |
4 |
7 |
8 |
9 |
29 |
lnY |
0 |
1,3863 |
1,9459 |
2,0794 |
2,1972 |
7,6088 |
(lnX)2 |
0 |
0,4803876 |
1,2069219 |
1,9778276 |
2,5901683 |
6,2053 |
X·lnY |
0 |
2,7726 |
5,8377 |
8,3176 |
10,986 |
27,9139 |
lnX·lnY |
0 |
0,9608445 |
2,1377657 |
2,8826722 |
3,5361736 |
9,5175 |
Дополнительно
вычислим:
Произведём
аппроксимацию зависимостью
.
По формулам (5.3.7), (5.3.8) вычислим коэффициентыb0
и b1:
Получили промежуточную зависимость:
По формулам (5.3.11) вычислим коэффициенты A0 и A1:
Получили окончательную зависимость:
Для вычисления стандартной ошибки проведены промежуточные вычисления, представленные в таблице 5.3.2.
Таблица 5.3.2
Yi |
yi |
|
|
1,0202 |
1 |
0,0200 |
0,0004 |
3,1899 |
4 |
0,8100 |
0,6561 |
5,4739 |
7 |
1,5300 |
2,3409 |
8,9482 |
8 |
0,2500 |
0,0625 |
11,1340 |
9 |
2,1300 |
4,5369 |
Сумма: 7,5968
Стандартная ошибка аппроксимации получилась намного больше, чем в двух предыдущих примерах, поэтому результаты аппроксимации признаем непригодными.
Пример
5.4. Попробуем
провести аппроксимацию ещё одной
нелинейной зависимостью
.
По формулам (5.3.9), (5.3.10) по данным таблицы
5.3.1 вычислим коэффициентыb0
и b1:
Получили промежуточную зависимость:
По формулам (5.3.13) вычислим коэффициенты C0 и C1:
Получили окончательную зависимость:
Для вычисления стандартной ошибки проведём промежуточные вычисления и поместим их в таблицу 5.4.1.
Таблица 5.4.1
Yi |
yi |
|
|
1,671 |
1 |
0,671 |
0,450241 |
2,779 |
4 |
-1,221 |
1,490841 |
4,662 |
7 |
-2,338 |
5,466244 |
7,687 |
8 |
-0,313 |
0,097969 |
12,785 |
9 |
3,785 |
14,326225 |
Сумма: 21,83152
Вычислим стандартную ошибку:
Стандартная ошибка аппроксимации получилась намного больше, чем в предыдущем примере, поэтому результаты аппроксимации признаем непригодными.
Пример 5.5. Аппроксимация экспериментального распределения случайных чисел математической зависимостью y= b·lnx
Исходные данные как и в предыдущих примерах приведены в таблице 5.4.1 и на рис.5.4.1.
Таблица 5.4.1
|
|
1 |
1 |
2 |
4 |
3 |
7 |
4 |
8 |
5 |
9 |
На
основании анализа рис.5.4.1 и таблицы
5.4.1 отметим, что при меньших значениях
аргумента (в начале таблицы) функция
изменяется сильнее, чем при больших (в
конце таблицы) поэтому представляется
целесообразным изменить масштаб
аргумента и ввести в уравнение регрессии
логарифмическую функцию от него и
провести аппроксимацию следующей
математической зависимостью:
.
По формуле (5.4.3) вычислим коэффициент
b:
Для оценки качества аппроксимации проведём промежуточные вычисления, представленные в таблице 5.4.2, по которым вычислим величину ошибки и отношение стандартной ошибки к среднему значению.
Таблица 5.4.2
|
|
|
|
|
|
|
|
1 |
0 |
0 |
1 |
0 |
0 |
1 |
1 |
2 |
0,6931 |
0,4803876 |
4 |
2,7724 |
4,0237302 |
0,0237302 |
0,0005631 |
3 |
1,0986 |
1,2069219 |
7 |
7,6902 |
6,3778243 |
0,6221757 |
0,3871026 |
4 |
1,3863 |
1,9218206 |
8 |
11,0904 |
8,0480409 |
0,0480409 |
0,0023079 |
5 |
1,6094 |
2,5901683 |
9 |
14,4846 |
9,3432281 |
0,3432281 |
0,1178055 |
Сумма: |
4,7874 |
6,1989756 |
|
35,9876 |
|
|
1,5077791 |
Так как по отношению стандартной ошибки к среднему значению превышено рекомендуемое значение 0,05, то результат будем считать неудовлетворительным. В частности, отметим, что наибольшее отклонение даёт значение х=1, так как при этом значении lnx=0. Поэтому проведём аппроксимацию зависимстью y= b0+b1·lnx
Вспомогательные вычисления представим в виде таблицы 5.4.3.
Таблица 5.4.3
|
|
|
|
|
|
1 |
0 |
1 |
0,9266414 |
0,0733586 |
0,0053814 |
2 |
0,6931 |
4 |
4,4543649 |
0,4543649 |
0,2064474 |
3 |
1,0986 |
7 |
6,5182689 |
0,4817311 |
0,2320648 |
4 |
1,3863 |
8 |
7,9825974 |
0,0174026 |
0,0003028 |
5 |
1,6094 |
9 |
9,1181264 |
0,1181264 |
0,0139538 |
|
4,7874 |
|
|
|
0,4581502 |
По формулам (5.4.6) и (5.4.7) вычислим коэффициенты b0 и b1:
у
9
•
(5;9.12)
8
•
7
•
4
•
1 (1;0.93)•
1 2 3 4 5 х
Рис.5.4.1
Для оценки качества аппроксимации проведём вспомогательные вычисления и определим уровень значимости найденных коэффициентов и отношение стандартной ошибки к среднему значению.
Уровень
значимости
чуть выше рекомендованного значения
0,05 (
).
Уровень значимости не превышает рекомендуемое значение 0,05.
Ввиду того, что
по главному показателю – отношению
стандартной ошибки к среднему значению
получено почти двукратное превышение
рекомендуемого уровня 0,05 результаты
будем считать приемлемыми. Отметим, что
вычисленное значение критерия Стьюдента
tb0=2,922
отличается от критического
сравнительно на небольшую величину.
Пример 5.6. Проведём
аппроксимацию экспериментальных данных
примера 5.1 гиперболической зависимостью
. Для того, чтобы вычислить коэффициентовb0
и
b1
проведём
предварительные вычисления, приведённые
в таблице 5.6.1.
Таблица 5.6.1
Xi |
xi=1/Xi |
|
xi2 |
xiyi |
|
1 |
1 |
1 |
1 |
1 |
0,8938842 |
2 |
0,5000 |
4 |
0,2500 |
2,0000 |
0,0119008 |
3 |
0,3333 |
7 |
0,1111 |
2,3333 |
1,3540499 |
4 |
0,2500 |
8 |
0,0625 |
2,0000 |
0,0476033 |
5 |
0,2000 |
9 |
0,0400 |
1,8000 |
0,5289252 |
Сумма: |
2,2833 |
29 |
1,4636 |
9,1333 |
0,5289252 |
По результатам таблицы 5.6.1 по формулам (5.4.8) и (5.4.9) вычислим коэффициенты b0 и b1:
Таким образом, получено гиперболическое уравнение регрессии
.
Результаты вспомогательных вычислений для оценки качества аппроксимации приведены в таблице 5.6.2.
Таблица 5.6.2
Xi |
|
|
|
|
1 |
1 |
0,497465 |
0,502535 |
0,252541 |
2 |
4 |
5,379575 |
1,379575 |
1,903226 |
3 |
7 |
7,006944 |
0,006944 |
0,000048 |
4 |
8 |
7,820630 |
0,179371 |
0,312770 |
5 |
9 |
8,308840 |
0,691159 |
0,477702 |
Сумма: |
29 |
|
|
2,664794 |
По результатам таблицы 5.6.2 вычислим стандартную ошибку и отношение стандартной ошибки к среднему значению:
Ввиду того, что отношение стандартной ошибки к среднему значению превышает рекомендуемое значение 0,05 делаем заключение о непригодности результатов аппроксимации.
Пример 5.7.
Для вычисления
конкретных значений доходов от работы
стреловых кранов в зависимости от
времени проведения профилактических
работ требуется получить параболическую
зависимость
.
Вычислим коэффициенты этой зависимости b0, b1, b11 в матричном виде по формуле:
Нелинейные уравнения регрессии, связывающие результативный показатель с оптимальными значениями проведения профилактических работ башенных кранов, получены с помощью процедуры множественной регрессии пакета прикладных программ Statistica 6.0. Далее приведем результаты регрессионного анализа для результативного показателя эффективности по таблице 5.7.1.
Таблица 5.7.1
-
№
1
2216,468
4912730,395
1205758,97
2
1963,268
3854421,24
1056646,958
3
2201,218
4845360,684
1196778,092
4
1932,791
3735681,05
1038698,748
5
1647,137
2713060,297
870474,2507
6
2108,07
4443959,125
1141922,304
7
2137,097
4567183,587
1159016,594
8
1753,177
3073629,593
932922,2671
9
1707,905
2916939,489
906261,1336
10
2008,157
4032694,537
1083082,539
11
2176,641
4737766,043
1182304,451
12
2098,934
4405523,936
1136542,022
13
1887,59
3562996,008
1012079,427
14
1766,755
3121423,23
940918,4871
15
1892,379
3581098,28
1014899,717
16
2037,669
4152094,954
1100462,451
17
2349,035
5517965,431
1223714,2
В таблице 5.7.2 приведены результаты нелинейной регрессии для результативного показателя эффективности и в таблице 5.7.3 результаты анализа остатков.
Таблица 5.7.2
Таблица 5.7.3
Рис. 3.7.36. Анализ остатков.
Таким образом,
получили уравнение множественной
регрессии для переменной
:
Отношение стандартной ошибки к среднему значению:
14780/1017890=0,0145 < 0,05.
Так как отношение стандартной ошибки к среднему значению не превышает рекомендуемого значения 0,05 то результаты аппроксимации можно считать приемлемыми. В качестве недостатка по таблице 5.7.2 следует отметить превышение рекомендуемого уровня значимости 0.05 всеми вычисленными коэффициентами.