Задача 1
Построить поле корреляции и сформулировать гипотезу о виде уравнения регрессии (линейное, показательное, гиперболическое и т.п.).
Построить наиболее подходящее уравнение регрессии.
Оценить величину влияния фактора на исследуемый показатель с помощью коэффициента корреляции и детерминации.
Оценить качество построенной модели с точки зрения адекватности и точности. Для этого оценить математическое ожидание остаточного ряда, проверить случайность уровней остатков ряда, их независимость и относительную ошибку аппроксимации.
С помощью коэффициента эластичности определить силу влияния фактора на результативный показатель.
Проверить значимость коэффициента регрессии и провести его интервальную оценку.
Рассчитать прогнозное значение результата, если прогнозное значение фактора увеличилось на 10% от среднего уровня. Определить доверительный интервал прогноза для уровня значимости .
Сделать выводы по полученным результатам.
Исходные данные представлены в таблице 1.
Таблица 1 – Исходные данные
Цена кв-ры, y |
Жилая. площадь, x |
34,4 |
21,4 |
24,7 |
20,6 |
30,8 |
29,7 |
15,9 |
17,8 |
29,0 |
43,5 |
15,4 |
17,8 |
28,6 |
42,4 |
15,6 |
20,0 |
27,7 |
41,3 |
34,1 |
35,4 |
37,7 |
41,4 |
41,9 |
48,5 |
24,4 |
22,3 |
21,3 |
18,0 |
Решение
1. Поле корреляции по исходным данным было построено в программе MS Excel (Рисунок 1).
Рисунок 1 – Поле корреляции
Из рисунка 1 видно, что между показателями существует положительная связь, но строго прямая зависимость не наблюдается: с увеличением жилой площади цена квартиры растёт не всегда. На величину стоимости квартиры может влиять множество других факторов.
По данным были построены различные линии тренда – линейной, экспоненциальной, степенной функций (Рисунок 2). Поскольку линии тренда различных функций довольно сходны между собой, будем использовать – линейную зависимость , в целом отражающую динамику роста.
Рисунок 2 – Линии тренда
2. Линейная модель имеет вид:
Построение модели осуществлялось в программе MS Excel (Регрессия – Анализ данных (Рисунок 3)).
Рисунок 3 – Построение линейной модели в программе MS Excel
3. Оценка тесноты связи между показателем и фактором была определена с помощью коэффициента корреляции:
Коэффициент корреляции равен 0,745 – связь между фактором и показателем прямая, значительная.
Коэффициент детерминации определяется по зависимости:
Коэффициент детерминации 0,556. Около 56% вариации зависимой переменной обусловлено влиянием включённого фактора, а остальные 44% обусловлены влиянием других, не учтённых в модели, факторов.
4. Проверка на наличие/отсутствие систематических ошибок осуществляется на основе анализа ряда остатков. Чтобы модель являлась адекватной, должны выполнятся следующие требования:
уровни ряда остатков имеют случайный характер.
Для проверки используется критерий поворотных точек. Подсчитывается количество поворотных точек в ряде остатков и сравнивается с расчетным
В ряде остатков 7 поворотных точек, p>5. Т.о. уровни имеют случайный характер, систематических ошибок нет. В таблице 2 представлен расчёт поворотных точек.
Таблица 2 – Расчётная таблица для критерия поворотных точек
|
|
|
|
Поворотные точки |
34,4 |
21,4 |
22,6343 |
11,7657 |
- |
24,7 |
20,6 |
22,2053 |
2,4947 |
1 |
30,8 |
29,7 |
27,0853 |
3,7147 |
1 |
15,9 |
17,8 |
20,7038 |
-4,8038 |
0 |
29,0 |
43,5 |
34,4857 |
-5,4857 |
1 |
15,4 |
17,8 |
20,7038 |
-5,3038 |
1 |
28,6 |
42,4 |
33,8958 |
-5,2958 |
1 |
15,6 |
20,0 |
21,8836 |
-6,2836 |
1 |
27,7 |
41,3 |
33,3059 |
-5,6059 |
0 |
34,1 |
35,4 |
30,1420 |
3,9580 |
0 |
37,7 |
41,4 |
33,3595 |
4,3405 |
0 |
41,9 |
48,5 |
37,1669 |
4,7331 |
1 |
24,4 |
22,3 |
23,1170 |
1,2830 |
0 |
21,3 |
18,0 |
20,8111 |
0,4889 |
- |
Математическое ожидание значений остаточного ряда равно 0.
Вычисляется среднее значение ряда остатков
0,000000000000055
Значения уровней ряда остатков независимы друг от друга (отсутствует автокорреляция).
Проведем проверку на основе d-критерия Дарбина-Уотсона
Необходимые расчёты приведены в таблице 3.
Таблица 3 – Расчёт критерия Дарбина-Уотсона
№ п/п |
|
|
1. |
138,4305 |
|
2. |
6,2233 |
85,9513 |
3. |
13,7991 |
1,4885 |
4. |
23,0767 |
72,5653 |
5. |
30,0924 |
0,4649 |
6. |
28,1305 |
0,0331 |
7. |
28,0452 |
0,0001 |
8. |
39,4835 |
0,9758 |
9. |
31,4260 |
0,4593 |
10. |
15,6661 |
91,4686 |
11. |
18,8398 |
0,1463 |
12. |
22,4018 |
0,1541 |
13. |
1,6461 |
11,9028 |
14. |
0,2391 |
0,6306 |
∑ |
397,5000108 |
266,2405894 |
Расчетное значение d=0,6698 сравнивается с величинами d1=1,06 и d2=1,35, определенными по таблице. d<d1 гипотеза о независимости остатков отвергается.
Уровни ряда остатков подчинены нормальному закону распределения.
Используем RS-критерий:
RS=3,136. по таблице определяются граничные значения критерия RS1=2,612 и RS2=3,6. RS1<RS<RS2 – условие выполняется.
Точность построения модели можно оценить с помощью средней относительной ошибки аппроксимации
- точность модели приемлемая.
5. Определим силу влияния фактора на результативный показатель с помощью коэффициента эластичности
э=0,591. Т.е. при увеличении фактора на 1% показатель увеличивается на 0,591%.
6. Проверка значимости коэффициента регрессии проводится по Т-критерию Стьюдента
,
где - СКО коэффициента регрессии
,
- СКО остатков модели
, .
Доверительные интервалы для коэффициентов регрессии строятся по зависимости.
где – стандартная ошибка соответствующего коэффициента модели, определяется по зависимостям.
Расчетные значения t-критерия и границы доверительных интервалов представлены в таблице 4.
Таблица 4 – Расчётные значения t-критерия Стьюдента для коэффициентов модели
|
Коэффициенты |
t-статистика |
Нижние 95% |
Верхние 95% |
Y-пересечение |
11,15842537 |
2,518991982 |
1,506897894 |
20,80995284 |
Переменная X 1 |
0,536258141 |
3,873684709 |
0,234631601 |
0,83788468 |
tтабл=2,179, т.о. коэффициенты регрессии значимы.
7. Рассчитаем прогнозное значение результата, если прогнозное значение фактора увеличилось на 10% от среднего уровня. хпр=33,007, упр=b0+b1xпр. Т.о. упр=28,859.
Определим доверительный интервал прогноза
Параметр распределения Стьюдента при уровне значимости 0,05 tp=2,179. . Таким образом, нижняя граница доверительного интервала прогноза составляет 19,995; верхняя граница равна 46,019.
8. Зависимость цены квартиры от величины её жилой площади описана линейным уравнением регрессии. Коэффициент корреляции показал, что между фактором и результатом наблюдается значительная статистическая связь. Коэффициент детерминации показал, что только около 56% вариации зависимой переменной обусловлено влиянием включённого в модель фактора, а остальные 44% обусловлено влиянием других, не учтённых в модели, факторов. При помощи коэффициента эластичности была определена сила влияния фактора на результативный показатель: при изменении фактора на 1% результативный показатель увеличивается на 0,59%. Результат оценки параметров уравнения регрессии показал, что его коэффициенты статистически значимы. Выяснив, что уровни ряда остатков имеют случайный характер, математическое ожидание уровня ряда остатков равно нулю и подчинены нормальному закону распределения, был сделан вывод, что построенная линейная модель является адекватной с приемлемой точностью средней относительной ошибки аппроксимации, равной 18%.
Чтобы модель была более точной, и пригодной для прогнозирования, необходимо увеличить размер выборки и количество факторов в модели.