
Задача 6
Имеются данные по 8 субъектам Российской Федерации за январь – март 2007 г. о денежных доходах и потребительских расходах на душу населения в среднем за месяц, которые приведены в таблице.
Номер субъекта РФ |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
Денежные доходы, тыс. руб. |
1,66 |
1,75 |
1,59 |
1,58 |
2,36 |
2,35 |
1,44 |
1,5 |
Потребительские расходы, тыс. руб. |
1,08 |
0,82 |
1,04 |
1,34 |
1,72 |
1,55 |
0,89 |
1,26 |
На основе имеющихся данных требуется:
Построить поле рассеяния наблюдаемых значений показателей и на основе его визуального наблюдения выдвинуть гипотезу о виде статистической зависимости потребительских расходов y от денежных доходов x; записать эту гипотезу в виде математической модели.
Используя метод наименьших квадратов найти точечные оценки неизвестных параметров модели, записать найденное уравнение регрессии и построить график функции регрессии.
Найти коэффициент парной корреляции между денежными доходами и потребительскими расходами; проверить значимость найденного коэффициента корреляции. Найти коэффициент детерминации.
Найти точечный и интервальный прогноз среднемесячных потребительских расходов в 10-м субъекте РФ в будущем периоде предполагая, что среднемесячные денежные доходы в этом субъекте РФ увеличатся на 30%.
Привести содержательную интерпретацию полученных результатов.
Решение
Поле рассеяния характеризует зависимость потребительских расходов от денежных доходов. Очевидно, между ними существует прямая зависимость.
Визуальный анализ поля рассеяния позволяет выдвинуть гипотезу о линейной зависимости потребительских расходов от денежных доходов и записать эту зависимость в виде линейной модели:
y = a0 + a1x + e
где y - результативный фактор (потребительские расходы)
a0 a1 - параметры модели (постоянные)
е - некоторая изменяющаяся величина, благодаря которой любое индивидуальное значение y может отклоняться от линии регрессии.
Оценим параметры регрессии. Для удобства вычисления оценок искомых коэффициентов модели составим таблицу.
№ субъекта РФ |
x |
y |
x2 |
xy |
y2 |
yi |
yi-yi |
(yi-yi)2 |
1 |
1,66 |
1,08 |
2,7556 |
1,7928 |
1,1664 |
1,135 |
-0,055 |
0,003019 |
2 |
1,75 |
0,82 |
3,0625 |
1,435 |
0,6724 |
1,194 |
-0,374 |
0,139652 |
3 |
1,59 |
1,04 |
2,5281 |
1,6536 |
1,0816 |
1,089 |
-0,049 |
0,002426 |
4 |
1,58 |
1,34 |
2,4964 |
2,1172 |
1,7956 |
1,083 |
0,257 |
0,066191 |
5 |
2,36 |
1,72 |
5,5696 |
4,0592 |
2,9584 |
1,592 |
0,128 |
0,016408 |
6 |
2,35 |
1,55 |
5,5225 |
3,6425 |
2,4025 |
1,585 |
-0,035 |
0,001252 |
7 |
1,44 |
0,89 |
2,0736 |
1,2816 |
0,7921 |
0,991 |
-0,101 |
0,010268 |
8 |
1,5 |
1,26 |
2,25 |
1,89 |
1,5876 |
1,031 |
0,230 |
0,05267 |
сумма |
14,23 |
9,7 |
26,2583 |
17,8719 |
12,4566 |
|
|
0,291885 |
Следовательно,
x = xi / 8 = 14,23 / 8 = 1,78 тыс. руб. – среднее значение среднедушевых доходов
y = yi / 8 = 9.7 / 8 = 1,21 тыс. руб. – среднее значение среднедушевых потребительских расходов.
xy = 17.87 / 8 = 2.23
x2 = 26,26 / 8 = 3.28
Тогда,
a1 = 0,077 / 0,118 = 0,65
a0 = y - a1 *x = 0,051
Таким образом, искомое уравнение регрессии имеет вид:
y = 0,051 + 0,65*x
Выборочный коэффициент парной корреляции:
rxy = 0,762
Для того, чтобы с большей уверенностью полагаться на значение коэффициента корреляции выясним значимо ли значение коэффициента корреляции.
Рассчитаем статистику:
П
ри
уровне значимости а = 0,1, t
(0,95; 6) = 1,943
Так как |t| < tтабл, то коэффициент корреляции не существенно отличается от нуля и существует слабая связь между x и y.
Коэффициент детерминации определяется по формуле:
R2 = (y’i -y)2 / (yi -y)2 = 1 – ((yi – y’i)2 / (yi -y)2)
(yi – y’i)2 - это мера разброса, объясненная с помощью уравнения регрессии;
(yi -y)2 - это мера разброса не объясненная уравнением регрессии.
R2 = 1-0.292/ 0,695=0.58
Уравнение регрессии достаточно точно отражает истинную зависимость между доходами и расходами.
4. Найдем точечный прогноз для 8-го субъекта.
x0 = 1,3* 1,5 = 1,95 тыс. руб.
y’0 = a + b*x0 = 1,32 тыс. руб.
Интервальным прогнозом зависимой переменной y, соответствующим некоторому значению переменной x = x0, называется доверительный интервал, границы которого находятся по формуле:
yвн = y(x0) t1-/2, n-2 Sy
где y(x0) - точечный прогноз
Пусть = 0,1, тогда 1 - = 0,9; t1-/2, n-2 = 1,943
S2 = (y’i -yi)2 / (n-2)=0,067;
(x1 –x)2 = xi2 – n * (x )2 =0,95
Тогда
Следовательно, y’в,н = y’(x0) t1-/2, n-2 * Syi = 1.32 0,052
y’в = 1,372 y’н = 1,268
Это означает, что при увеличении среднедушевых денежных доходов в на 30%, размер среднедушевых среднемесячных потребительских расходов с вероятностью 0,9 будет колебаться в пределах от 1,268 тыс. руб. до 1,372 тыс. руб.
Следовательно, y0 (1,268; 1,372) с 90% вероятностью.
Рассмотрим найденное уравнение регрессии y = 0,051+ 0,653*x. Оно было найдено по методу наименьших квадратов. Прямая регрессии, изображенная на рисунке поля рассеяния наилучшим образом приближается к заданным точкам, т.к. сумма квадратов отклонений фактических значений y от расчетных минимально.
Коэффициент а0 = 0,051 не имеет экономического смысла, поскольку формально соответствует размеру потребительских расходов при нулевом уровне денежных доходов. Коэффициент а1 = 0,653 определяет прирост потребительских расходов, обусловленный приростом денежных доходов, т.е. прирост денежных доходов, например, на 100 руб. вызовет прирост потребительских расходов на 65,3 руб.
Выпишем итоговые результаты.
y = а0 + а1 * x + е |
- математическая модель зависимости потребительских расходов от денежных доходов |
y’ = 0,051+ 0,653 * x |
- уравнение регрессии, количественно выражающее зависимость расходов от доходов |
rxy = 0.762 |
- коэффициент корреляции между x и y, его значение свидетельствует о наличии тесной линейной зависимости между доходами и расходами |
R2 = 0,58 |
- коэффициент детерминации, его значение показывает, что уравнение регрессии отражает имеющуюся зависимость между расходами и доходами |
y’0 = 1,32 |
- точечный прогноз. Так как вероятность совпадения фактических потребительских расходов (вероятность попадания в любую точку) равна нулю, то были составлены интервальные прогнозы |
y’н = 1,268; y’в = 1.372 |
- интервальный прогноз с 90%-ой доверительной вероятностью |