
5.2 задача
.docxЗадача 4.2. Построение и анализ уравнения множественной линейной регрессии.
Условие. В предшествующей работе выявлен оптимальный состав переменных для построения корректной модели множественной регрессии. Исходные данные представлены в приложении 1.
Требуется, используя средства MS EXCEL:
построить множественную модель с использованием встроенного инструмента «Регрессия»;
оценить показатели тесноты связи;
дать оценку значимости (достоверности) уравнения в целом и параметрам, провести интерпретацию коэффициентов чистой регрессии;
рассчитать и проанализировать стандартизованные коэффициенты регрессии и коэффициенты раздельной детерминации;
рассчитать и оценить прогнозное значение стоимости квартиры при заданных значениях факторов.
Решение.
1. Построим модель с использованием инструмента «Регрессия», в итоге получим выходные данные (табл. 4.2.1).
Табл. 4.2.1 – а ВЫВОД ИТОГОВ |
||||||||||||
Регрессионная статистика |
|
|
|
|
||||||||
R множественный |
0,946 |
|
|
|
|
|
||||||
R-квадрат |
0,896 |
|
|
|
|
|
||||||
Нормир. R-квадрат |
0,888 |
|
|
|
|
|
||||||
Стандарт. ошибка. |
297,214 |
|
|
|
|
|
||||||
Наблюдения |
30 |
|
|
|
|
|
||||||
|
|
|
|
|
|
|
||||||
Дисперсионный анализ |
|
|
|
|
||||||||
|
df |
SS |
MS |
F |
Значимость F |
|
||||||
Регрессия |
2 |
20452522,54 |
10226261,27 |
115,76 |
5,68217E-14 |
|
||||||
Остаток |
27 |
2385082,74 |
88336,40 |
|
|
|
||||||
Итого |
29 |
22837605,28 |
|
|
|
|
||||||
|
|
|
|
|
|
|
||||||
|
Коэфф. |
Станд. Ош. |
t-стат. |
P-Значение |
Нижние 95% |
Верхние 95% |
||||||
Y-пересечение |
-1025,883 |
175,421 |
-5,85 |
0,0000 |
-1385,82 |
-665,9475268 |
||||||
X1 |
56,228 |
15,862 |
3,54 |
0,0015 |
23,68 |
88,7748150 |
||||||
X3 |
20,484 |
2,058 |
9,96 |
0,0000 |
16,26 |
24,7061147 |
Все коэффициенты чистой регрессии имеют Р-значения меньше принятого уровня значимости (0,05), следовательно, признаются достоверными. Выборочная модель множественной линейной регрессии может быть записана в виде:
2. Оценим показатели тесноты связи.
EXCEL автоматически рассчитал коэффициенты множественной корреляции (множественный R) и детерминации (R-квадрат), а также скорректированный коэффициент детерминации (нормированный R-квадрат) (табл. 4.2.1).
Напомним, что
коэффициент множественной детерминации
определяется по формуле:
,
где W
– общий,
–
воспроизведенный уравнением, а Wе
– остаточный
объем вариации.
Множественный
коэффициент корреляции (R)
и скорректированный
коэффициент детерминации: (
):
,
где n – число наблюдений (n=30), p – число регрессоров (факторов) в уравнении, в нашем случае p=2).
чувствителен к увеличению числа регрессоров и уменьшению числа наблюдений, чем больше факторов включено в модель и чем меньше число наблюдений, тем больше различия между множественным коэффициентом детерминации и скорректированной его величиной.
Мы получили
следующие показатели тесноты связи:
R2=0,896,
,
R=0,946.
Между коэффициентом детерминации и
скорректированным коэффициентом
существуют различия (0,9%). Так как число
наблюдений достаточно велико, то различия
не столь существенны, и поэтому можно
использовать R2
и R
для оценки
тесноты связи. Множественный коэффициент
корреляции (R
= 0,946) свидетельствует об очень тесной
связи между факторами и результатом,
множественный коэффициент детерминации
показывает, что 89,6 % вариации выручки
связано с включенными в модель факторами.
Полученные выводы следует оценить на
достоверность: насколько они существенны
для генеральной совокупности, поскольку
мы получили лишь выборочные показатели
связи и выборочное уравнение регрессии.
3. Дадим оценку значимости уравнения в целом, условного начала и коэффициентов чистой регрессии.
Оценка значимости
уравнения в целом
проводится на основе дисперсионного
анализа. Предположим, что уравнение не
значимо для генеральной совокупности
(Н0:
).
В качестве альтернативной гипотезы
выдвинем предположение о значимости
уравнения (НА:
).
Проверим эти гипотезы на 5% уровне
значимости. В качестве критерия выберем
критерий F-Фишера,
его фактическое значение определяется
по формуле.
=
Фактическое
значение критерия равно 115,76 (табл.
4.2.1). Сравним его с критическим значением
,
которое
можно найти, используя встроенную
функцию
FРАСПОБР(
)
или по таблице (приложение 4).
В нашем
случае:
=FРАСПОБР(0,05;2;27)=
3,35.
Поскольку фактическое значение превышает критическое, принимаем гипотезу о значимости уравнения регрессии в целом для генеральной совокупности. Можно также оценить значимость критерия (фактического значения): из табл. 4.2.1 видно, что критерий значим уже при 5,682 ∙10-14 %-ой области, что гораздо меньше принятой нами 5%-ой.
Следовательно, уравнение в целом значимо. Это означает тот факт, что в уравнении есть хотя бы один статистически достоверный параметр взаимосвязи, но возможно не значим какой-либо из его параметров для генеральной совокупности.
Выдвинем рабочую гипотезу о равенстве нулю всех параметров уравнения в генеральной совокупности и альтернативную ей:
H0: HA:
B0 = 0; B0 0;
B1 = 0; B1 0;
B3 = 0. B3 0.
Гипотезы проверим
на 5% уровне значимости. Если выборка
является малой, то для проверки гипотезы
следует использовать критерий Стьюдента.
Напомним, что найти его критическое
значение можно, используя функцию
СТЬЮДРАСПОБР(
;n-p-1)
или данные таблицы в приложении 3 -
2,0518.
Фактические
значения критерия t
определяется
по формуле:
.
EXCEL автоматически производит расчет фактических значений критерия t и его значимости, средних ошибок, доверительных интервалов (на 95%-ом уровне вероятности суждения) для каждого из параметров уравнения регрессии (табл. 4.2.1, последняя ее часть).
Все коэффициенты регрессии оказались достоверными: Р-значение ниже принятого уровня значимости. Следовательно, можно дать точечную и интервальную оценку параметрам в генеральной совокупности.
Точечная оценка
позволяет предположить, что генеральное
уравнение будет иметь параметры
при соответствующих
размерах средних ошибок (табл. 4.2.2).
Табл. 4.2.2. Точечная оценка коэффициентов чистой регрессии.
Фактор |
Выборочный коэффициент чистой регрессии (вi) |
Стандартная ошибка (тв) |
X1 - трудообеспеченность, чел./100 га.; |
56,228 |
15,862 |
X3 - балл почвы; |
20,484 |
2,058 |
Проведем интервальную оценку параметров:
.
Для нашей модели с уровнем вероятности суждения 95% можно утверждать, что параметры генерального уравнения множественной регрессии попадут в следующие интервалы (табл. 4.2.3).
Таблица 4.2.3. Интервальная оценка параметров регрессии
-
Коэффициенты
Нижние 95%
Верхние 95%
Y-пересечение
-1025,883
-1385,82
-665,9475268
X1
56,228
23,68
88,7748150
X3
20,484
16,26
24,7061147
;
Поскольку все коэффициенты чистой регрессии оказались значимыми, возможна их интерпретация. Учитывая, что выручка в расчете на 100 га с./х. угодий в базе данных дана в тыс. руб., коэффициенты чистой регрессии показывают, что:
- при увеличении трудообеспеченности на 1 человека/100 га, выручка в расчете на 100 га с./х. угодий увеличится в среднем на 56 228 руб., при условии, что все остальные факторы стоимости останутся неизменными и будут зафиксированы на среднем уровне (с уровнем доверия 95% можно утверждать, что в генеральной совокупности она может возрастать от 23 680 до 88 775 руб.);
- при увеличении значения балла почвы на 1, выручка в расчете на 100 га с./х. угодий в среднем будет возрастать на 20 484 руб. (с уровнем доверия 95% можно утверждать, что в генеральной совокупности она может возрастать от 16 260 до 24 706 руб.), при условии, что все остальные факторы останутся на среднем уровне;
Условное начало (у-пересечение) интерпретации не подлежит, поскольку нет случаев с нулевым значением всех перечисленных факторов.
4. Чтобы продолжить
корреляционный анализ и сравнить факторы
по силе влияния, определить чистый вклад
каждого фактора рассчитаем
стандартизованные коэффициенты
(коэффициенты эластичности (Э)
и бета-коэффициенты
(β))
и коэффициенты раздельной детерминации
(d2)
по каждому фактору:
и т.д.;
и т.д.;
;
и т.д., где
- средние значения,
-
среднеквадратические отклонения
факторного и результативного признака
соответственно. Сумма
коэффициентов раздельной детерминации
дает множественный коэффициент
детерминации:
.
Средние значения и среднеквадратические отклонения переменных определим с использованием встроенных статистических функций «СРЗНАЧ(…)», «СТАНДОТКЛОНП(…)».
Для определения коэффициентов раздельной детерминации нам понадобятся коэффициенты парной корреляции каждого из факторов с результативной переменной. Для этого воспользуемся матрицей парных коэффициентов корреляции с использованием инструмента «Корреляция» пакета анализа данных EXCEL (табл. 4.1.5).
Результаты расчетов стандартизованных коэффициентов регрессии и коэффициентов раздельной детерминации оформим (табл.4.2.4).
Табл. 4.2.4. Стандартизованные коэффициенты регрессии и коэффициенты раздельной детерминации
Переменная |
Коэффициент чистой регрессии, b |
Среднее значение |
Среднеквадратическое отклонение, σ |
Коэффициент парной корреляции с зависимой переменной, ryx |
Коэффици-ент эластич-ности, Э |
Бета-коэф-фициент, β |
Коэффи-циент раздельной детерминации, d2 |
X1 - трудообеспеченность, чел./100 га.; |
56,228 |
5,43 |
4,21 |
0,72 |
0,237 |
0,271 |
0,1951 |
X3 - балл почвы; |
20,484 |
98,00 |
32,46 |
0,92 |
1,560 |
0,762 |
0,7010 |
У - выручка в расчете на 100 га с./х. угодий, тыс. руб. |
х |
1286,85 |
872,50 |
1 |
х |
х |
х |
Итого |
х |
х |
х |
х |
х |
х |
0,896 |
|
|
|
|
|
|
|
|
Коэффициент эластичности (Э4) показывает, что при увеличении трудообеспеченности, чел./100 га. на 1% (от среднего уровня) размер выручки в расчете на 100 га с./х. угодий возрастет на 0,237%, при условии, что прочие факторы будут зафиксирована на среднем уровне.
Э5 показывает, что при увеличении балла почвы на 1% размер выручки в расчете на 100 га с./х. угодий возрастет на 1,56% от ее среднего уровня (при неизменности прочих факторов).
-коэффициенты
показывают,
что если каждый из факторов изменится
на свое среднеквадратическое отклонение,
то размер выручки в расчете на 100 га
с./х. угодий под воздействием
трудообеспеченности, чел./100 га. возрастет
на 0,27 своего среднеквадратического
отклонения, за счет балла почвы – на
0,76.
Коэффициенты
раздельной детерминации
показывают вклад каждого фактора в
формирование коэффициента множественной
детерминации, вклад первого фактора –
19,51%, второго – 70,10%. Сумма частных
коэффициентов равна коэффициенту
детерминации:
.
Итак, при анализе стандартизованных коэффициентов регрессии и коэффициентов раздельной детерминации было выявлено, что на величину выручки в расчете на 100 га с./х. угодий влияние различий в баллах почвы сильнее, чем различия в трудообеспеченности, чел./100 га.
5. Следует отметить, что модель можно использовать в целях прогнозирования, поскольку при высоком коэффициенте детерминации параметры уравнения регрессии оказались значимы.
Определим прогнозное значение выручки в расчете на 100 га с./х. угодий. Предположим, что мы хотели бы получить выручку со следующими параметрами: трудообеспеченность, чел./100 га – 6,8 чел./100 га, балл почвы – 2756.
Подставим прогнозные значения факторов в уравнение регрессии, тогда прогнозная стоимость составит: =-1025,883+56,228∙6,8+20,484·2756=55810,37 (тыс.руб.)
Средняя ошибка
прогноза (
)
зависит от среднеквадратического
отклонения индивидуальных значений от
выравненных по уравнению регрессии:
Sост.=
(см. табл. 4.2.1) и ошибки положения плоскости
регрессии при экстраполяции факторных
признаков (расчет этой ошибки производится
с применением линейной алгебры, что не
входит в программу дисциплины).
Доверительный
интервал прогноза имеет вид:
Если в качестве приблизительной оценки взять Sост, то 95% доверительный интервал прогноза составит (без учета ошибки положения плоскости регрессии):
55810,37
582,5316
Прогнозное значение стоимости квартиры заданных параметров в генеральной совокупности при уровне вероятности суждения 95% будет находиться в пределах от 55227,84 до 56392,90 тыс. руб.