Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Эконометрика 1 лекция / Метод_указ_Эко_лр_5_6_вар1.doc
Скачиваний:
90
Добавлен:
02.04.2015
Размер:
4.42 Mб
Скачать

5.3. Геометрическая интерпретация

Рассмотрим n-мерное векторное пространствоRn, снабженное стандартным скалярным произведением: т.е. если

.

Пусть

(5.25)

(5.26)

где y– вектор столбец размерностифактических значений отклика;

aи b– числовые коэффициенты подлежащие определению т.еa- свободный член иb-коэффициент регрессии;

– вектор размерности, составленный из реальных значений фактора;

- вектор размерности, составленный из единиц;

- вектор, лежащий в двумерной гиперплоскостиπ, натянутой на векторыи. Мы предполагаем, что эти векторы не коллинеарны. Поставим задачу: найти такиеaи b, чтобы векторeимел наименьшую длину. Другими словами мы хотим наилучшим образом аппроксимировать векторy вектором, лежащим в гиперплоскостиπ. Очевидно, что решением является такой вектор, для которого векторeперпендикулярен плоскостиπ. Для этого необходимо и достаточно, чтобы вектор был ортогонален векторами, порождающим плоскостьπ .(рис. 5.3)

Рис. 5.3 Геометрическая интерпретация построения уравнения регрессии

(5.27)

Используя определение вектора e,получаем следующие соотношения

(5.28)

Раскрыв скобки в последней системе (5.28) получим известные соотношения (5.8).

Также красивую и ясную геометрическую интерпретацию имеет коэффициент детерминированности. Рассмотрим рис.5.4. Векторявляется ортогональной проекцией вектора на векторВектор- это ортогональная проекция вектора y на двумерную гиперплоскостьπ,натянутой на векторыи.

Рис. 5.4 Геометрическую интерпретацию имеет коэффициент детерминированности

По теореме о трех перпендикулярах ортогональная проекция вектора на векторсовпадает с. Рассмотрим прямоугольный треугольник со сторонами,иe, для него справедлива теорема Пифагора

(5.29)

Это равенство является геометрическим аналогом соотношения (5.10) . Сопоставляя соотношения (5.10), (5.27) и (5.11), получаем соотношение

,

где φугол между сторонамии.

Таким образом, длясправедливо следующее соотношение

.

5.4. Матричная форма записи

Обозначим через Xматрицу размерностиn x2

B– вектор коэффициентов,

Условие ортогональности вектора e к плоскостиπ записывается как

.

Или

Последнее уравнение эквивалентно следующему уравнению

.

Это уравнение может быть без труда решено:

(5.30).

Это выражение в развернутом виде будет выглядеть следующим образом:

(5.31).

Заметим, что (5.31) есть решение системы (5.8) с помощью обратной матрицы.

5.5. Средство «Регрессия» надстройки «Пакет анализа»msExcel

Средство «Регрессия» служит для построения линейного уравнения регрессии и вычисления всех характеристик по его качеству и значимости; значимость всех коэффициентов уравнения и соответствующих доверительных интервалов; теоретические (прогнозируемые) значения отклика и соответствующие остатки, и их графики и т.д. Для этого необходимо заполнить диалоговое окно, приведенное на рис.5.5, назначение всех полей очевидно. Результат работы представлен на рис.5.6.Сравните полученные результаты, с результатами, полученными вручную (используя приведенные выше формулы), для примера, разобранного ниже, на рис.5.9-5.14.

Строки 182-186 содержат результат применения дисперсионного анализа для оценки значимости. Но вместоприведено значение «значимостьF», если это значение («значимостьF») меньше уровня значимости, тосущественно отличен от0.

Строки 188-190 содержат информацию о величине коэффициентов регрессии, оценки их значимости и соответствующие доверительные интервалы. При проверке значимости коэффициентов регрессии по критерию Стьюдента в традиционном порядке вычисляем столбец «t-статистика», но вместоприведено «Р-значение», если это значение меньше уровня значимости, то соответствующий коэффициент существенно отличен от 0.

Рис. 5.5 Диалоговое окно средства «Регрессия» надстройки «Пакет анализа»MSExcel

Рис. 5.6Результаты работы средства«Регрессия» надстройки «Пакет анализа»MSExcel

ПРИМЕР

Имеются следующие данные по 10 фермерским хозяйствам области:

Таблица 5.3

Зависимость урожайности от внесенных удобрений

п/п

1

2

3

4

5

6

7

8

9

10

Урожайность зерновых (ц/га)

15

12

17

21

25

20

24

14

23

13

Внесено удобрений (кг/га)

4,0

2,5

5,0

5,8

7,5

5,7

7,0

3,0

6,0

3,5

Решение

Решение проведем с использованием ППП MS Excel..

Создадим файл с исходными данными в среде MS Excel. Исходные данные разместим в таблице следующей структуры (рис.5.7):

  • Х(Внесено удобрений, кг/га)

  • Y(Урожайность зерновых, ц/га)

Рис. 5.7. Excel. Исходные данные и поле корреляции.

  1. Значения описательных статистик по каждой переменной найдем, используя надстройку Сервис - Пакет анализа  Описательная статистика(Рис. 5.8.).

Рис. 5.8. Excel. Описательные статистики.

Определим коэффициенты вариации переменных:

Варьирование признаков находится в допустимом пределе (<35%).

  1. Построим поле корреляции моделируемого (Урожайность зерновых) и факторного признака(Внесено удобрений). Для построения используемМастер диаграмм – тип Точечная.

Как следует из рис.5.7, с увеличением количества внесенных удобрений на 1 га посевов урожайность зерновых растет примерно линейно. Следовательно, для данной зависимости можно попытаться построить линейное уравнение регрессии.

  1. Найдем значение линейного коэффициента корреляции двумя способами:

  • непосредственно по определению, формула (5.1);

  • используя встроенную функцию КОРЕЛЛ().

В обоих случаях получили значение коэффициента корреляции 0.977, что говорит о наличии существенной линейной корреляции между признаками.

Рис. 5.9. Вычисление коэффициента корреляции и параметров уравнения регрессии в Excel(режим отображения данных).

  1. Определим параметры уравнения парной регрессии – коэффициенты линейного уравнения и их ошибки (средние квадратические погрешности) - тремя способами:

  • непосредственно по определению (формулы 5.9 и 5.17);

  • используя встроенную функцию ЛИНЕЙН();

  • используя ЛИНИЮ ТРЕНДА.

Во всех случаях получим уравнение (рис.5.10), откуда следует, что каждый килограмм внесенного удобрения увеличивает урожайность на2.77ц/га. Если удобрения не вносить (Х=0) , то урожайность будет равна4.53 ц/га.

Рис 5.10. Вычисление коэффициента корреляции и параметров уравнения регрессии в Excel(режим отображения формул).

  1. Вычислим коэффициент детерминации R2. Для этого воспользуемся формулой (5.11). Все вычисления показаны на рис.5.11 и 5.12.

Чтобы найти воспользуемся знаниемYср(ячейка С16) и заполним столбец I. Чтобы найти,инеобходимо знать теоретические значения отклика(Yтеор). Для каждого значения факторапо полученному уравнению регрессиивычислим теоретические значения(столбец J). Найдем остатки - разность между исходными значениями и вычисленными значениями отклика по уравнению регрессии (столбецK). Вычислим сумму квадратов остатков(столбецL) и(столбецM). Искомое значение коэффициента детерминацииR2 вычислено в ячейке H18, оно равно 0.9558. Таким образом,95.58%вариацииYобъясняется вариацией фактораX, или95,6%вариации урожайности объясняется вариацией количества внесенных удобрений, т.е. сила линейной связи между количеством внесенных удобрений и урожайностью весьма высокая.

Значение R2 для линейной регрессии могло быть получено другим способом - используя соотношение, для проверки вычислим=(0.9776)2=0.9558. ВычисленныеR2 значения совпали. Заметим, что в процессе решения значение R2 было вычислено по крайней мере дважды:

  • при использовании функции ЛИНЕЙН(), ячейка Е25;

  • при построении линии тренда.

Рис. 5.11.Вычисление коэффициента детерминированности

Лист Excelв режиме отображения данных.

Рис.5.12. Вычисление коэффициента детерминированности.

Лист MSExcelв режиме отображения формул.

6. Оценим статистическую значимость уравнения в целом, используя критерий Фишера.

Нулевая гипотеза H0: уравнение регрессии не значимо, коэффициент детерминацииR2=0. Альтернативная гипотезаH1: коэффициент детерминациии уравнение в целом значимо.

:

С помощью функции FРАСПОБР() для уровня значимости0,05находимFкрит. Число степеней свободы для регрессионной суммы равно1, для остаточной суммы равно8. ТогдаFкрит = FРАСПОБР(0,05;1;8)=5.31 (рис. 5.13).

Рис. 5.13. MS Excel. Проверка гипотезы о статистической значимости уравнения регрессии.

Так как , принимаем альтернативную гипотезу о значимости коэффициента детерминации и всего уравнения в целом.

  1. Оценим статистическую значимость параметров уравнения регрессии.

Значения стандартной ошибки ипараметров определим пользуясь формулами (5.17), все вычисления реализованы на рис.5.9-5.10, ячейки А27 и А28. В результате получили=0.2108 и=1.1073. Этот же результат получен как результат работы функцииЛИНЕЙН() в ячейкахE24 иF24 на тех же рисунках .

  1. Проведем оценку статистической значимости коэффициента регрессии (b), используя критерийСтьюдента.

Выдвигаем нулевую гипотезу H0:коэффициент регрессии равен нулю. Альтернативная гипотеза -H1:.

Вычисляем значение критерия .

Находим с помощью функцииСТЬЮДРАСПОБР(), для уровня значимости0,05и числа степеней свободы8 СТЬЮДРАСПОБР(0,05;8)=2,306. ,следовательно, принимаем альтернативную гипотезу, т.е. коэффициент регрессии существенно отличен от нуля.

Статистическая значимость свободного члена (a), оценивается аналогично. Для этого выдвигаем нулевую гипотезуH0:, свободный член равен нулю. Альтернативная гипотезаH1:.

Вычисляем значение критерия

.

Найденное выше=2,306, сравниваем с , поскольку ,то принимаем альтернативную гипотезу о значимости свободного члена уравнения регрессии.

Так как a, b и неслучайноотличаются от нуля, полученное уравнение линейной регрессии значимо с вероятностью95%, как и параметры этого уравнения и может быть использовано для анализа и прогноза.

  1. Определим доверительные интервалы для bиaпо формуле (5.19):

  • для коэффициента регрессии b:

  • для свободного члена a:

Поскольку с надежностью 95%доверительные интервалы для коэффициентовaиbуравнения регрессии не содержат ноль, то это подтверждает вывод об их статистической значимости.

  1. Остатки - разность между исходными и вычисленными по уравнению регрессии значениям уже вычислены., и содержатся в столбце K на рис.5.11 - 5.12.

Вычислим сумму значений остатков. Построим график остатков (рис. 5.14).

Рис. 5.14. График остатков.

Сумма значений остатков равна нулю, следовательно, первое условие Гаусса-Маркова выполняется (равенство нулю математического ожидания случайной компоненты). Из визуального анализа графика можно сделать вывод, что тенденция остатков не прослеживается, т.е. условие гомоскедастичности не нарушается.

  1. Построим интервальную оценку прогноза для ожидаемого значения урожайности.

Среднее значение X=5кг/га. Найдем прогноз урожайности при увеличении среднего значения внесенных удобрений на 5%, то есть для .

Рис. 5.15. Вычисление интервальной оценки прогноза в Excel(режим отображения данных).

Рис. 5.16. Вычисление интервальной оценки прогноза в Excel(режим отображения формул).

Точечный прогноз получим подстановкой значения X в уравнение регрессии:ц/га. Предельная ошибка прогноза, которая в 95% случаев не будет превышена, вычисляется по соотношению (5.21) и составляет1,126ц/га. Таким образом, интервальная оценка прогноза составит

16,49 ц/га < Y <21,69 ц/га

Таким образом, при увеличении среднего значения внесенных удобрений на 5%, значение урожайности с вероятностью95%окажется в интервале16,49 ц/га < Y <21,69 ц/га

11. Вычислим коэффициенты регрессии матричным методом (используя формулу 5.28). Все расчеты приведены на рис.5.17-5.18.

Рис. 5.17. Вычисление коэффициентов регрессии матричным методом в MSExcel(режим отображения данных).

Рис. 5.18. Вычисление коэффициентов регрессии матричным методом в MSExcel(режим отображения формул - начало).

Рис. 5.19. Вычисление коэффициентов регрессии матричным методом в Excel(режим отображения формул - конец).

  1. Вычисление характеристик линейного уравнения регрессии с использованием средства «Регрессия» надстройки «Пакет анализа» MS Excel, приведено на рис.5.5-5.6/

Все характеристики совпадают со значениями вычисленными вручную (по определению).