Добавил:

Tushkan Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Национальный исследовательский университет «МЭИ»

Предмет:

Теория вероятностей и математическая статистика

Файл:

Лабораторные работы / Машеров (13 вариант) / Лабораторная работа 8.docx

Скачиваний:

Добавлен:

28.06.2014

Размер:

806.21 Кб

Скачать

☆

1 / 41 2 3 4 > Следующая >>>

Лабораторная работа N8

Линейный регрессионный анализ

Студент: Машеров Д.

Группа А-13-08

Преподаватель: Тигетов Д.Г.

В линейный регрессионный анализ входит широкий круг задач, связанных с построением (восстановлением) зависимостей между группами числовых переменных

X  (x₁ , ..., x_p) и Y = (y₁ ,..., y_m).

Предполагается, что Х- независимые переменные (факторы, объясняющие переменные) влияют на значенияY- зависимых переменных (откликов, объясняемых переменных). По имеющимся эмпирическим данным (X_i , Y_i),i= 1, ...,nтребуется построить функциюf(X), которая приближенно описывала бы изменениеYпри измененииX:

Y  f (X).

Предполагается, что множество допустимых функций, из которого подбирается f(X), является параметрическим:

f(X) =f(X, ),

где - неизвестный параметр (вообще говоря, многомерный). При построенииf(X) будем считать, что

Y = f(X, ) +, (1)

где первое слагаемое - закономерное изменение YотX, а второе -- случайная составляющая с нулевым средним;f(X, ) является условным математическим ожиданиемYпри условии известногоX и называетсярегрессией Y по X.

1. Простая линейная регрессия

Пусть XиYодномерные величины; обозначим ихxиy, а функцияf(x, ) имеет видf(x,) =A + bx, где= (A, b). Относительно имеющихся наблюдений (x_i , y_i),i= 1, ...,n, полагаем, что

y_i = A + bx_i + _i , (2)

где ₁ , ..., _n- независимые (ненаблюдаемые) одинаково распределенные случайные величины. Можно различными методами подбирать “лучшую” прямую линию. Широко используетсяметод наименьших квадратов.Построим оценку параметра= (A, b) так, чтобы величины

e_i = y_i  f (x_i, ) = y_i  A  bx_i ,

называемые остатками, были как можно меньше, а именно, чтобы сумма их квадратов была минимальной:

=minпо (A, b) (3)

Чтобы упростить формулы, положим в (2) x_i = x_i  ;получим:

y_i = a + b (x_i  ) + _i , i = 1, ..., n, (3)

где =,a = A + b.Суммуминимизируем по (a,b), приравнивая нулю производные поaиb; получим систему линейных уравнений относительноaиb. Ее решение () легко находится:

, где, (4)

. (5)

Свойства оценок. Нетрудно показать, что еслиM_i = 0, D_i = ², то

1) M= а, М=b, т.е. оценки несмещенные;

2) D= ² / n,D=²/;

3) cov() = 0;

если дополнительно предположить нормальность распределения _i, то

4) оценки инормально распределены и независимы;

5) остаточная сумма квадратов

Q²=(6)

независима от (,), аQ²/ ²распределена по закону хи-квадратсn-2 степенями свободы.

Оценка для ² и доверительные интервалы.Свойство 5) дает возможность несмещенно оценивать неизвестный параметр²величиной

s² = Q²/ (n-2). (7)

Поскольку s²независима оти, отношения

и, где,

имеют распределение Стьюдента с (n-2) степенями свободы, и потому доверительные интервалы дляaиbтаковы:

,, (8)

где t_p- квантиль уровня (1 +P_Д) / 2 распределенияCтьюдента сn- 2 степенями свободы,P_Д- коэффициент доверия.

Проверка гипотезы о коэффициенте наклона.Обычно возникает вопрос: может быть,y не зависит отх, т.е.b= 0, и изменчивостьy обусловлена только случайными составляющими_i? Проверим гипотезуН: b= 0. Если 0 не входит в доверительный интервал (8) дляb, т.е.

, (9)

то гипотезу Нследует отклонить; уровень значимости при этом = 1  P_Д.

Другой способ (в данном случае эквивалентный (9)) проверки гипотезы Нсостоит в вычислении статистики

F=, (10)

распределенной, если Нверна, по законуF(1,n2) Фишера с числом степеней свободы 1 иn2. Если

F > F₁_ , (11)

где F₁_ - квантиль уровня1 распределенияF(1,n- 2), то гипотезаНотклоняется с уровнем значимости.

Вариация зависимой переменной и коэффициент детерминации. Рассмотрим вариацию (разброс)T_ss(total sum of square) значенийy_i относительно среднего значения

T_ss=.

Обозначим предсказанные с помощью функции регрессии значенияy_i:. СуммаR_ss(regression sum of square)

R_ss=

означает величину разброса, которая обусловлена регрессией (ненулевым значением наклона ). СуммаE_ss (error sum of squares)

E_ss =

означает разброс за счет случайных отклонений от функции регрессии. Оказывается,

T_ss= R_ss + E_ss ,

т.е. полный разброс равен сумме разбросов за счет регрессии и за счет случайных отклонений. Величина R_ss/ T_ss- это доля вариации значенийy_i, обусловленной регрессией (т.е. доля закономерной изменчивости в общей изменчивости). Статистика

R²=R_ss/ T_ss = 1E_ss/ T_ss

называется коэффициентом детерминации. ЕслиR²= 0, это означает, что регрессия ничего не дает, т.е. знаниехне улучшает предсказания дляy по сравнению с тривиальным. Другой крайний случайR²= 1 означает точную подгонку: все точки наблюдений лежат на регрессионной прямой. Чем ближе к 1 значениеR², тем лучше качество подгонки.

Пример. В табл. 1 приведены данные по 45 предприятиям легкой промышленности по статистической связи между стоимостью основных фондов (fonds, млн руб.) и средней выработкой на 1 работника (product,тыс. руб.);z- вспомогательный признак:z= 1 - федеральное подчинение,z= 2 - муниципальное (файлProduct. Sta.).

Таблица 1

fonds	product	z	fonds	product	z	fonds	product	z
6,5	18,3	1	9,3	17,2	2	10,4	21,4	2
10,3	31,1	1	5,7	19,0	2	10,2	23,5	2
7,7	27,0	1	12,9	24,8	2	18,0	31,1	2
15,8	37,9	1	5,1	21,5	2	13,8	43,2	2
7,4	20,3	1	3,8	14,5	2	6,0	19,5	2
14,3	32,4	1	17,1	33,7	2	11,9	42,1	2
15,4	31,2	1	8,2	19,3	2	9,4	18,1	2
21,1	39,7	1	8,1	23,9	2	13,7	31,6	2
22,1	46,6	1	11,7	28,0	2	12,0	21,3	2
12,0	33,1	1	13,0	30,9	2	11,6	26,5	2
9,5	26,9	1	15,3	27,2	2	9,1	31,6	2
8,1	24,0	1	13,5	29,9	2	6,6	12,6	2
8,4	24,2	1	10,5	34,9	2	7,6	28,4	2
15,3	33,7	1	7,3	24,4	2	9,9	22,4	2
4,3	18,5	1	13,8	37,4	2	14,7	27,7	2

Выполнение

Построим диаграмму рассеяния, чтобы убедиться, что предположение линейности регрессионной зависимости не лишено смысла.

Выполним регрессионный анализ:

Основные результаты: коэффициент детерминации R²: 0.597; гипотеза о нулевом значении наклона отклоняется с высоким уровнем значимости

p= 0.000000 (т.е.p< 10^-6).

В- значения оценок неизвестных коэффициентов регрессии;St. Err. of B- стандартные ошибки оценки коэффициентов,t- значение статистики Стьюдента для проверки гипотезы о нулевом значении коэффициента;p - level - уровень значимости отклонения этой гипотезы.

В данном случае, поскольку значения p-level очень малы (меньше 10^-4), гипотезы о нулевых значениях коэффициентов отклоняются с высокой значимостью. Итак, имеем регрессию:

product = 11.5 + 1.43fonds,

соответствующие стандартные ошибки коэффициентов: 2.1 и 0.18; значение sпо (7):s= 5.01 (Std Error of estimate - ошибка прогноза выработки по фондам с помощью этой функции). Значение коэффициента детерминацииR² = RI =0.597 достаточно велико (доляR = 0.77 всей изменчивости объясняется вариацией фондов). Уравнение регрессии показывает, что увеличение основных фондов на 1 млн руб. приводит к увеличению выработки 1 работника в среднем на₁= 1.43 тыс. руб. Для удобства интерпретации параметрапользуются коэффициентом эластичности