Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лабораторные работы / Сержанов (16 вариант) / Лабораторная работа 8.docx
Скачиваний:
14
Добавлен:
28.06.2014
Размер:
2.93 Mб
Скачать

Национальный исследовательский университет

Московский Энергетический Институт.

Лабораторная работа №8.

Линейный регрессионный анализ.

Студент: Сержанов Н.

Группа: А-13-08.

Преподаватель: Тигетов Д. Г.

Москва, 2011.

В линейный регрессионный анализ входит широкий круг задач, связанных с построением (восстановлением) зависимостей между группами числовых переменных

X (x1 , ..., xp) и Y = (y1 ,..., ym).

Предполагается, что Х- независимые переменные (факторы, объясняющие переменные) влияют на значенияY- зависимых переменных (откликов, объясняемых переменных). По имеющимся эмпирическим данным (Xi , Yi),i= 1, ...,nтребуется построить функциюf(X), которая приближенно описывала бы изменениеYпри измененииX:

Y f (X).

Предполагается, что множество допустимых функций, из которого подбирается f(X), является параметрическим:

f(X) =f(X, ),

где - неизвестный параметр (вообще говоря, многомерный). При построенииf(X) будем считать, что

Y = f(X, ) +, (1)

где первое слагаемое - закономерное изменение YотX, а второе -- случайная составляющая с нулевым средним;f(X, ) является условным математическим ожиданиемYпри условии известногоX и называетсярегрессией Y по X.

1. Простая линейная регрессия

Пусть XиYодномерные величины; обозначим ихxиy, а функцияf(x, ) имеет видf(x,) =A + bx, где= (A, b). Относительно имеющихся наблюдений (xi , yi),i= 1, ...,n, полагаем, что

yi = A + bxi + i , (2)

где 1 , ..., n - независимые (ненаблюдаемые) одинаково распределенные случайные величины. Можно различными методами подбирать “лучшую” прямую линию. Широко используетсяметод наименьших квадратов.Построим оценку параметра= (A, b) так, чтобы величины

ei = yi f (xi, ) = yi A bxi ,

называемые остатками, были как можно меньше, а именно, чтобы сумма их квадратов была минимальной:

=minпо (A, b) (3)

Чтобы упростить формулы, положим в (2) xi = xi ;получим:

yi = a + b (xi ) + i , i = 1, ..., n, (3)

где =,a = A + b.Суммуминимизируем по (a,b), приравнивая нулю производные поaиb; получим систему линейных уравнений относительноaиb. Ее решение () легко находится:

, где, (4)

. (5)

Свойства оценок. Нетрудно показать, что еслиMi = 0, Di = 2, то

1) M= а, М=b, т.е. оценки несмещенные;

2) D= 2 / n,D=2/;

3) cov() = 0;

если дополнительно предположить нормальность распределения i, то

4) оценки инормально распределены и независимы;

5) остаточная сумма квадратов

Q2 =(6)

независима от (,), аQ2 / 2распределена по закону хи-квадратсn-2 степенями свободы.

Пример. В табл. 1 приведены данные по 45 предприятиям легкой промышленности по статистической связи между стоимостью основных фондов (fonds, млн руб.) и средней выработкой на 1 работника (product,тыс. руб.);z- вспомогательный признак:z= 1 - федеральное подчинение,z= 2 – муниципальное.

Выполнение.

Построим диаграмму рассеяния с подобранной прямой регрессии.

Выполним регрессионный анализ:

Имеем регрессию:

product = 11.5 + 1.43fonds,

значение коэффициента детерминации R2=0.597 достаточно велико.

Уравнение регрессии показывает, что увеличение основных фондов на 1 млн руб. приводит к увеличению выработки 1 работника в среднем на 1 = 1.43 тыс. руб. Для удобства интерпретации параметрапользуются коэффициентом эластичности

,

который показывает среднее изменение (в долях или %) зависимой переменной y при изменении факторах:

.

Построим регрессию выработки по фондам для более однородной совокупности - для предприятий федерального подчинения (z=1).

Диаграмма рассеяния:

Регрессионный анализ:

Получаем результаты:

Product = 12.51 + 1.44fonds,

R2 = RI = 0.897, S = 2.68.