Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
vse_voprosy-Ekzamen!!!.doc
Скачиваний:
56
Добавлен:
20.09.2019
Размер:
3.37 Mб
Скачать

Метод наименьших квадратов

Это метод для оценки неизвестных величин по результатам измерений, содержащим случайные ошибки. МНК применяется также для приближённого представления заданной функции другими (более простыми) функциями. В методе наименьших квадратов (МНК) по заданным экспериментальным точкам строится теоретическая функциональная зависимость. Для функции одной переменной по n точкам (xi,yi) ищется "наилучшая" теоретическая кривая y=f(x).

Суть – найти такие коэффициенты , кот. минимизируют сумму квадратов отклонений наблюдаемых значений зависимой переменной от её расчетных значений ŷi.

ei= y-ŷ → ei2=( y-ŷ)2

В матричном виде можно записать В (вектор) =(XTX)-1XTY – оценка МНК векторов коэффициентов регрессии β.

Необходимо взять производные по каждому коэффициенту и приравняв к 0 (необходимое условие экстремума) найти оценки коэффициентов.

МНК позволяет получить такие оценки параметров а и b, которых сумма квадратов отклонений фактических значений ре­зультативного признака (у) от расчетных (теоретических) ми­нимальна:

Решается система нормальных уравнений

Теорема Гаусса-Маркова (это обоснование метода наименьших квадратов). Классические условия:

1. Регрессионная модель линейна по параметрам и корректно специфицирована.

2. Объясняющие переменные являются детерминированными, но достаточно вариабельными. причем в матрице

столбцы линейно независимые, т.е. ранг этой матрицы равен

3. Случайные возмущения имеют нулевое среднее. Е(εi)=0, i=1,n

4. Случайные возмущения имеют постоянную дисперсию. , i=1,n. дисперсия ошибки не зависит от номера наблюдения

5. Случайные возмущения не коррелируют друг с другом. Cov(εij)=0, i,j=1,n

6. Объясняющие переменные линейно независимы. Ни одна из объясняющих переменных не является строгой линейной функцией других объясняющих переменных. На матричном языке это означает, что матрица Х имеет «полный ранг». Rank(X)=k+1.

7. Случайные возмущения распределены нормально (необязательное условие).

ε ~ N(0,σ2), i=1,n.

Если выполнены условия 1-6, то оценки коэффициентов регрессии, полученные по МНК имеют наименьшую дисперсию среди всех линейных несмещенных оценок.

Таким образом, оценки параметров регрессии по МНК являются наиболее эффективными.

По теореме Гаусса-Маркова, если модель удовлетворяет указанным условиям, то оценки коэффициентов регрессии по МНК В=β^=(XTX)-1XTY являются несмещенными, состоятельными и эффективными.

Выводы:

1. Таким образом, оценки параметров регрессии по МНК являются несмещенными, состоятельными и эффективными.

2. Несмещенность и несостоятельность следуют из самого метода. Из теоремы Гаусса-Маркова следует эффективность.

3. Теорема Гаусса-Маркова не означает, что не существует нелинейной или смещенной оценки с меньшей дисперсией.

8. Множественная линейная регрессия. Характеристики точности многомерной модели. Суммы квадратов. Коэффициент детерминации. Его свойства. Скорректированный коэффициент детерминации. Оценки дисперсии случайных отклонений. Стандартные ошибки коэффициента регрессии.

Множественная регрессия – это прогнозирование единственной переменной y на основании нескольких переменных Х. Она широко используется в решении проблем спроса, доходности акций, при изучении функций издержек производства. Основная цель множественной регрессии – построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное воздействие их на моделируемый показатель.

Качество регрессионной модели:

- Точность (степень приближения модели к имеющимся наблюдениям)

- Надежность (стабильность параметров модели при повторных наблюдениях)

Характеристика точности модели:

1. Коэффициент детерминации Величина R2 показывает, какая часть (доля) вариации объясняемой переменной обусловлена вариацией объясняющей переменной.

Свойства: а) R^2 принимает значения от 0 до 1 (0≤R2≤1). б) Чем ближе R2 к единице, тем лучше регрессия приближает наблюдаемые значения. Если R2 =1, означает точную подгонку, что все точки наблюдений лежат на прямой регрессии, значит, между Х и У существует линейная функциональная зависимость. в) Если R2 =0, то объясняемая переменная не зависит от данного набора объясняющих переменных. Если R2 достигает своего наибольшего возможного значения, то одновременно минимизируется сумма квадратов остатков

R2 = 1- ESS/TSS → max ↔ ESS→min

Недостатком коэффициента детерминации R2 является то, что он увеличивается при добавлении новых объясняющих переменных, хотя это и не обязательно означает улучшение качества регрессионной модели. В этом смысле предпочтительнее использовать . В отличие от скорректированный коэффициент может уменьшаться при введении в модель новых объясняющих переменных, не оказывающих существенное влияние на зависимую переменную.

Нормированный R-квадрат – скорректированный коэффициент детерминации.

= 1- (ESS/(n-k-1))/(TSS/(n-1))

R2 = RSS/TSS =TSS-ESS/TSS =1-ESS/TSS →ESS/TSS=1-R2

(RSS)

.

Св-ва: , .

2. Стандартная ошибка , где – необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).

Воздействие случайных возмущений в теоретической модели yi=α + βx1 + εi определяется дисперсией случайных возмущений (отклонений) или остаточной дисперсии σ2.

Ее оценкой является выборочная остаточная дисперсия

или стандартная ошибка .

Стандартные ошибки коэффициентов

Оценки коэффициентов регрессии – тоже случайные величины. Их возможный разброс, как обычно, измеряется соответствующей дисперсией, определяемой через σ2, а так как она неизвестна, то оценкой дисперсии при подстановке в формулу S2 вместо σ2. корень из оценки дисперсии – стандартная ошибка.

стандартная ошибка b стандартная ошибка a

Стандартные ошибки характеризуют точность оценок коэффициентов регрессии: чем величина стандартной ошибки меньше, тем точность выше.

Итак, точность выше (ошибка меньше) если

- стандартная ошибка регрессии S ε (или σε) меньше,

- число наблюдений n больше,

- вариация фактора S ε (или σε) больше.

3 . Средняя ошибка аппроксимации - среднее отклонение расчетных значений от фактических. Допустимый предел не более 8-10%.

Качество модели оценивается через сумму квадратов отклонений модели: ei= y-ŷ → ei2=( y-ŷ)2

- называется суммой квадратов ошибок. Если все коэффициенты модели, кроме константы , равны нулю, то - среднему значению объясняемой переменной. Тогда сумма квадратов отклонений равна: .

- называется общей суммой квадратов. За счет того, что не все коэффициенты модели равны нулю, сумма квадратов отклонений уменьшается. В соответствии с этим величина означает объясненную сумму квадратов.

Основное соотношение дисперсионного анализа:

TSS = RSS + ESS (это соотношение имеет место, только если в модель включен свободный член а не равный 0)

Схема дисперсионного анализа:

Компоненты дисперсии

Сумма квадратов(SS )

Число степеней свободы (df)

Средний квадрат (MS)

Регрессия

RSS

k

RSS/k

Остаток

ESS

n-k-1

ESS/(n-k-1)

Итого

TSS

n-1

TSS/(n-1)

(Степень свободы - характеристика суммы квадратов (отклонений), показывает, сколько отклонений в сумме квадратов может изменяться "свободно"; обычно обозначается df (degrees of freedom). )