Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Аверьянов В.Е. Исправл. АНУХОВА ЭконометрикаУче...doc
Скачиваний:
34
Добавлен:
12.09.2019
Размер:
1.81 Mб
Скачать

2.2. Регрессия по методу наименьших квадратов

Допустим, что вы имеете четыре наблюдения для х и у, представленные на рис. 2.1, и перед вами поставлена задача — определить значения ее и в уравнении (2.1). В качестве грубой аппроксимации вы можете сделать это, отложив четыре точки Р и построив прямую, в наибольшей степени соответствующую этим точкам. Это сделано на рис. 2.2. Отрезок, отсекаемый прямой на оси у, представляет собой оценку и обозначен а, а угловой коэффициент прямой представляет собой оценку и обозначен b.

Уравнение линейной регрессии - уравнение у = а + bх, где а и b - оценки параметров и , полученные в результате оценивания модели регрессии у = + x + u по данным выборки.

С самого начала необходимо признать, что вы никогда не сможете рассчитать истинные значения и при попытке построить прямую и определить положение линии регрессии. Вы можете получить только оценки, и они могут быть хорошими или плохими. Иногда оценки могут быть абсолютно точными, но это возможно лишь в результате случайного совпадения, и даже в этом случае у вас не будет способа узнать, что оценки абсолютно точны.

Это справедливо и при использовании более совершенных методов. Построение линии регрессии "на глаз" является достаточно субъективным. Более того, как мы увидим в дальнейшем, это просто невозможно, если переменная у зависит не от одной, а от двух или более независимых переменных. Возникает вопрос: существует ли способ достаточно точной оценки и алгебраическим путем?

у

y

.P4

a .P1

.P2 .P3

x

Рис. 2.2. Прямая, построенная по точкам

Первым шагом является определение остатка для каждого наблюдения.

Остаток в наблюдении - разность - (a + b ) между истинным значением переменной у в i-ом наблюдении (у ) и значением а + bх в i-ом наблюдении, полученным подстановкой наблюдения х в уравнение линейной регрессии.

За исключением случаев чистого совпадения, построенная вами линия регрессии не пройдет точно ни через одну точку наблюдения. Например, на рис. 2.3, при х=х , соответствующей ему точкой на линии регрессии будет R , со значением у, которое мы обозначим , вместо фактически наблюдаемого значения у . Величина описывается как расчетное значение, соответствующее х . Разность между фактическим и расчетным значениями (у - ) определяемая отрезком Р ,R , описывается как остаток в первом наблюдении. Обозначим его е . Соот­ветственно, для других наблюдений остатки будут обозначены как е ,e и e .

Существует целый ряд возможных критериев, одни из которых "работают" лучше других. Например, бесполезно минимизировать сумму остатков. Сумма будет автоматически равна нулю, если вы сделается равным , a b равным нулю, получив горизонтальную линию у = . В этом случае положительные остатки точно уравновесят отрицательные, но строгой зависимости при этом не будет.

Один из способов решения поставленной проблемы состоит в минимизации суммы квадратов остатков S. Для рис. 2.3 верно такое соотношение:

S= (2.1)

Y

P4 *

e4

R4 *

*P1 R2 R3 *

e1 *

A *R1 e2 e3

*P2 P3 *

X1 X2 X3 X4 X

Рис. 2.3. Построенная по точкам линия регрессии, показывающая остатки

Величина S будет зависеть от выбора а и b, так как они определяют положение линии регрессии. В соответствии с этим критерием, чем меньше S, тем строже соответствие. Если S = 0, то получено абсолютно точное соответствие, так как это означает, что все остатки равны нулю. В этом случае линия регрессии будет проходить через все точки, однако, вообще говоря, это невозможно из-за наличия случайного члена.

Существуют и другие достаточно разумные решения, однако при выполнении определенных условий метод наименьших квадратов дает несмещенные и эффективные оценки и .

Метод наименьших квадратов (МНК) (OLS - Ordinary Least Squares) - метод нахождения оценок параметров регрессии, основанный на минимизации суммы квадратов остатков всех наблюдений.

Метод наименьших квадратов (МНК) для модели парной регрессии заключается в выборе таких коэффициентов а и b, которые обеспечивают наименьшее значение суммы ( y - (a + bx ))2+( y - (a + bx ))2 +…+ ( y - (a + bx ))2.