
Метод наименьших квадратов (мнк)
Соотношения
(2) и (3) определяют уравнение статистической
связи между результирующей переменной
y
и объясняющими переменными
.
Однако здесь нам не известны значения
параметров
и величина
2,
и их требуется определить. Обычно это
делается с использованием метода
наименьших квадратов.
В основе метода
наименьших квадратов лежит цель:
Подобрать
такие оценки
для неизвестных параметров регрессии
,
при которых сглаженные (регрессионные,
теоретические) значения
результирующего
показателя y
как можно меньше
отличались
от соответствующих наблюдаемых
(статистических) значений
.
В качестве меры расхождения выбирается разность:
(4)
Величины
-
называютсяневязками.
Значения
надо
выбрать такими, что бы минимизировать
некоторуюинтегральную
характеристику невязок (по всем имеющимся
наблюдениям). Примем за такую характеристику
выравнивания
(подгонки) значений
величину:
(5)
Величины
подбираются так, чтобы найти
по
.
Рассмотрим модель линейной парной регрессии:
,
.
Тогда
На
основании необходимого условия экстремума
надо приравнять частные производные
функции
к нулю, то есть
или
После
раскрытия скобок и преобразований,
получим систему нормальных уравнений
для определения оценок
параметров
:
(6)
Решение системы (6) можно записать в виде:
(7)
Решение системы (6) можно получить в другой форме. Для этого сначала преобразуем систему (6), разделив обе части уравнений на k, и получим систему нормальных уравнений в виде:
Обозначим
,
,
,
.
В
результате преобразований получим:
(8)
Решение системы (8) имеет вид:
Коэффициент
называется выборочным коэффициентом
регрессииy
по x.
Коэффициент регрессии y по x показывает, на сколько единиц в среднем изменяется переменная y при увеличении переменной x на одну единицу.
Рассмотрим применение МНК на конкретном примере.
Пример.
Имеются данные о зависимости цены хлеба Y (в руб.) от цены муки X (в руб.) с января 1998 года по январь 2011 года:
|
x-мука |
y-хлеб |
1998-янв |
3,17 |
5,64 |
1998-июль |
2,91 |
5,64 |
1999-янв |
3,89 |
6,83 |
1999-июль |
7,12 |
9,14 |
2000-янв |
7,87 |
10,87 |
2000-июль |
8,4 |
11,87 |
2001-янв |
8,07 |
12,25 |
2001-июль |
8,72 |
13,47 |
2002-янв |
8,44 |
13,77 |
2002-июль |
8,21 |
14,07 |
2003-янв |
7,94 |
14,32 |
2003-июль |
9,35 |
16,36 |
2004-янв |
11,79 |
19,46 |
2004-июль |
13,74 |
21,17 |
2005-янв |
13,05 |
21,65 |
2005-июль |
12,35 |
21,93 |
2006-янв |
11,93 |
22,44 |
2006-июль |
12,67 |
23,83 |
2007-янв |
12,92 |
25,06 |
2007-июль |
14,73 |
27,86 |
2008-янв |
17,68 |
31,3 |
2008-июль |
21,91 |
38,18 |
2009-янв |
21,34 |
39,12 |
2009-июль |
20,84 |
39,52 |
2010-янв |
19,06 |
39,49 |
2010-июль |
18,11 |
39,71 |
2011-янв |
20,95 |
42,58 |
Требуется найти эмпирическую формулу, отражающую связь между ценой хлеба Y (в руб.) и ценой муки X (в руб.).
Решение:
Исходя
из предположения, что связь между
указанными переменными линейная и
описывается функцией вида
.
Для нахождения коэффициентов
и
построим вспомогательную таблицу:
Запишем систему нормальных уравнений (8), исходя из данных таблицы:
Решением данной системы будут следующие числа:
Таким образом, уравнение регрессии, описывающее
Лекция 4