- •План лекции:
- •1Й учебный вопрос. Математические основы метода наименьших квадратов.
- •1) Сумма квадратов отклонений
- •2) Сумма модулей отклонений
- •Для первой точки получаем
- •Для второй точки
- •2Й учебный вопрос. Сущность мнк и его теоретические предпосылки
- •3Й учебный вопрос. Построение уравнения парной линейной регрессии
- •Вспомогательная таблица для расчета параметров уравнения
- •4Й учебный вопрос. Интерпретация и ошибки коэффициентов парной регрессии.
3Й учебный вопрос. Построение уравнения парной линейной регрессии
Рассмотрим содержание метода наименьших квадратов на конкретном примере построения уравнений парной линейной регрессии. Пусть имеются данные о сборе хлеба на душу населения по совокупности черноземных губерний. От каких факторов зависит величина этого сбора? Вероятно, определяющее влияние на величину сбора хлеба оказывает величина посева и уровень урожайности. Рассмотрим сначала зависимость величины сбора хлеба на душу населения (y) от показателя x1, т.е. размера посевных площадей на душу (табл.2.1).
Таблица 2.1.
Исходные данные для построения уравнений регрессии
№/№ |
y |
x1 |
x2 |
№/№ |
y |
x1 |
x2 |
1 |
48,01 |
0,91 |
46,08 |
13 |
36,26 |
0,90 |
40,06 |
2 |
38,18 |
0,76 |
45,18 |
14 |
32,07 |
0,52 |
57,91 |
3 |
38,7 |
0,82 |
41,76 |
15 |
32,83 |
0,66 |
43,86 |
4 |
46,72 |
0,88 |
50,94 |
16 |
35,16 |
0,58 |
58,62 |
5 |
41,58 |
0,88 |
43,54 |
17 |
44,56 |
0,99 |
44,39 |
6 |
36,89 |
0,89 |
38,8 |
18 |
59,16 |
1,63 |
35,77 |
7 |
34,54 |
0,87 |
39,22 |
19 |
67,99 |
1,95 |
35,96 |
8 |
42,86 |
0,94 |
42,74 |
20 |
53,73 |
1,27 |
40,99 |
9 |
38,97 |
0,91 |
41,2 |
21 |
52,39 |
1,55 |
33,05 |
10 |
43,22 |
1,07 |
39,35 |
22 |
36,1 |
1,15 |
30,68 |
11 |
28,19 |
0,69 |
34,38 |
23 |
32,67 |
0,94 |
34,26 |
12 |
38,65 |
0,74 |
48,98 |
Σ |
959,43 |
22,5 |
967,72 |
В табл. 2.1 используются следующие обозначения:
y – сбор хлеба (зерна) на душу населения (пуд);
x1 – размер посевных площадей на душу населения (десятин);
x2 – урожайность зерна (пуд с десятины).
Попытаемся представить интересующую нас зависимость с помощью прямой линии.
Разумеется, такая линия может дать только приближенное представление о форме реальной статистической связи. Постараемся сделать это приближение наилучшим.
Оно будет тем лучше, чем меньше исходные данные будут отличаться от соответствующих точек, лежащих на линии. Степень близости может быть выражена величиной суммы квадратов отклонений реальных значений от значений, расположенных на прямой линии. Использование именно квадратов отклонений (не просто отклонений) позволяет суммировать отклонения различных знаков без их взаимного погашения и дополнительно обеспечивает сравнительно большее внимание, уделяемое большим отклонениям. Именно этот критерий (минимизация суммы квадратов отклонений) положен в основу метода наименьших квадратов.
В вычислительном аспекте метод наименьших квадратов сводится к составлению и решению системы так называемых нормальных уравнений (о которой мы уже говорили ранее). Исходным этапом для этого является подбор вида функции, отображающей статистическую связь.
Тип функции в каждом конкретном случае можно подобрать путем прикидки на графике исходных данных подходящей, т. е. достаточно хорошо приближающей эти данные, линии. В нашем случае связь между сбором хлеба на душу населения и величиной посевных площадей на душу может быть изображена с помощью прямой линии и записана в виде:
y = a0 + a1x (2.12)
где у- величина сбора хлеба на душу (результативный признак или зависимая переменная); x—величина посева на душу (факторный признак или независимая переменная); ao и a1 — параметры уравнения, которые могут быть найдены методом наименьших квадратов.
Для нахождения искомых параметров нужно составить систему уравнений, которая в данном случае будет иметь вид
na0 + a1Σx = Σy;
(2.13)
a0Σx + a1Σx2 = Σxy.
Система (2.14) может быть решена известным методом определителей. Но, как уже известно из курса теории статистики, можно вычислить искомые параметры и непосредственно с помощью использования формул:
(2.14)
где Σy – сумма значений результативного признака; Σx – сумма значений факторного признака; Σx2 – сумма квадратов значений факторного признака; Σxy – сумма произведений значений результативного и факторного признаков; n– число значений признака y, или, что то же самое, число значений признака x.
Пример. Найдем уравнение линейной регрессии между величиной сбора хлеба на душу населения (у) и размером посевных площадей на душу населения (х1) по данным табл. 2.1. Построим вспомогательную таблицу для расчета параметров парной линейной регрессии (табл.2.2).
Для того, чтобы сделать таблицу более компактной, исходные данные сгруппированы в два столбца, и точно также сгруппированы вспомогательные расчеты. Итоговые суммы, рассчитанные в последних четырех графах (столбцах) таблицы 2.2., представляют собой итоги по всей последовательности из 23х исходных значений.
Таблица 2.2.
