3Й учебный вопрос. Построение уравнения парной линейной регрессии

Рассмотрим содержание метода наименьших квадратов на конкретном примере построения уравнений парной линейной регрессии. Пусть имеются данные о сборе хлеба на душу населения по совокупности черноземных губерний. От каких факторов зависит величина этого сбора? Вероятно, определяющее влияние на величину сбора хлеба оказывает величина посева и уровень урожайности. Рассмотрим сначала зависимость величины сбора хлеба на душу населения (y) от показателя x₁, т.е. размера посевных площадей на душу (табл.2.1).

Таблица 2.1.

Исходные данные для построения уравнений регрессии

№/№	y	x1	x2	№/№	y	x1	x2
1	48,01	0,91	46,08	13	36,26	0,90	40,06
2	38,18	0,76	45,18	14	32,07	0,52	57,91
3	38,7	0,82	41,76	15	32,83	0,66	43,86
4	46,72	0,88	50,94	16	35,16	0,58	58,62
5	41,58	0,88	43,54	17	44,56	0,99	44,39
6	36,89	0,89	38,8	18	59,16	1,63	35,77
7	34,54	0,87	39,22	19	67,99	1,95	35,96
8	42,86	0,94	42,74	20	53,73	1,27	40,99
9	38,97	0,91	41,2	21	52,39	1,55	33,05
10	43,22	1,07	39,35	22	36,1	1,15	30,68
11	28,19	0,69	34,38	23	32,67	0,94	34,26
12	38,65	0,74	48,98	Σ	959,43	22,5	967,72

В табл. 2.1 используются следующие обозначения:

y – сбор хлеба (зерна) на душу населения (пуд);

x₁ – размер посевных площадей на душу населения (десятин);

x₂ – урожайность зерна (пуд с десятины).

Попытаемся представить интересующую нас зависимость с помощью прямой линии.

Разумеется, такая линия может дать только приближенное представление о форме реальной статистической связи. Постараемся сделать это приближение наилучшим.

Оно будет тем лучше, чем меньше исходные данные будут отличаться от соответствующих точек, лежащих на линии. Степень близости может быть выражена величиной суммы квадратов отклонений реальных значений от значений, расположенных на прямой линии. Использование именно квадратов отклонений (не просто отклонений) позволяет суммировать отклонения различных знаков без их взаимного погашения и дополнительно обеспечивает сравнительно большее внимание, уделяемое большим отклонениям. Именно этот критерий (минимизация суммы квадратов отклонений) положен в основу метода наименьших квадратов.

В вычислительном аспекте метод наименьших квадратов сводится к составлению и решению системы так называемых нормальных уравнений (о которой мы уже говорили ранее). Исходным этапом для этого является подбор вида функции, отображающей статистическую связь.

Тип функции в каждом конкретном случае можно подобрать путем прикидки на графике исходных данных подходящей, т. е. достаточно хорошо приближающей эти данные, линии. В нашем случае связь между сбором хлеба на душу населения и величиной посевных площадей на душу может быть изображена с помощью прямой линии и записана в виде:

y = a₀ + a₁x (2.12)

где у- величина сбора хлеба на душу (результативный признак или зависимая переменная); x—величина посева на душу (факторный признак или независимая переменная); a_o и a₁ — параметры уравнения, которые могут быть найдены методом наименьших квадратов.

Для нахождения искомых параметров нужно составить систему уравнений, которая в данном случае будет иметь вид

na₀+ a₁Σx = Σy;

(2.13)

a₀Σx + a₁Σx² = Σxy.

Система (2.14) может быть решена известным методом определителей. Но, как уже известно из курса теории статистики, можно вычислить искомые параметры и непосредственно с помощью использования формул:

(2.14)

где Σy – сумма значений результативного признака; Σx – сумма значений факторного признака; Σx² – сумма квадратов значений факторного признака; Σxy – сумма произведений значений результативного и факторного признаков; n– число значений признака y, или, что то же самое, число значений признака x.

Пример. Найдем уравнение линейной регрессии между величиной сбора хлеба на душу населения (у) и размером посевных площадей на душу населения (х₁) по данным табл. 2.1. Построим вспомогательную таблицу для расчета параметров парной линейной регрессии (табл.2.2).

Для того, чтобы сделать таблицу более компактной, исходные данные сгруппированы в два столбца, и точно также сгруппированы вспомогательные расчеты. Итоговые суммы, рассчитанные в последних четырех графах (столбцах) таблицы 2.2., представляют собой итоги по всей последовательности из 23х исходных значений.

Таблица 2.2.

<<< < Предыдущая 1 23 / 53 4 5 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
20.11.201956.83 Кб9лекция 13.doc
#
01.07.2025542.21 Кб1Лекция 18.doc
#
01.04.202598.92 Кб0Лекция 18.Принципы построения криптографической...docx
#
01.07.20253.11 Mб0Лекция 1a квантовая механика.doc
#
20.09.2019135.68 Кб5лекция 2 осу.doc
#
01.03.2025205.82 Кб0Лекция 2 по эконометрике.doc
#
04.08.201995.74 Кб7Лекция 2(Матлогика).doc
#
01.07.2025239.62 Кб1Лекция 27.doc
#
01.07.202563.11 Кб1Лекция 3. Основы гражданского права.docx
#
09.11.2018143.36 Кб5ЛЕКЦИЯ 3.doc
#
01.03.2025585.73 Кб2лекция 4 дв -Управление содержанием проекта.doc