Система двух случайных величин
Кроме одномерных случайных величин изучают величины, возможные значения которых определяются двумя числами. Такие величины называются двумерными.
Будем обозначать через двумерную случайную величину. Каждую из величин и называют составляющей (компонентой); обе величины и , рассматриваемые одновременно, образуют систему двух случайных величин.
Если выборка состоит из набора двух случайных величин и , то набор точек с координатами называется диаграммой рассеивания.
Суммарное квадратическое отклонение для линейной регрессии зависит от двух параметров и , и определяется соотношением:
. (4)
Метод наименьших квадратов для линейной регрессии заключается в нахождении «наилучших» значений параметров и из условий минимума функции , то есть из системы уравнений:
. (5)
Параболическая регрессия предполагает теоретическую зависимость:
.
Теперь суммарное квадратическое отклонение зависит от трех параметров. Оптимальные значения параметров находятся из условий минимума функции , то есть из системы трех уравнений.
Для описания системы двух случайных величин кроме математических ожиданий и дисперсией составляющих используют и другие характеристики; к их числу относятся корреляционный момент и коэффициент корреляции.
Корреляционным моментом случайных величин величины и называют математическое ожидание произведения отклонений этих величин. Для вычисления корреляционного момента дискретных величин используют формулу:
.
Корреляционный момент служит для характеристики связи между величинами величины и .
Для вычисления часто используют следующую формулу:
. (6)
Коэффициентом корреляции случайных величин и называют отношение корреляционного момента к произведению среднеквадратических отклонений этих величин:
(7)
Он характеризует степень зависимости этих величин, причем не любой зависимости, а только линейной.
Практическая часть
Примем за – смертность, за – прирост населения.
Год |
Смертность, % |
Прирост населения, % |
1992 |
4,8 |
-10,9 |
1993 |
-9,7 |
22,7 |
1994 |
-16,6 |
21,9 |
1995 |
-3,5 |
3,9 |
1996 |
-11,7 |
19,4 |
1997 |
6,1 |
-19,2 |
1998 |
-9,7 |
11,2 |
1999 |
0,2 |
-5,3 |
2000 |
-14,1 |
13,0 |
2001 |
4,9 |
-15,7 |
2002 |
-3,2 |
3,8 |
2003 |
-13,2 |
14,8 |
2004 |
-8,1 |
7,2 |
2005 |
3,0 |
-6,7 |
2006 |
-8,8 |
7,5 |
2007 |
5,4 |
-18,0 |
2008 |
2,4 |
-9,6 |
2009 |
1,6 |
-2,1 |
2010 |
-16,2 |
14,6 |
2011 |
-10,2 |
11,2 |
-
Найдем математическое ожидание и дисперсия для и .
X
Y
Mx =
-4,83
My =
3,2
Математическое ожидание
Dx =
58,50
Dy =
169,28
Дисперсия
-
Проведем статистический анализ для переменных и . Найдем выборочные средние, дисперсии и среднеквадратические отклонения для и по отдельности.
-
Для величин и вычислим выборочные средние:
-
-
Найдем выборочные дисперсии и средние квадратические отклонения:
-
Найдем коэффициент корреляции и :
Получим:
X |
Y |
|
||||
Mx = |
-4,83 |
My = |
3,2 |
Математическое ожидание |
||
Dx = |
58,50 |
Dy = |
169,28 |
Дисперсия |
||
σx = |
7,65 |
σy = |
13,01 |
Среднее квадратическое отклонение |
||
<x> = |
-4,83 |
<y> = |
3,2 |
Выборочное среднее |
||
rв= |
–0,95 |
Коэффициент корреляции |
Выборочный коэффициент корреляции служит для оценки силы линейной корреляционной связи: чем ближе к единице, тем сильнее связь; чем ближе к нулю, тем связь слабее. Видим, что в нашем случае линейная корреляционная связь сильная.
Так как выборочный коэффициент корреляции отрицательное, то увеличение одной величины приводит к уменьшению другой.
-
Найдем по выборке уравнение линейной регрессии ( как функцию ) по методу наименьших квадратов.
Составим расчетную таблицу:
4,8 |
-10,9 |
-52,32 |
23,04 |
118,81 |
-9,7 |
22,7 |
-220,19 |
94,09 |
515,29 |
-16,6 |
21,9 |
-363,54 |
275,56 |
479,61 |
-3,5 |
3,9 |
-13,65 |
12,25 |
15,21 |
-11,7 |
19,4 |
-226,98 |
136,89 |
376,36 |
6,1 |
-19,2 |
-117,12 |
37,21 |
368,64 |
-9,7 |
11,2 |
-108,64 |
94,09 |
125,44 |
0,2 |
-5,3 |
-1,06 |
0,04 |
28,09 |
-14,1 |
13,0 |
-183,30 |
198,81 |
169,00 |
4,9 |
-15,7 |
-76,93 |
24,01 |
246,49 |
-3,2 |
3,8 |
-12,16 |
10,24 |
14,44 |
-13,2 |
14,8 |
-195,36 |
174,24 |
219,04 |
-8,1 |
7,2 |
-58,32 |
65,61 |
51,84 |
3,0 |
-6,7 |
-20,10 |
9,00 |
44,89 |
-8,8 |
7,5 |
-66,00 |
77,44 |
56,25 |
5,4 |
-18,0 |
-97,20 |
29,16 |
324,00 |
2,4 |
-9,6 |
-23,04 |
5,76 |
92,16 |
1,6 |
-2,1 |
-3,36 |
2,56 |
4,41 |
-16,2 |
14,6 |
-236,52 |
262,44 |
213,16 |
-10,2 |
11,2 |
-114,24 |
104,04 |
125,44 |
Уравнение линейной регрессии: .
Параметры и найдем по таким формулам:
Таким образом, линейная однопараметрическая модель регрессии показателя имеет вид: .
-
Построим график, изображающий данные выборки и найденную функцию регрессии.
Нанесем линию регрессии на корреляционное поле (Рис. 1).
Рис. 1. Функция регрессия и исходные данные выборки.
-
Соотношения между демографическими и экономическими явлениями и процессами не всегда можно выразить линейными функциями, так как при этом могут возникать неоправданно большие ошибки. В таких случаях используют нелинейную (по объясняющей переменной) регрессию. Учитывая расположение точек корреляционного поля, предположим, что наиболее подходящим уравнением регрессии будет уравнение параболы:
.
Его параметры найдем, применяя метод наименьших квадратов:
Приравняв частные производные и к нулю, получим после преобразований систему уравнений:
Для расчета необходимых сумм составим вспомогательную таблицу:
|
||||||||
|
4,8 |
-10,9 |
-52,32 |
23,04 |
118,81 |
110,592 |
530,8416 |
-251,136 |
|
-9,7 |
22,7 |
-220,19 |
94,09 |
515,29 |
-912,673 |
8 852,9281 |
2 135,843 |
|
-16,6 |
21,9 |
-363,54 |
275,56 |
479,61 |
-4 574,296 |
75 933,3136 |
6 034,764 |
|
-3,5 |
3,9 |
-13,65 |
12,25 |
15,21 |
-42,875 |
150,0625 |
47,775 |
|
-11,7 |
19,4 |
-226,98 |
136,89 |
376,36 |
-1 601,613 |
18 738,8721 |
2 655,666 |
|
6,1 |
-19,2 |
-117,12 |
37,21 |
368,64 |
226,981 |
1 384,5841 |
-714,432 |
|
-9,7 |
11,2 |
-108,64 |
94,09 |
125,44 |
-912,673 |
8 852,9281 |
1 053,808 |
|
0,2 |
-5,3 |
-1,06 |
0,04 |
28,09 |
0,008 |
0,0016 |
-0,212 |
|
-14,1 |
13,0 |
-183,30 |
198,81 |
169,00 |
-2 803,221 |
39 525,4161 |
2 584,530 |
|
4,9 |
-15,7 |
-76,93 |
24,01 |
246,49 |
117,649 |
576,4801 |
-376,957 |
|
-3,2 |
3,8 |
-12,16 |
10,24 |
14,44 |
-32,768 |
104,8576 |
38,912 |
|
-13,2 |
14,8 |
-195,36 |
174,24 |
219,04 |
-2 299,968 |
30 359,5776 |
2 578,752 |
|
-8,1 |
7,2 |
-58,32 |
65,61 |
51,84 |
-531,441 |
4 304,6721 |
472,392 |
|
3,0 |
-6,7 |
-20,10 |
9,00 |
44,89 |
27,000 |
81,0000 |
-60,300 |
|
-8,8 |
7,5 |
-66,00 |
77,44 |
56,25 |
-681,472 |
5 996,9536 |
580,800 |
|
5,4 |
-18,0 |
-97,20 |
29,16 |
324,00 |
157,464 |
850,3056 |
-524,880 |
|
2,4 |
-9,6 |
-23,04 |
5,76 |
92,16 |
13,824 |
33,1776 |
-55,296 |
|
1,6 |
-2,1 |
-3,36 |
2,56 |
4,41 |
4,096 |
6,5536 |
-5,376 |
|
-16,2 |
14,6 |
-236,52 |
262,44 |
213,16 |
-4 251,528 |
68 874,7536 |
3 831,624 |
|
-10,2 |
11,2 |
-114,24 |
104,04 |
125,44 |
-1 061,208 |
10 824,3216 |
1 165,248 |
∑ |
-96,6 |
63,7 |
-2190,03 |
1 636,48 |
3 588,57 |
-19 048,122 |
275 981,6008 |
21 191,525 |
Теперь система примет вид:
Решая систему методом Крамера, получим:
Тогда уравнение нелинейной регрессии имеет вид:
Добавим график нелинейной регрессии на корреляционное поле (Рис. 2).
Рис. 2. Линейная и квадратичная регрессии и исходные данные выборки.