Система двух случайных величин
Кроме одномерных случайных величин изучают величины, возможные значения которых определяются двумя числами. Такие величины называются двумерными.
Будем
обозначать через
двумерную случайную величину. Каждую
из величин
и
называют составляющей (компонентой);
обе величины
и
,
рассматриваемые одновременно, образуют
систему двух случайных величин.
Если
выборка состоит из набора двух случайных
величин
и
,
то набор точек с координатами
называется диаграммой
рассеивания.
Суммарное
квадратическое отклонение
для линейной регрессии
зависит
от двух параметров
и
,
и определяется соотношением:
. (4)
Метод
наименьших квадратов
для линейной регрессии заключается в
нахождении «наилучших» значений
параметров
и
из условий минимума функции
,
то есть из системы уравнений:
. (5)
Параболическая регрессия предполагает теоретическую зависимость:
.
Теперь
суммарное квадратическое отклонение
зависит от трех параметров. Оптимальные
значения параметров находятся из условий
минимума функции
,
то есть из системы трех уравнений.
Для описания системы двух случайных величин кроме математических ожиданий и дисперсией составляющих используют и другие характеристики; к их числу относятся корреляционный момент и коэффициент корреляции.
Корреляционным
моментом
случайных
величин величины
и
называют математическое ожидание
произведения отклонений этих величин.
Для вычисления корреляционного момента
дискретных величин используют формулу:
.
Корреляционный
момент служит для характеристики связи
между величинами величины
и
.
Для
вычисления
часто используют следующую формулу:
.
(6)
Коэффициентом
корреляции
случайных величин
и
называют отношение корреляционного
момента к произведению среднеквадратических
отклонений этих величин:
(7)
Он характеризует степень зависимости этих величин, причем не любой зависимости, а только линейной.
Практическая часть
Примем
за
– смертность,
за
– прирост
населения.
|
Год |
Смертность, % |
Прирост населения, % |
|
1992 |
4,8 |
-10,9 |
|
1993 |
-9,7 |
22,7 |
|
1994 |
-16,6 |
21,9 |
|
1995 |
-3,5 |
3,9 |
|
1996 |
-11,7 |
19,4 |
|
1997 |
6,1 |
-19,2 |
|
1998 |
-9,7 |
11,2 |
|
1999 |
0,2 |
-5,3 |
|
2000 |
-14,1 |
13,0 |
|
2001 |
4,9 |
-15,7 |
|
2002 |
-3,2 |
3,8 |
|
2003 |
-13,2 |
14,8 |
|
2004 |
-8,1 |
7,2 |
|
2005 |
3,0 |
-6,7 |
|
2006 |
-8,8 |
7,5 |
|
2007 |
5,4 |
-18,0 |
|
2008 |
2,4 |
-9,6 |
|
2009 |
1,6 |
-2,1 |
|
2010 |
-16,2 |
14,6 |
|
2011 |
-10,2 |
11,2 |
-
Найдем математическое ожидание и дисперсия для
и
.X
Y
Mx =
-4,83
My =
3,2
Математическое ожидание
Dx =
58,50
Dy =
169,28
Дисперсия
-
Проведем статистический анализ для переменных
и
.
Найдем
выборочные средние, дисперсии и
среднеквадратические отклонения для
и
по отдельности.-
Для величин
и
вычислим
выборочные средние:
-


-
Найдем выборочные дисперсии и средние квадратические отклонения:




-
Найдем коэффициент корреляции
и
:

Получим:
|
X |
Y |
|
||||
|
Mx = |
-4,83 |
My = |
3,2 |
Математическое ожидание |
||
|
Dx = |
58,50 |
Dy = |
169,28 |
Дисперсия |
||
|
σx = |
7,65 |
σy = |
13,01 |
Среднее квадратическое отклонение |
||
|
<x> = |
-4,83 |
<y> = |
3,2 |
Выборочное среднее |
||
|
rв= |
–0,95 |
Коэффициент корреляции |
||||
Выборочный
коэффициент корреляции
служит для оценки силы линейной
корреляционной связи: чем ближе
к
единице, тем сильнее связь; чем ближе
к нулю, тем связь слабее. Видим, что в
нашем случае линейная корреляционная
связь сильная.
Так
как выборочный коэффициент корреляции
отрицательное, то увеличение одной
величины приводит к уменьшению другой.
-
Найдем по выборке уравнение линейной регрессии (
как
функцию
)
по
методу наименьших квадратов.
Составим расчетную таблицу:
|
|
|
|
|
|
|
4,8 |
-10,9 |
-52,32 |
23,04 |
118,81 |
|
-9,7 |
22,7 |
-220,19 |
94,09 |
515,29 |
|
-16,6 |
21,9 |
-363,54 |
275,56 |
479,61 |
|
-3,5 |
3,9 |
-13,65 |
12,25 |
15,21 |
|
-11,7 |
19,4 |
-226,98 |
136,89 |
376,36 |
|
6,1 |
-19,2 |
-117,12 |
37,21 |
368,64 |
|
-9,7 |
11,2 |
-108,64 |
94,09 |
125,44 |
|
0,2 |
-5,3 |
-1,06 |
0,04 |
28,09 |
|
-14,1 |
13,0 |
-183,30 |
198,81 |
169,00 |
|
4,9 |
-15,7 |
-76,93 |
24,01 |
246,49 |
|
-3,2 |
3,8 |
-12,16 |
10,24 |
14,44 |
|
-13,2 |
14,8 |
-195,36 |
174,24 |
219,04 |
|
-8,1 |
7,2 |
-58,32 |
65,61 |
51,84 |
|
3,0 |
-6,7 |
-20,10 |
9,00 |
44,89 |
|
-8,8 |
7,5 |
-66,00 |
77,44 |
56,25 |
|
5,4 |
-18,0 |
-97,20 |
29,16 |
324,00 |
|
2,4 |
-9,6 |
-23,04 |
5,76 |
92,16 |
|
1,6 |
-2,1 |
-3,36 |
2,56 |
4,41 |
|
-16,2 |
14,6 |
-236,52 |
262,44 |
213,16 |
|
-10,2 |
11,2 |
-114,24 |
104,04 |
125,44 |
Уравнение
линейной регрессии:
.
Параметры
и
найдем
по таким формулам:


Таким
образом, линейная однопараметрическая
модель регрессии показателя имеет вид:
.
-
Построим график, изображающий данные выборки и найденную функцию регрессии.
Нанесем линию регрессии на корреляционное поле (Рис. 1).

Рис. 1. Функция регрессия и исходные данные выборки.
-
Соотношения между демографическими и экономическими явлениями и процессами не всегда можно выразить линейными функциями, так как при этом могут возникать неоправданно большие ошибки. В таких случаях используют нелинейную (по объясняющей переменной) регрессию. Учитывая расположение точек корреляционного поля, предположим, что наиболее подходящим уравнением регрессии будет уравнение параболы:
.
Его
параметры
найдем, применяя метод наименьших
квадратов:

Приравняв
частные производные
и
к
нулю, получим после преобразований
систему уравнений:

Для расчета необходимых сумм составим вспомогательную таблицу:
|
|
|
|
|
|
|
|
|
|
|
|
4,8 |
-10,9 |
-52,32 |
23,04 |
118,81 |
110,592 |
530,8416 |
-251,136 |
|
|
-9,7 |
22,7 |
-220,19 |
94,09 |
515,29 |
-912,673 |
8 852,9281 |
2 135,843 |
|
|
-16,6 |
21,9 |
-363,54 |
275,56 |
479,61 |
-4 574,296 |
75 933,3136 |
6 034,764 |
|
|
-3,5 |
3,9 |
-13,65 |
12,25 |
15,21 |
-42,875 |
150,0625 |
47,775 |
|
|
-11,7 |
19,4 |
-226,98 |
136,89 |
376,36 |
-1 601,613 |
18 738,8721 |
2 655,666 |
|
|
6,1 |
-19,2 |
-117,12 |
37,21 |
368,64 |
226,981 |
1 384,5841 |
-714,432 |
|
|
-9,7 |
11,2 |
-108,64 |
94,09 |
125,44 |
-912,673 |
8 852,9281 |
1 053,808 |
|
|
0,2 |
-5,3 |
-1,06 |
0,04 |
28,09 |
0,008 |
0,0016 |
-0,212 |
|
|
-14,1 |
13,0 |
-183,30 |
198,81 |
169,00 |
-2 803,221 |
39 525,4161 |
2 584,530 |
|
|
4,9 |
-15,7 |
-76,93 |
24,01 |
246,49 |
117,649 |
576,4801 |
-376,957 |
|
|
-3,2 |
3,8 |
-12,16 |
10,24 |
14,44 |
-32,768 |
104,8576 |
38,912 |
|
|
-13,2 |
14,8 |
-195,36 |
174,24 |
219,04 |
-2 299,968 |
30 359,5776 |
2 578,752 |
|
|
-8,1 |
7,2 |
-58,32 |
65,61 |
51,84 |
-531,441 |
4 304,6721 |
472,392 |
|
|
3,0 |
-6,7 |
-20,10 |
9,00 |
44,89 |
27,000 |
81,0000 |
-60,300 |
|
|
-8,8 |
7,5 |
-66,00 |
77,44 |
56,25 |
-681,472 |
5 996,9536 |
580,800 |
|
|
5,4 |
-18,0 |
-97,20 |
29,16 |
324,00 |
157,464 |
850,3056 |
-524,880 |
|
|
2,4 |
-9,6 |
-23,04 |
5,76 |
92,16 |
13,824 |
33,1776 |
-55,296 |
|
|
1,6 |
-2,1 |
-3,36 |
2,56 |
4,41 |
4,096 |
6,5536 |
-5,376 |
|
|
-16,2 |
14,6 |
-236,52 |
262,44 |
213,16 |
-4 251,528 |
68 874,7536 |
3 831,624 |
|
|
-10,2 |
11,2 |
-114,24 |
104,04 |
125,44 |
-1 061,208 |
10 824,3216 |
1 165,248 |
|
∑ |
-96,6 |
63,7 |
-2190,03 |
1 636,48 |
3 588,57 |
-19 048,122 |
275 981,6008 |
21 191,525 |
Теперь система примет вид:

Решая систему методом Крамера, получим:



Тогда уравнение нелинейной регрессии имеет вид:

Добавим график нелинейной регрессии на корреляционное поле (Рис. 2).

Рис. 2. Линейная и квадратичная регрессии и исходные данные выборки.













