
- •Вероятность интересующего нас события
- •Случайные величины. Законы распределения и числовые характеристики случайных величин
- •Системы случайных величин
- •Дополнительные задачи
- •Выборка и ее представление
- •Точечные и интервальные оценки
- •Проверка статистических гипотез. Критерий χ2
- •Регрессионный анализ
Регрессионный анализ
Смоленск 2009
Регрессией Y на X или условным математическим ожиданием случайной величины Y относительно случайной величины X называется функция вида
Регрессией X на Y называется функция вида
=
φ(y).
Оценками этих функций являются выборочные уравнения регрессии, или условные средние,
=
φ*(y).
На практике часто используются выборочные уравнения линейной регрессии в виде
.
Для определения параметров ρ и β в уравнении используется получаемая на основании метода наименьших квадратов система двух уравнений
Аналогично
находятся параметры
ρ1
и β1
для функции
Для оценки связи между случайными величинами обычно используется выборочный коэффициент корреляции:
Выборочный коэффициент корреляции представляет собой отношение
.
В
том случае, когда варианты парной выборки
встречаются по нескольку раз, причём с
одним значением варианты
xi
может встретиться несколько вариант
yi,
их обычно представляют в виде корреляционной
таблицы. На пересечении строк и столбцов
этой таблицы отмечается частота
выбора соответствующей пары
а
частоты вариант
находятся
как суммы значений
по соответствующей строке или столбцу.
Например, в корреляционной таблице
xi yj |
10 |
20 |
30 |
|
5 |
3 |
– |
2 |
5 |
10 |
5 |
4 |
2 |
11 |
|
8 |
4 |
4 |
n = 16 |
пара
(10; 5)
встречается 3
раза, т.е.
а частота появления величины
находится как сумма
Очевидно,
что
Для коэффициента корреляции случайных величин X и Y в случае сгруппированных данных используется выражение
где
После
подсчёта
получают выборочное уравнение линейной
регрессииY
на X
в виде
или выборочное уравнение линейной регрессии X на Y в виде
Для упрощения расчетов часто используются условные варианты, которые подсчитываются по формулам
где С1, С2 – ложные нули (выбираемые значения);
h1, h2 – разности между соседними значениями X и Y.
Соответственно, для обратного перехода применяются выражения
где
–
средние значения условных вариант;
средние
квадратичные отклонения условных
вариант.
Для подсчёта выборочного коэффициента корреляции в этом случае используются формула
где
Подсчитав выборочный коэффициент корреляции через условные варианты и осуществив переход к условным переменным, получают соответствующие уравнения регрессии.
Цель занятия: 1.Уяснить различие между функциональной и статистической зависимостью двух переменных.
2.Объяснить общую идею подбора эмпирических уравнений регрессии методом наименьших квадратов
К занятию по данной теме должны быть подготовлены следующие вопросы:
1.Что называется модельным уравнением регрессии Y на X?
2.Что называется эмпирическим уравнением регрессии Y на X? Пояснить его смысл.
3.Какие основные задачи корреляционного анализа и регрессионного анализа?
4.Какие критерии применяются для проверки гипотез относительно коэффициента корреляции генеральной совокупности?
Задача 1. С целью анализа взаимного влияния зарплаты и текучести рабочей силы на пяти однотипных фирмах с одинаковым числом работников проведены измерения уровня месячной зарплаты X и числа уволившихся за год рабочих Y:
X |
100 |
150 |
200 |
250 |
300 |
Y |
60 |
35 |
20 |
20 |
15 |
Найти линейную регрессию X на Y и выборочный коэффициент корреляции.
Решение. Составим расчётную таблицу:
i |
xi |
yi |
|
|
|
1 |
100 |
60 |
10000 |
6000 |
3600 |
2 |
150 |
35 |
22500 |
5250 |
1225 |
3 |
200 |
20 |
40000 |
4000 |
400 |
4 |
250 |
20 |
62500 |
5000 |
400 |
5 |
300 |
15 |
90000 |
4500 |
225 |
|
1000 |
150 |
225000 |
24750 |
5850 |
Определяем ρ и β:
Выборочное
уравнение регрессии примет вид
Из расчетной таблице следует, что
По формуле находим
Найдём
по формулам
Откуда
Таким образом,
Задача 2. В магазине постельных принадлежностей в течение пяти дней подсчитывали число покупок простыней X и подушек Y:
xi |
10 |
20 |
25 |
28 |
30 |
yi |
4 |
8 |
7 |
12 |
14 |
(В данной таблице значения X расставлены в возрастающем порядке.) Найти выборочное уравнение линейной регрессии и выборочный коэффициент корреляции.
Решение. Составим таблицу подсчётов.
Номер опыта i |
|
|
|
|
|
1 2 3 4 5 |
10 20 25 28 30 |
4 8 7 12 14 |
100 400 625 784 900 |
40 160 175 336 420 |
16 64 49 144 196 |
|
113 |
45 |
2809 |
1131 |
469 |
Находим ρ и β:
Уравнение регрессии запишется в виде
Подсчитаем корреляционный момент:
Находим
Определим выборочную дисперсию величин X и Y:
Откуда
Задача 3. Найти выборочное уравнение линейной регрессии X на Y на основании корреляционной таблицы
xi yj |
15 |
20 |
25 |
30 |
35 |
40 |
100 |
2 |
1 |
– |
7 |
– |
– |
120 |
4 |
– |
2 |
– |
– |
3 |
140 |
– |
5 |
– |
10 |
5 |
2 |
160 |
– |
– |
3 |
1 |
2 |
3 |
Решение. Для упрощения расчётов введём условные варианты
и
составим преобразованную корреляционную
таблицу с условными вариантами, в которую
внесём значения
и
:
ui vj |
-3 |
-2 |
-1 |
0 |
1 |
2 |
|
-1 |
2 |
1 |
– |
7 |
– |
– |
10 |
0 |
4 |
– |
2 |
– |
– |
3 |
9 |
1 |
– |
5 |
– |
10 |
5 |
2 |
22 |
2 |
– |
– |
3 |
1 |
2 |
3 |
9 |
|
6 |
6 |
5 |
18 |
7 |
8 |
n=50 |
Затем
составим новую таблицу, в которую внесём
посчитанные значения
в правый верхний угол заполненной клетки
и
в левый нижний угол, после чего суммируем
верхние значения по строкам для получения
значений
и нижние значения по столбцам для
и подсчитаем величины
и
(табл.).
ui vj |
-3 |
-2 |
-1 |
0 |
1 |
2 |
|
|
-1
|
-6 2 -2 |
-2 1 -1 |
–
|
0 7 -7 |
– |
– |
-8
|
8 |
0
|
-12 4 0 |
– |
-2 2 0 |
– |
– |
6 3 0 |
-8 |
0 |
1
|
– |
-10 5 5 |
– |
0 10 10 |
5 5 5 |
4 2 2 |
-1 |
-1 |
2
|
– |
– |
-3 3 6 |
0 1 2 |
2 2 4 |
6 3 6 |
5 |
10 |
|
-2 |
4 |
6 |
5 |
9 |
8 |
– |
|
|
6 |
-8 |
-6 |
0 |
9 |
16 |
|
– |
Подсчитываем
суммы
и
Параллельный подсчёт этих сумм
осуществляется для контроля правильности
расчетов. В данном случае
Находим
и
:
Находим
:
Определяем
:
Вычисляем
выборочный коэффициент корреляции
:
Осуществляем переход к исходным вариантам:
Находим уравнение регрессии X на Y:
или
Задача 4. Найти выборочное уравнение линейной регрессии Y на X на основании корреляционной таблицы.
yj |
xi |
ny | |||||
10 |
20 |
30 |
40 |
50 |
60 | ||
15 25 35 45 55 |
5 – – – – |
7 20 – – – |
– 23 30 10 – |
– – 47 11 9 |
– – 2 20 7 |
– – – 6 3 |
12 43 79 47 19 |
nx |
5 |
27 |
63 |
67 |
29 |
9 |
n=200 |
Решение. Введём условные варианты:
Для
подсчёта
можно использовать преобразованные
корреляционные таблицы. Вначале
составляют таблицу, в которой записывают
условные варианты(C1
= 40, C2
= 35).
vj |
ui |
nv | |||||
-3 |
-2 |
-1 |
0 |
1 |
2 | ||
-2 -1 0 1 2 |
5 – – – – |
7 20 – – – |
– 23 30 10 – |
– – 47 11 9 |
– – 2 20 7 |
– – – 6 3 |
12 43 79 47 19 |
nu |
5 |
27 |
63 |
67 |
29 |
9 |
n=200 |
После
этого составляют таблицу, в которой
подсчитывают произведения
и
.
vj |
ui |
|
| |||||
-3 |
-2 |
-1 |
0 |
1 |
2 | |||
-2
|
-15 5 -10 |
-14 7 -14 |
–
|
– |
– |
– |
-29
|
58 |
-1
|
– |
-40 20 -20 |
-23 23 -23 |
– |
– |
– |
-63 |
63 |
0
|
– |
-30 30 0 |
– |
0 47 0 |
2 2 0 |
– |
-28 |
0 |
1
|
– |
– |
-10 10 10 |
0 11 11 |
20 20 20 |
12 6 6 |
22 |
22 |
2 |
– |
– |
– |
0 9 18 |
7 7 14 |
5 3 6 |
13 |
26 |
|
-10 |
-34 |
-13 |
29 |
34 |
12 |
– |
|
|
30 |
68 |
13 |
0 |
34 |
24 |
|
– |
Таким образом,
Находим
также
и
:
Таким образом,
По формулам
определяем средние квадратичные отклонения:
Подставляем
рассчитанные данные в формулу для
:
Затем
рассчитываем
по формулам
получаем
Подставляем полученные значения в уравнение регрессии:
окончательно получаем
Задача
5. Из двухмерной
нормальной генеральной совокупности
извлечена выборка объемом n
= 122. Найден
выборочный коэффициент корреляции rв
= 0,4. Проверить
нулевую гипотезу Н0
о равенстве нулю генерального коэффициента
корреляции при уровне значимости
=0,05
и конкурирующей гипотезе Н1.
Решение. Находим
По
условию конкурирующая гипотеза Н1:
r10,
поэтому критическая область –
двусторонняя. По уровню значимости
=0,05
и числу степеней свободы l
= 122 – 2 = 120
находим из таблицы значений распределения
Стьюдента для двусторонней критической
области tкр=
(0,05 ,120) = 1,98.
Так как Тнабл > tкр, т.е. 4,79 > 1,98, нулевую гипотезу отвергаем, т.е. выборочный коэффициент значимо отличается от нуля, следовательно. X и Y коррелируемы.
Дополнительные задачи.
Задача 1.В результате измерений отклонений от номиналов высот моделей (хi) и отливок к ним (уj) получены следующие результаты:
0,9 |
1,22 |
1,32 |
0,77 |
1,3 |
1,2 |
1,32 |
0,95 |
0,45 |
1,3 |
1,2 |
-0,3 |
0,1 |
0,7 |
-0,3 |
0,25 |
0,02 |
0,37 |
-0,7 |
0,55 |
0,35 |
0,32 |
Cоставить корреляционную таблицу и вычислить коэффициент корреляции.
Решение. Разобьем весь интервал, в котором заключены значения признаков, на пять частей. Возьмем для хi наименьшее значение 0,40 и наибольшее – 1,40, тогда ширина одного интервала будет равна 0,20. Наименьшее yj=-0,7, а наибольшее – 0,7. Ширина интервала 0,28. Откладываем интервалы изменений хi по горизонтали, а уj – по вертикали; данные заносим в табл.
0,5 0,7 0,9 1,1 1,3 Таблица
xi yj |
0,4-0,6 |
0,6-0,8 |
0,8-1 |
1-1,2 |
1,2-1,4 |
ny |
-0,7- -0,42 -0,42- -0,14 -0,14-0,14 0,14-0,42 0,42-0,7 |
- - - - 1 |
- 1 - - - |
1 1 - - - |
- - - 2 - |
- 1 1 2 1 |
1 3 1 4 2 |
nx |
1 |
1 |
2 |
2 |
5 |
n=11 |
- 0,56
- 0,28
0
0,28
0,56
Определим
коэффициент корреляции. Для этого найдем
средние значения
и
,
предполагая, чтохi
и уj
- середины
соответствующих интервалов:
,
Коэффициент корреляции близок к единице, следовательно, между случайными величинами Х и Y достаточно тесная корреляционная связь.
Задача 2. Распределение 40 заводов области по количествуY ремонтных слесарей и числу X станко-смен представлено следующей корреляционной таблицей (табл.7)
Таблица 7
Y X |
10 – 15 |
15 – 20 |
20 – 25 |
25 – 30 |
30 – 35 |
35 – 40 |
nx
|
0 – 0,2 0,2 – 0,4 0,4 – 0,6 0,6 – 0,8 0,8 – 1,0 1,0 – 1,2 |
4 2 - - - - |
- 2 - 6 - - |
- - 2 - - - |
- - - 4 - - |
- - - 4 6 - |
- - - - 6 4 |
4 4 2 14 12 4 |
ny |
6 |
8 |
2 |
4 |
10 |
10 |
n= 40 |
Составить уравнение прямой регрессии, установить тесноту связи между признаками. Для каждого интервала значений Y вычислить фактические значения частных средних yx и теоретические значения, найденные из уравнений регрессии.
Решение. За значения признаков примем середины интервалов и составим корреляционную таблицу в условных вариантах, приняв в качестве условных нулей C1 = 0,7 и C2 = 27,5. (Эти варианты имеют частоту, равную 4, и находятся в середине корреляционной таблицы.)
Таблица
u |
-3 |
-2 |
-1 |
0 |
1 |
2 |
nu |
-3 -2 -1 0 1 2 |
4 2 - - - - |
- 2 - 6 - - |
- - 2 - - - |
- - - 4 - - |
- - - 4 6 - |
- - - - 6 4 |
4 4 2 14 12 4 |
n |
6 |
8 |
2 |
4 |
10 |
10 |
n= 40 |
Находим:
Найдем искомый коэффициент корреляции:
Вычислим
:
Подставим полученные значения в уравнение регрессии:
или
Вычислим для каждого интервала изменения х фактические значения частных средних:
,
,
,
,
.
Вычислим для каждого интервала изменения х теоретические значения из полученного уравнения:
,
,
,
,
,
.
Cравнивая полученные значения, видим, что они близки к фактическим.
Задача 3. Найти уравнение параболической регрессии Y и Х для экспериментальных данных, помещенных в табл.
Таблица
уj |
1 |
2 |
3 |
4 |
5 |
6 |
ny |
1 2 3 4 5 6 |
2 1 - - - - |
1 2 3 1 - - |
- - 1 3 2 - |
- - - 1 2 1 |
- - - - 2 1 |
- - - - 1 1 |
3 3 4 5 7 3 |
nx
|
3 |
7 |
6 |
4 |
3 |
2 |
n=25 |
|
1,33 |
2,57 |
4,17 |
5,0 |
5,33 |
5,50 |
|
Решение. Ищем уравнение регрессии в виде
.
Для определения неизвестных коэффициентов а, b по МНК записываем систему нормальных уравнений:
(1)
и составляем вспомогательную таблицу (10).
Таблица 10
-
n x
x
nxx
nxx2
nxx3
3
7
6
4
3
2
1
2
3
4
5
6
3
14
18
16
15
12
3
28
54
64
75
72
3
56
162
256
375
432
nx=25
21
78
296
1284
Таблица 10
nxx4 |
|
nxyx |
nxxyx |
nxx2yx |
3 112 486 1024 1875 2592 |
1,33 2,57 4,17 5,0 5,33 5,50 |
3,99 17,99 25,02 20,00 15,99 11,00 |
3,99 35,98 75,06 80,00 79,95 66,00 |
3,99 71,96 225,18 320,00 399,75 396,00 |
6092 |
23,9 |
93,99 |
340,98 |
1416,88 |
Теперь уравнения (1) примут вид:
Для упрощения расчетов разделим каждое уравнение на коэффициент при с:
Решив полученную систему, найдем: a= - 0,19, b= 2,21, c = 0,89.
Уравнение регрессии имеет вид
yx = -0,19х2 + 2,21х – 0,89.
Подставив
в это уравнение в место х
его значения,
получим теоретические значения средних
:
-
х
1
2
3
4
5
6
1,14
2,78
4,07
4,91
5,41
5,52
Сравнивая
теоретические значения частных средних
с
экспериментальными, видим, что они
достаточно близки.
Задача 4. Зависимость между суточной выработкой продукции Y (т) и величиной основных производственных фондов X (млн руб.) для совокупности 50 однотипных предприятий представлена в таблице.
Вели- чина ОПФ, млн. руб.(X) |
Середи- ны интер - валов
|
Суточная выработка продукции, т (Y)
|
Всего ni |
Группо- вая сре - няя, т |
7-11 11-15 15-19 19-23 23-27 | ||||
yj xi |
9 13 17 21 25 | |||
20-25 25-30 30-35 35-40 40-45 |
22,5 27,5 32,5 37,5 42,5 |
2 1 – – – 3 6 4 – – – 3 11 7 – – 1 2 6 2 – – – 1 1 |
3 13 21 11 2 |
10,3 13,3 17,8 20,3 23,0 |
Всего ni |
|
5 11 17 14 3 |
50 |
– |
Групповая средняя
|
Проверить значимость коэффициента корреляции между переменными X и Y.
Решение.
Статистика критерия:
Для
уровня значимости
и числа степеней свободы
находим критическое значение статистики
(см. табл. приложений). Поскольку
коэффициент корреляции между суточной
выработкой продукцииY
и величиной основных производственных
фондов Xзначимо отличается
от нуля.
Домашнее задание.
Задача 1. Распредление 60 предприятий химической промышленности по энерговооружённости труда Y (кВт ∙ ч) и фондовооружённости X (млн руб.) дано в таблице
x y |
0 – 4,5 |
4,5 – 9 |
9 – 13,5 |
13,5 – 18 |
18 – 22,5 |
Итого |
0 – 1,4 1,4 – 2,8 2,8 – 4,2 4,2 – 5,6 5,6 – 7,0 7,0 – 8,4 |
4 4 2 – – – |
1 2 8 1 – – |
– – 1 20 3 – |
– – – 4 3 1 |
– – – – 3 3 |
5 6 11 25 9 4 |
Итого |
10 |
12 |
24 |
8 |
6 |
60 |
Необходимо:
а) Построить эмпирические линии регрессии;
б) оценить тесноту и направление связи
между переменными с помощью коэффициента
корреляции; проверить значимость
коэффициента корреляции на уровне
и построить для него 95%-ный доверительный
интервал; в) вычислить эмпирические
корреляционные отношения и оценить их
значимость на 5%-ном уровне; г) на уровне
значимости 0,05 проверить гипотезу о
линейной корреляционной зависимости
между переменнымиY
и X;
д) найти уравнения прямых регрессии,
построить их графики и найти 95%-ные
доверительные интервалы для коэффициентов
регрессии.
Задача 2. Имеются следующие данные об уровне механизации работ X (%) и производительности труда Y (т/ч) для 14 однотипных предприятий:
xi |
32 |
30 |
36 |
40 |
41 |
47 |
56 |
54 |
60 |
55 |
61 |
67 |
69 |
76 |
yj |
20 |
24 |
28 |
30 |
31 |
33 |
34 |
37 |
38 |
40 |
41 |
43 |
45 |
48 |
Необходимо:
а) оценить тесноту и направление связи
между переменными с помощью коэффициента
корреляции; проверить значимость
коэффициента корреляции на уровне
;
б) найти уравнения прямых регрессии.
Задача
3. При
исследовании корреляционной зависимости
между объёмом продукции X
(единиц) и её себестоимости Y
(тыс. руб.) получено следующее уравнение
регрессии Y
по X:
Составить уравнение регрессииX
по Y,
если коэффициент корреляции между этими
признаками оказалась равным -0,8,
а средний объём продукции
единиц.
Задача
4. При
исследовании корреляционной зависимости
между ценой на нефть X
и индексом нефтяных компаний Y
получены следующие данные:
(ден.ед.),
(усл.
ед.),
Необходимо:
а) составить уравнения регрессии Y
по X
и X
по Y;
б) используя соответствующее уравнение
регрессии, найти среднюю величину
индекса при цене на нефть 16,5 ден. ед.
Ответы:
1).
б) r
= 0,872;
связь тесная и прямая, r
значим, так как t=
=13,57 >
(с помощьюz
- преобразования
Фишера); в)
(значим, так какF
= =50,4 >
(значим, так какF
= =47,6 >
г) гипотеза о линейной корреляционной
зависимости не отвергается, ибо
близко к
так,
чтоF=2,10
<
(или
близко к
так,
чтоF
= =2,47
>
);
д)
2).
а) r
= 0,969; связь
очень тесная и прямая; r
значим (так как t
=
б)
3).
4).
а)б)
(усл. ед.).