
- •Лабораторная работа №5. Корреляционно-регрессионный анализ
- •1. Общие понятия и определения
- •2. Оценка силы корреляционной связи
- •3.Оценка коэффициента корреляции по данным выборки
- •4. Оценка значимости коэффициента корреляции
- •Примеры решения задач
- •Варианты заданий
- •5. Парная линейная регрессия.
- •6. Расчет теоретической линии прямой регрессии
- •7. Обратная регрессия
- •Алгоритм расчета оптимальной формы связи
- •Примеры решения задач
- •Варианты заданий
7. Обратная регрессия
Описанная выше
схема построения линейного уравнения
прямой регрессии может быть в полной
мере использована для расчетов всех
параметров уравнения
=a0+a1y,
обратной регрессии если осуществить
замену в соответствующих формулах х
на y.
Так, например
Алгоритм расчета оптимальной формы связи
Процедуру отыскания оптимальной линейной формы связи (или приведенных к ней) выполняют по следующей схеме.
Вычисляют x, y, x2, y2, xy, средние
и
.
Находят промежуточные величины
проверка
вычислений
Вычисляют коэффициенты парной регрессии:
a1(yx)=Qxy/Qx;
обратной: a1(xy)=Qxy/Qy;
коэффициент
корреляции
Вводят дополнительную переменную
Вычисляют стандартные ошибки
Проводят проверку вычислений
Вычисляют остаточную дисперсию
Если r>rT, то имеется статистически значимая связь между Y и X. В противном случае связь отсутствует или она нелинейная.
Проверка гипотезы линейности: вычисление
и проверка
.
Расчет коэффициентов a0 и a1 из уравнения линеаризации (табл. 7.1) до тех пор, пока Dост не начнет возрастать.
11. Далее выбирают оптимальную форму связи по минимальной Dост.
Примеры решения задач
Пример 2. Построить уравнение квадратичной регрессии по данным табл.1.
Таблица 1
x |
1,7 |
3,4 |
4 |
4,1 |
5,3 |
y |
25 |
34 |
57 |
82 |
98 |
Решение. Построение квадратичной парной зависимости – это нахождение коэффициентов a, b и с уравнения прямой регрессии. Предварительные вычисления сведены в табл. 2.
Далее обратимся к процедуре решения системы линейных алгебраических уравнений, которую нужно выполнять очень внимательно, по причине возможной ошибки, обнаружить которую можно только полным повторением расчета. В этом и состоит недостаток метода построения квадратичных полиномов, так как с ростом степени полинома всю процедуру приходится повторять заново и снова вычислять все коэффициенты.
Таблица 2
№ п/п |
x |
y |
xy |
x2 |
x2y |
x3 |
x4 |
(1) |
(2) |
(3) |
(4) |
(5) |
(6) |
(7) |
(8) |
1 |
1,7 |
25 |
42,5 |
2,89 |
72,25 |
4,91 |
8,35 |
2 |
3,4 |
34 |
115,6 |
11,56 |
393,04 |
39,30 |
133,62 |
3 |
4 |
57 |
228,0 |
16,00 |
912,00 |
64,00 |
256,00 |
4 |
4,1 |
82 |
336,2 |
16,81 |
1378,42 |
68,92 |
282,57 |
5 |
5,3 |
98 |
519,4 |
28,09 |
2752,12 |
148,88 |
789,06 |
|
18,5 |
296 |
1241,7 |
75,35 |
5508,53 |
326,01 |
1469,60 |
Взятые из табл. 7.3 значения сумм, подставляем в нормальные уравнения:
5,00 а + 18,50 b + 75,35 c = 296,00 (1)
18,50 а + 75,35 b + 326,01 c = 1241,70 (2)
75,35 а + 326,01 b + 1469,60 c = 5508,53 (3)
Систему решаем методом исключения переменных. Все члены первого уравнения умножаем на 3,7:
18,50 a + 68,45 b + 278,80 с = 1095,20 |
18,50 a + 75,35 b + 326,01 с = 1241,70 |
6,90 b + 47,21 с = 146,50 |
(4)
Далее исключаем а из уравнений (2) и (3). Для этого умножим все члены уравнения (4) на 4,073:
18,50 a + 75,35 b + 326,01 с = 1241,70 75,35 a + 326,01 b + 1469,60 с = 5508,53 |
75,35 a + 306,90 b + 1327,84 с = 5057,44 75,35 a + 326,01 b + 1469,60 с = 5508,33 |
19,11 b + 141,76 с = 451,09 |
(5)
Из уравнений (4) и (5) исключаем b и определяем с:
6,90 b + 47,21 с = 146,50, 2,77,
-
19,11 b + 141,76 с = 451,09,
19,11 b + 130,77 с = 405,84,
19,11 b + 141,76 с = 451,09,
10,99 с = 45,28,
с = 4,1200;
19,11 b + 141,76*4,12 = 451,09, 19,11 b = -132,96,
b = -6,9576;
5,00 а + 181,72 = 296, а = 22,856.
Для проверки найденные значения коэффициентов подставляются в одно из исходных уравнений:
18,50*22,8560 – 75,35*6,9576 + 326,01*4,1200 = 1541,70.
1214,70 = 1241,70.
Имеет место равенство что свидетельствует о правильности вычислений.
Для определения остаточной дисперсии и дисперсии y расчеты сведем в табл.3.
Таблица 3.
№ п/п |
y |
|
|
|
|
|
(1) |
(2) |
(3) |
(4) |
(5) |
(6) |
(7) |
1 |
25 |
22,935 |
2,065 |
4,264 |
34,2 |
1169,64 |
2 |
34 |
46,827 |
12,827 |
164,532 |
25,2 |
635,04 |
3 |
57 |
60,946 |
3,946 |
15,571 |
2,2 |
4,84 |
4 |
82 |
63,587 |
18,413 |
339,039 |
22,8 |
519,84 |
5 |
98 |
101,712 |
3,712 |
13,779 |
45,421 |
22063,067 |
|
296 |
|
|
537,185 |
|
4392,427 |
После чего окончательно получаем квадратичное уравнение
=22,8560-6,9576
x
+4,1200
x2.
Вычисляем предсказанные значения :
С учетом данных
табл. 7.4. остаточная дисперсия
а
дисперсия
Оценка
по критерию Фишера
Говорит о том, что полученное квадратичное
уравнение регрессии в шесть раз лучше
среднего
предсказывает
результаты наблюдений.
Пример 3. Имеются выборочные данные по 10 однородным предприятиям.
№ предприятия |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
Электровооруженность труда на одного рабочего, кВт*ч. |
2 |
5 |
3 |
7 |
2 |
6 |
4 |
9 |
8 |
4 |
Выпуск готовой продукции на одного рабочего, т |
3 |
6 |
4 |
6 |
4 |
8 |
6 |
9 |
9 |
5 |
Найти уравнение прямой регрессии.
Решение. Предположим, что между электровооруженностью труда X и выпуском готовой продукции Y существует линейная стохастическая связь, которую можно записать уравнением прямой =a0+a1x.
Независимой переменной X является электровооруженность труда, а результативным признаком y – выпуск готовой продукции.
Для определения формы связи необходимо вычислить параметры уравнения прямой решая систему нормальных уравнений. Чтобы заполнить систему нормальных уравнений фактическими данными, построим расчетную табл. 4.
Таблица 4
Исходные данные |
Расчетные данные |
||||||
№ предприятия |
Электровооруженность труда на одного рабочего, кВт*ч х |
Выпуск продукции на одного рабочего, т y |
xy |
x2 |
y2 |
yx |
(y-yx)2 |
1 2 3 … 9 10 |
2 5 3 … 8 4 |
|
6 30 12 … 72 20 |
4 25 9 … 64 16 |
9 36 16 … 81 25 |
3,61 6,01 4,41 … 8,38 5,20 |
0,3721 0,0001 0,1682 … 0,381 0,04 |
Итого |
50 |
|
343 |
304 |
400 |
60 |
5,761 |
В среднем |
5,0 |
|
34,3 |
30,4 |
40,0 |
6,0 |
0,5761 |
Далее подставив в систему нормальных уравнений фактические данные из табл. 4, получим
Решаем ее методом исключения. Вначале умножим каждый член первого уравнения на 5. Получим
50a0+250a1=300,
50a0+304a1=343.
Затем вычтем из второго уравнения первое: 43=54a1, откуда a1=43/54=0,7963.
После подстановки значения a1 в первое уравнение получим a0=2,02.
Уравнение парной линейной регрессии имеет вид =2,02+0,796x.
Проверку правильности расчета параметров уравнения регрессии можно произвести подстановкой a0 и a1 в систему нормальных уравнений (рассматривая их как корни уравнения).
Используя уравнение регрессии, можно определить теоретическое значение для любой промежуточной точки (теоретическое значение выпуска готовой продукции на одного рабочего для любого промежуточного значения электровооруженности труда на одного рабочего.
В найденном уравнении регрессии параметр a1=0,796 показывает, что с увеличением электровооруженности труда одного рабочего на 1 кВт*ч выпуск готовой продукции возрастет на 0,796.
Средний коэффициент эластичности вычислим по формуле:
.
Коэффициент эластичности, равный 0,66, показывает, что с увеличением электровооруженности труда на 1% выпуск готовой продукции в среднем возрастет на 0,66%.
Оценим корреляционную связь между производительностью и электровооруженностью труда линейным коэффициентом корреляции, теоретическим корреляционным отношением, и индексом корреляции, воспользовавшись соответствующими формулами
Для расчета
теоретического корреляционного отношения
необходимо предварительно вычислить
оценки дисперсий
по
формулам:
Теоретическое корреляционное отношение равно
Коэффициент детерминации 2 равен 0,856. Вычисляем индекс корреляции по формуле
Найденные показатели корреляционной связи показывают тесную связь между производительностью и электровооруженностью труда. Коэффициент детерминации 0,856 означает, что вариация выработки рабочих на 85,6% объясняется вариацией электровооруженности труда и на 14,4% - прочими факторами.
Так
как r,R
и
близки
по значению, то можно сделать заключение,
что гипотеза о линейной форме связи
подтверждается.
Оценим адекватность регрессионной модели yx=2,02+0,796x, выражающей зависимость между производительностью и электровооруженностью труда, с помощью F-критерия Фишера по формулу:
Табличное
значение
FT
с уровнем значимости 0,05 и числом степеней
свободы (1=1),
(2=9)
равно 5,32 (см. табл. 7 Приложения). Так как
,
то уравнение регрессии можно признать
адекватным.
Оценим значимость параметров уравнения регрессии с помощью t-критерия Стьюдента по формулам:
Значение x находим из
Табличное значение t-критерия с уровнем значимости 0,05 и числом степеней свободы (n-2) равно 2,307 (см. табл. 7 Приложения).
Так как tэмп>tтабл, то параметры уравнения регрессии можно признать значимыми.
Значимость коэффициента корреляции оценим с помощью t-критерия:
Поскольку эмпирическое значение tr больше табличного, следовательно, коэффициент корреляции можно признать значимым.
Вычислим ошибку аппроксимации по формуле
Так как параметры уравнения регрессии значимы, само уравнение значимо, имеет место сильная стохастическая связь, ошибка аппроксимации равна 5,8%, коэффициент детерминации равен 0,856, то можно говорить о том, что построенная регрессионная модель зависимости производительности труда от его электровооруженности =2,02+0,796x может быть использована для анализа и прогноза.