Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Уч.пос. Мат. мет. 1.doc
Скачиваний:
2
Добавлен:
01.03.2025
Размер:
2.12 Mб
Скачать

8. Регрессия

После установления наличия корреляционной связи между двумя явлениями (признаками), следует выявить закономерность количественного изменения одного из признаков (функция) при изменении другого (аргумент). Такая закономерность необходима для прогноза изучаемого явления и выяснения его критических точек. Для этого изучаемую связь необходимо выразить аналитически в виде уравнения регрессии и графически – с вычислением точек кривой по установленному уравнению. При решении этих вопросов существенно снижается трудоемкость расчетов, путем преобразования исходных данных таким образом, чтобы их величины приближались, по возможности, к первому порядку. Для этого исходные данные делятся на одно и то же число, или вычисляется из них среднее или начальное значение, а также принимаются другие единицы измерения.

8.1. Уравнение прямой линии

Уравнение прямой линии является наиболее простым для расчета способом. На примере зависимости 1000 зерен от продолжительности вегетационного периода у сортов ячменя приведем способ вычисления уравнения прямой линии, которое в общей форме имеет вид: где у, - теоретические значения функции или зависимой переменной; х – аргумент или независимая переменная; а0, а1 - коэффициенты уравнения, имеющие различные значения в зависимости от специфики изучаемого явления; у –эмпирические значения зависимой переменной (табл.17).

Таблица 17

К вычислению уравнения прямой линии

Продолжит. вегетации (х)

Масса 1000 зерен (у)

х2

ух

y,

y,-y

(y,-y)2

1

2

3

4

5

6

7

90

47,50

8100

4275,00

48,3399

0,84

0,7056

85

46,75

7225

3973,75

46,8004

0,05

0,0025

80

45,75

6400

3660,00

45,2609

-0,49

0,2401

75

42,85

5625

3213,75

43,7214

0,87

0,7569

70

44,76

4900

3133,20

42,1819

-2,58

6,6564

65

41,44

4225

2693,60

40,6424

-0,80

0,6400

60

37,00

3600

2220,00

39,1029

2,10

4,4100

525

306,05

40075

23169,30

306,0498

-0,01

13,4115

Для дальнейших исследований необходимо определить величины коэффициентов а0 и а1. Для определения коэффициентов уравнений теоретических линий регрессии существует несколько способов. Самый точный из них это метод наименьших квадратов. Произведем вычисление коэффициентов методом наименьших квадратов.

1. В качестве исходных данных служат точки эмпирической линии регрессии, если функция и аргумент представлены взвешенными рядами. Если же выборки у и х, представлены не взвешенными рядами, то для расчета коэффициентов берутся непосредственно варианты рядов, без вычисления эмпирической линии регрессии. Требующиеся нам значения эмпирической линии регрессии х/у подсчитаны и отражены в табл. 18

Таблица 18

Вегетация в днях и масса 1000 семян в г у 214 сортов ячменя

Масса 1000 семян (у)

Продолжительность вегетации (х)

Границы

класса

57,5-62,4

62,5-67,4

67,5-72,4

72,5-77,4

77,5-82,4

82,5-87,4

87,5-87,4

fy

х/у

Середина

класса

60

65

70

75

80

85

90

55-61

58

1

2

3

7

1

14

76,8

49-54,9

52

5

8

10

11

2

2

38

75,4

43-48,9

46

7

10

17

33

3

1

71

76,3

37-42,9

40

1

8

9

20

18

1

1

58

74,6

31-36,9

34

1

4

5

10

5

1

26

73,3

25-30,9

28

3

3

6

70,0

19-24,9

22

1

1

65,0

fx

2

29

34

63

74

8

4

N=214

у/х

37,0

41,4

44,8

42,9

45,8

46,8

47,5

2. В табл. 17 в столбцах 1 и 2 приведены значения ряда х и у/х из табл. 17. В столбцах 3 и 4 производятся действия, суть которых ясна из заголовков столбцов.

3. Суммы, полученные в итоге (столбцы 1-4), представляем в систему двух нормальных уравнений: (1) а0N +a1∑y= ∑y, (2) а0∑x +a1∑x2= ∑xy,

получаем: (1) 7а0 +525a1 = 306,05, (2) 525 а0 + 40075a1= 23169,3.

4.Значения а0 и а1 находим из уравнений следующим образом. Делим число при а0 во втором уравнении на число при а0 в первом уравнении: 525: 7 =75; умножаем все члены первого уравнения на 75; вычитаем из второго уравнения первое:

525а0+40075а1=23169,3

-

525а0+39375а1=22953,75

700а1=215,55, откуда а1 =0,3079. Подставляя найденное значение а1 в первое уравнение, находим: а0 = (306,05- 525 х 0,3079)/7 = 20,6289.

Уравнение получает следующие коэффициенты: у, = 20,6289 + 0,3079х или округленно: у, = 20,63 + 0,31х.

5. В столбце 5 вычислены значения массы 1000 семян у, при различной продолжительности вегетации (х). В столбце 6 приводится разница между теоретическими и фактическими значениями массы семян.

Ошибка уравнения прямолинейной или криволинейной регрессии вычисляется по формуле:

или по формуле:

где myx -ошибка уравнения регрессии; у- эмпирическое значение функции; у, - теоретическое значение функции; N- число точек эмпирической линии регрессии; - сигма ряда функции (у); - корреляционное отношение, вместо которого подставляем rxy при прямолинейной регрессии; n- число коэффициентов уравнения, включая свободный член.

г. Таким образом, массу семян (в г, у) у ячменя можно определить, зная продолжительность их созревания (в днях, х) по формуле у =20,63 +0,31 х, с ошибкой ± 1,6 г. Точки пересечения с осями ординат и абсцисс равны соответственно: у = а0, х = - (а01), здесь у = 20,63; х = - (20,63/ 0,31) = - 66,5.

Коэффициент а1- основной параметр уравнения прямой линии, степень его достоверности отражает также и наличие или отсутствие корреляционной связи между признаками. Поэтому рекомендуется оценивать достоверность отличия найденного коэффициента а1 от нуля по формуле , где t – величина критерия Стьюдента, сравниваемая с критической по таблице при числе степеней свободы ; если вычисленная величина меньше табличного значения, то связь между х и у и значение а1 достоверны, а если вычисленная будет больше табличной величины, то связь данных признаков и значение а1- недостоверны; а1 – коэффициент при аргументе в уравнении прямой линии; - среднее квадратическое отклонение ряда аргумента; myx - ошибка уравнения по формуле N выборки. Для нашего примера =10,802, остальные величины известны, подставив их в формулу

, получим: По таблице значение критерия при числе степеней свободы: и 99% доверительном уровне меньше вычисленного: 4,032<5. Следовательно, корреляция между х и у действительно существует, и величина коэффициента пропорциональности данной линии регрессии а1 достоверно отличается от нуля. Достоверность отличия от нуля коэффициента а0 можно оценить по формуле , где t-величина критерия Стьюдента, сравниваемая с табличной, при числе степеней свободы ; а0 - величина свободного члена в уравнении прямой линии; N - объем выборки; средняя арифметическая и сигма ряда х.

Полученная величина критерия больше табличной: 4,4 > 4,032 при пяти степенях свободы и 99% доверительном уровне, поэтому считаем достоверной величину коэффициента а0.

Для вычисления коэффициентов уравнения прямой линии коэффициенты а0 и а1 можно найти также применяя формулы:

Рассмотрим пример вычисления коэффициентов уравнения прямой линии для вариационных рядов продолжительности вегетации и массы семян у сортов ячменя по приведенным формулам (Табл.19).

Таблица 19