Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Метод 9.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
2.78 Mб
Скачать

2. Линеаризация связи с целью повышения качества прогноза

Коэффициент корреляции учитывает лишь линейную компоненту связи двух переменных. Поэтому для повышения качества проноза можно переменную, по которой строится прогноз, преобразовать так, чтобы характер связи был более линейный.

Изучим характер связи возраста и риска повторного кровотечения, для чего округлим переменную Возраст с шагом в 10 лет и рассчитаем совместное распределение с рецидивом.

Получаем следующее:

ВОЗР10 * REZIDIVE Crosstabulation

REZIDIVE

Total

1

2

ВОЗР10

10,00

Count

4

1

5

% within ВОЗР10

80,0%

20,0%

100,0%

20,00

Count

31

15

46

% within ВОЗР10

67,4%

32,6%

100,0%

30,00

Count

93

32

125

% within ВОЗР10

74,4%

25,6%

100,0%

40,00

Count

105

41

146

% within ВОЗР10

71,9%

28,1%

100,0%

50,00

Count

87

26

113

% within ВОЗР10

77,0%

23,0%

100,0%

60,00

Count

45

40

85

% within ВОЗР10

52,9%

47,1%

100,0%

70,00

Count

21

24

45

% within ВОЗР10

46,7%

53,3%

100,0%

80,00

Count

2

13

15

% within ВОЗР10

13,3%

86,7%

100,0%

90,00

Count

1

1

2

% within ВОЗР10

50,0%

50,0%

100,0%

Total

Count

389

193

582

% within ВОЗР10

66,8%

33,2%

100,0%

Видно, что реально риск кровотечения (2) начинает линейно повышаться после 60. При этом он равен ½ в последней категории, за 90, но там – всего 2 человека, так что на отклонение от общей линии внимания обращать не надо.

Следовательно, реальным фактором риска является не возраст, а число лет, пережитых после 60.

Рассчитаем число лет, пережитых после 60

И рассчитаем прогноз по ней:

Видно, что теперь поправленный квадрат коэффициента корреляции вырос до 0,063. Из таблицы коэффициентов мы получаем, что каждый год, пережитый за 60, добавляет 2,1% к риску кровотечения.

Характер линеаризации зависит от характера связи. В том случае, если переменная, по которой строится прогноз, имеет 2 значения (например, пол), линеаризация не проводится – любое переопределение не меняет величину корреляционной связи.

В том случае, если у переменной, по которой строится прогноз, имеется несколько значений, для переопределения можно использовать условные средние.

Например, рассмотрим условные средние переменной rezidive в зависимости от цвета кожи при поступлении

Report

REZIDIVE

KOGAOKR

Mean

N

Std. Deviation

1

1,14

151

,35

2

1,37

403

,48

3

1,80

10

,42

Total

1,32

564

,47

В качестве линеаризации можем взять новую переменную, которая вычисляется следующим образом:

Рассчитаем коэффициент корреляции рецидива с исходным и линеаризованным цветом кожи:

Correlations

REZIDIVE

KOGAOKR

KOGALIN

REZIDIVE

Pearson Correlation

1,000

,255

,260

Sig. (2-tailed)

,

,000

,000

N

582

564

564

KOGAOKR

Pearson Correlation

,255

1,000

,979

Sig. (2-tailed)

,000

,

,000

N

564

564

564

KOGALIN

Pearson Correlation

,260

,979

1,000

Sig. (2-tailed)

,000

,000

,

N

564

564

564

В данном случае сила связи увеличилась, но не очень сильно, так как исходная связь и так была достаточно близка к линейной.

Особенно существенно подобное предобразование там, где связь немонотонна.

Откроем файл ПНЕВМОНИЯ и рассчитаем коэффициент корреляции УМЕР и числа лейкоцитов

Correlations

УМЕР

white blood cell count

УМЕР

Pearson Correlation

1,000

,062

Sig. (2-tailed)

,

,048

N

1031

1031

white blood cell count

Pearson Correlation

,062

1,000

Sig. (2-tailed)

,048

,

N

1031

1032

Получили слабую корреляционную связь.

Однако при изучении совместного распределения получаем следующее:

white blood cell count * УМЕР Crosstabulation

УМЕР

Total

,00

1,00

white blood cell count

<4

Count

30

27

57

% within white blood cell count

52,6%

47,4%

100,0%

4-9

Count

302

6

308

% within white blood cell count

98,1%

1,9%

100,0%

9-25

Count

554

38

592

% within white blood cell count

93,6%

6,4%

100,0%

>25

Count

37

37

74

% within white blood cell count

50,0%

50,0%

100,0%

Total

Count

923

108

1031

% within white blood cell count

89,5%

10,5%

100,0%

То есть высокая летальность – при большом и малом числе лейкоцитов.

Аналогично приведенному выше создадим новую переменную «линеаризованные лейкоциты»

Для нее имеем следующее

Correlations

УМЕР

white blood cell count

LEJLIN

УМЕР

Pearson Correlation

1,000

,062

,483

Sig. (2-tailed)

,

,048

,000

N

1031

1031

1031

white blood cell count

Pearson Correlation

,062

1,000

,128

Sig. (2-tailed)

,048

,

,000

N

1031

1032

1032

LEJLIN

Pearson Correlation

,483

,128

1,000

Sig. (2-tailed)

,000

,000

,

N

1031

1032

1032

То есть после линеаризации связи число лейкоцитов стало достаточно сильным фактором с корреляцией около 0,5.