Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

1222

.pdf
Скачиваний:
3
Добавлен:
16.06.2024
Размер:
1.36 Mб
Скачать

которые определяют условное распределение вероятностей величины Y при условии X = xi (i = 1, 2,..., n).

Стохастическая (корреляционная) зависимость проявляется в том, что при изменении одной из величин X изменяется условное математическое ожидание другой величины Y:

 

 

n

 

n

 

 

M Y

 

X x y j P Y y j

 

X x y j P y j

 

x .

 

 

 

 

 

j 1

 

j 1

 

 

Пусть, например, при X = x1 условное математическое ожидание величины Y равно M (Y x1) = M (Y X = x1). Если x будет изменяться, то, вообще говоря, будет изменяться и условное математическое ожидание M(Y x). Таким образом, условное математическое ожидание величины Y можно рассматривать как функцию от x:

M Y x y x .

Функция y x называется регрессией Y по X; уравнение y y x

уравнением регрессии Y по X; линия, определяемая этим уравнением в плоскости XOY, называется линией регрессии Y по X (для рассматриваемых нами дискретных величин “линия” будет состоять из изолированных точек плоскости).

Аналогично определяются регрессия M X y x y , уравнение

регрессии и линия регрессии величины X по Y.

К числу основных задач корреляции относятся:

установление вида функции регрессии, то есть формы связи между случайными величинами;

оценка силы (тесноты) этой связи.

Заметим, что если имеется при данном значении X = x определённое значение, равное

строгая функциональная зависимость, то величина Y может принять лишь одно y x . Этот случай может рассматриваться

как своего рода предельный к случаю стохастической зависимости, когда рассеивание вокруг условного центра y x равно нулю. Как правило, для

данного значения X = x наблюдается более или менее значительное рассеивание около центра y x . Мерой этого рассеивания может служить

условная дисперсия Y при данном X, то есть

2 Y x D Y x y y x 2 P Y x .

x

Линия, определяемая этим уравнением, называется скедастической.

131

Прогноз величины Y по заданному значению x тем точнее, чем меньше

в среднем условные дисперсии

 

 

2

Y

 

x P x Y2

 

x ,

 

 

 

 

 

 

x

 

 

то есть чем ближе зависимость к строго функциональной.

Наиболее простым случаем является тот, когда обе функции регрессии

M Y x y x , M X y x y

являются линейными и обе линии регрессии будут прямыми линиями. Эти прямые называются прямыми регрессиями.

Уравнения прямых регрессии, получаемые по эмпирическим данным, имеют вид:

 

 

 

 

 

 

 

y y r*

Sy

x

x

; x x r*

Sx

y y ,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

 

Sx

0

0

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Sy

где x0

 

 

n

 

1

n

– эмпирические (выборочные) средние;

1 xi , y0

yi

 

 

 

 

 

 

n i 1

 

n

j 1

 

 

 

 

 

 

 

 

 

 

 

 

1

 

n

 

 

 

 

1

n

 

 

 

 

Sx2

 

 

xi x0 2

, Sy2

yi y0 2

– эмпирические (выборочные)

 

 

 

 

 

 

 

 

 

n 1 i 1

 

 

 

 

n 1 i 1

 

 

 

 

дисперсии;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

yi y0

 

 

 

 

 

 

 

 

*

 

 

 

 

xi x0

 

 

 

 

 

 

 

r

 

 

 

 

i 1

 

 

 

 

 

 

эмпирический (выборочный) коэффи-

 

 

 

xi x0 2

yi y0 2

 

 

 

 

 

i 1

 

 

i 1

 

 

 

 

 

 

 

 

 

циент корреляции.

Напомним, что теоретический коэффициент корреляции случайных величин X, Y определяется как отношение корреляционного момента

Kx, y = M ((X-M(X)) (Y – M(Y))

к произведению средних квадратических отклонений этих величин:

r

 

Kx y

.

 

x y

 

x y

 

 

Как известно:

1.Коэффициент корреляции по абсолютной величине не превышает 1;

то есть rx y 1, причём, чем ближе rx y к 1, тем больше корреляционная зависимость между X и Y приближается к линейной, а при rx y = 1, случайные величины связаны линейной функциональной зависимостью.

2.Если rxy = 0, то X и Y не связаны линейной корреляционной зависимостью, но могут быть связаны нелинейной корреляционной или даже функциональной зависимостью.

132

Пример. Определить прямую регрессии, определяющую зависимость коэффициента теплопроводности , Вт / (м2 С) жаростойкого бетона с заполнителем из магнезита от средней температуры нагрева t С по данным эксперимента, приводимым в табл. 4 1(использована [5, табл. 7.1]).

Таблица 4 . 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

t o C

100

 

 

300

 

600

 

700

900

 

1100

 

5,90

 

 

5,35

 

4,78

 

4,20

3,60

 

3,00

m

2

 

 

3

 

3

 

4

4

 

2

1. Составим корреляционную таблицу

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

t = x

 

 

 

 

 

 

 

= y

 

 

 

 

nt

 

 

3,00

3,60

 

4,20

 

4,78

 

5,35

 

5,90

 

 

100

 

 

 

 

 

 

 

 

 

 

 

 

2

 

2

300

 

 

 

 

 

 

 

 

 

 

3

 

 

 

3

600

 

 

 

 

 

 

 

 

3

 

 

 

 

 

3

700

 

 

 

 

 

4

 

 

 

 

 

 

 

 

4

900

 

 

4

 

 

 

 

 

 

 

 

 

 

4

1100

 

2

 

 

 

 

 

 

 

 

 

 

 

 

2

n

 

2

4

 

4

 

 

3

 

3

 

2

 

18

2. Определим оценки математических ожиданий x и y:

 

 

 

 

 

 

 

 

18

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

x0

 

 

1

xi

 

 

 

11500

638,9

;

 

 

 

 

 

 

 

 

18

 

 

 

 

 

 

 

 

18 i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

18

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

y0

 

1

yi

79,39 4,41.

 

 

 

 

 

 

 

18

 

 

 

 

 

 

 

 

 

18 i 1

 

 

 

 

 

 

 

 

 

3. Составим корреляционную таблицу для системы центрированных

случайных величин

0

и

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

y :

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

nt

t

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

-1,41

-0,81

 

 

 

-0,21

 

 

 

0,37

 

0,94

 

1,49

 

-538,9

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

2

-338,9

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3

 

 

3

-38,9

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3

 

 

 

 

 

3

61,1

 

 

 

 

 

 

 

4

 

 

 

 

 

 

 

 

 

 

 

4

261,1

 

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4

461,1

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

n

2

 

4

 

 

 

 

4

 

 

 

3

 

 

3

 

2

18

133

4. Определим оценки дисперсий Dx и Dy:

 

 

 

 

 

 

1

 

n

 

1

 

 

 

 

 

 

x

 

xi2

 

1642 774 96633,7

;

D

 

 

 

 

17

 

 

 

 

 

n 1 i 1

 

 

 

 

 

 

 

 

 

1

 

n

 

 

1

 

 

 

 

 

y

 

yi2

 

14,5986 0,8574.

 

 

D

 

 

 

 

 

 

 

 

 

 

 

 

 

n 1 i 1

17

 

 

5.

Определим оценки среднеквадратических отклонений:

 

x Sx

 

 

 

 

 

x 311, y Sy

 

 

y 0,93 .

 

 

D

D

6.

Определим оценку корреляционного момента:

 

 

 

 

 

 

1

 

 

 

 

n

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

xi yi

 

4803 282,5 .

 

K

x y

 

 

 

n

 

 

 

17

 

 

 

 

 

1 i 1

 

 

 

 

 

 

7.

Определим оценку коэффициента корреляции:

 

 

 

r

r*

 

Kx y

 

 

282,5

 

 

0,977 .

 

 

 

 

 

 

 

 

 

 

 

 

x y

 

 

 

 

 

 

x y

311 0,93

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таким образом, корреляционная зависимость между X и Y близка к линейной.

Определим эмпирические прямые регрессии:

y y0 rx y y x x0 ;x

x x0 rx y x y y0 .y

Откуда

y = – 0,0028 x + 6,2; x = – 326,7 y + 2080

(см. рис. 4.1).

Для оценки точности выборочного значения некоторую функцию от r*:

W

1 ln 1 r* .

 

 

*

 

2 1 r

 

r* удобно использовать

(4.31)

134

5

 

 

 

 

 

 

 

 

4,4

 

 

 

 

 

 

= - 0,0029 t + 6,2782

 

4

 

 

 

 

 

 

 

 

3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

t = - 336 + 2122

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

 

200

400

600

639

800

1000

t

0

 

Рис. 4.1

Известно, что распределение случайной величины W можно аппроксимировать нормальным распределением со средним значением и дисперсией вида

M W

1

 

1 rx y

 

,

(4.32)

2 ln

 

 

 

 

1 rx y

 

 

 

 

 

 

 

 

 

 

2

W

 

1

.

 

 

(4.33)

 

n 3

 

 

На основе этих соотношений легко построить доверительные интервалы для rx y по выборочной оценке r*.

Из-за выборочной изменчивости оценок корреляции обычно приходится проверять, свидетельствует ли ненулевое значение выборочного коэффициента корреляции о существовании статистически значимой корреляции между изучаемыми величинами. Сделать это можно, проверив гипотезу rxy = 0, причём отклонение гипотезы будет говорить о значимости корреляции. Из формул (4.32) и (4.33) следует, что при rxy = 0 выборочное распределение W будет нормальным с средним M [W] = 0 и дисперсией

135

2 W n 1 3 . Поэтому область принятия гипотезы о нулевой корреляции будет иметь вид:

 

 

 

 

*

z ,

z n 3 ln 1

r*

2

2

1

r

 

2

 

 

 

 

где z – стандартная, нормально распределённая случайная величина. Если значение окажется вне этого интервала, то это будет признаком наличия статистической корреляции с уровнем значимости .

Для приведённого выше примера в соответствии с выражением (4.31)

W

1

1 0,977

 

2,23.

2

ln

0,977

 

 

1

 

 

При этом

W n 3 2,23 18 3 8,64 .

Гипотеза rxy должна быть отвергнута с уровнем значимости 5 %, поскольку W n 3 8,64 не попадает в область принятия гипотезы, огра-

ниченную величинами z 1,96. Следовательно, есть основания счи-

2

тать, что между коэффициентом теплопроводности и средней t o нагрева существует значимая связь.

4.3. Ранговая корреляция

Пусть требуется установить связь между двумя качественными признаками изделия, когда каждый из этих признаков допускает лишь относительное сравнение различных изделий (“лучше” – “хуже”) без указания численных значений признаков [15,27]. Пусть, например, выборка изделий

O(i), i 1, n , сравнивается по каждому из p + 1 признаков y xo ; x1, x2,..., xp

(порядковых переменных). Результатом измерения каждой из порядковых переменных является приписывание каждому из обследованных объектов некоторой условной числовой метки, обозначающей место объекта в ряду из всех n анализируемых объектов, упорядоченном по убыванию степени

проявления в них k-го, k 0, p , изучаемого свойства. Число xk(i),

определяющее место O(i) по k-му признаку, называется рангом i-го объекта по k-му признаку (табл. 4.2).

136

 

 

 

 

 

 

 

 

 

Таблица 4 . 2

Порядковый

Порядковый номер исследуемой переменной (“Свойства”)

номер объекта

 

0

 

1

 

2

...

k

...

p

1

xo(1)

= y(1)

 

x1(1)

x2(1)

...

xk(1)

...

xp(1)

2

xo(2)

= y(2)

 

x1(2)

x2(2)

...

xk(2)

...

xp(2)

 

 

 

 

 

 

 

 

...

 

...

 

i

xo(i)

= y(i)

 

 

x1(i)

x2(i)

...

xk(i)

...

xp(i)

 

 

 

 

 

 

 

 

...

 

...

 

n

xo(n)

= y(n)

 

x1(n)

x2(n)

...

xk(n)

...

xp(n)

Столбец с номером k,

k

 

, указанной таблицы представляет собой

0, p

перестановку из n натуральных чисел 1, 2,..., n, определяющую порядковые места объектов O(1), O(2),..., O(n) в ряду, упорядоченном по свойству xk. Ниже в качестве примера приводятся результаты исследований деформативных свойств 10 видов эпоксидных композитов (объекты) с указанием значений 14 различных показателей (“свойств”). В клетках табл. 4.3 в правом верхнем углу указаны соответствующие ранги [12].

В известном примере М. Кендалла рассматривается ранжировка группы из 10 учеников в соответствии с их математическими и музыкальными способностями. Ученикам присваиваются номера от 1 до 10 (объекты O(1), O(2),..., O(10)). Ранги этих учеников по их математическим способностям

x1(i), i 1,10 , могут быть, например, соответственно равны

7

4

3

10

6

2

9

8

1

5,

а ранги тех же учеников по их музыкальным способностям x2(i) –

4.

5

7

3

10

1

9

6

2

8

Возникает вопрос, есть ли хоть какая-то согласованность (или связь) между упорядочением анализируемых объектов по свойствам xk и xj, k j;

k, j 0, p (например, связь между математическими и музыкальными спо-

собностями учеников) ? Это приводит к разработке системы понятий и методов, позволяющих измерять и анализировать статистическую связь,

существующую между несколькими ранжировками одного и того же конечного множества объектов O(1), O(2),..., O(n).

Система этих понятий и методов составляет раздел математической статистики, называемый анализом ранговых корреляций.

Методы ранговых корреляций используются при организации и статистической обработке различного рода систем методом экспертных исследований. Они находят широкое поле приложений как в материаловедении, так и в психологии, социально-психологических исследованиях, в медицине и т.д.

137

Таблица 4 . 3

Деформативные свойства эпоксидных композитов

 

 

 

Показатели

 

 

 

 

 

Составы (объекты)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

2

3

4

5

6

7

8

9

10

1.

Предел прочности при сжатии

2

4

1

10

5

3

7

9

8

6

R

сж, МПа

 

 

 

117

100

120

57,3

98,6

102

79,0

63,7

73,9

86,7

2.

Твёрдость Т, МПа

 

2

5

1

10

4

3

7

9

8

6

 

 

 

 

 

 

6,01

5,05

6,15

2,94

5,06

5,23

4,05

3,40

3,79

4,44

3. Модуль деформации материала

9

6

10

1

7

8

4

2

3

5

Е д 15, МПа

 

 

 

3,62 104

4,71 104

3,51 104

10,6 104

4,71 104

4,48 104

6,57 104

8,52 104

7,25 104

5,71 104

4.

 

Условно-мгновенный

модуль

9

7

8

10

6

5

3

1

2

4

упругости Е 0, МПа

 

 

6,07 104

6,85 104

6,70 104

4,48 104

7,82 104

8,27 104

10,1 104

13,9 104

13,7 104

9,27 104

5.

 

Равновесный модуль

упруго-

9

7

6

10

8

4

3

2

1

5

сти Е ув, МПа

 

 

4,41 104

5,53 104

6,28 104

3,94 104

5,52 104

8,22 104

9,86 104

10,3 104

11,1 104

7,94 104

6.

 

Модуль высокоэластичности

3

5

6

10

7

8

2

4

1

9

Е вэ, МПа

 

 

 

18,1 104

16,7 104

16,3 104

12,2 104

15,9 104

14,2 104

19,4 104

17,5 104

19,5 104

13,9 104

7.

Доля упругой составляющей у

10

4

2

1

3

6

8

7

5

9

 

 

 

 

 

 

0,398

0,587

0,647

0,733

0,602

0,541

0,499

0,531

0,582

0,408

8.

 

Доля высокоэластической со-

10

7

5

3

2

8

6

9

4

1

ставляющей в э

 

 

0,125

0,164

0,173

0,187

0,192

0,153

0,166

0,140

0,173

0,204

9.

 

Доля

пластической

состав-

1

2

4

6

8

5

3

9

7

10

ляющей п л

 

 

0,299

0,199

0,102

0,101

0,093

0,103

0,112

0,084

0,095

0,018

10.

Коэффициент

пластической

1

3

9

2

8

5

7

6

4

10

вязкости y

, МПа с

 

2,72 105

1,56 105

1,12 105

2,26 105

1,23 105

1,37 105

1,26 105

1,34 105

1,44 105

1,11 105

 

 

 

п л

 

 

9

 

 

 

 

 

 

 

 

 

11.

Коэффициент

высокоэласти-

7

4

10

8

5

3

2

6

1

ческой вязкости y в э, МПа с

2,88 107

5,14 107

5,65 107

2,18 107

5,06 107

5,54 107

6,06 107

6,06 107

5,48 107

6,48 107

12. Коэффициентпластичностиkпл

1

3

5

4

9

6

7

8

2

10

 

 

 

 

 

 

1,4

0,9

0,6

0,7

0,43

0,52

0,51

0,47

0,93

0,08

13. Коэффициент структуры k стр

10

4

5,5

9

8

7

5,5

3

2

1

 

 

 

 

 

 

5,4

14,5

14,2

7,8

13,2

13,8

14,2

14,8

15,0

16,1

14. Коэффициентэнергоёмкостиkэн

10

3

2

6,5

6,5

9

4

5

8

1

 

 

 

 

 

 

0,5

0,65

0,7

0,6

0,6

0,57

0,62

0,61

0,59

0,8e5

138

Прежде чем перейти к рассмотрению задач статистического анализа связей между ранжировками, отметим, что при упорядочении объектов по некоторому признаку xk одновременно несколько объектов могут оказаться неразличимыми по степени проявления в них свойства xk. Тогда каждому из объектов этой группы приписывается ранг, равный среднему арифметическому значению рангов указанных объектов.

Полученные при этом ранги называются объединёнными, или связанными. Наличие объединённых рангов, вообще говоря дробных, конечно, усложняет вычисления, связанные со статистическим анализом.

Ниже приводятся три основные задачи статистического анализа связей между ранжировками.

1. Анализ структуры совокупности упорядочений

Xk = (xk(1), xk(2),..., xk(n))T, k 0, p .

Если точки xk разбросаны равномерно по всей области их возможных значений

1 x i n,

i

 

,

1, n

k

 

 

 

то можно говорить об отсутствии связи или согласованности между ранжировками.

При наличии сгустка (ядра) близко лежащих друг от друга точек можно говорить о согласованности переменных.

При наличии нескольких ядер можно говорить о наличии нескольких подмножеств переменных с высокой степенью взаимосвязей между входящими в ядра переменными.

2.Анализ интегральной (совокупной) согласованности переменных и их условная ранжировка по критерию степени тесноты связи каждой из них с остальными переменными.

Например, такая задача возникает при исследовании степени согласованности мнений группы экспертов и условном упорядочении экспертов по их компетентности. В основе этого анализа лежит определение коэффициента совокупной согласованности – коэффициента конкордации для различных комбинаций переменных.

3.Наилучшее (в определённом смысле) восстановление ранжировки

Xo = (xo(1), xo(2),..., xo(n))T, связанной с результирующей переменной y x0 , по

ранжировкам X1, X2,..., Xp, соответствующим объясняющим переменным x1, x2,..., xp (задача регрессии на порядковых (ординальных) переменных).

Анализ парных ранговых статистических связей. Для определения тесноты связи между ранжировками Xk, Xj используется коэффициент

139

корреляции Спирмена (введён К. Спирменом в 1904 г. при исследованях в области психологии)

 

 

 

 

s

 

 

 

6

n

i

i

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ˆk j

1

 

 

 

xk

xj

 

 

.

(4.34)

 

 

n

3

 

 

 

 

 

 

 

 

 

n i 1

 

 

 

 

 

 

 

При совпадающих ранжировках (1, 2,..., n)T, (1, 2,..., n)T, то есть при

x i x i

i

 

, получим

 

 

 

 

 

 

 

 

 

 

 

1,n

 

 

 

 

 

 

 

 

 

 

 

k

j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ˆksj 1.

При противоположных ранжировках (1, 2,..., n)T, (n, (n – 1),..., 1)Т, то есть при

x i n 1 x i

i

 

,

1,n

k

j

 

 

 

получим

 

 

 

 

ˆksj

1.

 

 

 

Формула (4.34) пригодна лишь

в случае отсутствия объединённых

рангов в ранжировках Xk, Xj. Рассмотрим общий случай.

Пусть при ранжировке по признаку xk имеется mk групп с неразличимыми рангами, и пусть далее nqk – число элементов в q-й группе,

q 1, mk .

Введём для ранжировки по признаку xk величину

 

 

1

mk

 

k

 

3

 

k

 

 

Tk

 

 

nq

 

 

nq .

(4.35)

 

 

 

 

 

12 q 1

 

 

 

 

 

 

(nqk = 1), то

Если

q-я группа состоит лишь

 

из

одного элемента

nqk 3 nqk

= 0, и эти элементы

в расчёте

величины Tk

фактически не

участвуют.

При отсутствии объединённых рангов при ранжировке по признаку xk

будем иметь

mk = n; n1k = n2k =... = nnk = 1,

исоответственно Tk = 0.

Вобщем случае для анализа парных ранговых статистических связей используется ранговый коэффициент корреляции Спирмена, вычисляемый по формуле

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

s

 

1

n3 n xki xji 2 Tk Tj

 

 

6

 

 

 

 

i 1

 

 

 

 

 

 

 

ˆk j

 

 

 

 

 

 

 

 

 

 

 

 

.

(4.36)

 

 

1

n

 

n

 

1

n

 

 

 

 

 

3

3

 

 

 

 

 

 

6

 

2Tk

6

 

n 2Tj

 

 

 

 

 

 

 

 

 

 

 

 

 

140

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]