Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Metod(ksmd5)

.pdf
Скачиваний:
22
Добавлен:
02.02.2015
Размер:
1.07 Mб
Скачать

 

s

s

 

 

 

11

 

12

 

 

s

 

s

 

 

S

 

21

22

 

 

 

 

 

 

 

 

s

 

 

 

 

 

 

 

 

 

ij

 

 

 

 

 

 

 

sm1

sm2

s

 

1m

 

s

 

2m

 

 

 

 

smm

,

где sij – мера связи между признаками

xi

и

x

j

.

Существуют две представительные группы связи между признаками. В первой группе используется принцип ковариации, а во второй – принцип сопряженности признаков [2].

Исходя из принципа ковариации, заключение о наличии статистической связи между переменными делается в том случае, когда увеличение значения одной переменной сопровождается устойчивым увеличением или уменьшением значений другой. В математическом выражении задача сводится к вычислению ковариации, то есть сопутствующего изменения численных значений признаков.

Для определения статистической связи между количественными переменными используется коэффициент корреляции Пирсона kj ,

который представляет собой произведение моментов и является мерой линейной связи двух переменных xk и x j [3]. Коэффициент корреля-

ции Пирсона лежит в пределах

[ 1; 1]

, при этом

kj

принимает сле-

дующие значения: 1 – детерминистская прямая связь (увеличение одного признака приводит к увеличению другого); 1 – детерминистская обратная связь (увеличение одного признака приводит к уменьшению другого); 0 – связи нет.

Для определения статистической связи между ординальными переменными используются коэффициенты ранговой корреляции Спирмена и Кендалла [4, 5].

Коэффициент ранговой корреляции Спирмена является аппроксимацией коэффициента корреляции Пирсона для ординальных переменных. Перед непосредственным вычислением коэффициента Спир-

мена (kjs) определяются ранги переменных ная выборка (соответствующие пары xik

xk и

x j . Для этого исход-

и xij ) упорядочивается по

10

мере возрастания значений xik , при этом пара

xik

и xij не разрывает-

ся ( i 1, N ). После этого каждому значению

xik

присваивается его

ранг

rangik , то есть его номер в упорядоченной последовательности из

интервала [1, N] , где N – длина выборки. В случае если

в выборке

встречается несколько p одинаковых значений, то им всем

присваива-

ется усредненное значение ранга

ср

:

 

rangrk

 

 

 

 

i p 1

 

 

 

 

 

 

ranglk

 

 

 

ср

 

l i

,

r i,i p 1

,

rangrk

p

 

 

 

 

 

 

где

ranglk

– номер в упорядоченной последовательности из интервала

[1, N] ; p – количество одинаковых значений.

Затем пары

xij

и

rangik

упорядочиваются по мере возрастания

значений xij и аналогичным образом определяются ранги

rangij , ко-

торые заносятся вместо упорядоченного массива значений

xij .

Несколько иной подход при определении связи основывается на подсчете числа несовпадений в ранжировке объектов по сопоставляемым переменным xk и x j . Этот подход разработал Кендалл, когда

предпринял попытку истолковать процесс измерения связи между переменными, не прибегая к принципу произведения моментов.

Значения коэффициентов ранговой корреляции Спирмена (s) и

 

 

kj

(k )

 

[ 1; 1] , при этом коэффициенты при-

Кендалла kj

лежат в пределах

нимают следующие значения:

1 – детерминистская прямая связь

(ранги значений признаков одинаковы); 1 – детерминистская обратная связь (увеличение рангов одного признака приводит к уменьшению рангов другого); 0 – связи нет (изменение одного признака не зависит от изменений другого).

Как правило, коэффициент ранговой корреляции Кендалла (kjk )

меньше коэффициента ранговой корреляции Спирмена (kjs) . При до-

11

статочно большом объеме совокупности значения данных коэффици-

ентов имеют зависимость

 

(k )

 

kj

 

 

2(s)

3kj

.

Вторая обширная группа мер связи, основанная на принципе взаимной сопряженности, направлена на выяснение следующего факта: появляются ли некоторые значения одного признака одновременно с определенными значениями другого чаще, чем это можно объяснить случайным стечением обстоятельств. То есть фиксируется только сам факт наличия или отсутствия интересующих значений признака независимо от их количественного выражения [6]. При исследовании связи числовой материал располагается в виде таблиц сопряженности

(табл. 1.2).

Таблица 1.2 – Таблица сопряженности дихотомических признаков

Дихотомический

признак

 

 

(i 1, N)

0

x

ki

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

ji

(i

 

 

 

 

 

 

0

 

 

 

 

n11

 

 

 

 

n

 

 

 

 

 

21

 

 

 

n

 

n

21

11

 

 

1, N)

 

 

 

1

 

 

 

 

 

n12

 

 

n

 

 

 

22

 

 

n

n

22

 

12

 

 

 

 

 

 

 

n

n

 

 

 

 

 

 

 

11

 

 

12

 

 

 

 

n

21

n

22

 

 

 

 

 

 

 

 

 

 

 

n

n

 

n

21

n

22

N

11

12

 

 

 

 

 

 

Для оценки степени связи дихотомических признаков используют обычно коэффициент ассоциации (связи) Юла Q и коэффициент контингенции (сопряженности) Ф. Оба коэффициента Q и Ф принимают значения от 1 до +1 и равны 0, если признаки статистически независимы.

Если число градаций (классов) номинальных признаков равно l и p, то данные об их взаимосвязи могут быть представлены в виде таблицы сопряженности общего вида (табл. 1.3). Здесь n fg обозначает

число объектов, относящихся к f-му классу по k-му признаку и к g-му классу по j-му признаку. Так, например, если n3,5 7 , то число объек-

тов, относящихся к 3-му классу по k-му признаку и к 5-му классу по j- му признаку, равно 7.

12

Таблица 1.3 – Таблица сопряженности общего вида

Градации (классы)

 

 

x

(i 1, N)

 

 

 

 

 

ij

 

 

 

 

 

признака

 

 

 

 

 

 

 

1

2

g

p

 

 

 

 

1

n

n

n

n

 

 

 

 

 

11

12

 

1 p

 

1

 

 

 

2

n

21

n

22

n

2 p

n

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

(i 1, N)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ik

 

 

f

… … …

n fg

… …

n f

 

 

 

 

 

 

… ...

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

l

n

n

… … …

n

n

 

 

 

 

 

lp

l

 

 

 

 

l1

 

l 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n 1

n 2

n

g

n

N

 

 

 

 

p

 

 

 

 

В табл. 1.3

n f обозначает общее число объектов f-го класса по k-

му признаку (то есть сумма чисел в f-й строке), а

n g

– число объектов

g-го класса по j-му признаку (сумма чисел в g-м столбце). N – общее число объектов в изучаемой совокупности (длина выборки), причем

N n

n

n

n

n

n

1

2

p

1

2

l

Для оценки существенности связи двух номинальных признаков на основе принципа статистической независимости используется идея сравнения эмпирических и теоретических частот. Методы сравнения эмпирических (H) и теоретических (T) частот по Брандту и Снедекору

основываются на расчете критерия

2

кр

, оценивающего меру близости

по всем ячейкам таблицы сопряженности:

2

(H T )

2

 

кр

T

 

 

 

Если в конкретном опыте

 

 

l p

n

 

 

 

 

f 1 g 1

 

величина

fg

 

 

 

n

2кр

n

 

n

 

2

f

 

 

 

g

 

 

N

 

 

 

 

 

 

.

 

n

 

 

 

f

 

 

 

 

g

 

 

 

N

 

 

 

 

оказывается чрезмерно

большой, то приходится признать, что ожидаемые частоты слишком сильно отличаются от наблюдаемых. Ответ на вопрос о том, какие

13

значения статистики следует считать чрезмерно большими, дает теорема Пирсона–Фишера, из которой следует:

для независимых признаков при неограниченном росте числа

наблюдений распределение случайной величины

2

стремится к рас-

кр

пределению «хи-квадрат»;

 

 

 

 

гипотезу H 0 о независимости можно принять, если

2

не

кр

превосходит критического для заданного уровня табличного значения

с

v

(l 1)( p 1)

степенью свободы, то есть 2 2 (v) ;

кр 1

для зависимых признаков

2

неограниченно возрастает с

кр

увеличением N.

Для определения связи номинальных признаков, основанных на

использовании критерия

2

кр , используется коэффициент квадратич-

ной сопряженности. Коэффициент квадратичной сопряженности в отличие от рассмотренных выше коэффициентов связи принимает значения из интервала [0, 1] . В случае если гипотеза о независимости признаков принимается, то коэффициент равен 0.

Матрица близостей (удаленностей) задает отношение «объект– объект» и представляет собой квадратную симметричную матрицу

N N

с неотрицательными элементами:

 

 

 

d11

d12

 

d1N

 

 

 

 

 

 

 

 

D d21

d22

d2 N

,

 

 

 

dij

 

 

 

 

 

 

 

 

 

d N1

d N 2

d NN

 

где

dij

– значения некоторой меры близости (удаленности) между

объектами

i

и j .

Чаще в анализе данных используются меры удаленности. К этим мерам предъявляются следующие требования:

1) максимальное сходство объекта с самим собой dii mindij ;

j

2) требование симметрии dij d ji ;

14

3) выполнение неравенства треугольника

d

ij

d

ik

 

 

dkj

.

Последнее требование предъявляется к матрицам расстояний (диагональные элементы должны быть равны нулю). Матрица D, удовлетворяющая трем перечисленным требованиям, допускает толкование структуры взаимоотношений объектов исследования как некоторой геометрической конфигурации точек в многомерном пространстве признаков.

Порядок выполнения лабораторной работы

1.В соответствии с индивидуальным заданием выбрать файл исходных данных и сформировать ТЭД.

2.Вычислить матрицу связей. Элементами матрицы S являются

меры связи признаков xk и

x j

(меры связи выбрать в соответствии с

индивидуальным заданием).

 

 

 

 

2.1. Коэффициент корреляции Пирсона

kj

(рассчитывается все-

ми студентами).

2.1.1. Вычислить коэффициент корреляции Пирсона по формуле

 

 

 

 

 

 

 

N

 

 

 

N

 

 

N

 

 

 

 

 

 

 

 

 

 

 

 

 

N

 

x

x

ij

 

 

 

x

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

ik

 

 

ik

ij

 

 

 

 

 

 

kj

 

 

 

 

 

i 1

 

 

 

i 1

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

N

 

 

 

N

 

 

2

 

 

 

N

 

 

 

 

N

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

N

x

 

x

 

 

 

N

 

x

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ik

 

 

ik

 

 

 

 

ij

 

 

ij

 

 

 

 

 

i 1

 

 

i 1

 

 

 

 

 

 

i 1

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

,

где xik ,

xij

– значения k-го и j-го признаков, измеренные у i-го объек-

та соответственно; N – размер выборки.

2.1.2. Вычислить критерий значимости коэффициента kj

t

 

 

 

kj

N 2

 

 

 

кр

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

kj

.

(1.4)

2.1.3. Проверить значимость коэффициента корреляции. Для этого расчетное значение критерия Стьюдента tкр сравнивается с таблич-

15

ным значением

t1

(N 2)

(по закону распределения Стьюдента), где

 

 

2

 

 

N – размер выборки;

N 2

– число степеней свободы; – вероятность

ошибки 1-го рода при принятии основной гипотезы. При этом если

tкр t1

(N 2)

, то связь между переменными

xk

и

x j

отсутствует. В

 

2

 

 

 

 

 

противном случае значение коэффициента корреляции показывает величину этой связи.

2.2. Коэффициент ранговой корреляции Спирмена.

2.2.1. Для i 1, N

упорядочить пары

xik

и xij в порядке возраста-

ния значений

xik (пара

xik и

 

 

xij

не разрывается).

2.2.2. Определить ранги

 

 

rangkl

переменной xk .

2.2.3. Для i 1, N

 

упорядочить пары

xij

и

 

rangik в порядке воз-

растания значений xij

(пара

xij

 

и rangik

 

не разрывается).

2.2.4. Определить ранги

 

 

rang ji

переменной

x ji .

2.2.5. По полученным парам

rangki

и

rang ji вычислить коэффи-

циент ранговой корреляции Спирмена

(s)

. Для случая, когда нет свя-

kj

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

занных рангов, коэффициент

 

 

 

(s)

рассчитывается по выражению

 

 

kj

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

N

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(rangki rang ji )

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(s)

1 6

i 1

 

 

 

 

 

 

 

.

 

 

 

kj

 

 

 

 

 

 

N (N

2

1)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Если совокупность значений по исследуемому признаку содержит

 

 

 

 

 

 

 

 

 

 

 

(s)

 

 

 

 

 

 

 

 

связные ранги, то коэффициент

 

kj

вычисляется по формуле

 

 

 

 

 

 

 

 

N

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(rangki rang ji )2

 

 

 

(s) 1

i 1

 

 

 

 

 

 

 

 

 

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

kj

 

 

1

(N 3 N ) (T T

 

 

 

 

 

 

 

 

 

 

 

)

 

 

 

 

 

 

 

 

 

j

 

 

 

 

 

 

6

 

 

 

 

 

 

 

k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

N

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где Tk / j

 

(ti3 ti ) , ti – число повторений i-го ранга в k-й и j

 

12

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

16

 

 

 

 

 

 

 

ранжировках соответственно.

2.2.6. Значимость коэффициента ранговой корреляции Спирмена определяется аналогично значимости коэффициента парной корреляции Пирсона с помощью критерия Стьюдента (1.4) – путем сравнения вычисленного значения с табличным значением (см. пп. 2.1.2 и 2.1.3).

2.3. Коэффициент ранговой корреляции Кендалла.

 

2.3.1. Вычислить ранги переменных xk и

x j

(см. пп. 2.2.1–2.2.4).

2.3.2. По полученным парам rangki

и rang ji

вычислить коэффи-

 

 

 

(k )

 

 

 

 

 

 

циент ранговой корреляции Кендалла kj

.

 

 

 

 

 

Для несвязанных рангов коэффициент корреляции Кендалла

(k )

kj

 

 

 

 

 

 

 

 

 

можно рассчитать по одному из следующих выражений:

 

(k )

 

2(P Q)

или (k ) 1

 

4Q

,

 

 

 

 

 

 

kj

 

N (N 1)

kj

 

N (N

1)

 

 

 

 

 

 

 

 

где N – число наблюдений; P – сумма чисел, каждое из которых опре-

деляется как число следующих за каждым рангом

rangij значений,

превышающих его величину;

Q – сумма чисел,

каждое из которых

определяется как число следующих за каждым рангом

rangij

значе-

ний, меньших, чем его величина.

 

 

 

 

 

 

 

 

 

 

Если в изучаемой совокупности есть связные ранги, то расчет ко-

 

 

 

 

 

 

 

 

(k )

 

 

 

 

 

 

эффициента корреляции Кендалла

kj

 

выполняется следующим обра-

зом:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(k )

 

 

 

P Q

 

 

 

 

 

 

 

 

kj

 

N (N 1)

 

 

 

N (N 1)

 

 

,

 

 

 

 

 

 

 

 

V

V

 

 

 

 

 

 

 

 

 

 

 

 

 

j

 

 

 

 

 

 

 

 

 

2

 

k

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

N

 

 

 

 

 

 

 

 

 

 

 

 

где

Vk / j

2

ti ) ,

ti – число повторений i-го ранга в k-й и j

2

(ti

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ранжировках соответственно.

2.3.3. Вычислить критерий значимости коэффициента корреляции Кендалла по выражению

17

z

кр

 

 

 

 

(k )

9N (N 1)

kj

 

 

 

 

2(2N 5)

.

2.3.4. Проверить значимость коэффициента корреляции Кендалла. Для этого расчетное значение критерия zкр сравнивается с табличным

значением

z1

(по нормальному закону распределения), где – ве-

 

 

2

роятность ошибки 1-го рода при принятии основной гипотезы. При

этом если

zкр z1

, то связь между переменными

xk

и

x j

отсут-

 

 

2

 

 

 

 

ствует. В противном случае значение коэффициента Кендалла показывает величину этой связи.

2.4. Коэффициент ассоциации (связи) Юла.

 

2.4.1. Выполнить дихотомию признаков xk

и x j (см. п. 5.3).

2.4.2. Построить таблицу сопряженности

дихотомических при-

знаков. Значения частот табл. 1.2 вычисляются при выполнении для

текущей пары

xik и

xkj

следующих условий:

 

 

 

inc(n

)

 

(x

0)

and

(x

0);

 

 

 

 

11

 

 

ik

 

 

ij

 

 

inc(n

)

 

(x

0)

and

(x

1);

 

 

 

 

12

 

 

ik

 

 

ij

 

 

 

inc(n

 

)

 

(x

1)

and

(x

0);

 

 

21

 

 

 

 

 

ik

 

 

ij

 

 

 

 

 

 

)

 

(x

1)

and

(x

1).

 

inc(n

22

 

 

 

 

 

 

ik

 

 

ij

 

2.4.3. Вычислить коэффициент ассоциации (связи) Юла по выражению (см. табл. 1.2)

Q

n

n

n n

11

22

12

21

 

 

n

n

n n

 

11

22

12

21

.

 

Коэффициент Юла Q 1 в случае полной связи,

то есть либо

для всех признаков xij 0

одновременно признаки

xik

0 ( n21 0 ),

либо

для

всех признаков

xij 1

одновременно

признаки xik 1

( n12

0 ).

Значение 1 коэффициент Юла Q принимает в случае пол-

ной отрицательной связанности ( n11 0 или n22 0 ). Коэффициент Q равен 0, если признаки статистически независимы.

2.4.4. Вычислить дисперсию DQ коэффициента ассоциации (свя-

18

зи) Юла по выражению

 

 

2

 

2

1

1

 

1

D

(1 Q

)

 

 

 

 

 

 

 

 

 

 

Q

 

 

 

 

4

 

n

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

11

 

12

 

1

 

n

 

 

 

21

 

1 n22

  

.

При программной реализации этого выражения следует учитывать то, что некоторые из значений табл. 1.2 могут равняться нулю. При наличии нулевых значений табл. 1.2 в выражении определения дисперсии DQ включаются только ненулевые значения, причем вме-

сто коэффициента 1/ 4 берется значение 1/ m , где m – число ненулевых коэффициентов таблицы сопряженности.

2.4.5. Проверить значимость коэффициента Юла. Значимым считается такое значение коэффициента Q, для которого справедливо соотношение Q 2DQ .

2.5. Коэффициент контингенции (сопряженности).

2.5.1.Построить таблицу сопряженности дихотомических при-

знаков (см. пп. 2.4.1 и 2.4.2).

2.5.2.Вычислить коэффициент контингенции (сопряженности) по выражению (см. табл. 1.2)

 

 

Ф

 

n

n

 

 

n

 

n

 

 

 

 

 

 

 

.

 

 

 

 

11

22

 

12

 

 

21

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(n

n

)(n

n

21

)(n

 

 

n

22

)(n

21

n

22

)

 

 

 

 

11

12

11

 

 

12

 

 

 

 

 

 

 

Коэффициент контингенции (сопряженности) Ф 1,

если для

всех признаков xij 0

одновременно признаки xik

0

, а для всех при-

знаков

xij

1 одновременно признаки

xik

1

( n12

0

и

n21

0 ). Зна-

чение 1 коэффициент Ф принимает в случае, когда для всех призна-

ков

xij 0 одновременно признаки

xik 1,

а

для

всех признаков

xij

1 одновременно признаки xik 0

( n11 0

и

n22

0 ). Коэффици-

ент Ф равен 0, если признаки статистически независимы.

2.5.3.Вычислить критерий значимости коэффициента контингенции (сопряженности) Ф по выражению 2кр 2 .

2.5.4.Проверить значимость коэффициента Ф. Для этого расчетное значение критерия 2кр сравнивается с табличным значением рас-

19

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]