Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Корреляционный анализ

.pdf
Скачиваний:
36
Добавлен:
21.08.2019
Размер:
1.93 Mб
Скачать

vk.com/club152685050 | vk.com/id446425943

Т-критерий (табличные значения коэффициента Стьюдента)

Критерий Стьюдента (или Т-критерий) широко применим в практике проверки статистических гипотез о равенстве средних значений двух выборок или среднего значения выборки с неким значением (целевым показателем). В последнем случае различают двухсторонние (предположение о равенстве среднего и целевого значений)

и односторонние (предположение, что среднее арифметическое значение больше или меньше целевого) гипотезы. Использование данного критерия предполагает сравнение распределения наблюдаемой величины с распределением Стьюдента. В простейшем случае табличное значение критерия Стьюдента сравнивается с расчетным и, на основании этого исследователь делает вывод в пользу нулевой или альтернативной гипотезы.

Табличные значения коэффициента Стьюдента для односторонних (α) и

двусторонних (α/2) гипотез при заданном числе степеней свободы df (n-1):

Условия использования коэффициента Стьюдента:

Исследуемые данные подчиняются нормальному закону распределения

Равенство дисперсий (при сравнении двух выборок)

vk.com/club152685050 | vk.com/id446425943

vk.com/club152685050 | vk.com/id446425943

vk.com/club152685050 | vk.com/id446425943

Рассчитать:

Парный коэффициент корреляции Проверить значимость полученного коэффициента

При отсутствии значимого парного коэффициента корреляции рассчитать корреляционн Проверить значимость полученного коэффициента

Сделать выводы о наличии, направленности и силе связи Построить график зависимости для данной пары элементов

№ проб А

 

Б

В

Г

 

Д

Е

Ж

1

0,1

0,5

 

1,1

1,4

2,1

2,1

4,3

2

0,4

1,5

 

1,1

2,6

4,9

2,8

7,6

3

0,7

1,7

 

2,3

2,1

6,5

1,9

9

4

1,1

3,1

 

4,5

3,3

7,9

4,4

8,6

5

1,6

2,9

 

3,6

3,5

5,7

4,6

7

6

2,3

3,6

 

3,5

4,7

3,6

4,2

5,2

7

2,7

4,2

 

4,7

4,4

3,2

6

4,1

8

3,1

4,6

 

5,3

4,3

5,4

6,2

6,2

9

3,5

4,3

 

7

5,3

7,4

6,1

7,6

10

4,1

5,1

 

7,5

6,5

7,3

7,6

6

11

4,8

5,8

 

6,5

6,2

5,6

7,1

4,4

12

5,3

6,4

 

5,6

6,4

6,8

8,1

3

13

5,8

6,3

 

6,7

7,3

8,1

8,8

2,3

14

6,1

7

 

7,8

8

5,7

9,5

4

15

6,5

6,9

 

9

8,4

4

8,8

3,6

16

7

7,6

 

8,6

9

2,1

8,3

2,6

17

7,9

8,1

 

9

6,1

1,5

6,6

1,2

18

8,4

8,4

 

9,7

6,2

8,6

4,4

2,3

19

8,7

8,5

 

0,6

4,7

6,1

1,8

6,1

vk.com/club152685050 | vk.com/id446425943

ое отношение

З

И

К

 

Л

8,6

 

5

3,9

9,4

8,9

 

5

5,4

9,5

7,9

 

5

6,7

9,1

6,9

 

5

7,8

8,3

6,5

 

5

8,6

7,2

6

 

5

9

5,9

6,3

 

5

9

4,5

5,5

 

5

8,5

3,3

4,7

 

5

7,7

2,3

4,7

 

5

6,6

1,4

4,4

 

5

5,3

1

4,5

 

5

3,9

1

4

 

5

2,7

1,5

3,5

 

5

1,6

2,3

2,8

 

5

0,9

3,2

2,4

 

5

0,4

4,7

2,7

 

5

0,5

6,5

1,9

 

5

1

7,5

1,3

 

5

2,1

8,6

№ варианта

Компоненты

1

А-Г

2

А-В

3

А-Г

4

А-Л

5

Б-В

6

В-Е

7

И-К

8

Л-В

9

А-Е

10

А-Ж

11

А-З

12

З-Л

vk.com/club152685050 | vk.com/id446425943

Лабораторная работа № 5

Корреляционный анализ

Цель работы: научиться оценивать наличие, тесноту и направленность связи между значениями двух независимых случайных величин.

I. Парная линейная корреляционная зависимость

При решении различных геологических задач часто необходимо совместно рассмотреть несколько случайных величин. В одних случаях изучаемые свойства геологических объектов проявляются независимо друг от друга, а в других между ними могут быть выявлены более или менее отчетливые взаимосвязи. Во многих случаях бывает важно проследить за изменением одного признака с изменением другого. Т.к. изменение свойств геологических объектов вызывается действием различных факторов, изучаемые взаимосвязи имеют, как правило, статистический характер и практически всегда отличаются от функциональных. Для их изучения и описания используются двумерные и многомерные статистические модели. Зависимость между признаками может быть линейной и нелинейной. В математической статистике взаимосвязь явлений и их признаков изучают методом корреляции.

Для выявления линейной корреляционной зависимости необходимо иметь хотя бы 2 ряда сопряженных наблюдений случайной величины, признаки определяются в одном объекте (например, образце, пробе и т.д.).

Задание 1. Выявить зависимость между двумя свойствами геологических объектов. Расчеты требуется произвести "вручную" и проверить с помощью стандартных

функций программы Excel. При "ручном" счете заполняется таблица (см. табл.5.1):

Порядок выполнения:

1. Построить точечный график зависимости между свойствами. По графику оценить однородность выборки, линейность зависимости, качественно определить наличие и тесноту связи (тесная, средняя, слабая, отсутствует) и ее характер (прямая, обратная).

Примечание: При выявлении корреляционной зависимости ни в коем случае нельзя упорядочивать или как-либо сдвигать данные.

2. Рассчитать статистические характеристики системы двух случайных величин (среднеарифметические значения, дисперсии, стандартные отклонения, ковариацию, коэффициент корреляции).

Обозначим: xi – значения одной случайной величины, yi – значения другой случайной величины.

2.1. Среднеарифметические значения x и y рассчитывают по формуле (1.4).

 

i n

 

xi

x

i 1

n

 

где n – объем выборки1; хi i-тое значение выборки.

(1.4)

1 Объем выборки – количество исходных данных (отобранных проб, сделанных замеров, результатов анализов и т.п.), используемых для статистических расчетов.

vk.com/club152685050 | vk.com/id446425943

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 5.1

 

 

 

Расчет коэффициента корреляции

 

 

 

 

 

 

 

№ п/п

Исходные данные,

 

Степени отклонений и их произведения

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Признак

Признак

xi x

 

(xi x)

2

 

yi y

( yi

y)

2

(x x)( y y)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

хi

yi

 

 

 

 

 

 

 

 

 

 

 

i

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

y1

х1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

yn

хn

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Сред-

х

 

μ1х = 0

 

μSх

2

μ1у = 0

μ2

 

Sу

2

μ11

 

Kxy

 

 

 

 

нее

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Примечания: 1) за счет округлений μ1х и μ1у могут отличаться от нуля;

 

 

 

 

 

 

2)μ11 – смешанный центральный момент.

2.2.Дисперсии Sx2, Sy2 и среднеквадратические отклонения Sx и Sy рассчитывают по формулам (1.5 и 1.6)

 

 

 

 

n

 

 

 

 

 

 

 

 

(xi

x)

2

 

S

 

 

 

 

2

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n 1

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

(xi

x)

2

S

 

S

 

 

 

 

2

i

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n 1

 

(1.5)

(1.6)

2.3. Корреляционный момент, или ковариация, рассчитывается по формуле:

 

 

 

n

i

 

i

 

 

 

 

 

x)( y

y))

K

 

 

 

((x

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

xy

 

 

 

n 1

 

 

 

 

 

 

 

 

 

Ковариация измеряется в квадратах единиц измерения случайных величин.

2.4. Коэффициент парной корреляции (rxy или r):

 

 

 

 

 

n

 

 

i

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

x) ( y

y))

 

 

Kxy

 

 

 

 

((x

 

 

r

r

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

или

 

 

 

 

 

 

 

 

 

 

 

 

xy

 

xy

 

 

 

 

 

 

2

 

 

 

 

 

 

2

 

Sx Sy

 

 

n

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

i

x)

 

 

 

 

 

i

y)

 

 

 

 

 

 

 

(x

 

 

( y

 

 

 

 

 

 

 

i 1

 

 

 

 

 

i 1

 

 

 

 

 

 

(4.1)

(4.2)

Коэффициент корреляции – мера линейной взаимосвязи между двумя случайными величинами. Для характеристики нелинейной зависимости непригоден. Это безразмерная величина, измеряемая либо в долях единицы, либо в процентах. Коэффициент линейной корреляции изменяется в пределах от –1 до +1 и не зависит от точки начала отсчета и единиц измерения.

Если rxy = 0 – величины некоррелированы, но это не означает, что связи нет, т.к. в этом случае может быть нелинейная зависимость.

Если rxy стремится к 1 – тесная прямая (положительная) линейная статистическая зависимость. Прямая корреляция характеризует такую статистическую зависимость, когда при возрастании одной случайной величины другая будет в среднем возрастать.

Если rxy стремится к –1 – тесная обратная (отрицательная) линейная статистическая зависимость (обратная корреляция).

Если |rxy| = 1 – функциональная линейная зависимость.

vk.com/club152685050 | vk.com/id446425943

3.Проверить полученный коэффициент корреляции с помощью «Мастера функций» программы Excel (функция КОРРЕЛ).

4.Убедиться в том, что коэффициент корреляции значимо отличается от нуля (т.е. проверить надежность корреляции).

Как и при проверке других статистических величин, формулируется отрицательная нулевая гипотеза: Н0: rx,y = 0, (т.е. «коэффициент корреляции статистически не отличается от нуля или, иными словами, значимой линейной корреляции между изучаемыми

величинами нет»), при множестве альтернатив Н1: rx,y ≠ 0. Проверка осуществляется при помощи критерия Стьюдента:

t

 

 

r

n 2

эм пир

 

1 r

 

 

 

 

 

 

 

2

,

(4.3)

где r – рассчитанный коэффициент парной линейной корреляции.

Для сравнения используют предельные (табличные) значения двустороннего t- критерия Стьюдента с числом степеней свободы k = n-2 и выбранным уровнем значимости α.

Если

|tэмпир |> t(α, k) табл , связь считается доказанной с

доверительной

вероятностью

p = 1 – α. В противном случае линейная зависимость

считается не

установленной.

При значительном объеме выборки можно в качестве tкрит брать значения коэффициента вероятности нормального распределения (см. табл.1.3):

Либо можно при выбранном tкрит сразу рассчитать значимое значение коэффициента корреляции по формуле:

r

 

t

крит

 

 

 

знач

 

n 2 t

 

 

 

2

 

 

 

крит

,

(4.4)

так, например при tкрит=3 (p=0,997)

r

 

3

 

знач

 

n 7

 

 

и все коэффициенты корреляции будут

значимы с p=0,997, если | r | ≥ rзнач.

Формулой (4.4) удобно пользоваться при проверке значимости сразу нескольких коэффициентов корреляции, например, при составлении матрицы коэффициентов корреляции.

5. Обобщить результаты, указать возможные геологические причины выявленных закономерностей.

Задание 2: Рассчитать матрицу коэффициентов корреляции между всеми парами свойств.

Порядок выполнения работы:

1. Рассчитать матрицу коэффициентов корреляции с помощью «Анализа данных» программы Excel: Сервис → Анализ данных → Корреляция. В окне «Входной интервал» ввести адреса ячеек всей таблицы, включая «шапку»; поставить «галочку» в окне «Метки в первой строке»; в строке «Группировать по» задать «по столбцам».

2.Рассчитать величину значимого коэффициента корреляции.

II. Выявление зависимости между двумя качественными признаками.

А) Корреляция рангов

Корреляция рангов используется в случае, когда качественный признак может быть упорядочен и записан с помощью порядковой шкалы измерений.

Если пронумеровать объекты, упорядоченные по какому-либо признаку, то такая

совокупность будет называться ранжированной. Например:

 

 

содержание:

нет

очень мало

мало

много

очень много

vk.com/club152685050 | vk.com/id446425943

ранг:

1

2

3

4

5

Если же несколько наблюдений обладают одинаковым качественным показателем, то их предварительно располагают друг за другом, а затем каждому присваивают исправленный ранг, равный среднему арифметическому их предварительных рангов (см.

табл.4.2).

Аналогичным образом поступают со вторым признаком, замеренном в том же объекте.

Таблица 4.2

Расчет исправленных рангов

 

Содержание

 

Предварительный

Исправленный ранг

 

 

 

 

ранг

 

 

 

нет

 

1

(1+2+3)/3=2

 

 

нет

 

2

2

 

 

нет

 

3

2

 

 

очень мало

 

4

4

 

 

мало

 

5

(5+6)/2=5,.5

 

 

мало

 

6

5,5

 

 

много

 

7

7

 

 

очень много

 

8

(8+9)/2=8,5

 

 

очень много

 

9

8,5

 

Затем рассчитывают

разность рангов d в

каждом наблюдении (табл.4.3) и

собственно ранговый коэффициент корреляции:

 

 

 

 

 

 

6 d

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

1

 

 

2

 

 

,

 

 

 

(4.5)

 

 

 

 

 

(n

1)

n

 

 

 

 

 

 

 

 

 

 

 

 

где d – разность между рангами соответствующих признаков;

 

 

n – количество проб, в которых замерены оба признака.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 4.3

 

Расчет рангового коэффициента корреляции

 

 

Содержание элементов

 

Ранг

 

 

 

Исправленный

Разность

d2

 

 

(предварительный)

 

 

 

 

 

ранг

 

рангов R'x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

R'y

 

Признак х

Признак у

Rх

 

Ry

 

 

 

R'x

 

 

R'y

d

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Следы

1

 

3

 

1,5

 

 

 

4,0

–2,5

6,25

Следы

Следы

3

 

4

 

4,0

 

 

 

4,0

0

0

< 0,001

< 0,001

6

 

6

 

6,5

 

 

 

6,5

0

0

2

 

1

 

1,5

 

 

 

1,5

0

0

Следы

4

 

2

 

4,0

 

 

 

1,5

2,5

6,25

< 0,001

< 0,001

7

 

7

 

6,5

 

 

 

6,5

0

0

Следы

Следы

5

 

5

 

4,0

 

 

 

4,0

0

0

Сумма

 

 

 

 

 

 

12,50

Оценку значимости рангового коэффициента корреляции проводят, рассчитывая значение коэффициента Стьюдента:

tэм пир n 1 (4.6)

и сравнивают его с табличным, для k = n – 1 и выбранным уровнем значимости α.

Если |tэмпир.| > t(α, k) табл. – связь между свойствами значимая с вероятностью p = 1 – α В противном случае зависимость считается не установленной.

Задание 3а. Выявить зависимость между двумя качественными свойствами геологического объекта.

vk.com/club152685050 | vk.com/id446425943

При выполнении задания заполняется таблица, аналогичная таблице 4.3.

Порядок выполнения:

1.Присвоить признакам предварительные ранги (см. табл. 4.3).

2.Рассчитать значения исправленных рангов для каждого признака.

3.Рассчитать разность между рангами в каждом наблюдении.

4.Вычислить ранговый коэффициент корреляции по формуле (4.5).

5.Оценить значимость рангового коэффициента корреляции по формуле (4.6).

6.Обобщить результаты, указать возможные геологические причины выявленных закономерностей.

Б) Коэффициент взаимной сопряженности

Коэффициент взаимной сопряженности используется для качественных признаков, которые нельзя упорядочить по какому-либо критерию (синий-красный-зеленый, гранитизвестняк, девочки-мальчики, рудный-безрудный и т.п.).

Обозначим: А1, А2, …, Аm – первый признак, где m – количество градаций признака А; В1, В2, …, Вl – второй признак; где l – количество градаций признака В; n – общее число наблюдений.

Прежде чем вычислять коэффициент взаимной сопряженности, следует рассчитать эмпирический критерий Пирсона 2, по которому сразу же определяют значимость зависимости:

где nij – эмпирическая частота;

 

 

 

 

 

n

(n

~

)

2

 

2

 

 

 

n

 

 

 

 

 

 

ij

 

ij

 

,

эм пир

 

~

 

 

 

 

 

n

 

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

ij

 

 

~

 

– теоретическая частота, рассчитанная по формуле:

nij

 

 

 

 

l

 

m

 

 

 

 

~

 

 

ni n j

 

 

 

 

 

i 1

 

j 1

 

 

 

 

nij

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

(4.7)

(4.8)

Оценка производится, как обычно, путем сравнения 2эмпир с табличным для необходимого уровня надежности и числа степеней свободы k = (m – 1)(l – 1), где m – количество градаций признака А, l – количество градаций признака В. Если 2эмпир > 2(α, k) табл., то связь считается значимой с вероятностью p = 1 – α .

Коэффициент взаимной сопряженности рассчитывается по формуле:

 

2

K

эм пир

(m 1)(l 1)

n

,

(4.9)

где n – количество проб; m – количество градаций признака A; l – количество градаций признака B; 2 – вычисленный ранее критерий Пирсона.

Задание 3б. Выявить зависимость между двумя качественными свойствами геологического объекта (массив 4-4).

Порядок выполнения:

1.Расчеты удобно проводить, составив таблицу возможных комбинаций признаков (см. табл. 4.4) и занеся в нее количество проб, соответствующее той или иной комбинации (эмпирические частоты).

2.На основе эмпирических частот рассчитываются теоретические частоты по формуле 4.8 (см. табл. 4.5).

3.На основе попарных разностей соответствующих эмпирических и

теоретических частот, по формуле (4.7) рассчитать показатель критерия Пирсона 2 и оценить значимость будущего коэффициента взаимной сопряженности.

4. Вычислить коэффициент взаимной сопряженности.