Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

УМК Б ОГД 1 МатСтат 3 УЧПОС Воронов И.А

.pdf
Скачиваний:
44
Добавлен:
02.04.2015
Размер:
3.01 Mб
Скачать
В табл. П 3.7 приведены критические значения двустороннего критерия W-Вилкоксона. Если используется односторонний критерий, то значения этой таблицы соответствуют удвоенным уровням значимости:
Wp двух = Wp / 2одн.

Для проверки правильности этих операций можно использовать тот факт, что сумма всех рангов: RX + RY = n(n + 1)/2 = 20(20+1)/2 = 210.

5.Меньшую из сумм рангов (в данном случае RY = 82,5) принимаем в качестве значения критерия U-Манна-Уитни.

6.Из П 3.6 находим критическое значение критерия U-Манна-Уитни при уровне значимости p = 0,05 и при объемах выборки n1 = 10 и n2 = 10: Up = 78.

7.Вывод: если U ≤ Up различие считается статистически значимым на уровне значимости p (нулевая гипотеза отбрасывается). В противном случае различие статистически незначимо, как в данном случае: 82,5 ≥ 78.

Сравнение двух связанных выборок (критерий W-Вилкоксона)

Критерий W-Вилкоксона для связанных выборок является непараметрическим аналогом t-критерия.

Задача 2.26 [17]. У группы школьников

(n=10) до (xi) и после (yi) пребывания в спор-

тивном лагере измеряли жизненную емкость легких (ЖЕЛ)

Номер

xi

yi

di =

п/п

мл.

мл.

xi – yi

1

3 400

3 800

–400

2

3 600

3 700

–100

3

3 000

3 300

–300

4

3 500

3 600

–100

5

2 900

3 100

–200

6

3 100

3 200

–100

7

3 200

3 200

0

8

3 400

3 300

100

9

3 200

3 500

–300

10

3 400

3 600

–200

 

 

 

 

R1

Ранги

 

│di

100

2,5 (+)

–100

2,5 (–)

–100

2,5 (–)

–100

2,5 (–)

–200

5,5 (–)

–200

5,5 (–)

–300

7,5 (–)

–300

7,5 (–)

–400

9 (–)

 

 

1.Отбрасываем пары с одинако-

выми значениями xi и yi; для дальнейших расчетов объем выборки сокращаем на число отброшенных пар.

2.В нашем примере отбрасывается пара номер 7, и объем выборки станет n = 10 – 1 = 9.

3.У оставшихся пар вычисляем

разности di = xi – yi.

4. Находим ранги R |di| абсолютных значений разностей di.

5.Отмечаем ранги, относящиеся к положительным и отрицательным значениям разностей.

6.Находим по отдельности суммы рангов отрицательных, и положительных разностей R (–) и R (+). Суммы рангов: R (+) = 2,5; R (–) = 42,5.

7.Контроль: R (+) + R (–) = 2,5 + 42,5 = 9(9 + 1)/2 = 45.

8.Меньшую из сумм рангов принимаем в качестве значения критерия W. Для нашего примера W = R (+) = 2,5.

9.Из П 3.7. находим критическое значение Wp критерия W-Вилкоксона

при уровне значимости p =0,05 и n =10, W =7.

10. Вывод: если W< Wp, то Н0 отбрасывается и различие связанных выборок является статистически значимым на уровне значимости р. В противном случае различия статистически незначимы. Для нашего примера W < W0,05, поэтому различия статистически значимы на уровне значимости p ≤ 0,05.

41

Оценка связи

Силу связи между двумя переменными можно определить с помощью коэффициента корреляции (r). Имеется несколько различных формул для вычисления корреляции. Наиболее распространенный метод вычисле-

ния корреляции – корреляция как произведение моментов Пирсона, которая требует интервальных или относительных данных для каждой переменной. Однако если хотя бы одна из переменных порядковая, для определения меры связи необходимо использовать ранговый (порядковый) коэффициент корреляции Спирмена (rs) – непараметрический статистический показатель.

Ранговый коэффициент корреляции Спирмена

Формула для вычисления

rS 1

6

(R

 

R )

2

 

 

n(n2

1)

.

 

 

 

 

X

Y

 

 

Задача 2.27. Какова корреляция между рангом рождения и СБ осен-

ним для людей, отработавших 20 и менее часов? Ранг рождения – это порядковая переменная, поэтому необходимо использовать формулу Спирмена. Выберите записи с числовыми значениями 20 или менее из графы От-

работанные часы. Впишите номера испытуемых в первый столбец, а

СБ осенний (XI) – во второй. Расположите часы в порядке возрастания и впишите данные по рангу СБ (Rx) и рангу рождения (RY) в столбцы 3 и 4. Определите разность между рангом СБ и рангом рождения (Rx – RY), возведите в квадрат каждую разность: (Rx – RY)2, а затем сложите полученные результаты Σ(RX – RY)2. Подставьте эти величины в формулу.

X1

X5

 

X3

 

 

Номер

СБ осенний

Ранг СБ

Ранг рождения

(Rx – Ry)

(Rx – RY)2

 

XI

Rx

Ry

 

 

2

4,6

1

3

–2

4

3

4,7

2

2

0

0

5

5,0

4

1

3

9

9

4,6

1

2

–1

1

10

4,9

3

1

2

4

11

5,0

4

2

2

4

16

4,9

3

1

2

4

17

4,7

2

3

–1

1

n = 8

 

 

 

 

Σ(RX – RY)2 = 27

rS

1

6 (RX

RY )2

1

6(27)

1

164

0,678.

 

 

 

 

 

n(n2

1)

8(64 1)

504

 

 

 

 

 

По табл. П 3.1 определяем статистическую значимость r, найдя критическое значение. В нашем примере rS = 0,678, а n = 8. Выбрав уровень значимости р = 0,05, мы видим, что в нашем случае величина rS не достигает критического значения 0,738 и, следовательно, он не является статистически значимым, что неудивительно, принимая во внимание ограниченное число наблюдений.

42

Коэффициент корреляции Пирсона

Еще один часто используемый коэффициент корреляции, называе-

мый коэффициентом корреляции Пирсона (r), используется для измерения связи между двумя переменными на интервальных шкалах. Используется только в случае линейной зависимости. Формула для приблизительного вычисления r.

r

 

DX

DY

 

.

 

 

 

 

D2

D2

 

 

 

 

 

 

X

Y

 

 

Задача 2.28. Какова корреляция между количеством отработанных ча-

сов (X7) и СБ осенним (X5) испытуемого? Начните анализ с построения столбцов для номера, СБ (Xi) и отработанных часов (Yi). Далее найдите отклонения DX и DY , затем квадраты отклонений DX2 и DY2. Затем вычислите суммы квадратов отклонений ΣDX2 и ΣDY2, а также сумму произведений отклонений ΣDXDY.

X1

X5

X7

 

 

 

 

 

СБ

Отработанные часы

 

 

 

 

 

 

Xi

Yi

DX

DY

DX2

DY2

DXDY

1

3,9

38,0

0,5

14,5

0,3

209,4

7,5

2

4,6

15,0

0,2

8,5

0,0

72,8

1,6

3

4,7

10,0

0,3

13,5

0,1

183,0

3,8

4

4,2

30,0

0,2

6,5

0,0

41,9

1,4

5

5,0

12,0

0,6

11,5

0,3

132,9

6,7

6

3,7

35,0

0,7

11,5

0,5

131,6

8,2

7

3,7

30,0

0,7

6,5

0,5

41,9

4,6

8

4,4

30,0

0,0

6,5

0,0

41,9

0,1

9

4,6

20,0

0,2

3,5

0,0

12,5

0,6

10

4,9

10,0

0,5

13,5

0,2

183,0

6,5

11

5,0

20,0

0,6

3,5

0,3

12,5

2,1

12

4,0

35,0

0,4

11,5

0,2

131,6

4,8

13

4,6

30,0

0,2

6,5

0,0

41,9

1,2

14

4,2

30,0

0,2

6,5

0,0

41,9

1,4

15

4,0

35,0

0,4

11,5

0,2

131,6

4,8

16

4,9

10,0

0,5

13,5

0,2

183,0

6,5

17

4,7

10,0

0,3

13,5

0,1

183,0

3,8

n = 17

4,4

23,5

0,0

0,0

3,3

1776,2

63,4

Полученные значения подставьте в формулу

r

 

DX DY

63,4

 

0,848.

 

 

 

 

 

 

DX2 DY2

3,1 1776,2

 

 

 

 

Примечание. Знак «минус» перед коэффициентом корреляции отражает направление связи, а не значение. В данном случае зависимость обратная – чем больше человек занимается, тем ниже его СБ осенний (естественно, это шуточный пример). Чтобы найти уровень значимости для r, нам необходимо подсчитать степени свободы, или df = (n – 2), а затем обратиться к табл. П 3.2. Имея

43

df = 15 и используя уровень значимости 0,05, мы можем определить, превышает ли полученная нами величина r = 0,846 критическое значение, приведенное в таблице. Критическое значение равно 0,456 и меньше полученной нами величины 0,846; таким образом, между количеством отработанных часов и СБ осенним имеет место статистически значимая отрицательная корреляция.

Регрессионно-корреляционный анализ

Регрессионный анализ устанавливает форму зависимости случайной величины y и значениями переменной x.

Корреляционный анализ определяет степень связи между двумя случайными величинами y и x.

Графическое решение задачи выявляет регрессию (форму зависимости) и уравнение связи. Линейная зависимость описывается уравнением

y = a + bx,

где: а и b – коэффициенты, определяемые по формулам:

a = y – bx,

br SDy SDx .

40

35

30

25

y = -20,148x + 112,54 R2 = 0,7187

20

15

10

3,5

3,7

3,9

4,1

4,3

4,5

4,7

4,9

Задача 2.2.18. Для задачи 2.1.4 построить график и определить уравнение регрессии.

r

 

 

DX DY

 

 

 

63,4

 

 

 

0,848

r2 = 0,719 как на графике.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

DX2

DY2

3,1 1776,2

 

 

 

 

 

 

 

 

 

 

 

b r

 

SDy

0,848

10,54

20,15

,

a = 23,5 – 4,4(–20,15) = 112,54.

 

 

 

 

 

 

 

SDx

0,44

 

 

 

 

 

 

 

 

 

 

 

 

Итак, уравнение регрессии

y = 112,54 – 20,15x.

44

Но так ли это на самом деле? Оказывается, в данном примере была (умышленно) допущена неточность. Все уравнения, по которым проводились расчеты, применяются только в случае линейной зависимости. На графике же точки расположены явно не на одной линии, и мы можем предположить, что регрессия может быть иной, нелинейной. Если зависимость y от x нелинейная, то иногда эту зависимость можно линеаризовать с помощью преобразования переменных x и y. Линеаризацию можно провести с помощью формул табл. П 3.8. Но для данного случая остановимся на полигональной зависимости

 

 

y = b0 x0 + b1 x1 + b2 x2 + b3 x3 + … + bn xn

где n – степень функции.

 

Используя

электронную

таблицу MS Excel, строим поли-

гональную линию тренда (n = 3)

и

получаем

r = 0,906

(r2 = 0,820). Это выше, чем при расчетах линейной зависимости.

Если вы не можете принять решение, какую формулу подобрать для конкретной регрессии, то выберете ту, при которой получается максимальный коэффициент корреляции.

40

 

 

 

 

 

 

 

 

 

 

y = 52,409x3 - 693,71x2 + 3023,7x - 4313,1

 

 

 

 

 

R2 = 0,8201

 

 

35

 

 

 

 

 

 

 

30

 

 

 

 

 

 

 

 

y = -20,148x + 112,54

 

 

 

 

25

R2

= 0,7187

 

 

 

 

 

 

 

 

 

 

 

 

20

 

 

 

 

 

 

 

15

 

 

 

 

 

 

 

10

 

 

 

 

 

 

 

3,5

3,7

3,9

4,1

4,3

4,5

4,7

4,9

 

 

 

 

45

 

 

 

Контрольные вопросы

1.Опишите схему классического экспериментального плана с большими объемами выборок n.

2.Перечислите и охарактеризуйте шкалы представления данных.

3.Что такое совокупность исходных данных «объекты-признаки»?

4.Как пользоваться таблицей случайных чисел?

5.Как строится полигон распределения частот?

6.Как строится гистограмма распределения частот?

7.Как строится кумулята распределения частот?

8.Как выявляется аномальность числа в выборке?

9.Как группируются данные в вариационный ряд?

10.Перечислите меры центральной тенденции.

11.Вычисление средней арифметической (простой и взвешенной).

12.Вычисление средней гармонической (простой и взвешенной).

13.Вычисление средней квадратической (простой и взвешенной).

14.Вычисление средней кубической (простой и взвешенной).

15.Вычисление средней геометрической (простой и взвешенной).

16.Вычисление коэффициента вариации.

17.Определение медианы.

18.Определение моды.

19.Как оценивается изменчивость параметра?

20.Какой критерий используется для определения того, отличается ли наблюдаемая частота результатов от ожидаемой частоты?

21.Нормальное распределение и его определение по эксцессу и асимметрии.

22.Нормальное распределение и его определение по z-критерию КолмогороваСмирнова.

23.Параметрические критерии, условия их применения.

24.Как вычисляется уровень статистической достоверности различия между двумя средними по критерию Стьюдента (для одной выборки)?

25.Как вычисляется уровень статистической достоверности различия между двумя средними по критерию Стьюдента (для независимых выборок)?

26.Как вычисляется уровень статистической достоверности различия между двумя средними по критерию Стьюдента (для зависимых выборок)?

27.Какой вид анализа используется в экспериментах с межгрупповыми и внутригрупповыми планами?

28.Какой вид анализа используется в экспериментах, которые имеют несколько уровней категориальной независимой переменной, но только одну количественную зависимую переменную?

29.Непараметрические критерии, условия их применения.

30.Сравнение двух независимых выборок (критерий U-Манна-Уитни).

31.Сравнение двух связанных выборок (критерий W-Вилкоксона).

32.Как оценивается связь между двумя переменными (в ранговых шкалах)?

33.Как оценивается связь между двумя переменными (в интервальных шкалах)?

34.Регрессионный анализ.

35.Корреляционный анализ.

36.Линеаризация функций.

46

3. МЕТОДЫ ОБРАБОТКИ МНОГОМЕРНЫХ ДАННЫХ

3.1. Классификация многомерных методов

Наиболее часто в исследованиях

 

 

 

Необходимость знаний многомерных ме-

человека

применяются следующие

тодов, их возможностей и ограничений

многомерные методы: множественный

требуются уже на стадии общего замысла

регрессионный анализ (МР), фактор-

исследования. Например, ориентируясь

ный анализ (ФА), многомерное шкали-

только на факторно-аналитическую мо-

рование

(МШ), кластерный анализ

дель, исследователь ограничен в выборе

(КА), дискриминантный анализ (ДА).

процедуры

диагностики:

она должна со-

стоять в измерении признаков у множества

Эти методы можно классифици-

объектов. При этом исследователь ограни-

ровать по трем основаниям: 1) в соот-

чен и в направлении поиска: он изучает

ветствии с интеллектуальной операци-

либо взаимосвязи между признаками, либо

ей (по способу преобразования исход-

межгрупповые различия

по измеряемым

ной информации) – по назначению ме-

признакам. Общая осведомленность о дру-

тода; 2) по

способу

сопоставления

гих многомерных методах позволит иссле-

дователю

использовать

более широкий

данных – по сходству (различию) или

круг психодиагностических процедур, ре-

пропорциональности

(корреляции);

шать более широкий спектр не только на-

3) по виду

исходных

эмпирических

учных, но и практических задач.

данных.

 

 

 

 

 

 

 

 

 

 

 

 

Классификация методов по назначению

1. Методы предсказания (экстраполяции): МР и ДА. МР предсказывает значения метрической «зависимой» переменной по множеству известных значений «независимых» переменных, измеренных у множества объектов (испытуемых). ДА предсказывает принадлежность объектов (испытуемых) к одному из известных классов (номинативной шкале) по измеренным метрическим

(дискриминантным) переменным.

 

SPSS (Statistical Package for the So-

2. Методы классификации: варианты

cial Science) – статистический па-

КА и ДА. КА («классификация без обуче-

кет для социальных наук.

ния») по измеренным характеристикам у

 

 

множества объектов (испытуемых) либо по данным об их попарном сходстве (различии) разбивает это множество объектов на группы, в каждой из которых содержатся объекты, более похожие друг на друга, чем на объекты из других групп. ДА («классификация с обучением», «распознавание образов») позволяет классифицировать объекты по известным классам, исходя из измеренных у них признаков, пользуясь решающими правилами, выработанными предварительно на выборке идентичных объектов, у которых были измерены те же признаки.

3. Структурные методы: ФА и МШ. ФА направлен на выявление структуры переменных как совокупности факторов, каждый из которых – это скрытая, обобщающая причина взаимосвязи группы переменных. МШ выявляет шкалы как критерии, по которым поляризуются объекты при их субъективном попарном сравнении.

47

Классификация методов по исходным предположениям о структуре данных

1.Методы, исходящие из предположения о согласованной изменчивости признаков, измеренных у множества объектов. На корреляционной модели основаны ФА, МР, отчасти – ДА.

2.Методы, исходящие из предположения о том, что различия между объектами можно описать как расстояние между ними. На дистантной модели основаны КА и МШ, частично – ДА. МШ и ДА подтверждают предположение о том, что исходные различия между объектами можно представить как расстояния между ними в пространстве небольшого числа шкал (функций).

Классификация методов по виду исходных данных

1.Методы, использующие в качестве исходных данных только признаки,

измеренные у группы объектов (МР, ДА и ФА).

2. Методы, исходными данными для которых могут быть попарные сходства (различия) между объектами (КА и МШ). МШ, кроме того, может анализировать данные о попарном сходстве между совокупностью объектов, оцененном группой экспертов. При этом совместно анализируются как различия между объектами, так и индивидуальные различия между экспертами.

3.2. Множественный регрессионный анализ (МР)

МР предназначен для изучения взаимосвязи одной переменной (зависимой) и нескольких других переменных (независимых) в интересах предсказания некоторого результата или существенности влияния той или иной переменной на предсказываемый результат.

Исходные данные для МР представляют собой матицу «объект-признак». Связь одной переменной (зависимой) Y и нескольких других переменных

(независимых) Xn выражают линейным уравнением

y = b0 + b1 x1 + b2 x2+ … + bn xn+ e,

где: y – зависимая переменная; x1, 2 … n – независимые переменные; b1, 2 … n – параметры модели; e – ошибка предсказания.

Качественным аналогом МР является ДА (см. разд. 3.2).

Используя данные тестирования по 16-фактороному опроснику, Р. Кеттелл выявил профессиональные портреты для:

психотерапевта у = 0,72A + 0,29B + 0,29H + 0,29N,

психодиагноста у = 0,31A + 0,78B + 0,47N,

из которых следует, что для психотерапевта важна общительность (А), а для психодиагноста – интеллект (В).

Условия получения приемлемых результатов МР

Регрессия, как и корреляция, анализирует линейные зависимости. Ранее была рассмотрена процедура оценки криволинейных зависимостей в контексте простого регрессионного анализа. Если теория или статистический расчет показывает, что между критерием и одним или несколькими

48

предикторами существует криволинейная зависимость, то можно применить процедуру линеаризации.

Основные условия применения МРА:

1.Исследование должно быть продумано по форме и исполнению. Анализ регрессии для не связанных по смыслу величин приводит к бесполезным результатам.

2.Объем выборки желательно иметь n ≥ 50.

3.Данные должны быть корректными и записаны в таблицу без ошибок.

4.Распределение значений предикторов должно быть близким к нормальному (значения асимметрий и эксцессов по модулю не превосходят 1).

5.Нормальность распределения зависимой переменной также желательна, однако допустимы как отклонения от нормальности, так и использование дискретных переменных с малым числом значений.

6.Наиболее жестким требованием является запрет на использование независимых переменных, корреляции между которыми близки к 1 (-1). Поэтому перед проведением регрессионного анализа никогда не бывает лишним вычисление корреляций между предикторами.

7.Не желательно задействовать предикторы, совпадающие по смыс-

лу.

Задача 3.1 [7]. Для решения требуется программа SPSS и файл данных

MR.sav. Число объектов в файле данных MR.sav n = 46. Переменные файла, которые мы будем использовать: помощь – зависимая переменная, интерпретируемая как время (в секундах) оказания помощи партнеру (среднее

– 30, стандартное отклонение – 10); симпатия – оценка своей симпатии к партнеру, нуждающемуся в помощи (по 20-балльной шкале); агрессия – оценка своей агрессивности к партнеру (по 20-балльной шкале); польза – оценка пользы от своей помощи (по 20-балльной шкале); проблема – оценка серьезности проблемы своего партнера (по 20-балльной шкале); эмпатия – оценка эмпатии (склонности к сопереживанию) как результат тестирования (по 10-балльной шкале).

1.Запустите программу SPSS. После выполнения этого шага на экране появится окно редактора данных SPSS. Откройте файл данных MR.sav, выполнив следующие действия: выберите в меню File (файл) команду Open ► Data (открыть ►данные) или щелкните на кнопке Open File (открыть файл) панели инструментов. В открывшемся диалоговом окне дважды щелкните на имени MR.sav или введите его с клавиатуры и щелкните па кнопке ОК.

2.В меню Analyze (анализ) выберите команду Regression ► Linear (регрессия ► линейная). На экране появится диалоговое окно Linear Regression (линейная регрессия) (рис. 3.1).

3.Щелкните сначала на переменной помощь, чтобы выделить се, а затем – на верхней кнопке со стрелкой, чтобы переместить переменную в

49

Рис. 3.1

поле Dependent (зависимая переменная). Выделите переменные симпатия,

проблема, эмпатия, польза и агрессия, затем переместите их в список Independent(s) (независимые переменные).

4.В раскрывающемся списке Method (метод) выберите пункт

Forward (пря-

мой). Щелкните на кнопке ОК, чтобы открыть окно вывода.

5.В результате программа сгенерирует данные, показывающие, какая из независимых переменных оказы-

вает наибольшее влияние на зависимую пе-

ременную. Метод Forward (прямой) обеспечит включение в уравнение регрессии всех предикторов, имеющих значимую частную корреляцию с критерием β в порядке убывания значимости.

Задача 3.2 [7]. Для решения требуется программа SPSS и файл данных

MR.sav.

1. Откройте диалоговое окно Linear Regression (линейная регрессия), показанное на рис. 3.1. Если Вы уже успели поработать с этим окном, очистите его щелчком на кнопке Reset (сброс) и выполните следующие действия.

Рис. 3.2

50

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]