Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции / SPSS.docx
Скачиваний:
41
Добавлен:
23.03.2015
Размер:
38.34 Кб
Скачать

Коефіцієнти кореляції

Тут мова піде про зв’язок (кореляції) між двома змінними. Розрахунки подібних двовимірних критеріїв взаємозв’язку ґрунтуються на формуванні парних значень, які утворюються з розглянутих залежних вибірок.

Статистик говорить про кореляцію між двома змінними і вказує силу зв’язку за допомогою деякого критерію взаємозв’язку, який отримав назву коефіцієнта кореляції. Цей коефіцієнт, завжди позначається латинською літерою R, може приймати значення між -1 і +1, причому якщо значення знаходиться ближче до 1, то це означає наявність сильного зв’язку, а якщо ближче до 0, то слабкого.

Якщо коефіцієнт кореляції від’ємний, це означає наявність протилежного зв’язку: чим вище значення однієї змінної, тим нижче значення іншої. Сила зв’язку характеризується також і абсолютною величиною коефіцієнта кореляції. Для словесного опису величини коефіцієнта кореляції використовуються наступні градації:

Значення

Інтерпретація

до 0,2

дуже слабка кореляція

до 0,5

слабка кореляція

до 0,7

середня кореляція

до 0,9

висока кореляція

понад 0,9

дуже висока кореляція


CROSSTABS отримує таблиці спряженості багатовимірних розподілів та зв'язків двох і більше змінних. Рекомендується використовувати CROSSTABS для змінних з невеликим числом значень (зазвичай для некількісних змінних), так як кожна комбінація значень відповідає новій клітці в таблиці.

CROSSTABS / TABLES = v1 v2 BY v10 BY pol.

Таблиці спряженості для пари змінних X і Y містять частоти Nij, з якими зустрілося поєднання i-го значення X і j-го значення Y. Крім того, в таблиці обов'язково присутні маргінальні частоти Ni. - Рівні сумі чисел Nij по рядку; Nj - сумі по стовпцю (частоти i-го значення X і j-го значення Y, підраховані незалежно) та N - загальне число об'єктів.

Таблиця, заповнена одними частотами Nij, зазвичай не має сенсу, так як не прояснює належним чином взаємозв'язку між змінними. Для дослідження взаємозв'язку необхідні статистики взаємозв'язку змінних і статистики зв'язку значень.

Основні підкоманду CROSSTABS:

/ TABLES - завдання таблиць;

/ CELLS - статистики клітин таблиці;

/ STATISTICS - статистики взаємозв'язку змінних.

/ METHOD - метод перевірки значущості зв'язку змінних.

/ BARCHART - столбчикова діаграма.

/ TABLES завдання таблиць

Параметр TABLES може бути опущений:

CROSSTABS v1 TO v5 BY v10.

Рядки таблиці спряженості відповідають значенням змінної, вказаної в тексті команди перед ключовим словом "BY"; стовпці матриці відповідають значенням змінної, розташованої після "BY".

Приклад - спільний розподіл по регіону (R), точці зору на іноземну допомогу (v1) і підлозі (V8):

CROSSTABS TABLES R BY v1 BY v8/cells = COUNT ROW.

В результаті виконання цієї команди розраховується таблиця 1. Перед ключовим словом BY вказуються змінні, за якими обчислюється двовходова таблиця (змінна, значення якої ідентифікують рядки), після ключового слова BY вказуються змінні, що ідентифікують стовпці. За наступними BY йдуть змінні умов, що визначають підвибірки, на яких розраховуються таблиці. Хоча в сучасній версії пакета ці таблиці об'єднуються в одну таблицю, їх статистичний аналіз проводиться по-окремо. Ключовим словом BY можуть розділятися і списки змінних. В цьому випадку процедурою виходять таблиці по всім парам таблиць з першого і другого списку. Наприклад,

CROSSTABS V8 V11 V12 BY V4 V1.

Ця команда виведе таблицю спряженості: V8 c V4, V8 c V1, V11 c V4, V11 c V1 і т.д., тобто поєднання по всім змінним, перерахованим в команді.

Всього буде видано на друк 6 таблиць. Якщо більше двох списків змінних розділені ключовими словами "BY", то змінні, які стоять за другим, третім і т.д. "BY", задають умови отримання таблиць. Таблиці формуються на підвибірках, відповідних сполученням значень цих змінних. Таблиця 1. Розподіл змінної "Точка зору на іноземну допомогу" в розрізі регіону і статі респондентів.

V1 т. зору на іноз. допомогу

V8 стать

Не потрібна

Обмежена

Потрібна

Не знаю

Усього

Чол.

R регіон

Дальн. В.

Count

25

91

22

7

145

%

17,2

62,8

15,2

4,8

100

Вост. Сиб.

Count

25

56

13

1

95

%

26,3

58,9

13,7

1,1

100

Зап. Сиб.

Count

38

65

13

3

119

%

31,9

54,6

10,9

2,5

100

Усього

Count

88

212

48

11

359

%

24,5

59,1

13,4

3,1

100

Жін.

R регіон

Дальн. В.

Count

26

87

9

6

128

%

20,3

68

7

4,7

100

Вост. Сиб.

Count

23

54

6

7

90

%

25,6

60

6,7

7,8

100

Зап. Сиб.

Count

40

75

9

7

131

%

30,5

57,3

6,9

5,3

100

Усього

Count

89

216

24

20

349

%

25,5

61,9

6,9

5,7

100

Вживання "BY" в команді CROSSTABS можливо до 10 разів, але й цього достатньо, щоб зайняти всі ресурси комп'ютера.

Якщо ми хочемо отримати в одній команді CROSSTABS кілька незалежних таблиць, то слід відокремлювати списки змінних символом "/":.

CROSSTABS V8 V11 BY V4 V1 / V12 BY V1/cells row. CELLS

Параметр CELLS задає висновок деяких статистик (див. ключові слова параметра CELLS) для клітин таблиці спряженості. "CELLS" перекладається як "клітка". Якщо цей параметр не вказаний, то в клітинах таблиці виводяться тільки абсолютні частоти.

CROSSTABS V1 BY V4 / CELLS = COUNT ROW COLUMN.

Параметри підкоманди / CELLS

COUNT - абсолютне число об'єктів (Nij);

ROW - відсотки по рядку;

COLUMN - відсотки по стовпцю;

TOTAL(Усього) - відсотки по відношенню до всієї вибірці;

EXPECTED - частоти (Eij = Ni. * Nj / N), очікувані в разі незалежності змінних (N - загальна сума частот в таблиці);

RESID - зміна частоти в порівнянні з очікуваним (Nij-Eij);

SRESID - стандартизоване зміна частоти в порівнянні з очікуваним (Nij-Eij) / (корінь з доданка статистики Хі-квадрат, що обчислюється для перевірки гіпотези незалежності);

ASRESID - стандартизоване до нормального розподілу N (0,1) зміна частоти Zij = (Nij-Eij) /? Ij;

ALL - висновок для клітини всіх статистик;

Таблиця 2. Зв'язок "Точки зору на іноземну допомогу" і "Можлив. Задовольнити территор. Вимоги Японії" (частоти і відсотки)

V1 т. зору на іноз. допомогу

V4 Здатність задовольнити територіальні вимоги Японії

Усього

1 Віддати

2 Не треба

3 Не знаю

Не потрібна

Count

21

143

11

175

% row

12

81,7

6,3

100

% col

19,6

27,2

13,9

24,6

Обмежена

Count

57

326

48

431

% row

13,2

75,6

11,1

100

% col

53,3

62

60,8

60,5

Потрібна

Count

27

32

14

73

% row

37

43,8

19,2

100

% col

25,2

6,1

17,7

10,3

Не знаю

Count

2

25

6

33

% row

6,1

75,8

18,2

100

% col

1,9

4,8

7,6

4,6

Усього

Count

107

526

79

712

% row

15

73,9

11,1

100

% col

100

100

100

100

Таблиця 2 отримана в результаті перетворення даних та застосування процедури CROSSTABS з параметром CELLS:

recode v4 (1,2 = 1) (3 = 2) (4 = 3) into W4.

var lab W4 "Можливість задовольнити терріторіторіальние вимоги Японії".

Val lab W4 1 "віддати" 2 "не треба" "не знаю".

CROSSTABS / TABLES = v1 BY W4 / CELLS = COUNT ROW col.

Верхній відсоток в клітці відповідає відношенню абсолютного числа об'єктів, що потрапили в цю клітку, до підсумкової суми по рядку. Нижній відсоток відповідає відношенню значення клітини до підсумкової суми по стовпцю. За величиною відсотків, наведених в клітинах, можна порівнювати групи респондентів з розподілу як по "вертикальної" змінної, так і по "горизонтальної".

Зокрема, аналізуючи перший рядок матриці (вона відповідає відповідям тих респондентів, які вважають, що іноземна допомога не потрібна), бачимо, що основна частина - 81.7% цієї групи респондентів проти передачі островів Японії. При цьому їх частка серед тих, хто проти передачі островів, складає всього 27.2%; а основна частина (62.0%) противників передачі островів допускає можливість отримання обмеженою іноземної допомоги. В останньому стовпчику таблиці розташовані підсумки по кожному рядку, які збігаються з розподілом по змінної V1. Так як до виконання команди CROSSTABS, були оголошені невизначені значення v1 і v4, таблиця розраховувалася без їх обліку, тому обсяг вибірки, врахований в таблиці, склав 712 анкет з 721 наявних. Аналогічні дані наведені в рядку TOTAL для стовпців.

Відсотки в Crosstabs дозволяють вивчати взаємозв'язок змінних, а не тільки структуру таблиці. Зокрема, порівнюючи рядки, можна зробити висновок, що більш схильні віддати острова ті, хто вважає, що потрібна допомога східним регіонам (37%), ніж ті, хто вважає, що допомоги не потрібно. Можна взяти в якості точки відліку розподіл в цілому по сукупності (15% всього готові віддати всі або частину островів в середньому по масиву).

Реалізовані в параметрі CELLS статистики дозволяють провести більш складний аналіз зв'язку змінних. Наприклад, у таблиці 3.4 можна побачити, що серед вважають, що іноземна допомога не потрібна, 12% готові віддати острова Японії, а серед вважають, що допомога потрібна - їх 37%. У той же час, в цілому по сукупності 15% готові передати острова. Істотними є відмінності від часток в цілому по сукупності на 3% і 22%? Чи може в наступному обстеженні зв'язок виявитися протилежною? Основою для дослідження зміщення вибірки від істинного розподілу служать значення, очікувані в разі незалежності вибірки. Подпараметр EXPECTED параметра CELLS дозволяє вивести в клітинах абсолютні значення частот (Nij), очікуваних в разі незалежності відповідних клітці значень змінних. Відхилення (Nij-Eij) спостерігається частоти від очікуваної - більш зручна величина для аналізу: вона досить наочна, але неясно, наскільки вона статистично значуща.

Більш корисна статистика Zij = (Nij-Eij) /? Ij - стандартизоване зсув частоти; Zij видається в клітці при вказівці подпараметра ASRESID (Adjusted residuals). Іншими словами, Zij являє собою відхилення спостережуваної частоти від очікуваної, виражений в кількості стандартних відхилень. При цьому стандартне відхилення обчислюється виходячи з припущення, що Nij це випадкова величина, що має гипергеометрическое розподіл:

Якщо змінні незалежні, то, при великих N, випадкова величина Zij має нормальний розподіл з параметрами (0,1). Для неї практично неймовірно відхилення, більше трьох стандартних відхилень, тому що ймовірність такого значення складає менше 0.0027 (правило "трьох сигм"). Тому, якщо ми отримуємо значення Zij, що перевищує 3, то можемо вважати, що i-е значення і j-е значення X і Y пов'язані. На практиці нерідко, коли аналізіруетсся єдина клітина таблиці, виставляються більш слабкі вимоги. Істотними вважаються односторонні відхилення, які перевищують 1,65? Ij - імовірність їх отримання становить 5%. Таким чином, починаючи з відхилення 1,65? Ij і більшого, можна вже висловлювати гіпотезу про існування зв'язку між значеннями (див. таблицю нормального розподілу в будь-якому статистичному довіднику). Емпіричним критерієм, коли розподіл Zij близьким до нормального, слід вважати є співвідношення для дисперсії. Хоча останнє обмеження досить жорстко.

Слід зауважити, що насправді ми маємо справу з безліччю статистик значимості і, при переборі їх, велика ймовірність випадково отримати їх значення, що перевищують зазначені пороги. Якби клітини були незалежні, при критичному значенні статистики Zij, рівному 1.96 (5% рівень значимості) ми в середньому в умовах незалежності даних знаходили б 5 "значущих" з 100 клітин таблиці, а хоча б одну статистику, Zij> 1.96 ми можемо отримати з імовірністю (1-0.95100) = 0. = (1-0.95 ^ 100) * 100 9941! Тому склалася практика керуватися відхиленням 1.65? Ij оберігає нас тільки від грубих помилок.

Соседние файлы в папке Лекции