Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Черноморский государственный университет им. Петра Могилы

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Лекции / SPSS.docx

Скачиваний:

Добавлен:

23.03.2015

Размер:

38.34 Кб

Скачать

☆

<<< < Предыдущая 1 23 / 33

Коефіцієнти кореляції

Тут мова піде про зв’язок (кореляції) між двома змінними. Розрахунки подібних двовимірних критеріїв взаємозв’язку ґрунтуються на формуванні парних значень, які утворюються з розглянутих залежних вибірок.

Статистик говорить про кореляцію між двома змінними і вказує силу зв’язку за допомогою деякого критерію взаємозв’язку, який отримав назву коефіцієнта кореляції. Цей коефіцієнт, завжди позначається латинською літерою R, може приймати значення між -1 і +1, причому якщо значення знаходиться ближче до 1, то це означає наявність сильного зв’язку, а якщо ближче до 0, то слабкого.

Якщо коефіцієнт кореляції від’ємний, це означає наявність протилежного зв’язку: чим вище значення однієї змінної, тим нижче значення іншої. Сила зв’язку характеризується також і абсолютною величиною коефіцієнта кореляції. Для словесного опису величини коефіцієнта кореляції використовуються наступні градації:

Значення	Інтерпретація
до 0,2	дуже слабка кореляція
до 0,5	слабка кореляція
до 0,7	середня кореляція
до 0,9	висока кореляція
понад 0,9	дуже висока кореляція

CROSSTABS отримує таблиці спряженості багатовимірних розподілів та зв'язків двох і більше змінних. Рекомендується використовувати CROSSTABS для змінних з невеликим числом значень (зазвичай для некількісних змінних), так як кожна комбінація значень відповідає новій клітці в таблиці.

CROSSTABS / TABLES = v1 v2 BY v10 BY pol.

Таблиці спряженості для пари змінних X і Y містять частоти Nij, з якими зустрілося поєднання i-го значення X і j-го значення Y. Крім того, в таблиці обов'язково присутні маргінальні частоти Ni. - Рівні сумі чисел Nij по рядку; Nj - сумі по стовпцю (частоти i-го значення X і j-го значення Y, підраховані незалежно) та N - загальне число об'єктів.

Таблиця, заповнена одними частотами Nij, зазвичай не має сенсу, так як не прояснює належним чином взаємозв'язку між змінними. Для дослідження взаємозв'язку необхідні статистики взаємозв'язку змінних і статистики зв'язку значень.

Основні підкоманду CROSSTABS:

/ TABLES - завдання таблиць;

/ CELLS - статистики клітин таблиці;

/ STATISTICS - статистики взаємозв'язку змінних.

/ METHOD - метод перевірки значущості зв'язку змінних.

/ BARCHART - столбчикова діаграма.

/ TABLES завдання таблиць

Параметр TABLES може бути опущений:

CROSSTABS v1 TO v5 BY v10.

Рядки таблиці спряженості відповідають значенням змінної, вказаної в тексті команди перед ключовим словом "BY"; стовпці матриці відповідають значенням змінної, розташованої після "BY".

Приклад - спільний розподіл по регіону (R), точці зору на іноземну допомогу (v1) і підлозі (V8):

CROSSTABS TABLES R BY v1 BY v8/cells = COUNT ROW.

В результаті виконання цієї команди розраховується таблиця 1. Перед ключовим словом BY вказуються змінні, за якими обчислюється двовходова таблиця (змінна, значення якої ідентифікують рядки), після ключового слова BY вказуються змінні, що ідентифікують стовпці. За наступними BY йдуть змінні умов, що визначають підвибірки, на яких розраховуються таблиці. Хоча в сучасній версії пакета ці таблиці об'єднуються в одну таблицю, їх статистичний аналіз проводиться по-окремо. Ключовим словом BY можуть розділятися і списки змінних. В цьому випадку процедурою виходять таблиці по всім парам таблиць з першого і другого списку. Наприклад,

CROSSTABS V8 V11 V12 BY V4 V1.

Ця команда виведе таблицю спряженості: V8 c V4, V8 c V1, V11 c V4, V11 c V1 і т.д., тобто поєднання по всім змінним, перерахованим в команді.

Всього буде видано на друк 6 таблиць. Якщо більше двох списків змінних розділені ключовими словами "BY", то змінні, які стоять за другим, третім і т.д. "BY", задають умови отримання таблиць. Таблиці формуються на підвибірках, відповідних сполученням значень цих змінних. Таблиця 1. Розподіл змінної "Точка зору на іноземну допомогу" в розрізі регіону і статі респондентів.

				V1 т. зору на іноз. допомогу
V8 стать				Не потрібна	Обмежена	Потрібна	Не знаю	Усього
Чол.	R регіон	Дальн. В.	Count	25	91	22	7	145
			%	17,2	62,8	15,2	4,8	100
		Вост. Сиб.	Count	25	56	13	1	95
			%	26,3	58,9	13,7	1,1	100
		Зап. Сиб.	Count	38	65	13	3	119
			%	31,9	54,6	10,9	2,5	100
	Усього		Count	88	212	48	11	359
			%	24,5	59,1	13,4	3,1	100
Жін.	R регіон	Дальн. В.	Count	26	87	9	6	128
			%	20,3	68	7	4,7	100
		Вост. Сиб.	Count	23	54	6	7	90
			%	25,6	60	6,7	7,8	100
		Зап. Сиб.	Count	40	75	9	7	131
			%	30,5	57,3	6,9	5,3	100
	Усього		Count	89	216	24	20	349
			%	25,5	61,9	6,9	5,7	100

Вживання "BY" в команді CROSSTABS можливо до 10 разів, але й цього достатньо, щоб зайняти всі ресурси комп'ютера.

Якщо ми хочемо отримати в одній команді CROSSTABS кілька незалежних таблиць, то слід відокремлювати списки змінних символом "/":.

CROSSTABS V8 V11 BY V4 V1 / V12 BY V1/cells row. CELLS

Параметр CELLS задає висновок деяких статистик (див. ключові слова параметра CELLS) для клітин таблиці спряженості. "CELLS" перекладається як "клітка". Якщо цей параметр не вказаний, то в клітинах таблиці виводяться тільки абсолютні частоти.

CROSSTABS V1 BY V4 / CELLS = COUNT ROW COLUMN.

Параметри підкоманди / CELLS

COUNT - абсолютне число об'єктів (Nij);

ROW - відсотки по рядку;

COLUMN - відсотки по стовпцю;

TOTAL(Усього) - відсотки по відношенню до всієї вибірці;

EXPECTED - частоти (Eij = Ni. * Nj / N), очікувані в разі незалежності змінних (N - загальна сума частот в таблиці);

RESID - зміна частоти в порівнянні з очікуваним (Nij-Eij);

SRESID - стандартизоване зміна частоти в порівнянні з очікуваним (Nij-Eij) / (корінь з доданка статистики Хі-квадрат, що обчислюється для перевірки гіпотези незалежності);

ASRESID - стандартизоване до нормального розподілу N (0,1) зміна частоти Zij = (Nij-Eij) /? Ij;

ALL - висновок для клітини всіх статистик;

Таблиця 2. Зв'язок "Точки зору на іноземну допомогу" і "Можлив. Задовольнити территор. Вимоги Японії" (частоти і відсотки)

V1 т. зору на іноз. допомогу		V4 Здатність задовольнити територіальні вимоги Японії					Усього
		1 Віддати		2 Не треба	3 Не знаю
Не потрібна	Count		21	143	11	175
	% row		12	81,7	6,3	100
	% col		19,6	27,2	13,9	24,6
Обмежена	Count		57	326	48	431
	% row		13,2	75,6	11,1	100
	% col		53,3	62	60,8	60,5
Потрібна	Count		27	32	14	73
	% row		37	43,8	19,2	100
	% col		25,2	6,1	17,7	10,3
Не знаю	Count		2	25	6	33
	% row		6,1	75,8	18,2	100
	% col		1,9	4,8	7,6	4,6
Усього	Count		107	526	79	712
	% row		15	73,9	11,1	100
	% col		100	100	100	100

Таблиця 2 отримана в результаті перетворення даних та застосування процедури CROSSTABS з параметром CELLS:

recode v4 (1,2 = 1) (3 = 2) (4 = 3) into W4.

var lab W4 "Можливість задовольнити терріторіторіальние вимоги Японії".

Val lab W4 1 "віддати" 2 "не треба" "не знаю".

CROSSTABS / TABLES = v1 BY W4 / CELLS = COUNT ROW col.

Верхній відсоток в клітці відповідає відношенню абсолютного числа об'єктів, що потрапили в цю клітку, до підсумкової суми по рядку. Нижній відсоток відповідає відношенню значення клітини до підсумкової суми по стовпцю. За величиною відсотків, наведених в клітинах, можна порівнювати групи респондентів з розподілу як по "вертикальної" змінної, так і по "горизонтальної".

Зокрема, аналізуючи перший рядок матриці (вона відповідає відповідям тих респондентів, які вважають, що іноземна допомога не потрібна), бачимо, що основна частина - 81.7% цієї групи респондентів проти передачі островів Японії. При цьому їх частка серед тих, хто проти передачі островів, складає всього 27.2%; а основна частина (62.0%) противників передачі островів допускає можливість отримання обмеженою іноземної допомоги. В останньому стовпчику таблиці розташовані підсумки по кожному рядку, які збігаються з розподілом по змінної V1. Так як до виконання команди CROSSTABS, були оголошені невизначені значення v1 і v4, таблиця розраховувалася без їх обліку, тому обсяг вибірки, врахований в таблиці, склав 712 анкет з 721 наявних. Аналогічні дані наведені в рядку TOTAL для стовпців.

Відсотки в Crosstabs дозволяють вивчати взаємозв'язок змінних, а не тільки структуру таблиці. Зокрема, порівнюючи рядки, можна зробити висновок, що більш схильні віддати острова ті, хто вважає, що потрібна допомога східним регіонам (37%), ніж ті, хто вважає, що допомоги не потрібно. Можна взяти в якості точки відліку розподіл в цілому по сукупності (15% всього готові віддати всі або частину островів в середньому по масиву).

Реалізовані в параметрі CELLS статистики дозволяють провести більш складний аналіз зв'язку змінних. Наприклад, у таблиці 3.4 можна побачити, що серед вважають, що іноземна допомога не потрібна, 12% готові віддати острова Японії, а серед вважають, що допомога потрібна - їх 37%. У той же час, в цілому по сукупності 15% готові передати острова. Істотними є відмінності від часток в цілому по сукупності на 3% і 22%? Чи може в наступному обстеженні зв'язок виявитися протилежною? Основою для дослідження зміщення вибірки від істинного розподілу служать значення, очікувані в разі незалежності вибірки. Подпараметр EXPECTED параметра CELLS дозволяє вивести в клітинах абсолютні значення частот (Nij), очікуваних в разі незалежності відповідних клітці значень змінних. Відхилення (Nij-Eij) спостерігається частоти від очікуваної - більш зручна величина для аналізу: вона досить наочна, але неясно, наскільки вона статистично значуща.

Більш корисна статистика Zij = (Nij-Eij) /? Ij - стандартизоване зсув частоти; Zij видається в клітці при вказівці подпараметра ASRESID (Adjusted residuals). Іншими словами, Zij являє собою відхилення спостережуваної частоти від очікуваної, виражений в кількості стандартних відхилень. При цьому стандартне відхилення обчислюється виходячи з припущення, що Nij це випадкова величина, що має гипергеометрическое розподіл:

Якщо змінні незалежні, то, при великих N, випадкова величина Zij має нормальний розподіл з параметрами (0,1). Для неї практично неймовірно відхилення, більше трьох стандартних відхилень, тому що ймовірність такого значення складає менше 0.0027 (правило "трьох сигм"). Тому, якщо ми отримуємо значення Zij, що перевищує 3, то можемо вважати, що i-е значення і j-е значення X і Y пов'язані. На практиці нерідко, коли аналізіруетсся єдина клітина таблиці, виставляються більш слабкі вимоги. Істотними вважаються односторонні відхилення, які перевищують 1,65? Ij - імовірність їх отримання становить 5%. Таким чином, починаючи з відхилення 1,65? Ij і більшого, можна вже висловлювати гіпотезу про існування зв'язку між значеннями (див. таблицю нормального розподілу в будь-якому статистичному довіднику). Емпіричним критерієм, коли розподіл Zij близьким до нормального, слід вважати є співвідношення для дисперсії. Хоча останнє обмеження досить жорстко.

Слід зауважити, що насправді ми маємо справу з безліччю статистик значимості і, при переборі їх, велика ймовірність випадково отримати їх значення, що перевищують зазначені пороги. Якби клітини були незалежні, при критичному значенні статистики Zij, рівному 1.96 (5% рівень значимості) ми в середньому в умовах незалежності даних знаходили б 5 "значущих" з 100 клітин таблиці, а хоча б одну статистику, Zij> 1.96 ми можемо отримати з імовірністю (1-0.95100) = 0. = (1-0.95 ^ 100) * 100 9941! Тому склалася практика керуватися відхиленням 1.65? Ij оберігає нас тільки від грубих помилок.

<<< < Предыдущая 1 23 / 33

Соседние файлы в папке Лекции

#
23.03.2015207.74 Кб124SociometryPro.docx
#
23.03.201538.34 Кб41SPSS.docx
#
23.03.2015131.4 Кб34Statistica.docx
#
23.03.2015144.55 Кб23Vortex.docx
#
23.03.2015303.5 Кб15Евриста.docx
#
23.03.201546.46 Кб22Лекція 1.docx
#
23.03.2015343.25 Кб28Оса.docx