Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ГОСЭКЗАМЕНЫ.docx
Скачиваний:
46
Добавлен:
23.03.2015
Размер:
2.82 Mб
Скачать

Коэффициент корреляции Пирсона

Линейный корреляционный анализ позволяет установить прямые связи между переменными величинами по их абсолютным значениям. Формула расчета коэффициента корреляции построена таким образом, что если связь между признаками имеет линейный характер, коэффициент Пирсона точно устанавливает тесноту этой связи. Поэтому он называется также коэффициентом линейной корреляции Пирсона.

В общем виде формула для подсчета коэффициента корреляции такова:

где - значения, принимаемые переменной X,

 - значения, принимаемые переменой Y,

 - средняя по X,

 - средняя по Y.

Расчет коэффициента корреляции Пирсона предполагает, что переменные и распределены нормально.

Даная формула предполагает, что из каждого значения переменной X, должно вычитаться ее среднее значение . Это не удобно, поэтому для расчета коэффициента корреляции используют не данную формулу, а ее аналог, получаемый с помощью преобразований:

Используя данную формулу, решим следующую задачу:

Пример: 20 школьникам были даны тесты на наглядно-образное и вербальное мышление. Измерялось среднее время решения заданий теста в секундах. Психолога интересует вопрос: существует ли взаимосвязь между временем решения этих задач? Переменная X - обозначает среднее время решения наглядно-образных, а переменная Y - среднее время решения вербальных заданий тестов.

Для решения данной задачи представим исходные данные в виде табл. 12, в которой введены дополнительные столбцы, необходимые для расчета по формуле

В табл. 12 даны индивидуальные значения переменных X и Y, построчные произведения переменных X и Y, квадраты переменных всех индивидуальных значений переменных X и Y, а также суммы всех вышеперечисленных величин.

Таблица 12

№ испытуемых

X

Y

Y

X

Y

 

Среднее время решения наглядно-образных заданий

Среднее время решения вербальных заданий

 

 

 

1

19

17

323

361

289

2

32

7

224

1024

49

3

33

17

561

1089

289

4

44

28

1232

1936

784

5

28

27

756

784

729

6

35

31

1085

1225

961

7

39

20

780

1521

400

8

39

17

663

1521

289

9

44

35

1540

1936

1225

10

44

43

1892

1936

1849

11

24

10

240

576

100

12

37

28

1036

1369

784

13

29

13

377

841

169

14

40

43

1720

1600

1849

15

42

45

1890

1764

2025

16

32

24

768

1024

5760

17

48

45

2160

2304

2025

18

42

26

1092

1764

676

19

33

16

528

1089

256

20

47

26

1222

2209

676

Сумма

731

518

20089

27873

16000

Рассчитываем эмпирическую величину коэффициента корреляции по формуле:

Определяем критические значения для полученного коэффициента корреляции по табл. 19 приложения 6.

Отметим, что в табл. 19 приложения 6 величины критических значений коэффициентов линейной корреляции Пирсона даны по абсолютной величине. Следовательно, при получении как положительного, так и отрицательного коэффициента корреляции по формуле оценка уровня значимости этого коэффициента проводится по той же таблице приложения без учета знака, а знак добавляется для дальнейшей интерпретации характера связи между переменными X и Y.

При нахождении критических значений для вычисленного коэффициента корреляции Пирсона число степеней свободы рассчитывается как .

В нашем случае k = 20, поэтому n - 2 = 20 - 2 = 18. В первом столбце табл. 19 приложения 6 в строке, обозначенной числом 18, находим :

0,44 для P 0,05

0,56 для P 0,01

Строим соответствующую ``ось значимости'':

Ввиду того, что величина расчетного коэффициента корреляции попала в зону значимости - отвергается и принимается гипотеза . Иными словами, связь между временем решения наглядно-образных и вербальных задач статистически значима на 1% уровне и положительна. Полученная прямо пропорциональная зависимость говорит о том, что чем выше среднее время решения наглядно-образных задач, тем выше среднее время решения вербальных и наоборот.

Для применения коэффициента корреляции Пирсона, необходимо соблюдать следующие условия:

Сравниваемые переменные должны быть получены в интервальной шкале или шкале отношений.

Распределения переменных X и Y должны быть близки к нормальному.

Число варьирующих признаков в сравниваемых переменных X и Y должно быть одинаковым.

Таблицы уровней значимости для коэффициента корреляции Пирсона (таблица 19 приложения 6) рассчитаны от n = 5 до n = 1000. Оценка уровня значимости по таблицам осуществляется при числе степеней свободы k = n - 2.

Корреляционная матрица представляет собой симметричную квадратную матрицу размером M*M, где М – число исследуемых факторов, главная диагональ которой заполнена единицами (или нулями для удобства дальнейшего анализа), а недиагональные элементы представляют собой меру тесноты связи между парой факторов (коэффициент корреляции, корреляционное отношение, модифицированный индекс Фехнера и т.д.). Другими словами, для заполнения корреляционной матрицы необходимо найти меру тесноты связи для каждой пары факторов, то есть, провести корреляционный анализ таблицы исходных данных по принципу «каждый с каждым» любым известным способом (например, по методу Чебышева).

На практике часто встречаются случаи грубых промахов парных выборок, выявить которые очень сложно, а также заметные отклонения факторов от нормального закона распределения. Применение в этих условиях классического корреляционного анализа с мерой тесноты связи в виде коэффициента корреляции требует известной осторожности, так как на фоне большого рассеивания исходных данных нелегко решить, принадлежит ли конкретная пара чисел исследуемой двумерной совокупности или представляет собой грубый промах. В сомнительных случаях (обе случайные величины не распределены по нормальному закону распределения; есть подозрение, что парная выборка может содержать грубые промахи) рекомендуется в качестве меры тесноты связи использовать модифицированный индекс Фехнера. Модифицированный индекс Фехнера, конечно, менее точен, чем коэффициент корреляции, но только в отсутствие грубых промахов и искажения закона распределения. Даже при одном грубом промахе коэффициент корреляции значительно меняется, давая неправильный результат, в то же время как модифицированный индекс Фехнера, основанный на одной из самых робастных (устойчивых к изменению исходных условий) оценок математической статистики – на средней арифметической – дает результат значительно ближе к истинному. Безусловно, если одна или обе случайные величены являются дискретными или варьируются на большом числе уровней, то следует в качестве меры тесноты корреляционной связи выбрать подходящую из богатого арсенала мер, частично описанных в разделе 2.1.

Непосредственный анализ корреляционной матрицы представляет значительную трудность, так как корреляционные связи между факторами образуют деревья, цепи, циклы и другие фигуры графов. Для выделения главных зависимостей сдует прибегнуть к одному из методов анализа таких матриц, простейшим из которых является метод корреляционных плеяд.

Метод заключается в том, что в корреляционной матрице находится недиагональный элемент с максимальной по модулю величиной |rij|=max. Из матрицы вычеркиваются столбцы с номерами i и j, а из строк с номерами i и jвыбирается следующий максимальный по модулю элемент, например |ril|. Столбец с номером l вычеркивается, а из строк с номерами i, j и l выбирается следующий максимальный по модулю элемент, и так далее до исчерпания данных.

Результат такой работы удобно представить на рисунке в виде графа, вершинами которого являются факторы, ребрами – максимальные связи, причем длины ребер обратно пропорционально величине соответствующей коэффициентов корреляции. Выбрав некоторое пороговое значение коэффициента корреляции, например |rпор|=0.5, можно отделить по этому признаку плеяды друг от друга.

Внутри каждой плеяды связь между факторами признается тесной, а между плеядами – слабой. Это означает, что если от каждой плеяды выбрать по одному представителю, то новое общее количество факторов, сокращенное до количества плеяд, будет нести об исследуемом объекте практически ту же информацию, что и раньше. При этом факторы новой таблицы данных будут слабо коррелированными между собой, что является одним из главных условий перехода к математическому моделированию.

Корреляционная матрица - таблица, в которой представлены коэффициенты корреляции между всеми исследуемыми переменными.

2. Структурограмма - форма графического представления результатов корреляционного анализа взаимосвязи переменных, являющихся частью психологической структуры или системы (компоненты психологической структуры интеллекта, компоненты психологической системы деятельности, компоненты структуры профессионально важных качеств и т.п.).

3. Коррелограмма (корреляционная плеяда) - форма графического представления результатов корреляционного анализа взаимосвязи переменных, не являющихся частью психологической структуры или системы на уровне качественного анализа или теоретических представлений того или иного ученого.

Файлы-примеры:

1. Файл SPSS 42 ДЗ.

2. Файл SPSS 43 ДЗ.

3. Файл SPSS 44 ДЗ.

4. Файл SPSS 45 ДЗ.

Результат выполнения заданий: умение интерпретировать и представлять результаты корреляционного анализа в виде корреляционной плеяды.

Интерпретация факторов производится по таблице факторных нагрузок после вращения (таблица "Матрица повернутых компонент") в следующем порядке:

1. По каждой переменной (строке) выделяется наибольшая по абсолютной величине нагрузка - как доминирующая. Если вторая по величине нагрузка в строке отличается от уже выделенной менее чем на 0,2, то и она выделяется, но как второстепенная.

2. После просмотра всех строк - переменных, просмотрите столбцы - факторы. По каждому фактору выписывают наименования (обозначения) переменных, имеющих наибольшие нагрузки по этому фактору. При этом обязательно учитывается знак факторной нагрузки переменной: если знак отрицательный, это отмечается как противоположный полюс фактора. 3. После такого просмотра всех факторов каждому из них присваивается наименование, обобщающее по смыслу включенные в него переменные.

Если трудно подобрать термин из соответствующей теории, допускается наименование фактора по имени переменной, имеющей по сравнению с другими наибольшую нагрузку по этому фактору.

Пример описания результатов ФА:

Корреляционные плеяды

Все чаще и чаще от студентов требуют в курсовых и дипломных работах строить корреляционные плеяды (корреляционные графы). Плеяды становятся неотъемлемой частью корреляционного исследования, необходимым условием того, что работа будет благосклонно принята научным руководителем и успешно пройдет защиту.

Данная тенденция, очевидно, связана с тем, что сейчас не составляет особого труда рассчитывать  огромные корреляционные матрицы, отвечающие за  взаимосвязи между исследуемыми параметрами. Множество найденных корреляций не всегда легко описать, сложно выделить важное и отбросить лишнее.  Зачастую подсчитав корреляции, сложно понять с чего начать, собственно, анализ результатов. И тут, как нельзя, кстати, пришлись корреляционные плеяды, которые позволяют графически отобразить все многообразие взаимосвязей.  О плеядах вспомнили те преподаватели и профессора, которые выросли на них,  для которых они являются привычными. Они используют корреляционные плеяды в своих научных работах,  зачастую вручную рисуя их на бумажке ручкой или карандашом, как это делали еще полвека назад.

Пример таких плеяд, можно увидеть, например, тут:

 

По сути, корреляционные плеяды – это способ отображения информации о корреляциях, который помогает их структурировать, проводить объединение коррелирующих факторов.

Здесь стоит сделать небольшое отступление, и рассказать об учебном процессе: еще десятилетие назад никакой такой сложной статистики не требовали от студентов. С начала появления компьютеров в широком использовании, с ростом возможностей текстовых редакторов и электронных таблиц, студенту вполне хватало сравнительного анализа табличных данных, а до компьютерной эры не требовалось и того –  достаточно было одного лишь описания частных случаев, выявления тенденций «на глазок».

Билет26

Статистический критерий — строгое математическое правило, по которому принимается или отвергается та или иная статистическая гипотеза с известным уровнем значимости. Построение критерия представляет собой выбор подходящей функции от результатов наблюдений (ряда эмпирически полученных значений признака), которая служит для выявления меры расхождения между эмпирическими значениями и гипотетическими.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]