Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Metodichka (data analysis) Part 1 / Metodichka (data analysis) Part 1.doc
Скачиваний:
236
Добавлен:
18.05.2015
Размер:
1.12 Mб
Скачать

2. Подсчет коэффициента корреляции Пирсона.

Коэффициент корреляции Пирсона можно посчитать в модуле

Basic Statistics Correlation Matrices

2.1 Загрузим этот модуль Analysis Correlation Matrices Вы попадаете в окно, где можно задать различные условия подсчета коэффициентов корреляции

Выбор переменных:

One variable list (square matrix) – задаем все переменные, которые нас интересуют, в результате получается квадратная матрица корреляций всех переменных со всеми

Two lists (rectang. matrix) – задаем два списка переменных, в результате получается прямоугольная матрица корреляций.

Correlations – кнопка, которую нажимаем в самом конце, когда все условия заданы. Она, как и кнопка ОК, служит для вычисления коэффициентов корреляции.

Display: в этом разделе выбираем тот вид результатов, которые хотим получить.

Corr. matrix (highlight p) – корреляционная матрица в самом компактном виде (значимые коэффициенты корреляции выделены красным цветом)

Corr. matrix (display p and N) – кроме коэффициентов корреляции приведены точные значения уровня статистической значимости для каждого коэффициента и число пар значений, использовавшихся для подсчета; информации больше, но вид у матрицы более громоздкий

Detailed table of results – вывод результатов не в матричной форме; кроме коэффициентов корреляции посчитаны средние значения, стандартные отклонения, коэффициенты детерминации r2, регрессионные коэффициенты и др.

O

ptions (выбираем условия вычислений):

Casewise deletion of MD – если помечено это условие, то из анализа исключаются все (!) испытуемые, у которых нет хотя бы одного показателя; если это условие не помечено, испытуемые исключаются из анализа только тех коэффициентов корреляции, куда входят переменные, у которых не хватает значений

Display long variable names – при выводе результатов указывается длинное имя переменной (или формула, по которой вычислялась переменная), если оно было задано (задать длинное имя можно в том же окне, где и формулу для вычисления переменной: двойной щелчок мыши на название переменной)

Extended precision calculations – повышенная точность вычислений – стоит использовать это условие для «трудных» данных, когда одна или несколько переменных имеют очень маленькие относительные дисперсии (например, стандартное отклонение, деленное на среднее, меньше, чем 0,0000000000001)

Полезными являются также следующие кнопки:

2D Scatterp. – показывает диаграмму рассеяния с коэффициентом корреляции, регрессионной прямой и ее уравнением, а также доверительный эллипс

Matrix – показывает матричную диаграмму рассеяния, по которой можно приблизительно оценить силу и направление связи.

    1. Посчитайте корреляционную матрицу для всех переменных, сначала пометив условие Casewise Deletion of MD, а затем исключив его. Сравните получившиеся матрицы. Есть ли разница?

    2. Теперь посчитайте корреляционную матрицу, отметив условие Corr. matrix (display p and N). Найдите на матрице точные значения уровня статистической значимости коэффициента корреляции. Какой вид матрицы вам нравится больше?

    3. Посчитайте корреляционную матрицу, отметив условие Detailed table of results. Попробуйте найти средние значения и стандартные отклонения для переменных PSYCHOL и FRIEND, а также коэффициенты регрессионной прямой.

    4. Постройте диаграммы рассеяния для переменных PSYCHOL и FRIEND. Проверьте, есть ли на диаграмме выбросы (экстремальные значения). Попробуйте удалить такой выброс и заново построить диаграмму рассеяния. Что изменилось?

    5. Постройте диаграмму рассеяния для всех остальных пар переменных. Оцените направление и силу зависимости. Найдите на графике регрессионную прямую и ее уравнение.

    6. Определите, насколько вы станете лучше как психолог, если ваша самооценка улучшится на 1 балл.

    7. Определите, как изменится размер вашей обуви, если вы вырастете еще на 10 см. А на сколько при этом изменится ваша «завимость-послушность» (значения по шкале 6 теста Лири)?

    8. Проанализируйте зависимость между ростом и средним баллом. Определите, какой у вас будет средний балл на следующей сессии при вашем росте.

    9. Можно ли предсказать средний балл по какой-либо шкале теста Лири?

  1. Подсчет коэффициентов корреляции для шкал порядка.

Если данные у вас непаметрические, то следует считать другие коэффициенты корреляции. Их в программе STATISTICA три:  Спирмена,  Кендалла и G. Наиболее употребительным является коэффициент ранговой корреляции, он же коэффициент корреляции Спирмена. Тау Кендалла эквивалентен коэффициенту корреляции Спирмена по вычислительной мощности, однако отличается от него по величине, потому что логика вычислений и формулы разные. Эти коэффициенты также имеют различные интерпретации. Коэффициент корреляции Спирмена может быть интерпретирован, как и коэффициент корреляции Пирсона, в терминах объясненной дисперсии (разброса данных). Тау Кендалла представляет собой вероятность, т.е. это разность между вероятностью того, что данные двух переменных упорядочены одинаково, и вероятностью того, что данные двух переменных упорядочены по-разному. Гамма (G) предпочтительнее коэффициентов Спирмена и Кендалла, когда данные имеют много связанных наблюдений (одинаковых). По интерпретации Гамма больше похожа на коэффициент корреляции Кендалла (это тоже вероятность)

Все эти коэффициенты корреляции можно посчитать в модуле

Nonparametrics/Distrib. Correlations (Spearman, Kendall tau, gamma)

    1. Загрузите этот модуль через STATISTICA Module Switcher:

и нажмите Correlations (Spearman, Kendall tau, gamma) Вы попадаете в окно, где можно задать различные условия подсчета коэффициентов корреляции

В окошке Correlation можно выбрать тот коэффициент корреляции, который нам нужен ( Спирмена,  Кендалла и G).

В окошке Compute задаем вид, в котором хотим получить результаты:

Detailed report – результаты в виде таблицы, где приведено число пар, использовавшихся для анализа, сам коэффициент корреляции и его точный уровень значимости;

Matrix of two lists – дает корреляционную матрицу двух списков переменных

Square matrix – дает квадратную матрицу интеркорреляций (все переменные со всеми)

    1. Посчитайте корреляционную матрицу, используя коэффициент корреляции Спирмена. Определите значимость коэффициентов корреляции.

    2. Сравните матрицу корреляций Пирсона с матрицей корреляций Спирмена. Какие коэффициенты больше по абсолютной величине? Какой коэффициент корреляции (параметрический или непараметрический) следует использовать для этих данных?

    3. Посчитайте корреляционную матрицу, используя коэффициент корреляции Кендалла. Определите значимость коэффициентов корреляции. Сравните с матрицей коэффициентов Спирмена. Что изменилось?

    4. Посчитайте корреляционную матрицу, используя коэффициент корреляции Гамма. Определите значимость коэффициентов корреляции. Сравните с матрицей коэффициентов Спирмена и Кендалла. Какой из непараметрических коэффициентов корреляции кажется вам наиболее подходящим?

4. Напишите отчет в MS Word, используя таблицы и графики, которые считаете нужными. Этот отчет должен представлять собой анализ и интерпретацию данных для курсовой работы.

  • Для отчета выберите подходящий коэффициент корреляции (Пирсона или Спирмена) и обязательно обоснуйте свой выбор.

  • Если вы исключали из анализа какие-либо данные (например, выбросы), то это должно быть обязательно отмечено в отчете.

  • Обязательно приведите в отчете корреляционную матрицу, укажите уровень статистической значимости коэффициентов корреляции.

  • Обязательно проинтерпретируйте все возможные коэффициенты корреляции. Попробуйте объяснить с психологической точки зрения получившиеся зависимости. Что можно сказать о взаимозависимости личностных и профессиональных качеств?

ТЕМА 4

ПРОВЕРКА ГИПОТЕЗ.

ПРОСТЫЕ ЭКСПЕРИМЕНТАЛЬНЫЕ СХЕМЫ

СПРАВОЧНЫЙ МАТЕРИАЛ.

ПРОВЕРКА ГИПОТЕЗ

Логика проверки статистических гипотез часто вызывает трудности у студентов-психологов, поэтому остановимся на этой теме подробнее.

Предположим, что у вас есть монетка, которую вы регулярно используете для принятия решений. Например, перед вами может стоять вопрос: "Учить мне сегодня вечером статистику или пойти отдохнуть с друзьями? Если выпадет орел, учу статистику, решка  отдыхаю". Через некоторое время вы замечаете, что решение принимается чаще не в вашу пользу, т.е., вы чаще учите статистику, чем отдыхаете. Тогда вы начинаете сомневаться в том, что монетка правильная  нигде не погнулась и не перекосилась. Действительно ли орел выпадает чаще, чем решка? Как это проверить?

Ясно, что истинная пропорция орлов и решек никогда не может быть определена. Вы можете начать бросать монетку уже сейчас и продолжать это крайне интересное занятие миллион лет (если здоровье позволит), но и тогда вы не получите всех возможных исходов. Однако тот факт, что точная пропорция орлов и решек не может быть определена, не помешает нам приблизительно оценить ее. В этом нам поможет статистика.

Чтобы определить, правильная ли монетка, надо получить пример ее "поведения" и на основании этого примера оценить ее правильность. Например, если мы бросим монетку 10 раз, и 5 раз выпадет орел, а 5 раз  решка, то, естественно, мы не станем сомневаться в правильности монеты. А если выпадет 6 раз орел и 4 раза решка? Это тоже совершенно обычный результат. Теория вероятностей говорит, что отклонения от разделения 50:50 встречаются довольно часто (в 75,4% случаев). А если орел выпал 9 раз, а решка  только 1 раз? Это кажется подозрительным, если монета правильная. Почему? Этот вопрос подводит нас к сущности проблемы проверки гипотез.

Чем реже или необычнее некоторое явление, тем более мы склонны искать ему объяснение отличное от простой случайности. Когда в 10 бросках монеты орел выпадает 6 раз, то мы не чувствуем необходимости искать другое объяснение этому факту, кроме того, что "так получилось случайно". Однако когда орел выпал 9 раз из 10, у нас появились сомнения на счет правильности монеты. Выпадение 9 орлов  такой редкий случай (встречается примерно в 1% из всех случаев), что мы начинаем подозревать, что это произошло не случайно, а, возможно, из-за некоторых характеристик монеты.

Где же проходит та граница, которая отделяет наши решения о правильности монеты? Ответ на этот вопрос показывает вероятностный подход к решению проблемы. В социальных науках исследователи согласились, что следующие два значения будут основанием для допущения действия неслучайного фактора:

1) Если некоторое событие происходит случайно в 5% случаев или еще реже, то предполагается, что это происходит благодаря действию некоторых неслучайных факторов. Это значение называется 5%-м уровнем статистической значимости или уровнем статистической значимости, равным 0,05.

2) Если некоторое событие происходит случайно в 1% случаев или еще реже, то предполагается, что это происходит благодаря действию некоторых неслучайных факторов. Это значение называется 1%-м уровнем статистической значимости или уровнем статистической значимости, равным 0,01.

Уровень статистической значимости, установленный исследователями для заключения о действии неслучайных факторов часто называется уровнем  (в более новых книгах он обычно обозначается латинской буквой p). Когда мы говорим о 5% уровне статистической значимости, то р=0,05. Когда мы говорим об 1% уровне статистической значимости, то р=0,01.

Чтобы определить, стóит ли объяснять какое-либо явление действием некоторого неслучайного фактора, надо найти вероятность того, что это явление произойдет случайно и сравнить с выбранным уровнем статистической значимости. Для нашего примера с монеткой вероятность того, что выпадет по крайней мере 9 орлов (или по крайней мере 9 решек) равна 0,022.

Если мы приняли уровень статистической значимости р=0,05, то сделаем вывод, что монета неправильная. Однако, если принять р=0,01, то такого вывода сделать нельзя. В этом случае результат все еще может быть объяснен простой случайностью.

Следует отметить, что приемлемый уровень статистической значимости должен быть определен до проведения исследования.

Дадим теперь несколько формальных определений, которые помогут нам сформулировать идею проверки гипотез.

Нуль-гипотеза  это гипотеза об отсутствии различий (например, девушки такие же умные, как и юноши; монетка правильная).

Альтернативная гипотеза (гипотеза исследования, рабочая гипотеза)  это гипотеза о значимости различий. Альтернативные гипотезы бывают направленные и ненаправленные. Направленные гипотезы указывают направление отношений между переменными (например, девушки умнее, чем юноши; орел выпадает чаще, чем решка). Ненаправленные гипотезы не указывают направление отношений (юноши и девушки отличаются по интеллекту; монетка неправильная).

Нуль-гипотеза никогда не может быть доказана. Например, если выпало точно 5 орлов при 10 бросаниях монеты, разве это докажет, что монета правильная? Ее неправильность, если такая есть, может быть такой небольшой, что мы не сможем определить ее за 10 испытаний. И не важно, сколько раз мы бросаем монету, мы никогда не переберем все возможные исходы. Однако мы делаем вывод, что у нас нет оснований для отвержения гипотезы о правильности монеты. Т.е., хотя ее правильность и не доказана, усомниться в ней нет оснований.

Доказать, что монета неправильная, тоже невозможно прямо. Поэтому рассуждают таким образом. Например, нарисуйте две линии на листе бумаги и определите, одинаковой ли они длины. Вы сравниваете их и говорите: "Ну, конечно, они не равны. Следовательно, они разной длины". Отвергая равенство (нуль-гипотезу), вы утверждаете, что различие существует.

Статистическая логика точно такая же. Мы не можем доказать нуль-гипотезу и не можем доказать альтернативную гипотезу. Однако, если мы можем отвергнуть нуль-гипотезу, то можем принять альтернативную ей. В случае с монеткой если мы отвергаем нуль-гипотезу о том, что монетка правильная, то, следовательно, принимаем, что она неправильная. Обратите внимание, что альтернативная гипотеза всегда подтверждается не прямо, а косвенно. Именно поэтому никогда не пишут, что "гипотеза доказана", а пишут "гипотеза подтверждается".

С другой стороны, так как альтернативная гипотеза не может быть прямо доказана или опровергнута, то мы никогда не сможем доказать нуль-гипотезу, отвергая альтернативную гипотезу. Самое сильное утверждение, которое можно сделать, это утверждение о невозможности отвергнуть нуль-гипотезу.

Когда нуль-гипотеза может быть отвергнута? Это просто. Если вы взяли уровень статистической значимости р=0,05, то вы отвергаете нуль-гипотезу, если данный результат появляется случайно в 5% случаев или еще реже. Если вы взяли уровень статистической значимости р=0,01, то вы отвергаете нуль-гипотезу, если данный результат появляется случайно в 1% случаев или еще реже.

Уровень статистической значимости р представляет собой, таким образом, вероятность неправильного отвержения нуль-гипотезы.

Статистический критерий (критерий)  это случайная величина, закон распределения которой известен и которая служит для проверки нуль-гипотезы. Статистический критерий можно рассматривать как инструмент, позволяющий определить вероятность того, что полученные результаты получились случайно. Если эта вероятность достаточно мала (например, <0,05), то можно сделать вывод о том, что данные результаты получились неслучайно (т.е., отвергнуть нуль-гипотезу). А раз эти результаты получились не случайно, то, видимо, это из-за разницы условий независимой переменной. Например, если мы исследовали физическую агрессивность юношей и девушек, и оказалось, что агрессивность юношей выше, то следует применить статистический критерий, который поможет определить уровень статистической значимости  вероятность того, что такая разница в физической агрессивности, которая есть в нашем исследовании, получилась случайно. Если эта вероятность мала, то, следовательно, разница в агрессивности не случайна. Следовательно, физическая агрессивность зависит от пола испытуемого. Если же эта вероятность достаточно велика, т.е. разница в агрессивности вполне могла получиться случайно, то делается вывод о невозможности отвергнуть нуль-гипотезу о равенстве физической агрессивности юношей и девушек.

Таким образом, не смотря на довольно запутанную логику, процедура проверки гипотез проста. Следует при помощи соответствующего статистического критерия определить уровень статистической значимости р (вероятность того, что полученная вами разница случайна) и сравнить его с заранее выбранным порогом ошибки (например, 0,05). Если p>0,05, то у вас нет оснований для отвержения нуль-гипотезы. Если p0,05, то можно отвергнуть нуль-гипотезу и сделать вывод о том, что предложенная вами гипотеза подтвердилась.

Ошибки I и II рода.

Рассмотрим пример: в общежитии установлена противопожарная система, которая подает сигнал тревоги, когда концентрация дыма достигает определенного уровня.

Возможны четыре ситуации:

Нет пожара

Пожар

Подает сигнал тревоги

Ошибка I рода

Нет ошибки

Нет сигнала тревоги

Нет ошибки

Ошибка II рода

Ошибка I рода  сигнал без пожара, например, когда вы просто приготовили вкусные тосты. Ошибка II рода  пожар без сигнала. Известно, как избежать ошибки I рода  отключить или сломать противопожарную сигнализацию. К несчастью, это приведет к увеличению возможности допустить ошибку II рода.

Точно также и в статистике:

Решение

Нуль-гипотеза

верна

Альтернативная гипотеза верна

Отвержение нуль-гипотезы

Ошибка I рода

Нет ошибки

Принятие нуль-гипотезы

Нет ошибки

Ошибка II рода

Ошибка, состоящая в том, что мы отклонили нуль-гипотезу, в то время как она верна, называется ошибкой I рода. Вероятность такой ошибки обозначается  (или р). Это уже знакомый нам уровень статистической значимости.

Ошибка, состоящая в том, что мы приняли нуль-гипотезу, в то время как она неверна, называется ошибкой II рода. Вероятность такой ошибки обозначается .

Следует помнить, что критерии различаются по мощности. Мощность критерия  это его способность не допустить ошибку II рода. Поэтому

мощность=1-.

Мощность критерия определяется эмпирическим путем.