- •Учебное пособие
- •Введение
- •Этапы проведения научного исследования
- •Получение качественной эмпирической информации
- •Генерализуемость
- •Процедура формирования репрезентативной выборки
- •Объем выборки
- •Краткие характеристики выборок разного объема
- •Гендерное распределение показателя
- •Направления анализа эмпирических данных
- •Измерение и его уровни
- •Частотное распределение по уровням образования
- •Частотное распределение уровня образования
- •Частотное распределение уровня образования
- •Частотное распределение уровня образования
- •Шкала равных интервалов Терстоуна
- •Распределение судейских оценок для высказывания
- •Свойства измерительных шкал разного уровня
- •Нормальное распределение
- •Описательная статистика
- •Описательная статистика
- •Статистические критерии
- •Возможности и ограничения статистических критериев1
- •Распределение эмпирических данных по уровням
- •Теоретическое случайное и независимое распределение
- •Сопоставление двух распределений
- •Алгоритм
- •Сферы применения основных статистических критериев
- •Дисперсионный анализ
- •Эмпирические данные для обсуждения дисперсионного анализа
- •Диаграмма 1. "Ящик с усами"
- •Результаты дисперсионного анализа
- •Взаимосвязь параметров и корреляции
- •Л инейная функци-ональная связь
- •Эмпирические частоты
- •Теоретические частоты
- •Измерение связи и значимости для числовых
- •Эмпирические данные для показателей а и в
- •Многомерные методы анализа эмпирической информации
- •Кластерный анализ
- •Факторный анализ
- •Для теста Леонгарда-Шмишека
- •Собственные значения для факторов
- •Факторное решение после вращения
- •Построение прогнозных моделей в психологии
- •Регрессионные модели
- •Дискриминантные модели
- •Основные способы статистического анализа эмпирических данных
- •Компьютерный анализ данных
- •Литература
- •119606 Москва, пр-т Вернадского, 84
Эмпирические частоты
|
Мужчины |
Женщины |
Итого |
Курят |
30 |
10 |
40 |
Не курят |
10 |
50 |
60 |
Итого |
40 |
60 |
100 |
В таблице 19 в строке и графе "итого" расположены маргинальные частоты. В клетках самой таблицы приводятся частоты в абсолютных единицах, которые можно пересчитать в долях по строке и столбцу (в %). Смысл вычисления таких долей можно проиллюстрировать на примере выделенной клетки таблицы (на пересечении графы "мужчины" и строки "не курят". Если проценты определяются по столбцу (т. е., за 100% принимается число всех мужчин), то можно сказать, что среди мужчин не курят только треть (33%). При расчете процентов по строке (за 100% принимается число всех некурящих), получится совсем другое утверждение: среди некурящих доля мужчин составляет 17%.
В рассмотренной таблице приводятся эмпирические, наблюдаемые частоты. Видно, что есть зависимость между полом и курением – мужчины курят чаще женщин. Но может быть это случайность? Рассмотрим теперь, как выглядела бы таблица, если бы зависимости между полом и курением не было (см. табл. 20).
Таблица 20
Теоретические частоты
|
Мужчины |
Женщины |
Итого |
Курят |
16 |
24 |
40 |
Не курят |
24 |
36 |
60 |
Итого |
40 |
60 |
100 |
В ячейках таблицы 20 приводятся теоретические частоты, рассчитанные на основании информации о маргинальных частотах в исходной таблице эмпирических частот (см. табл. 19). Идея вычисления коэффициента взаимосвязи на базе критерия "хи-квадрат" состоит в том, что если связи между полом и курением нет, то эмпирические частоты должны мало отличаться от теоретических. Если связь есть, то и различие будет велико. Для расчета величины различий будем сопоставлять таблицы эмпирических и теоретических частот по клеткам. Возведение в квадрат разности их значений используется для того, чтобы не учитывать знак. По каждой клетке таблицы подсчитывается величина: (Частота эмпирическая – Частота теоретическая)2/ Частота теоретическая.
Полученные значения складываются для всех клеток таблицы и получается величина "хи-квадрат". Для рассматриваемого примера:
(30 – 16)2/16 + (10 – 24)2/24 + (10 – 24)2/24 +(50 – 36)2/36 = 142/16 + 142/24 + 142/24 + 142/36 = 12,25 +8,2 + 8,2 + 5,4 = 30,5
Итак, величина "хи-квадрат" равна 30,5. Много это или мало? Отметим сначала, что она зависит от размера таблицы. Чем больше в таблице клеток, тем больше слагаемых в "хи-квадрат" и тем больше будет его величина. Поэтому вводится понятие числа степеней свободы (обозначается как df, их смысл – число независимых друг от друга ячеек в таблице сопряженности). Для рассматриваемой таблицы оно равно (число строк –1)·(число столбцов – 1), т. е. 1 для нашего примера.
Кроме того, оценка величины "хи-квдрат" зависит от зафиксированного исследователем уровня значимости. Тогда для уровня значимости 1% или 5% по специальным таблицам определяется критические значения критерия "хи-квадрат". Для 1% уровня значимости это 6,63, для 5% – 3,84.
Как видно, в любом случае эмпирическая величина "хи-квадрат" превышает критические значения. Следовательно, можно утверждать, что различия между таблицами эмпирических и теоретических частот достаточно велики. Содержательно это означает, что доказана и измерена статистически значимая взаимосвязь между полом и курением.
Важное достоинство такого измерения взаимосвязи между номинальными признаками состоит в том, что одновременно с взаимосвязью оценивается ее значимость. Неудобство коэффициента "хи-квадрат" состоит в том, что он не нормирован сверху. Т. е., для таблиц большой размерности он неограниченно возрастает, поэтому применяют другие коэффициенты, основанные на этом критерии, но нормированные. Это коэффициент контингенции (средней квадратичной сопряженности, обозначается С) и коэффициент Пирсона (обозначается Р). Оба эти коэффициента рассчитываются в программе Statistica по следующим формулам.
,
где φ2
= χ2/N,
N
– объем
выборки (число случаев).
Этот коэффициент равен 0 при отсутствии связи; чем сильнее связь, тем больше С, однако максимальное значение С не всегда достигает 1.
, где N
– объем
выборки (число случаев).
Коэффициент Пирсона равен 0 при отсутствии связи между признаками, однако его максимальная величина зависит от числа градаций этих признаков и силы их взаимосвязи.
В других статистических пакетах могут встретиться иные коэффициенты:
Чупрова (принимает значения от 0 до 1, 1 достигается только при полной связи и квадратной матрице сопряженности);
Крамера (принимает значения от 0 до 1, достигает своих крайних пределов вне зависимости от формы матрицы связи).
Для оценки уровня значимости для всех перечисленных коэффициентов (контингенации, Пирсона, Чупрова и Крамера) используют критерий "хи-квадрат".
Измерение связи и значимости для порядковых переменных
В качестве коэффициента связи применяют коэффициент G (гамма), показывающий какова степень, до которой ранжирование случаев одной порядковой переменной может быть определено при условии знания рангов случаев другой порядковой переменной.
Коэффициент (G) рассчитывается по следующему принципу.
В ранжировании объектов (случаев) по двум порядковым признакам возможны два варианта:
– случаи ранжируются в одном и том же порядке для обеих признаков – наблюдается полное согласие; в этом случае G положительна и приближается к "+1";
– случаи расположены в прямо противоположном порядке (большим значениям для одного признака соответствуют меньшие значения другого). Это ситуация полной инверсии. При этом G отрицательна и приближается к "–1". Если G = 0, то связи нет.
Для расчета коэффициента используется следующая формула
G = (fa – fi)/(fa + fi),
где fa – частота согласия в ранжировании двух переменных; fi – частота инверсий в ранжировании двух переменных.
Значимость величины коэффициента гамма можно определить или по значимости соответствующего "хи-квадрата", или на основе стандартной оценки zG.
Если zG > ±1645, то доверительный уровень 0,05.
Если zG > ±2326, то доверительный уровень 0,01.
Другим распространенным, особенно в психологии, коэффициентом для порядковых шкал является коэффициент ранговой корреляции Спирмена (обычно обозначается ρ).
Он рассчитывается следующим образом. Все объекты выборки могут быть упорядочены как по зависимой переменной (признак А), так и по независимой (признак В). Пусть Rа – ранг нашего объекта по признаку А, Rв – его же ранг по признаку В. Тогда мерой несовпадения рангов служит величина d = Rа – Rв. Во избежания эффекта взаимной компенсации при сложении d для разных объектов перед сложением произведем возведение в квадрат. В итоге получим суммарное рассогласование ранжирований в виде: Σd2. Желательно, чтобы рассогласование было пронормировано так, чтобы при совпадении всех рангов итоговый коэффициент был равен +1; при обратной направленности ранговых рядов коэффициент должен обратиться в -1. Для вычисления коэффициента Спирмена можно применять формулу:
р = 1 – 6·Σd2/n(n2-1),
где n – число объектов в выборке.
При вычислении коэффициента Спирмена была использована арифметическая операция вычитания и сложения. Вообще говоря, для чисто ранговых шкал – эта операция недопустима. Однако исторически коэффициент Спирмена нашел широкое применение, поэтому его относят скорее не к ранговым, а к промежуточным между ранговыми и интервальными шкалами.
Приведем пример. Пусть проведено психологическое исследование на выборке из девяти человек и определены индексы "силы" (интегральная характеристика, на основе опроса экспертов) и "симпатичности" (как внешнего признака, на основе опроса сослуживцев) для каждого из них (данные условны).
Таблица 21
Взаимосвязь силы и симпатичности
Имя обследуемого |
Индекс силы |
Ранг по силе |
Индекс симпатичности |
Ранг по симпатичности |
d |
D2 |
_575В |
0,38 |
7 |
13,0 |
4 |
3 |
9 |
Г |
0,35 |
8 |
17,1 |
3 |
5 |
25 |
Д |
0,24 |
9 |
37,1 |
1 |
8 |
64 |
Е |
0,39 |
6 |
19,9 |
2 |
4 |
16 |
Ж |
0,59 |
4 |
7,9 |
6 |
2 |
4 |
З |
0,69 |
3 |
6,6 |
7 |
4 |
16 |
И |
0,76 |
2 |
6,1 |
9 |
7 |
46 |
К |
0,77 |
1 |
6,4 |
8 |
7 |
49 |
На основании формулы для коэффициента Спирмена определяем:
р = 1 – 6·219/8·9·10 = –0,825
Таким образом, полученный выше коэффициент Спирмена говорит о сильной обратной зависимости между "силой" и "симпатичностью" обследуемых. С точки зрения психологии это можно интерпретировать как положение "сильный не нуждается в том, чтобы завоевывать симпатии окружающих".
Кроме того, для определения взаимосвязи ранговых показателей можно использовать коэффициент Кендэла (обозначается как τ). Этот коэффициент опирается только на понятия "больше – меньше".
Принцип его расчета состоит в следующем. Из эмпирической выборки объема n можно выбрать все возможные пары объектов. Всего таких пар Сn2 – число сочетаний из n по 2, т. е.:
Сn2= n·(n-1)/2.
В этих парах известны ранги объектов по признаку А и признаку В. Если для конкретной пары порядок объектов по признакам А и В совпадает, то припишем этой паре +1, если порядок противоположен, то –1. Пусть среди всех пар, пары с приписанными +1 составят Р штук, а пары с приписанными -1 – Q штук, тогда коэффициент Кендэла τ вычисляется по следующей формуле:
τ = (P – Q)/(0,5·n·(n-1)).
В случае совпадения порядков рангов всех объектов по обеим признакам τ = +1. При обратном порядке τ = -1.
В частности, для примера с взаимосвязью "силы" и "симпатности", коэффициент Кендэла составит τ = – 0,72.
Компьютерные программы обычно вместе с величиной соответствующих ранговых коэффициентов корреляции рассчитывают и уровень их значимости, обозначаемый как р. При ручном расчете рассматриваемых коэффициентов можно или использовать специальные таблицы уровней значимости (они имеются для базовых коэффициентов), или подсчитать величину критерия "хи-квадрат" для соответствующих эмпирических данных и его величину взять в качестве (довольно грубой) оценки уровня значимости.
