
- •Оглавление
- •Часть I
- •Глава 4. Первичные описательные статистики 40
- •Глава 5. Нормальный закон распределения и его
- •Глава 6. Коэффициенты корреляции 64
- •Глава 10. Корреляционный анализ 147
- •Глава 11. Параметрические методы сравнения двух
- •Глава 12. Непараметрические методы сравнения
- •Глава 14. Назначение и классификация многомерных
- •Глава 1
- •Глава I. Генеральная совокупность и выборка
- •Часть I. Основы измерения и количественного описания данных
- •Глава 2 измерения и шкалы
- •Часть I. Основы измерения и количественного описания данных
- •Глава 2. Измерения и шкалы
- •Часть I. Основы измерения и количественного описания данных
- •Глава 2. Измерения и шкалы
- •Часть I. Основы измерения и количественного описания данных
- •Глава 2. Измерения и шкалы
- •Глава 3
- •Глава 3. Таблицы и графики Та блица 3.1 х3,-— самооценка до тренинга (порядковый),
- •Часть I. Основы измерения и количественного описания данных
- •Часть I. Основы измерения и количественного описания данных
- •Часть I. Основы измерения и количественного описания данных
- •Глава 3. Таблицы и графики
- •Часть I. Основы измерения и количественного описания данных
- •Глава 3. Таблицы и графики
- •Глава 4
- •Глава 4. Первичные описательные статистики
- •Часть I. Основы измерения и количественного описания данных
- •Глава 4. Первичные описательные статистики
- •Часть I. Основы измерения и количественного описания данных
- •Глава 4. Первичные описательные статистики
- •Часть I. Основы измерения и количественного описания данных
- •Часть I. Основы измерения и количественного описания данных
- •Глава 5
- •Часть I. Основы измерения и количественного описания данных
- •Глава 5. Нормальный закон распределения и его применение
- •Часть I. Основы измерения и количественного описания данных
- •Глава 5. Нормальный закон распределения и его применение
- •Часть I. Основы измерения и количественного описания данных
- •Глава 5. Нормальный закон распределения и его применение
- •Часть I. Основы измерения и количественного описания данных
- •Глава 5. Нормальный закон распределения и его применение
- •Часть I. Основы измерения и количественного описания данных
- •Глава 5. Нормальный закон распределения и его применение
- •Часть I. Основы измерения и количественного описания данных
- •Глава 5. Нормальный закон распределения и его применение
- •Часть I. Основы измерения и количественного описания данных
- •Глава 5. Нормальный закон распределения и его применение
- •Глава 6
- •Глава 6. Коэффициенты корреляции
- •Часть I. Основы измерения и количественного описания данных
- •Часть I. Основы измерения и количественного описания данных
- •Глава 6. Коэффициенты корреляции
- •Часть I. Основы измерения и количественного описания данных
- •Глава 6. Коэффициенты корреляции
- •Часть I. Основы измерения и количественного описания данных
- •Глава 6. Коэффициенты корреляции
- •Часть I. Основы измерения и количественного описания данных
- •Глава 6. Коэффициенты корреляции
- •Часть I. Основы измерения и количественного описания данных
- •Глава 6. Коэффициенты корреляции
- •Часть I. Основы измерения и количественного описания данных
- •Глава 6. Коэффициенты корреляции
- •Глава 6. Коэффициенты корреляции
- •Часть I. Основы измерения и количественного описания данных
- •Глава 6. Коэффициенты корреляции
- •Часть I. Основы измерения и количественного описания данных
- •Часть I. Основы измерения и количественного описания данных
- •Глава 6. Коэффициенты корреляции
- •Часть I. Основы измерения и количественного описания данных
Часть I. Основы измерения и количественного описания данных
Для более полной интерпретации полезны соотношения между величиной х-Кендалла и вероятностью отдельно совпадений и инверсий:
т-Кендалла кажется более простым в вычислительном отношении. Однако при возрастании численности выборки, в отличие от л-Спирмена, объем вычислений х-Кендалла возрастает не пропорционально, а в геометрической прогрессии. Так, при N=12 необходимо перебрать 66 пар испытуемых, а при N = 48 — уже 1128 пар, т. е. объем вычислений вбзрастает более, чем в 17 раз.
Отметим важную особенность ранговых коэффициентов корреляции. Для метрической корреляции r-Пирсона значениям +1 или —1 соответствует прямая или обратная пропорция между переменными, что графически представляет собой прямую линию. Максимальным по модулю ранговым корреляциям (+1, —1) вовсе не обязательно соответствуют строгие прямо или обратно пропорциональные связи между исходными переменными Хи Y: достаточна лишь монотонная функциональная связь между ними. Иными словами, ранговые корреляции достигают своего максимального по модулю значения, если большему значению одной переменной всегда соответствует большее значение другой переменной (+1) или большему значению одной переменной всегда соответствует меньшее значение другой переменной и наоборот (—1).
Проблема связанных (одинаковых) рангов
В измерениях часто встречаются одинаковые значения. При их ранжировании возникает проблема связанных рангов (Tied Ranks). В этом случае действует особое правило ранжирования: объектам с одинаковыми значениями
приписывается один и тот же, средний ранг. Например, когда эксперт не может установить различие между двумя лучшими образцами товара, им приписывается одинаковый ранг: (1 + 2)/2 = 1,5. Это сохраняет неизменной сумму рангов для выборки объемом N: N(N + l)/2.
При наличии одинаковых (связанных) рангов формулы ранговой корре-
80
Глава 6. Коэффициенты корреляции
ляции Спирмена (6.6) и Кендама (6.7и 6.8) не подходят. Хотя сумма рангов и не меняется, но изменчивость данных становится меньше. Соответственно, уменьшается возможность оценить степень связи между измеренными свойствами. При использовании корреляции Спирмена в случае связанных рангов возможны два подхода:
если связей немного (менее 10% для каждой переменной), то вычис лить r-Спирмена приближенно по формуле 6.6;
при большем количестве связей применить к ранжированным данным классическую формулу /"-Пирсона 6.1 — это всегда позволит опреде лить ранговую корреляцию независимо от наличия связей в рангах.
При использовании корреляции х-Кендалла в случае наличия связанных рангов в формулу вносятся поправки, и тогда получается общая формула для вычисления т. коэффициента корреляции хь-Кендалла (Kendall's tau-b) независимо от наличия или отсутствия связей в рангах:
P-Q
'-l)/2]-Kxyj[N(N-l)/2]-Ky ' (6'9)
где х = (1/2)У/■(/■-1) (' — количество групп связей по X,ft — численность каждой группы); х = (1/2)У/(/)-1) (/ — количество групп связей по У,/ — численность каждой группы).
ПРИМЕР 6.6
Супруги X и Y ранжировали 8 жизненных ценностей по степени предпочтения. Данные представлены в таблице:
Ценности |
Ранги X |
Ранги Y |
Р (совпадения) |
Q(инверсии) |
Здоровье |
1 |
1 |
7 |
0 |
Любовь |
2 |
3 |
4 |
0 |
Богатство |
4 |
3 |
3 |
0 |
Свобода |
4 |
3 |
3 |
0 |
Мудрость |
4 |
5 |
3 |
0 |
Познание |
6 |
7 |
0 |
0 |
Развитие |
7 |
7 |
0 |
0 |
Творчество |
8 |
7 |
0 |
0 |
|
|
|
2 = 20 |
|
В качестве меры согласованности предпочтений супругов вычислим корреляцию т4-Кендалла, так как наблюдаются связи в рангах: одна группа из трех рангов по Хи две группы по три ранга по Y.
Обратите внимание на подсчет совпадений для объектов, попадающих в «связки». Например, для объекта «Богатство» пропускаются два ниже находящихся объекта, как имеющие одинаковые с ним ранги по X.
81
КОРРЕЛЯЦИЯ БИНАРНЫХ ДАННЫХ
Как отмечалось ранее, если одна из двух переменных представлена в номинативной шкале, а другая — в числовой (ранговой или метрической), то связь между этими переменными лучше изучать путем сравнения групп по уровню выраженности числовой переменной.
ПРИМЕР
Предположим, исследуется связь количества пропущенных лекций студентами и курса обучения (с 1-го по 5-й). Первая переменная — метрическая, а вторая — номинативная. Связь между этими переменными может быть изучена путем сравнения разных курсов по количеству пропущенных лекций (по средним значениям). Если будут обнаружены различия между курсами, то посещаемость лекций связана с курсом обучения, в противном случае — связи нет.
То же касается проблемы изучения связи между двумя номинативными переменными. Хотя и для этого случая существуют коэффициенты корреляции (К— Чупрова, С — Пирсона), но возможность их интерпретации весьма ограничена, в частности потому, что они отражают лишь силу связи, но не ее направление. Поэтому и в этом случае проблему связи между двумя номинативными переменными лучше изучать путем сравнения градаций одной переменной по распределению другой переменной.
ПРИМЕР
П редположим, исследуется связь агрессивности учащихся (три градации: низкая, средняя, высокая) и образования их родителей (среднее, высшее техническое, высшее гуманитарное). Результаты исследования связей двух номинативных переменных обычно представляются в виде таблицы сопряженности:
Агрессивность |
Образование родителей |
||
Среднее |
Высш. технич. |
Высш. гуманит. |
|
Низкая |
15 |
10 |
12 |
Средняя |
18 |
15 |
14 |
Высокая |
10 |
8 |
7 |
82