- •Тема 8. Статистические методы анализа связи
- •8.1. Понятие о статистической и корреляционной связи. Задачи и ограничения корреляционно-регрессионного метода
- •8.2. Измерение и оценка тесноты связи
- •К расчету коэффициента Фехнера
- •К расчету коэффициента Пирсона
- •К расчету коэффициентов ассоциации и контингенции
- •Пороговые значения показателей корреляции
- •8.3. Определение уравнения тесноты связи
8.2. Измерение и оценка тесноты связи
Для принятия эффективных управленческих решений часто необходимо знать, в какой мере социально-экономические явления и процессы связаны между собой. Например, если мы хотим изменить (увеличить или уменьшить) параметры явления, на которое мы не можем воздействовать непосредственно, то можно определить, какие факторы находятся с этим явлением в тесной причинно-следственной связи, и оказывать влияние опосредованно, через изменение параметров, находящихся в сфере нашего влияния. Или, например, необходимо выявить факторные признаки, тесно связанные с результативным признаком, для того чтобы построить уравнение регрессии и иметь возможность прогнозировать значения признака-результата. И в том и в другом случае необходимо определить тесноту связи между признаками, т. е. провести корреляционный анализ.
Процедура корреляционного анализа включает в себя:
построение поля корреляции;
построение корреляционной решетки;
расчет показателей корреляции;
анализ и оценку наличия, направления и тесноты корреляционной связи по графику, группировке и расчетным показателям.
Поле корреляции – это графическое отображение связи между переменными – множество точек, координатами которых являются пары значений признаков по всем единицам совокупности. Анализируя график расположения и концентрации точек на координатном поле, можно сделать предположение о наличии, направлении и тесноте связи между признаками. Кроме того, поле корреляции является эффективным способом деления диапазона изменения признака на интервалы при расчете интервальных показателей тесноты связи (ЭКО, коэффициент детерминации).
Корреляционная решетка – это аналитическая группировка единиц совокупности по двум признакам, между которыми оценивается связь (табл. 8.2).
Таблица 8.2
Зависимость заработной платы рабочих от стажа работы
Стаж, лет |
Заработная плата, тыс. руб./мес. |
||||||
До 5,0 |
5,0–7,5 |
7,5–10,0 |
10,0–12,5 |
12,5–15,0 |
Свыше 15,0 |
Итого |
|
До 5 |
4 |
1 |
– |
– |
– |
– |
5 |
5…10 |
4 |
3 |
1 |
2 |
– |
– |
10 |
10…15 |
– |
– |
– |
2 |
4 |
6 |
12 |
15-20 |
– |
1 |
2 |
3 |
3 |
2 |
11 |
Свыше 20 |
– |
– |
– |
2 |
4 |
6 |
12 |
Итого |
8 |
5 |
3 |
9 |
11 |
14 |
50 |
Анализируя расположение единиц совокупности на поле представленной корреляционной решетки, можно сделать вывод о том, что по направлению связь прямая (с увеличением стажа работы увеличивается и заработная плата) и сделать предположение о наличии корреляционной связи, так как заметна концентрация единиц статистической совокупности по диагонали таблицы.
В расчетной части корреляционного анализа (третий этап) необходимо, прежде всего, выбрать наиболее подходящие для каждой пары признаков показатели корреляции. При выборе показателей корреляции следует проанализировать все множество основных показателей с точки зрения их применимости и целесообразности расчета для конкретной пары признаков. Основные показатели корреляции:
коэффициент корреляции;
эмпирическое корреляционное отношение (ЭКО);
коэффициент детерминации;
коэффициент Спирмена;
коэффициент Кендалла;
коэффициент Фехнера;
коэффициент Пирсона;
коэффициент Чупрова;
коэффициент ассоциации и коэффициент контингенции.
Каждый из перечисленных показателей имеет определенное назначение, область применения, расчетную формулу и особенности интерпретации числовых значений.
Первые три показателя называются параметрическими и предназначены для оценки тесноты связи между количественными признаками. Следующие шесть показателей называются непараметрическими и предназначены для оценки тесноты связи между описательными признаками.
Рассмотрим последовательно особенности каждого показателя.
Коэффициент корреляции:
рассчитывается по формулам:
,
где
и
– индивидуальные значения соответственно
признаков X
и Y;
и
–
средние значения соответственно
признаков X
и Y;
;
;
применяется для оценки тесноты связи между количественными признаками;
измеряет только линейную связь;
диапазон изменения показателя
;
чем ближе по абсолютной величине значение показателя к 1, тем теснее связь между признаками;
знак значения показателя указывает на направление связи: если
>
0, то связь прямая, если
<
0, то связь обратная.
Эмпирическое корреляционное отношение (ЭКО):
рассчитывается по формуле
,
где
и
– соответственно межгрупповая и общая
дисперсии одного из пары признаков (как
правило, результативного);
применяется для оценки тесноты связи между количественными признаками, а также, если количественным является только один из пары признаков;
измеряет тесноту связи любого вида (прямолинейная, параболическая, гиперболическая и т.п.);
при интерпретации числовых значений следует учитывать вариант разбиения на интервалы диапазона значений признака;
диапазон изменения показателя
;
чем ближе значение показателя к 1, тем теснее связь между признаками.
Коэффициент детерминации:
рассчитывается по формуле
;
является квадратом ЭКО, следовательно, имеет те же особенности применения (см. п. 2);
имеет очевидную логическую интерпретацию: показывает долю вариации одного признака, обусловленную вариацией другого признака.
Коэффициент Спирмена:
рассчитывается по формуле
,
где
– разность рангов
i-тых
значений признаков Х
и Y
(ранг
– это
порядковый номер значения признака в
упорядоченной по возрастанию
последовательности значений признака);
n
– количество единиц в выборке;
является коэффициентом корреляции рангов значений признаков;
может быть рассчитан только для тех признаков, значения которых поддаются ранжированию.
не выявляет наличие связи при немонотонной зависимости между признаками;
диапазон изменения показателя ;
чем ближе по абсолютной величине значение показателя к 1, тем теснее связь между признаками;
знак значения показателя указывает на направление связи: если
>
0, то связь прямая, если
<
0, то связь обратная.
Коэффициент Кендалла:
рассчитывается по формуле
,
где S – сумма положительных и отрицательных баллов рангов значений признака Y;
где
– определяется как число значений
рангов Y,
расположенных ниже (при вертикальном
расположении значений Х
и Y)
ранга
и по величине больших ранга
;
– определяется как число значений
рангов Y,
расположенных выше ранга
и по величине больших ранга
(баллы учитываются в сумме со знаком
«–»);
может быть рассчитан только для тех признаков, значения которых поддаются ранжированию;
не выявляет наличие связи при немонотонной зависимости между признаками;
диапазон изменения показателя ;
чем ближе по абсолютной величине значение показателя к 1, тем теснее связь между признаками;
знак значения показателя указывает на направление связи: если
>
0, то связь прямая, если
<
0, то связь обратная.
Для расчета коэффициентов Спирмена и Кендалла удобно использовать табл. 8.3.
Таблица 8.3
К расчету ранговых коэффициентов
X |
Y |
Ранг признака X |
Ранг признака Y |
Разность рангов |
|
Баллы для ранга |
||
Отрица- тельные |
Положительные |
Итого |
||||||
x1 |
у1 |
|
|
|
|
|
|
|
x2 |
y2 |
|
|
|
|
|
|
|
x3 |
y3 |
|
|
|
|
|
|
|
… |
… |
|
|
|
|
|
|
|
xi |
yi |
|
|
|
|
|
|
|
… |
… |
|
|
|
|
|
|
|
xk |
yk |
|
|
|
|
|
|
|
Итого |
|
|
|
|
||||
Коэффициент Фехнера:
рассчитывается по формуле
,
где
С
– число пар отклонений значений признаков
Х
и Y
от соответствующих средних с совпадающими
знаками (
;
или
;
);
Н –
число пар отклонений значений Х
и Y
от
соответствующих средних с несовпадающими
знаками (
;
<
или
;
>
);
диапазон изменения показателя ; чем ближе по абсолютной величине значение показателя к 1, тем теснее связь между признаками;
знак значения показателя указывает на направление связи: если
>,
то связь прямая, если
<
0, то связь обратная;
является достаточно приближенным и используется для экспресс-оценки.
Для расчета коэффициента Фехнера удобно пользоваться табл. 8.4.
Таблица 8.4
