
- •Тема 8. Статистические методы анализа связи
- •8.1. Понятие о статистической и корреляционной связи. Задачи и ограничения корреляционно-регрессионного метода
- •8.2. Измерение и оценка тесноты связи
- •К расчету коэффициента Фехнера
- •К расчету коэффициента Пирсона
- •К расчету коэффициентов ассоциации и контингенции
- •Пороговые значения показателей корреляции
- •8.3. Определение уравнения тесноты связи
К расчету коэффициента Фехнера
X |
Y |
Знак
отклонения xi
от
|
Знак
отклонения yi
от
|
x1 |
y1 |
|
|
x2 |
y2 |
|
|
x3 |
y3 |
|
|
… |
… |
|
|
xi |
yi |
|
|
… |
… |
|
|
xk |
yk |
|
|
|
|
|
|
Коэффициент Пирсона:
рассчитывается по формуле
,
,
где fij – число единиц в совокупности со значениями признаков и yj; i – номер значения признака Х; j – номер значения признака Y;
Для расчета коэффициента Пирсона удобно использовать матрицу (табл. 8.5), где и yj – значения непараметрических (описательных) признаков (количество значений по каждому признаку выбрано произвольно).
Таблица 8.5
К расчету коэффициента Пирсона
Значения признака X |
Значения признака Y |
Итого fi |
||
y1 |
y2 |
y3 |
||
x1 |
|
|
|
|
x2 |
|
|
|
|
x3 |
|
|
|
|
Итого fj |
|
|
|
|
Рассчитывается только для признаков с одинаковым числом значений, т. е. матрица должна быть квадратной.
Коэффициент Чупрова:
рассчитывается по формуле
;
для расчета коэффициента Чупрова используется матрица, аналогичная представленной в табл. 8.5;
может быть рассчитан и для признаков с разным количеством значений по X и по Y (
).
Коэффициент ассоциации и коэффициент контингенции:
рассчитываются по формулам:
;
,
где a, b, c, d – значения частоты появления признака в соответствующих полях матрицы (табл. 8.6);
рассчитываются для альтернативных признаков;
принимают значения в диапазоне
;
чем ближе по абсолютной величине значения показателей к 1, тем теснее связь между признаками;
принимают отрицательные и положительные значения: если значение коэффициента меньше нуля, то связь обратная, если больше нуля, то связь прямая.
Таблица 8.6
К расчету коэффициентов ассоциации и контингенции
Значения признака X |
Значения признака Y |
|
y1 |
y2 |
|
x1 |
a |
b |
x2 |
c |
d |
Примечание.
Если при расчете выбранного Вами показателя используются интервальные значения факторного признака, а не индивидуальные, то принципиальным является вопрос о выборе границ интервалов. Действительно, если значения факторного признака, по которым осуществлялся расчет показателя корреляции, представлены в виде интервального ряда, то высокое (или низкое) значение показателя корреляции свидетельствует о том, что результативный признак изменяется существенно (или несущественно) именно при переходе факторного признака из одного интервала в другой. При этом возможна ситуация, когда вариация результативного признака совершенно не зависит от вариации факторного в рамках одного интервала. Так, два коэффициента детерминации (или ЭКО), рассчитанные по одному и тому же набору исходных данных, но при разных вариантах деления всего диапазона значений признака на интервалы, могут иметь диаметрально противоположные, с точки зрения оценки существенности связи, значения. Например, при оценке зависимости интенсивности потребления какого-либо товара (или услуги) от возраста покупателя можно обнаружить практическое отсутствие связи (ЭКО < 0,4) при делении диапазона возраста опрошенных потребителей на два интервала (ниже среднего и выше среднего возраста) и высокий уровень тесноты связи (ЭКО > 0,7) при делении того же диапазона на три группы (например, до 18 лет, 18–50 и более 50 лет). Деление опрошенных потребителей на 12 равных по величине возрастного интервала групп (10–15, 15–20, 20–25 и т. д.) покажет уровень связи, отличный и от первого и от второго вариантов. Надо ли говорить о том, как важно в решении прикладных задач, и прежде всего задач маркетинга, верно оценить не просто факт наличия связи двух явлений (например, возраста покупателей и интенсивности потребления товара), но выявить, в каких именно интервалах факторного признака имеет место специфичность проявления результативного признака (в нашем примере, в каких именно возрастных интервалах проявляется различие в интенсивности потребления товара).
В умении ясно себе представлять и умении грамотно объяснить, в чем именно смысл числового значения любого показателя корреляции, и проявляется статистическая квалификация специалиста.
Вывод о наличии или отсутствии существенной связи между явлениями обычно делается на основе сравнения фактического значения показателя с его пороговым значением. Интерпретация порогового значения показателей корреляции для количественных признаков достаточно логична и понятна: связь признается существенной, если вариация одного из признаков более чем на половину определяется вариацией другого. В отношении же непараметрических показателей приходится признать, что на сегодняшний день отсутствует строго научное обоснование пороговых значений. Тем не менее, по материалам публикаций и исследований можно составить таблицу примерных значений, которые можно использовать для решения практических задач (табл. 8.7). Учитывая отсутствие однозначности и четкости в оценке значений показателей корреляции, часто в рамках корреляционного анализа целесообразно рассчитать несколько показателей для одной и той же пары признаков и выполнить их совместный анализ.
Таблица 8.7