Многомерный анализ данных Корреляционный анализ данных
Корреляция (от англ. correlation – согласование, связь) – мера связи между переменными, взаимосогласованное изменение величин. Корреляционный анализ необходим для выявления связи между случайными переменными.
Наличие связи между случайными переменными можно установить визуально – с помощью таблицы или графика. Так, если рост одной случайной переменной приводит к росту другой, и наоборот, между переменными существует связь (в первом случае – положительная, во втором - отрицательная). Но если признаки варьируют, для выявления связи нужно учитывать не рост или уменьшение функции, а взаимосвязанные отклонения признаков от их средних значений.
Парный корреляционный анализ
Корреляция между парой переменных называется парной корреляцией.
Ковариация отражает связь между двумя величинами, как отношение сумм произведений отклонений одной величины от другой к длине ряда.
.
Ковариация характеризует степень сопряженности между двумя признаками. Недостатком ковариации является то, что нельзя сравнивать случаи, когда признаки выражены разными единицами. Этот недостаток устраняется при делении на средние квадратические отклонения признаков. Полученная величина называется коэффициентом корреляции.
Коэффициент парной корреляции (корреляции Пирсона или линейной корреляции) меняется в пределах от –1 до +1 и демонстрирует тесноту и направление линейной связи между переменными. Оценка тесноты связи производится по значениям коэффициента корреляции. Знак коэффициента корреляции характеризует направление связи между случайными величинами.
Значение коэффициента корреляции 0 указывает на отсутствие корреляции. Значение коэффициента корреляции +1 говорит о наличии сильной прямой (положительной) связи между переменными. При этом равномерные изменения одного признака соответствуют равномерным изменениям второго признака. Значение коэффициента корреляции –1 говорит о наличии сильной обратной (отрицательной) связи между переменными, когда рост одной переменной приводит к уменьшению другой.
Для оценки достоверности
коэффициента корреляции (при количестве
наблюдений
)
определяется статистическая ошибка:
,
где
– статистическая ошибка коэффициента
корреляции,
- критерий Стьюдента расчетный.
Расчетный критерий Стьюдента сравнивается с табличным (определяется по специальным таблицам по уровню значимости и числу степеней свободы). В случае, если расчетный критерий Стьюдента превышает табличный, коэффициент корреляции достоверен.
Уровень значимости p показывает статистическую достоверность оцениваемых связей. Уровень значимости представляет собой вероятность ошибки, связанной с распространением полученных результатов на всю совокупность. Обычно принимаются уровни значимости p=0.05, p=0.01, p=0.001. Для парного корреляционного анализа уровень значимости ниже 0.05 подтверждает достоверность полученных ненулевых корреляций на 95% - м уровне доверительных интервалов.
Для получения достоверных результатов при корреляционном анализе необходимо, чтобы исходные данные являлись случайными величинами и имели нормальное распределение.
Недостаток парного корреляционного анализа заключается в том, что с его помощью можно оценивать только линейные связи – те, которые выражаются линейными уравнениями. При наличии нелинейной зависимости между признаками нужно использовать иные показатели связи.
Определение
тесноты и направления линейных связей
между таксационными показателями с
помощью парного корреляционного
анализа.
