Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Корреляция и взаимосвязь величин.docx
Скачиваний:
3
Добавлен:
01.07.2025
Размер:
9.09 Mб
Скачать

Непараметрические показатели корреляции

Непараметрические методы как раз и разработаны для тех ситуаций, достаточно часто возникающих на практике, когда исследователь ничего не знает о параметрах исследуемой популяции (отсюда и название методов - непараметрические). Говоря более специальным языком, непараметрические методы не основываются на оценке параметров (таких как среднее или стандартное отклонение) при описании выборочного распределения интересующей величины. Поэтому эти методы иногда также называются свободными от параметров или свободно распределенными.

Нормальное распределение переменной

По существу, для каждого параметрического критерия имеется, по крайней мере, один непараметрический аналог. Эти критерии можно отнести к одной из следующих групп: критерии различия между группами (независимые выборки); критерии различия междугруппами (зависимые выборки); критерии зависимости между переменными.

Смотреть видео 20, добавленное в раздел "Непараметрические показатели корреляции"

Различия между независимыми группами. Обычно, когда имеются две выборки (например, мужчины и женщины), которые вы хотите сравнить относительно среднего значения некоторой изучаемой переменной, вы используете t-критерий для независимых выборок (в модуле Основные статистики и таблицы). Непараметрическими альтернативами этому критерию являются: критерий серий Вальда-Вольфовица, U критерий Манна-Уитни и двухвыборочный критерий Колмогорова-Смирнова. Если вы имеете несколько групп, то можете использовать дисперсионный анализ. Его непараметрическими аналогами являются: ранговый дисперсионный анализ Краскела-Уоллиса и медианный тест.

Пример коэффициентов непараметрической взаимокорреляции

Различия между зависимыми группами. Если вы хотите сравнить две переменные, относящиеся к одной и той же выборке (например, математические успехи студентов в начале и в конце семестра), то обычно используется t-критерий для зависимых выборок (в модуле Основные статистики и таблицы. Альтернативными непараметрическими тестами являются: критерий знаков и критерий Вилкоксона парных сравнений. Если рассматриваемые переменные по природе своей категориальны или являются категоризованными (т.е. представлены в виде частот попавших в определенные категории), то подходящим будет критерий хи-квадрат Макнемара. Если рассматривается более двух переменных, относящихся к одной и той же выборке, то обычно используется дисперсионный анализ (ANOVA) с повторными измерениями. Альтернативным непараметрическим методом является ранговый дисперсионный анализ Фридмана или Q критерий Кохрена (последний применяется, например, если переменная измерена в номинальной шкале). Q критерий Кохрена используется также для оценки изменений частот (долей).

Пример диаграммы рассеяния с наложенной линией наименьших квадратов

Зависимости между переменными. Для того, чтобы оценить зависимость (связь) между двумя переменными, обычно вычисляют коэффициент корреляции. Непараметрическими аналогами стандартного коэффициента корреляции Пирсона являются статистикиСпирмена R, тау Кендалла и коэффициент Гамма. Если две рассматриваемые переменные по природе своей категориальны, подходящими непараметрическими критериями для тестирования зависимости будут: Хи-квадрат, Фи коэффициент, точный критерий Фишера. Дополнительно доступен критерий зависимости между несколькими переменными так называемый коэффициент конкордации Кендалла. Этот тест часто используется для оценки согласованности мнений независимых экспертов (судей), в частности, баллов, выставленных одному и тому же субъекту.

Пример вычисление коэффициента корреляции Пирсона

Описательные статистики. Если данные не являются нормально распределенными, а измерения, в лучшем случае, содержат ранжированную информацию, то вычисление обычных описательных статистик (например, среднего, стандартного отклонения) не слишком информативно. Например, в психометрии хорошо известно, что воспринимаемая интенсивность стимулов (например, воспринимаемая яркость света) представляет собой логарифмическую функцию реальной интенсивности (яркости, измеренной в объективных единицах - люксах). В данном примере, обычная оценка среднего (сумма значений, деленная на число стимулов) не дает верного представления о среднем значении действительной интенсивности стимула. (В обсуждаемом примере скорее следует вычислить геометрическое среднее.) Модуль Непараметрическая статистика вычисляет разнообразный набор мер положения (среднее, медиану, моду и т.д.) и рассеяния (дисперсию, гармоническое среднее, квартильный размах и т.д.), позволяющий представить более "полную картину" данных.

Пример корреляционной зависимости между переменными, которую можно описать с помощью кубической функции

Нелегко дать простой совет, касающийся использования непараметрических процедур. Каждая непараметрическая процедура в модуле имеет свои достоинства и свои недостатки. Например, двухвыборочный критерий Колмогорова-Смирнова чувствителен не только к различию в положении двух распределений, например, к различиям средних, но также чувствителен и к форме распределения. Критерий Вилкоксона парных сравнений предполагает, что можно ранжировать различия между сравниваемыми наблюдениями. Если это не так, лучше использовать критерий знаков. В общем, если результат исследования является важным (например, оказывает ли людям помощь определенная очень дорогостоящая и болезненная терапия?), то всегда целесообразно применить различные непараметрические тесты. Возможно, результаты проверки (разными тестами) будут различны. В таком случае следует попытаться понять, почему разные тесты дали разные результаты. С другой стороны, непараметрические тесты имеют меньшую статистическую мощность (менее чувствительны), чем их параметрические конкуренты, и если важно обнаружить даже слабые отклонения (например, является ли данная пищевая добавка опасной для людей), следует особенно внимательно выбирать статистику критерия.

Пример таблицы значений статистических критериев

Большие массивы данных и непараметрические методы. Непараметрические методы наиболее приемлемы, когда объем выборок мал. Если данных много (например, n больше 100), то не имеет смысла использовать непараметрические статистики. Главное здесь состоит в том, что когда выборки становятся очень большими, то выборочные средние подчиняются нормальному закону, даже если исходная переменная не является нормальной или измерена с погрешностью. Таким образом, параметрические методы, являющиеся более чувствительными (имеют большую статистическую мощность), всегда подходят для больших выборок. Большинство критериев значимости многих непараметрических статистик, описанных далее, основываются на асимптотической теории (больших выборок) поэтому соответствующие тесты часто не выполняются, если размер выборки становится слишком малым. Обратитесь к описаниям определенных критериев, чтобы узнать больше об их мощности и эффективности.

Пример результатов исследования с помощью t-критерия

Смотреть видео 21, добавленное в раздел "Непараметрические показатели корреляции"

              Коэффициент ранговой корреляции Кенделла

Коэффициент корреляции Кенделла (Kendall tau rank correlation coefficient) - мера линейной связи между случайными величинами. Корреляция Кенделла является ранговой, то есть для оценки силы связи используются не численные значения, а соответствующие им ранги. Коэффициент инвариантен по отношению к любому монотонному преобразованию шкалы измерения.

Критическая область критерия Кенделла

Коэффициент корреляции Кенделла вычисляется по формуле:

Вычисление корреляции Кенделла

Коэффициент Кенделла принимает значения отрезка -1; +1. Значение +1 - указывает на строгую прямую линейную зависимость, -1 - на обратную.

Обоснование критерия Кенделла

Для измерения степени согласия Кенделл предложил следующий коэффициент:

Измерение степени согласия

Таким образом, коэффициент Кенделла можно считать мерой неупорядоченности второй последовательности относительно первой.

Статистическая проверка наличия корреляции. Нулевая гипотеза Н0: Выборки x и y не коррелируют. Рассмотрим центрированную и нормированную статистику Кенделла:

Центрированная и нормированная статистика Кенделла

Нулевая гипотеза отвергается (против альтернативы Н1 - наличие корреляции), если:

Условия отвержения нулевой гипотезы

Ниже приведены примеры вычисления корреляций Кенделла и Спирмена. Значения коэффициентов указаны над каждым изображением. Заметно, что в большинстве случаев коэффициент Спирмена больше коэффициента Кенделла. Объяснение этого эффекта приводится ниже.

Направление линейной зависимости.

Корреляции Кенделла и Спирмена. Нормальные сгущения

Коэффициенты корреляции реагируют на изменение направления и зашумлённость линейной зависимости между переменными.

Наклон линейного тренда.

Корреляции Кенделла и Спирмена. Вращающаяся полоса

Коэффициенты корреляции реагируют на изменение направления, но не реагируют на изменение наклона тренда. На первом, четвёртом и седьмом рисунках дисперсия одной из переменных близка к нулю, поэтому не удаётся зафиксировать факт линейной зависимости.

Нелинейная зависимость.

Корреляции Кенделла и Спирмена. Нелинейная зависимость

Корреляции Кенделла и Спирмена не отражают меры нелинейной зависимости между переменными.

Линейная и нелинейная зависимости. На каждой из приведённых ниже иллюстраций осуществляется переход от линейной зависимости к нелинейной. Коэффициенты корреляции Кенделла и Спирмена реагируют на это одинаковым образом.

Корреляции Кенделла и Спирмена. Перекрещенные полосы

Корреляции Кенделла и Спирмена. Расширяющаяся полоса

Корреляции Кенделла и Спирмена. Синусоида с переменной амплитудой

По мере смены линейной зависимости нелинейной значения коэффициентов корреляции падают. В случае выборок из нормального распределения коэффициент корреляции Кенделла может быть использован для оценки коэффициента корреляции Пирсона по формуле:

Оценка коэффициента корреляции Пирсона

Выборкам x и y соответствуют последовательности рангов:

Выборкам x и y соответствуют последовательности рангов

Проведем операцию упорядочивания рангов.

Операция упорядочивания рангов

Коэффициент корреляции Кенделла и коэффициент корреляции Спирмена выражаются через ранги следующим образом:

Выражение через ранги коэффициента корреляции Спирмена и Кенделла

Заметно, что в случае с коэффициентом Спирмана инверсиям придаются дополнительные веса, таким образом коэффициент Спирмана сильнее реагирует на несогласие ранжировок, чем коэффициент Кенделла. Этот эффект проявляется в приведённых выше примерах: в большинстве из них коэффициент Спирмана больше коэффициент Кенделла.

Утверждение. Если выборки x и y не коррелируют (выполняется гипотеза Н0), то величины Кенделла и Спирмена сильно закоррелированы. Коэффициент корреляции между ними можно вычислить по формуле:

Коэффициент корреляции между величинами Кенделла и Спирмена

              Коэффициент ранговой корреляции Спирмена

Коэффициент ранговой корреляции Спирмена (Spearman rank correlation coefficient) - мера линейной связи между случайными величинами. Для оценки силы связи между величиными используются не численные значения, а соответствующие им ранги. Этот коэффициент определяет степень тесноты и направленность связи признаков. Величина коэффициента лежит в интервале от +1 до -1. Абсолютное значение характеризует тесноту связи, а знак - направленность связи между двумя признаками.

Смотреть видео 22, добавленное в раздел "Коэффициент ранговой корреляции Спирмена"

Преимущество: можно ранжировать по признакам, которые нельзя выразить численно: субъективные оценки, предпочтения и т.д. При экспертных оценках можно ранжировать оценки разных экспертов и найти их корреляции друг с другом, чтобы затем исключить из рассмотрения оценки эксперта, слабо коррелирующие с оценками других. Коэффициент корреляции рангов применяется для оценки устойчивости тенденции динамики.

Вычисление коэффициента корреляции Спирмена

Недостатки: недостатком коэффициента корреляции рангов является то, что одинаковым разностям рангов могут соответствовать совершенно отличные разности значений (в случае количественных признаков). Недоучет размеров отклонений признаков от их средних величин занижает меру тесноты связи. Поэтому для количественных признаков корреляция рангов обладает меньшей информативностью, чем коэффициент корреляции числовых значений этих признаков.

Вычисление коэффициент корреляции Спирмена пр наличии связок

Свойства коэффициента ранговой корреляции Спирмена:

1. Нормируемость. Коэффициент корреляции рангов может принимать значения от -1 до +1. Значение 1 свидетельствует о возможном наличии прямой связи, значение - 1 свидетельствует о возможном наличии обратной связи.

Смотреть видео 23, добавленное в раздел "Коэффициент ранговой корреляции Спирмена"

2. Ограниченность. Для оценки данных необходима выборка от 5 до 40 наблюдений по каждой переменной. При большом количестве одинаковых рангов по сопоставляемым переменным коэффициент дает приближенные значения. При совпадении значений вносится поправка на одинаковые ранги. В этом случае формула имеет вид:

Свойство ограниченности коэффициента ранговой корреляции Спирмена

3. Независимость. Чтобы получить адекватный результат, необязательно наличие нормального закона распределения коррелируемых рядов.

Коэффициент корреляции рангов используется для оценки качества связи между двумя совокупностями. Кроме этого, его статистическая значимость применяется при анализе данных на гетероскедастичность.

При ранжировании возможно появление одинаковых рангов в каждом ряду. Одинаковые ранги называются связками. Возможно присутствие нескольких связок в одном ряду рангов. Повторяющиеся ранги для X и Y отсутствуют: количество значений переменных в X и Y - должно быть одинаково; разность рангов для пары значений X и Y.

Обоснование критерия Спирмена

Повторяющиеся ранги для X и Y есть. В этом случае вводится поправка на связки в ранговых рядах. Поправка рассчитывается для каждого ряда отдельно. Поправка для каждого ряда рассчитывается с учетом всех связок в этом ряду: поправка для связок рангов в ряду X; поправка для связок рангов в ряду Y; номер связки в ряду X; количество одинаковых рангов в связке с номером j; номер связки в ряду Y; количество одинаковых рангов в связке с номером k.

Критическая область критерия Спирмена

Пример решения задачи с использованием коэффициента Спирмана: На основании наблюдений за развивающимся сайтом и изменением его средневзвешенной позиции по основны м запросам в поисковой системе необходимо проверить, можно ли говорить о линейная зависимость между позицией сайта и числом посетителей.

Исходные данные: X (число посетителей в сутки), Y (усредненная позиция сайта в поисковой системе). В таблице представлены значения признаков X и Y:

Значения признаков Х и У для примера решения задачи коэффициента Спирмана

Проранжируем каждый из элементов признаков (X и Y) в порядке возрастания значений (самому маленькому элемнту присвоим ранг 1 и т. д. до самого большого элемента последовательности, который получит ранг m). Результаты ранжирования представлены в таблице:

Результаты ранжирования признаков

Кроме рангов, для каждого элемента из наборов признаков X и Y в таблице расчитаны Di - разность рангов и D2 - квадрат разности рангов пары соответствующих элементов X и Y. Для расчета коэффициена ранговой корреляции Спирмена используется формула:

Формула для расчета коэффициента Спирмана

Найдем сумму квадратов разностей рангов, сложив для этого элементы столбца. Подставим полученные значения в формулу, и найдем значение коэффициента Спирмена.

Коэффициент корреляции Спирмена

Оценка коэффициента корреляции Спирмена. Оценим полученное нами эмпирическое значение коэффициента Спирмена, сравнив его с соответствующим критическим значением для заданного уровня значимости из таблицы критических значений коэффициента ранговой корреляции Спирмена. Для выборки с числом элементов m = 9 и уровнем значимости p = 0,05 критическое значение коэффициента Спирмена = 0,68.

Смотреть видео 24, добавленное в раздел "Коэффициент ранговой корреляции Спирмена"

Так как абсолютное значение, полученного нами коэффициента корреляции больше критического значения, взятого из таблицы, мы отклоняем гипотезу H0 об отсуттвии корреляционной зависимости между выборками и принимаем альтернативную гипотезу о статистической значимости отличия коэффициента корреляции от нуля, и наличии связи.

Оценка коэффициента корреляции Спирмена на основании t-критерия. Произведем оценку значимости полученного нами коэффициента ранговой корреляции Спирмена, используя таблицу "Стьюдента".

Таблица коэффициентов Стьюдента

Так как коэффициент ранговой корреляции больше t-критерия мы отклоняем гипотезу H0 об отсуттвии корреляционной зависимости между выборками и принимаем альтернативную гипотезу о статистической значимости отличия коэффициента корреляции от нуля, и наличии отрицательной связи между числом посетителей сайта и его позицией в поисковой системе.

Заметим, что для тех же исходных данных при подсчете коэффициента корреляции Пирсона в результате было получено заключение об отсутствии связи. Такой результат можно обьяснить тем, что коэффициент корреляции Пирсона подтверждает или опровергает наличие линейной зависимости. Коэффициент рангов Спирмена подтверждает присутствие монотонно-возрастающей или убывающей зависимости (не обязательно линейной). В нашем случае зависимость нелинейная, но монотонно-убывающая.

Значимость коэффициента ранговой корреляции

              Коэффициент корреляции знаков Фехнера

Коэффициент Фехнера - это оценка степени согласованности направлений отклонений индивидуальных значений факторного и результативного признаков от средних значений факторного и результативного признаков. Коэффициент Фехнера наряду с такми коэффициентами, как коэффициент Спирмэна и коэффициент Кэндэла, относится к коэффициентам корреляции знаков.

Г. Фехнер предложил очень простой способ оценки степени связи между составляющими двумерной выборки без использования уравнения регрессии. Для определения индекса Фехнера вычисляют средние Х и У, а затем для каждой пары определяют знаки отклонений. Для каждой пары возможны четыре сочетания знаков: ++; +-; -+; --.

Формула индекса Фехнера

Очевидно, что i больше либо равно -1 и i меньше либо равно +1, и что при i больше 0 имеем положительную корреляцию, при i меньше 0 - отрицательную, при i = 0 связь в указанном смысле отсутствует. Коэффициент Фехнера изменяется в пределах -1; +1 и применяется для оценки тесноты связи качественных признаков (непараметрические методы).

Свойства коэффициента Фехнера

Расчет коэффициента Фехнера состоит из следующих этапов:

1. Определяют средние значения для каждого признака (X и Y).

2. Определяют знаки отклонения (-,+) от среднего значения каждого из признаков.

3. Если знаки совпадают, присваивают значение А, иначе В.

4. Считают количество А и В, вычисляя коэффициент Фехнера по формуле:

Вычисление коэффициента Фехнера

Найдем индексы Фехнера для примера.

Пример расчета коэффициента Фехнера

Графическое представление коэффициента Фехнера

              Коэффициент множественной ранговой корреляции (конкордации)

До сих пор рассматривались модели простой корреляции, т.е. корреляционной зависимости между двумя признаками Однако в практике экономического анализа часто приходится изучать явления, которые складываются под влиянием не одного, а многих различных факторов, каждый из которых в отдельности может не производить решающего влияния Совокупный же влияние факторов иногда оказывается достаточно сильным, чтобы по их изменениях можно было делать виснет овкы о величинах показателя изучаемого явления Методы измерения корреляционной связи одновременно между двумя, тремя и более корреляционными признакам создают учение о множественной корреляции.

Смотреть видео 25, добавленное в раздел "Коэффициент множественной ранговой корреляции (конкордации)"

В моделях множественной корреляции зависимая переменная рассматривается как функция нескольких (в общем случае п) независимых переменных. Множественное корреляционное уравнение устанавливает связь между исследуемыми признаками и позволяет вычислить ожидаемые значения результативного признака под влиянием включенных в анализ признаков-факторов, связанных да аниме уравнением.

Для оценки степени тесноты связи между результативным и факторными признаками вычисляют коэффициент множественной корреляции Величина его всегда положительное число, которое находится в пределах от 0 до 1. В множественных корреляционно-регрессионных моделях коэффициент простой корреляции между результативным признаком и факторными, а также между самими факторными признаками.

В множественных корреляционно-регрессионных моделях коэффициент простой корреляции

Методы корреляции произведения моментов Пирсона и линейного регрессионного анализа Гальтона были обобщены и расширены в 1897 г. Джорджем Эдни Юлом до модели множественной линейной регрессии, предполагающей использование многомерного нормального распределения. Методы множественной корреляции позволяют оценить связь между множеством непрерывных независимых переменных и одной зависимой непрерывной переменной. Коэффициент множественной корреляции обозначается через R0. Его вычисление требует решения совместной системы линейных уравнений. Число линейных уравнений равно числу независимых переменных.

Смотреть видео 26, добавленное в раздел "Коэффициент множественной ранговой корреляции (конкордации)"

Иногда необходимо исключить эффект третьей переменной, с тем чтобы определить «чистую» связь между любой парой переменных. Частный (парциальный) коэффициент корреляции выражает связь между двумя переменными при исключенном (элиминированном) влиянии еще одной или несколко других переменных. В простейшем случае частный коэффициент корреляции вычисляется как функция парных корреляций (произведений моментов) между Y, X1 и Х2.

При небходимости можно воспользоваться услугами группы из m-экспертов, установить результирующие ранги целей, но тогда возникнет вопрос о согласованности мнений этих экспертов или конкордации. Пусть у нас имеются ранжировки 4 экспертов по отношению к 6 факторам, которые определяют эффективность некоторой системы.

Ранжировки экспертов по отношению к факторам

Заметим, что полная сумма рангов составляет 84, что дает в среднем по 14 на фактор. Для общего случая n факторов и m экспертов среднее значение суммы рангов для любого фактора определится выражением.

Среднее значение суммы рангов

Теперь можно оценить степень согласованности мнений экспертов по отношению к шести факторам. Для каждого из факторов наблюдается отклонение суммы рангов, указанных экспертами, от среднего значения такой суммы. Поскольку сумма этих отклонений всегда равна нулю, для их усреднения разумно использовать квадраты значений.

В нашем случае сумма таких квадратов составит S= 64, а в общем случае эта сумма будет наибольшей только при полном совпадении мнений всех экспертов по отношению ко всем факторам:

Наибольшая сумма квадратов

М. Кэндэллом предложен показатель согласованности или коэффициент конкордации, определяемый как:

Коэффициент конкордации Кенделла

В нашем примере значение коэффициента конкордации составляет около 0,229, что при четырех экспертах и шести факторах достаточно, чтобы с вероятностью не более 0.05 считать мнения экспертов несогласованными. Дело в том, что как раз случайность ранжировок, их некоррелированность просчитывается достаточно просто. Так для нашего примера указанная вероятность соответствует сумме квадратов отклонений S = 143,3, что намного больше 64.

Смотреть видео 27, добавленное в раздел "Коэффициент множественной ранговой корреляции (конкордации)"

В заключение вопроса об особенностях метода экспертных оценок в системном анализе отметим еще два обстоятельства. В первом примере мы получили результирующие ранги 10 целей функционирования некоторой системы. Как воспользоваться этой результируюзей ранжировкой? Как перейти от ранговой шкалы целей к шкале весовых коэффициентов - в диапазоне от 0 до 1?

Здесь обычно используются элементарные приемы нормирования. Если цель 3 имеет ранг 1, цель 8 имеет ранг 2 и т. д., а сумма рангов составляет 55, то весовой коэффициент для цели 3 будет наибольшим и сумма весов всех 10 целей составит 1. Вес цели придется определять как:

Определение веса цели

При использовании групповой экспертной оценки можно не только выяснять мнение экспертов о показателях, необходимых для системного анализа. Очень часто в подобных ситуациях используют так называемый метод Дельфы (от легенды о дельфийском оракуле). Опрос экспертов проводят в несколько этапов, как правило - анонимно. После очередного этапа от эксперта требуется не просто ранжировка, но и ее обоснование. Эти обоснования сообщаются всем экспертам перед очередным этапом без указания авторов обоснований.

Имеющийся опыт свидетельствует о возможностях существенно повысить представительность, обоснованность и, главное, достоверность суждений экспертов. В качестве “побочного эффекта” можно составить мнение о профессиональности каждого эксперта.

Определение рангового коэффициента конкордации

       Свойства коэффициента корреляции

Коэффициент корреляции р для генеральной совокупности, как правило, неизвестен, поэтому он оценивается по экспериментальным данным, представляющим собой выборку объема n пар значений (Xi, Yi), полученную при совместном измерении двух признаков Х и Y. Коэффициент корреляции, определяемый по выборочным данным, называется выборочным коэффициентом корреляции (или просто коэффициентом корреляции). Его принято обозначать символом r.

Смотреть видео 28, добавленное в раздел "Свойства коэффициента корреляции"

Коэффициенты корреляции - удобный показатель связи, получивший широкое применение в практике. К их основным свойствам необходимо отнести следующие:

1. Коэффициенты корреляции способны характеризовать только линейные связи, т.е. такие, которые выражаются уравнением линейной функции. При наличии нелинейной зависимости между варьирующими признаками следует использовать другие показатели связи.

Теорема свойства коэффициента корреляции

Доказательство теоремы о свойствах коэффициента корреляции

Продолжение доказательства теоремы о свойствах коэффициента корреляции

2. Значения коэффициентов корреляции - это отвлеченные числа, лежащее в пределах от -1 до +1.

3. При независимом варьировании признаков, когда связь между ними отсутствует.

4. При положительной, или прямой, связи, когда с увеличением значений одного признака возрастают значения другого, коэффициент корреляции приобретает положительный (+) знак и находится в пределах от 0 до +1.

Стандартизация случайной величины

5. При отрицательной, или обратной, связи, когда с увеличением значений одного признака соответственно уменьшаются значения другого, коэффициент корреляции сопровождается отрицательным (–) знаком и находится в пределах от 0 до –1.

6. Чем сильнее связь между признаками, тем ближе величина коэффициента корреляции к 1. Если коэффициент корреляции + - 1, то корреляционная связь переходит в функциональную, т.е. каждому значению признака Х будет соответствовать одно или несколько строго определенных значений признака Y.

7. Только по величине коэффициентов корреляции нельзя судить о достоверности корреляционной связи между признаками. Этот параметр зависит от числа степеней свободы. Чем больше n, тем выше достоверность связи при одном и том же значении коэффициента корреляции.

Теорема стандартизированной случайной величины

Доказательство теоремы стандартизированной случайной величины

В практической деятельности, когда число коррелируемых пар признаков Х и Y невелико, то при оценке зависимости между показателями используется следующую градацию:

- высокая степень взаимосвязи - значения коэффициента корреляции находится в пределах от 0,7 до 0,99;

- средняя степень взаимосвязи - значения коэффициента корреляции находится в пределах от 0,5 до 0,69;

- слабая степень взаимосвязи - значения коэффициента корреляции находится от 0,2 до 0,49.

Смотреть видео 29, добавленное в раздел "Свойства коэффициента корреляции"

Пример по свойствам коэффициента корреляции

Решение примера по свойствам коэффициента корреляции

Корреляционный анализ

Одна из наиболее распространенных задач статистического исследования состоит в изучении связи между выборками. Обычно связь между выборками носит не функциональный, а вероятностный (или стохастический) характер. В этом случае нет строгой, однозначной зависимости между величинами. При изучении стохастических зависимостей различают корреляцию и регрессию.Корреляционный анализ состоит в определении степени связи между двумя случайными величинами X и Y. В качестве меры такой связи используется коэффициент корреляции. Коэффициент корреляции оценивается по выборке объема п связанных пар наблюдений (xi, yi) из совместной генеральной совокупности X и Y. Существует несколько типов коэффициентов корреляции, применение которых зависит от измерения (способа шкалирования) величин X и Y.

Корреляционное поле

Для оценки степени взаимосвязи величин X и Y, измеренных в количественных шкалах, используется коэффициент линейной корреляции (коэффициент Пирсона), предполагающий, что выборки X и Y распределены по нормальному закону. Корреляционный анализ измеряет степень взаимосвязи между двумя переменными - например, ценой бумаги и индикатором. Полученная величина (именуемая "коэффициент корреляции") показывает, приведут ли изменения одной переменной (например, индикатора) к изменениям другой (например, цены).

Смотреть видео 30, добавленное в раздел "Корреляционный анализ"

При корреляционном анализе двух переменных одна из них называется "зависимая", а другая - "независимая". Цель анализа - определить, приведут ли изменения независимой переменной (обычно это индикатор) к изменениям зависимой (обычно это цена бумаги). Данные корреляционного анализа помогают определить прогностические возможности индикаторов.

Теоретическое уравнение регрессии

Коэффициент корреляции может изменяться в диапазоне + - 1,0. Коэффициент +1,0 (полная положительная корреляция) означает, что изменения независимой переменной приведут к идентичным изменениям зависимой (т.е. изменение индикатора вызовет такое же изменение цены бумаги). Коэффициент 1,0 (полная отрицательная корреляция) означает, что изменения независимой переменной вызовут идентичные изменения зависимой, но в противоположном направлении. Коэффициент, равный нулю, свидетельствует об отсутствии связи между переменными, то есть изменения независимой переменной не влияют на изменения зависимой.

Пример корреляции случайных величин

Низкий коэффициент корреляции (менее + - 0,10) означает, что связь между переменными слаба или вовсе отсутствует. Высокий коэффициент корреляции (ближе к +1 или 1) показывает, что зависимая переменная (например, цена бумаги) обычно изменяется при изменении независимой (например, индикатора).

Направление изменения зависимой переменной определяется знаком коэффициента корреляции. Если значение коэффициента положительно, то зависимая переменная изменится в том же направлении, что и независимая; если же его значение отрицательно, то зависимая переменная будет двигаться в направлении, противоположном изменению независимой.

Корреляционный анализ имеет два основных назначения: определение прогностических возможностей индикаторов и характера взаимосвязи двух финансовых инструментов.

Пример корреляции величин

В случае сравнения индикатора и цены бумаги высокий положительный коэффициент корреляции (скажем, больше +0,70) означает, что за изменением индикатора должно последовать соответствующее изменение цены. Высокая отрицательная корреляция (напр., меньше 0,70) говорит о том, что изменение индикатора обычно вызывает изменение цены в противоположном направлении. Низкий (т.е. близкий к нулю) коэффициент корреляции означает слабую взаимосвязь цены и индикатора.

Смотреть видео 31, добавленное в раздел "Корреляционный анализ"

Корреляционный анализ также используется для измерения взаимосвязи двух финансовых инструментов. Нередко один из них "опережает" другой, позволяя предсказать его будущую динамику. Так, коэффициент корреляции между ценой на золото и курсом доллара говорит о сильной отрицательной зависимости. Это означает, что рост курса доллара обычно предвещает падение цен на золото.

Следующий график иллюстрирует взаимосвязь цен на кукурузу и живых свиней. Высокие значения коэффициента корреляции показывают, что эта взаимосвязь сильна (исключая короткие периоды в феврале и мае): если цены на кукурузу изменяются, цены на свиней движутся в том же направлении.

Корреляция цен на кукурузу и количества живых свиней

Цель корреляционного анализа - обеспечить получение некоторой информации об одной переменной с помощью другой переменной. В случаях, когда возможно достижение цели, говорят, что переменные коррелируют. В самом общем виде принятие гипотезы о наличии корреляции означает что изменение значения переменной X, произойдет одновременно с пропорциональным изменением значения Y.

Корреляционная связь не предполагает причинной зависимости между переменными. Корреляционный анализ может использоваться для определения тесноты и направления связи и в причинных моделях. Инструментами корреляционного анализа являются разнообразные меры связи. Выбор мер (коэффициентов) связи зависит от способов измерения переменных и характера связи между ними.

Корреляция роста и веса человека

Для количественных, порядковых и дихотомических переменных используются понятия прямой и обратной связи. Связь между количественными и/или порядковыми переменными является прямой, если значения двух переменных одновременно возрастают или убывают; обратной - если возрастание значений одной переменной сопровождается убыванием значений второй.

Для дихотомических переменных связь является прямой, если измеряемые ими свойства объектов чаще встречаются или не встречаются одновременно, чем порознь; обратной - если соответствующие свойства чаще встречаются порознь.

Для номинальных переменных, за исключением дихотомических, понятия прямой и обратной связи не определены, связь между ними рассматривается как ненаправленная.

Отрицательная корреляция

Отдельную методологическую проблему представляет так называемая «ложная корреляционная зависимость», проявляющаяся в корреляционной связи (иногда достаточно сильной) между переменными, которые заведомо не могут взаимно обусловливать друг друга. Причиной обычно является наличие некого неучтенного в анализе фактора, который влияет на каждую из исследуемых переменных. Например,корреляция сорта губной помады с политическими убеждениями женщины объясняется ее общественным положением и уровнем благосостояния. Ложные корреляции, так же, как вызывающие их факторы, могут быть выявлены только в результате глубокого теоретического анализа структуры связей между переменными. Для их устранения применяется аппарат коэффициентов частной корреляции.

Отсутсвие корреляции

       Ограничения корреляционного анализа

Поскольку корреляционная связь является статистической, первым условием возможности ее изучения является общее условие всякого статистического исследования: наличие данных по достаточно большой совокупности явлений. По отдельным явлениям можно получить совершенно превратное представление о связи признаков, ибо в каждом отдельном явлении значения признаков кроме закономерной составляющей имеют случайное отклонение (вариацию). Например, сравнивая два хозяйства, одно из которых имеет лучшее качество почв, по уровню урожайности, можно обнаружить, что урожайность выше в хозяйстве с худшими почвами. Ведь урожайность зависит от сотен факторов и при том же самом качестве почв может быть и выше, и ниже. Но если сравнивать большое число хозяйств с лучшими почвами и большое число - с худшими, то средняя урожайность в первой группе окажется выше и станет возможным измерить достаточно точно параметры корреляционной связи.

Множество корреляционных полей

Какое именно число явлений достаточно для анализа корреляционной и вообще статистической связи, зависит от цели анализа, требуемой точности и надежности параметров связи, от числа факторов, корреляция с которыми изучается. Обычно считают, что число наблюдений должно быть не менее чем в 5-6, а лучше - не менее чем в 10 раз больше числа факторов. Еще лучше, если число наблюдений в несколько десятков или в сотни раз больше числа факторов, тогда закон больших чисел, действуя в полную силу, обеспечивает эффективное взаимопогашение случайных отклонений от закономерного характера связи признаков.

Обнаружение автокорреляции графическим методом

Вторым условием закономерного проявления корреляционной связи служит условие, обеспечивающее надежное выражение закономерности в средней величине. Кроме уже указанного большого числа единиц совокупности для этого необходима достаточная качественная однородность совокупности. Нарушение этого условия можег извратить параметры корреляции. Например, в массе зерновых хозяйств уровень продукции с гектара растет по мере концентрации площадей, т.е. он выше в крупных хозяйствах. В массе овощных и овоще-молочных хозяйств (пригородный тип) наблюдается та же прямая связь уровня продукции с размером хозяйства. Но если соединить в общую неоднородную совокупность те и другие хозяйства, то связь уровня продукции с размером площади пашни (или посевной площади) получится обратной. Причина в том, что овощные и овоще-молочные хозяйства, имея меньшую площадь, чем зерновые, производят больше продукции с гектара ввиду большей интенсивности производства в данных отраслях, чем в производстве зерна.

Анализ корреляции - карикатура

Иногда как условие корреляционного анализа выдвигают необходимость подчинения распределения совокупности по результативному и факторным признакам нормальному закону распределения вероятностей. Это условие связано с применением метода наименьших квадратов при расчете параметров корреляции: только при нормальном распределении метод наименьших квадратов дает оценку параметров, отвечающую принципам максимального правдоподобия. На практике эта. предпосылка чаще всего выполняется приближенно, но и тогда метод наименьших квадратов дает неплохие результаты.

Смотреть видео 32, добавленное в раздел "Ограничения корреляционного анализа"

Однако при значительном отклонении распределений признаков от нормального закона нельзя оценивать надежность выборочного коэффициента корреляции, используя параметры нормального распределения вероятностей или распределения Стьюдента.

Пример корреляционного анализа явки избирателей на выборы

Еще одним спорным вопросом является допустимость применения корреляционного анализа к функционально связанным признакам. Можно ли, например, построить уравнение корреляционной зависимости размеров выручки от продажи картофеля, от объема продажи и цены? Ведь произведение объема продажи и цены равно выручке в каждом отдельном случае. Как правило, к таким жестко детерминированным связям применяют только индексный метод анализа. Однако на этот вопрос можно взглянуть и с другой точки зрения. При индексном анализе выручки предполагается, что количество проданного картофеля и его цена независимы друг от друга, потому-то и допустима абстракция от изменения одного фактора при измерении влияния другого, как это принято в индексном методе. В реальности количество и цена не являются вполне независимыми друг от друга.

Точечные диаграммы коэффициентов корреляции

Корреляционно-регрессионный анализ учитывает межфакторные связи, следовательно, дает нам более полное измерение роли каждого фактора: прямое, непосредственное его влияние на результативный признак; косвенное влияние фактора через его влияние на другие факторы; влияние всех факторов на результативный признак. Если связь между факторами несущественна, индексным анализом можно ограничиться. В противном случае его полезно дополнить корреляционно-регрессионным измерением влияния факторов, даже если они функционально связаны с результативным признаком.

Смотреть видео 33, добавленное в раздел "Ограничения корреляционного анализа"

Ограничения корреляционного анализа:

1. Применение возможно при наличии достаточного количества наблюдений для изучения. На практике считается, что число наблюдений должно быть не менее, чем в 5-6 раз превышать число факторов (также встречается рекомендация использовать пропорцию не менее, чем в 10 раз превышающую количество факторов). В случае, если число наблюдений превышает количество факторов в десятки раз, в действие вступает закон больших чисел, который обеспечивает взаимопогашение случайных колебаний.

Применение корреляционного анализа возможно при наличии достаточного количества наблюдений

2. Необходимо, чтобы совокупность значений всех факторных и результативного признаков подчинялась многомерному нормальному распределению. В случае, если объём совокупности недостаточен для проведения формального тестирования на нормальность распределения, то закон распределения определяется визуально на основе корреляционного поля. Если в расположении точек на этом поле наблюдается линейная тенденция, то можно предположить, что совокупность исходных данных подчиняется нормальному закону распределения.

Многомерное нормальное распределение

3. Исходная совокупность значений должна быть качественно однородной.

4. Сам по себе факт корреляционной зависимости не даёт основания утверждать, что одна из переменных предшествует или является причиной изменений, или то, что переменные вообще причинно связаны между собой, а не наблюдается действие третьего фактора.

Факт корреляционной зависимости не дат основания утверждать, что одна из переменных является причиной изменений