- •Корреляция и взаимосвязь величин Корреляция (Correlation) - это статистическая взаимосвязь двух или нескольких случайных величин.
- •Сущность понятия корреляция
- •Корреляция и взаимосвязь величин
- •Виды корреляции
- •Отрицательная и положительная корреляция
- •Линейная и нелинейная корреляция
- •Показатели и коэффициенты корреляции
- •Параметрические показатели корреляции
- •Ковариация
- •Линейный коэффициент корреляции (коэффициент корреляции Пирсона)
- •Непараметрические показатели корреляции
Корреляция и взаимосвязь величин
Качество корреляционной зависимости обратно пропорционально плотности точек (Один из постулатов Мэрфи). Исследование отдельных статистических объектов позволяет получить о них полезную информацию и описать их стандартными показателями. При этом изучаемую совокупность можно представить в виде ряда распределения путем ранжирования (в порядке возрастания или убывания анализи-руемого количественного признака), дать характеристику этой совокупности, указав центральные значения ряда (среднее арифметическое, медиана, мода), размах варьирования, форму кривой распределения. Такого рода сведения могут быть вполне достаточными в случаях, когда приходится иметь дело с одномерными данными (т.е. лишь с одной характеристикой, например, зарплатой) о каждой единице совокупности (скажем, о сотруднике фирмы).
Диаграмма рассеяния с двойной осью Y
Когда же мы анализируем двумерные данные (например, зарплата и образование), всегда есть возможность изучать каждое измерение по отдельности - как часть одномерной совокупности данных. Однако реальную отдачу можно получить лишь при совместном изучении обоих параметров. Основное назначение такого подхода - возможность выявления взаимосвязи между параметрами.
Следовательно, помимо традиционных измерений и последующих вычислений при анализе статистических данных приходится решать проблему и более высокого уровня - выявление функциональной зависимости между воздействующим фактором и регистрируемой (изучаемой) величиной.
Указанные ситуации весьма типичны в статистической практике, и в этом смысле аналитическая работа коммерсанта весьма богата такими примерами.
Диаграмма рассеяния позволяет наглядно изобразить частоты перекрывающихся точек для двух переменных
Зависимость одной случайной величины от значений, которые принимает другая случайная величина (физическая характеристика), в статистике называется регрессией. Если этой зависимости придан аналитический вид, то такую форму представления изображают уравнением регрессии. Процедура поиска предполагаемой зависимости между различными числовыми совокупностями обычно включает следующие этапы: становление значимости связи между ними; возможность представления этой зависимости в форме математического выражения (уравнения регрессии).
Первый этап в указанном статистическом анализе касается выявления так называемой корреляции, или корреляционной зависимости.
Смотреть видео 6, добавленное в раздел "Корреляция и взаимосвязь величин"
Корреляцию и регрессию принято рассматривать как совокупный процесс статистического исследования, поэтому их использование в статистике часто именуют корреляционно-регрессионным анализом. Если между парами совокупностей просматривается вполне очевидная связь (ранее нами это исследовалось, есть публикации на данную тему и т.д.), то, минуястадию корреляции, можно сразу приступать к поиску уравнения регрессии.
На графиках квантилей изображается зависимость между квантилями двух переменных
Если же исследования касаются какого-то нового процесса, ранее не изучавшегося, то наличие связи между совокупностями является предметом специального поиска. При этом условно можно выделить методы, которые позволяют оценить наличие связи качественно, и методы, дающие количественные оценки. Чтобы выявить наличие качественной корреляционной связи между двумя исследуемыми числовыми наборами экспериментальных данных, существуют различные методы, которые принято называть элементарными. Ими могут быть приемы, основанные на следующих операциях: параллельном сопоставлении рядов; построении корреляционной и групповой таблиц; графическом изображении с помощью поля корреляции.
Диаграмма Вороного - диаграмма рассеяния одной переменной является в большей степени аналитическим средством
Другой метод, более сложный и статистически надежный, - это количественная оценка связи посредством расчета коэффициента корреляции и его статистической проверки. Познакомимся со способом оценки корреляционной связи посредством расчета коэффициента корреляции, рассмотрев конкретный пример.
Пусть у нас имеются n серии значений двух параметров X и Y:
Значение параметров Х и У
Подразумевается, что у одного и того же объекта измерены два параметра. Нам надо выяснить есть ли значимая связь между этими параметрами. Как известно, случайные величины X и Y могут быть либо зависимыми, либо независимыми. Существуют следующие формы зависимости - функциональная и статистическая. В математике функциональной зависимостью переменной Y от переменной Х называют зависимость, где каждому допустимому значению X ставится в соответствие по определенному правилу единственно возможное значение Y.
Функциональная зависимость переменной Y от переменной Х
Диаграмма рассеяния с гистограммами - представляет собой составной график с зависимостью между двумя переменными и распределениями частот для каждой переменной
Однако, если X и Y случайные величины, то между ними может существовать зависимость иного рода, называемая статистической. Дело в том, что на формирование значений случайных величин X и Y оказывают влияние различные факторы. Под воздействием этих факторов и формируются конкретные значения X и Y. Допустим, что на Х и У влияют одни те же факторы, например Z1, Z2, Z3, тогда X и Y находятся в полном соответствии друг с другом и связаны функционально. Предположим теперь, что на X воздействуют факторы Z1, Z2, Z3, а на только Y и Z1, Z2. Обе величины и X и Y являются случайными, но так как имеются общие факторы Z1 и Z2, оказывающие влияние и на X и на Y, то значения X и Y обязательно будут взаимосвязаны. И связь это уже не будет функциональной: фактор Z3, влияющий лишь на одну из случайных величин, разрушает прямую (функциональную) зависимость между значениями X и Y, принимаемыми в одном и том же испытании. Связь носит вероятностный случайный характер, в численном выражении меняясь, от испытания к испытанию, но эта связь определенно присутствует и называется статистической. При этом каждому значению X может соответствовать не одно значение Y, как при функциональной зависимости, а целое множество значений.
Диаграмма рассеяния с диаграммой размаха - представляет собой составной график с зависимостью между двумя переменными и распределениями значений каждой из двух выборок
Определение. Зависимость случайных величин называют статистической, если изменения одной из них приводит к изменению закона распределения другой.
Определение. Если изменение одной из случайных величин влечет изменение среднего другой случайной величины, то статистическую зависимость называют корреляционной. Сами случайные величины, связанные коррреляционной зависимостью, оказываются коррелированными.
Примерами коррреляционной зависимости являются: зависимость массы от роста:
- каждому значению роста (X) соответствует множество значений массы (Y), причем, несмотря на общую тенденцию, справедливую для средних, большему значению роста соответствует и большее значение массы - в отдельных наблюдениях субъект с большим ростом может иметь и меньшую массу;
Нормальный вероятностный график для нормальной переменной
- зависимость заболеваемости от воздействия внешних факторов, например, запыленности, уровня радиации, солнечной активности и т.д.;
- количество (X) вводимого объекту препарата и его концентрация в крови (Y);
Нормальный вероятностный график для не нормально распределенной переменной
- между показателями уровня жизни населения и процентом смертности;
- между количеством пропущенных студентами лекций и оценкой на экзамене.
Полунормальный вероятностный график для нормальной переменной
Именно корреляционные зависимости наиболее часто встречаются в природе в силу взаимовлияния и тесного переплетения огромного множества самых различных факторов, определяющих значения изучаемых показателей. Корреляционную зависимость Y от X можно описать с помощью уравнения вида:
Корреляционная зависимость Y от X
Уравнение называется выборочным уравнением регрессии Y на X. Функцию f(x) называют выборочной регрессией Y на X, а ее график - выборочной линией регрессии Y на X. Совершенно аналогично выборочным уравнением регрессии X на Y является уравнение:
Уравнение, аналогично выборочным уравнением регрессии X на Y
В зависимости от вида уравнения регрессии и формы соответствующей линии регрессии определяют форму корреляционнной зависимости между рассматриваемыми величинами - линейной, квадратической, показательной, экспоненциальной. Важнейшим является вопрос выбора вида функции регрессии f(x) или ф(y), например линейная или нелинейная (показательная, логарифимическая и т.д.) На практике вид функции регрессии можно определить, построив на координатной плоскости множество точек, соответствующих всем имеющимся парам наблюдений (x;y).
Линейная регрессия значима. Модель YabX
Линейная регрессия незначима
Линейная регрессия значима. Нелинейная модель yax2bxc
Например, на графике 1 видна тенденция роста значений Y с ростом X, при этом средние значения Y располагается визуально на прямой. Имеет смысл использовать линейную модель (вид зависимости Y от X принято называть моделью) зависимости Y от X. На графике 2 средние значения Y не зависят от x, следовательно линейная регрессия незначима (функция регрессии постоянна и равна ). На графике 3 прослеживается тенденция нелинейности модели.
Смотреть видео 7, добавленное в раздел "Корреляция и взаимосвязь величин"
Две случайные величины X и У называют коррелированными, если их корреляционный момент (или, что то же, коэффициент корреляции) отличен от нуля; X и У называют некоррелированными величинами, если их корреляционный момент равен нулю. Две коррелированные величины также и зависимы. Действительно, допустив противное, мы должны заключить, что:
Две коррелированные величины также и зависимы
Обратное предположение не всегда имеет место, т. е. если две величины зависимы, то они могут быть как коррелированными, так и некоррелированными. Другими словами, корреляционный момент двух зависимых величин может быть не равен нулю, но может и равняться нулю. Убедимся на примере, что две зависимые величины могут быть некоррелированными.
Пример. Двумерная случайная величина (X, Y) задана плотностью распределения:
Начальные условия примера
Доказать, что X и Y - зависимые некоррелированные величины.
Решение. Воспользуемся ранее вычисленными плотностями распределения составляющих X и Y:
Решение примера
Внутренний интеграл равен нулю (подынтегральная функция нечетна, пределы интегрирования симметричны относительно начала координат), следовательно:
Случайные величины X и Y некоррелированы
Итак, из коррелнрованности двух случайных величин следует их зависимость, но из зависимости еще не вытекает коррелированность. Из независимости двух величин следует их некоррелированность, но из некоррелированности еще нельзя заключить о независимости этих величин. Заметим, однако, что из некоррелированности нормально распределенных величин вытекает их независимость. Это утверждение будет доказано в следующем параграфе.
Нормально вероятностный график для не нормально распределенной переменной
Яндекс.Директ
Зарабатывай на колебании курсаХочешь зарабатывать на шатком курсе ? Мы научим! Бесплатно !lp.forexac.com |
