
- •Зависимые и независимые события. Условная вероятность
- •Плотность вероятности Пусть является вероятностной мерой на , то есть определено вероятностное пространство , где обозначает борелевскую σ-алгебру на . Пусть обозначает меру Лебега на .
- •Свойства плотности вероятности[править]
- •Дисперсия, виды и свойства дисперсии Понятие дисперсии
- •Пример нахождения дисперсии
- •Виды дисперсии
- •Правило сложения дисперсии в статистике
- •Свойства дисперсии
- •Квадратичное отклонение
- •Значение
- •Свойства Моменты
- •Бесконечная делимость
- •Максимальная энтропия
- •Моделирование нормальных псевдослучайных величин
- •Нормальное распределение в природе и приложениях
- •Корреляция и взаимосвязь величин
- •Показатели корреляции Параметрические показатели корреляции Ковариация
- •Линейный коэффициент корреляции
- •Непараметрические показатели корреляции [править] Коэффициент ранговой корреляции Кендалла [править]
- •Коэффициент ранговой корреляции Спирмена
- •Корреляционный анализ
- •Ограничения корреляционного анализа
- •Область применения
- •Закон больших чисел
- •Слабый закон больших чисел
- •Усиленный закон больших чисел
Непараметрические показатели корреляции [править] Коэффициент ранговой корреляции Кендалла [править]
Применяется для выявления взаимосвязи между количественными или качественными показателями, если их можно ранжировать. Значения показателя X выставляют в порядке возрастания и присваивают им ранги. Ранжируют значения показателя Y и рассчитывают коэффициент корреляции Кендалла:
,
где .
—
суммарное
число наблюдений, следующих за текущими
наблюдениями с большим значением
рангов Y.
—
суммарное
число наблюдений, следующих за текущими
наблюдениями с меньшим значением
рангов Y. (равные
ранги не учитываются!)
Если исследуемые данные повторяются (имеют одинаковые ранги), то в расчетах используется скорректированный коэффициент корреляции Кендалла:
—
число
связанных рангов в ряду X и Y соответственно.
Коэффициент ранговой корреляции Спирмена
Каждому
показателю X и Y присваивается ранг. На
основе полученных рангов рассчитываются
их разности и
вычисляется коэффициент корреляции
Спирмена:
Коэффициент корреляции знаков Фехнера
Подсчитывается количество совпадений и несовпадений знаков отклонений значений показателей от их среднего значения.
C — число пар, у которых знаки отклонений значений от их средних совпадают.
H — число пар, у которых знаки отклонений значений от их средних не совпадают.
Коэффициент множественной ранговой корреляции (конкордации
—
число
групп, которые ранжируются.
—
число
переменных.
—
ранг
-фактора
у
-единицы.
Значимость:
,
то гипотеза об отсутствии связи
отвергается.
В случае наличия связанных рангов:
Свойства коэффициента корреляции
Неравенство Коши — Буняковского:
если
принять в качестве скалярного
произведения двух
случайных величин ковариацию ,
то норма случайной величины будет
равна
,
и следствием неравенства
Коши — Буняковского будет:
.
Коэффициент корреляции равен
тогда и только тогда, когда
и
линейно зависимы (исключая события нулевой вероятности, когда несколько точек «выбиваются» из прямой, отражающей линейную зависимость случайных величин):
,
где .
Более того в этом случае знаки
и
совпадают:
.
Доказательство [показать]
Если
независимые случайные величины, то
. Обратное в общем случае неверно.
Корреляционный анализ
Корреляционный анализ — метод обработки статистических данных, с помощью которого измеряется теснота связи между двумя или более переменными. Корреляционный анализ тесно связан с регрессионным анализом (также часто встречается термин «корреляционно-регрессионный анализ», который является более общим статистическим понятием), с его помощью определяют необходимость включения тех или иных факторов в уравнение множественной регрессии, а также оценивают полученное уравнение регрессии на соответствие выявленным связям (используя коэффициент детерминации).[1][2]
Ограничения корреляционного анализа
Множество
корреляционных полей. Распределения
значений с
соответствующими коэффициентами
корреляций для каждого из них. Коэффициент
корреляции отражает «зашумлённость»
линейной зависимости (верхняя строка),
но не описывает наклон линейной
зависимости (средняя строка), и совсем
не подходит для описания сложных,
нелинейных зависимостей (нижняя строка).
Для распределения, показанного в центре
рисунка, коэффициент корреляции не
определен, так как дисперсия y равна
нулю.
Применение возможно при наличии достаточного количества наблюдений для изучения. На практике считается, что число наблюдений должно не менее чем в 5-6 раз превышать число факторов (также встречается рекомендация использовать пропорцию, не менее чем в 10 раз превышающую количество факторов). В случае если число наблюдений превышает количество факторов в десятки раз, в действие вступает закон больших чисел, который обеспечивает взаимопогашение случайных колебаний.[13]
Необходимо, чтобы совокупность значений всех факторных и результативного признаков подчиняласьмногомерному нормальному распределению. В случае если объём совокупности недостаточен для проведения формального тестирования на нормальность распределения, то закон распределения определяется визуально на основе корреляционного поля. Если в расположении точек на этом поле наблюдается линейная тенденция, то можно предположить, что совокупность исходных данных подчиняется нормальному закону распределения.[14].
Исходная совокупность значений должна быть качественно однородной.[13]
Сам по себе факт корреляционной зависимости не даёт основания утверждать, что одна из переменных предшествует или является причиной изменений, или то, что переменные вообще причинно связаны между собой, а не наблюдается действие третьего фактора.[5]