
- •Статистика как наука о массовых явлениях и процессах
- •Одномерное частотное распределение
- •Графическое представление данных
- •Характеристика центра распределения признака (меры центральной тенденции)
- •Нормальное распределение Гаусса
- •Другие распределения
- •Основы статистического вывода
- •Построение простой случайной репрезентативной выборки
- •Статистическая проверка гипотез
- •Виды статистических гипотез
- •Аналитическая статистика
- •Анализ взаимосвязи признаков
- •Частотная модель парных связей. Таблицы сопряженности.
- •Локальные таблицы сопряженности. Таблица сопряженности размером 2х2
- •Теоретико-информационные меры связи
- •Анализ связи ранжированных рядов
- •Корреляционный анализ. Анализ связи двух количественных признаков
- •Регрессионный анализ. Парная линейная регрессия
Локальные таблицы сопряженности. Таблица сопряженности размером 2х2
Таблица сопряженности размером 2х2 строятся для двух дихотомических признаков. Таблицы 2х2 непосредственно для 2-х дихотомических признаков, а могут выделяться из любой исходной таблицы сопряженности. В общем виде таблицу 2х2 представляют:
II I пр пр |
1 |
0 |
|
1 |
a |
b |
a + b |
0 |
c |
d |
c + d |
|
a + c |
b + d |
a + b + c + d |
Для них вводятся понятия прямой положительной и обратной отрицательной связи. Прямая связь – связь, при которой признаки чаще появляются совместно либо отсутствуют совместно. Прямая положительная связь – если большие частоты фиксируются по главной диагонали. Диагональ, проходящая через ячейки совместного присутствия и совместного отсутствия признака называется главной диагональю таблицы сопряженности. Обратная отрицательная связь – такая, при которой признаки чаще появляются врозь, чем совместно; по главной диагонали фиксируются меньшие частоты.
Для определения связи в таблицы сопряженности 2х2 вводятся коэффициенты связи. Коэффициент Пирсона:
Свойства:
- изменяется в интервале [-1;1];
- равен 1, если все ненулевые частоты располагаются по диагонали – прямая полная связь;
- равен -1, если по главной диагонали располагаются нулевые частоты – полная отрицательная связь.
Применяется в таблице сопряженности размером 2х2, у которых распределения в маргинальном столбце и строке примерно одинаковое. Коэффициент Юла:
Свойства:
- изменяется в интервале [-1;1];
- равен 1, если: а) с = 0; б) b = 0 – полная положительная связь;
- равен -1, если а) а = 0; б) d = 0 – полная отрицательная связь.
Применяется в случае, если значение в маргинальной строке и столбце сильно различаются.
Теоретико-информационные меры связи
Показывают, насколько точнее станет прогноз распределения зависимой переменной, если имеются сведения о независимой переменной по сравнению с точностью прогноза тогда, когда о независимой переменной ничего неизвестно.
Общий
вид:
;
U(y)
– количество ошибок прогноза в случае
игнорирования независимого признака
х; U(y/x)
– количество ошибок прогноза у-ка с
учётом знания распределения признака
х.
Существует 2 коэффициента для определения силы связи, основанной на модели прогноза:
Если зависимая переменная у располагается по столбцам, а независимая переменная х – по строчкам, то
–
максимальная
частота в i-той
строке;
– максимальная частота в маргинальной
строке.
Теоретико-информационные коэффициенты имеют смысл лишь тогда, когда в исходной таблице сопряженности присутствует связь.
Свойства коэффициент λ-Гуттмана:
- изменяется в интервале от 0 до 1;
- стремится к 1, если в каждой строке существует ярко выраженное модальное значение и они не пересекаются по столбцам;
- равен 1, если 100%-ное предсказания у по х. Такая ситуация возникает, если все ненулевые частоты располагаются по главной диагонали;
- равен 0 в нескольких случаях:
- если все ненулевые частоты сосредоточены в одной строке;
- отсутствие феномена модальности, то есть, мы наблюдаем полную размытость данных в таблице сопряженности (не можем выбрать наибольшую частоту);
- если все модельные частоты сосредоточены в одном столбце. В этом случае создается ситуация, когда модальные значения присутствуют и теоретически вероятность предсказания у по х должна быть больше 0, а на самом деле λ обращается в 0. В таком случае говорят, что коэффициент λ плохо ведет себя в 0 и прогноз на основе модальных значений неэффективен.
Коэффициент τ-Гудмана и Краскала
Конструируется предположением, что прогноз сводится не к единственному, хоть и модальному, значению независимой переменной, а к распределению независимой переменной с определенной вероятностью. Если зависимая у располагается по столбцам, а независимая х по строчкам, то формула коэффициента будет следующей:
Свойства:
- изменяется в интервале от 0 до 1;
- равняется 0, если структура распределения по строкам одинаковая и совпадает со структурой распределения в маргинальной строке. Наблюдается статистическая независимость у от х;
- равно 1, если ненулевые частоты располагаются по главной диагонали.