Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Статистика.docx
Скачиваний:
0
Добавлен:
01.03.2025
Размер:
387.21 Кб
Скачать

Локальные таблицы сопряженности. Таблица сопряженности размером 2х2

Таблица сопряженности размером 2х2 строятся для двух дихотомических признаков. Таблицы 2х2 непосредственно для 2-х дихотомических признаков, а могут выделяться из любой исходной таблицы сопряженности. В общем виде таблицу 2х2 представляют:

II I

пр пр

1

0

1

a

b

a + b

0

c

d

c + d

a + c

b + d

a + b + c + d

Для них вводятся понятия прямой положительной и обратной отрицательной связи. Прямая связь – связь, при которой признаки чаще появляются совместно либо отсутствуют совместно. Прямая положительная связь – если большие частоты фиксируются по главной диагонали. Диагональ, проходящая через ячейки совместного присутствия и совместного отсутствия признака называется главной диагональю таблицы сопряженности. Обратная отрицательная связь – такая, при которой признаки чаще появляются врозь, чем совместно; по главной диагонали фиксируются меньшие частоты.

Для определения связи в таблицы сопряженности 2х2 вводятся коэффициенты связи. Коэффициент Пирсона:

Свойства:

- изменяется в интервале [-1;1];

- равен 1, если все ненулевые частоты располагаются по диагонали – прямая полная связь;

- равен -1, если по главной диагонали располагаются нулевые частоты – полная отрицательная связь.

Применяется в таблице сопряженности размером 2х2, у которых распределения в маргинальном столбце и строке примерно одинаковое. Коэффициент Юла:

Свойства:

- изменяется в интервале [-1;1];

- равен 1, если: а) с = 0; б) b = 0 – полная положительная связь;

- равен -1, если а) а = 0; б) d = 0 – полная отрицательная связь.

Применяется в случае, если значение в маргинальной строке и столбце сильно различаются.

Теоретико-информационные меры связи

Показывают, насколько точнее станет прогноз распределения зависимой переменной, если имеются сведения о независимой переменной по сравнению с точностью прогноза тогда, когда о независимой переменной ничего неизвестно.

Общий вид: ; U(y) – количество ошибок прогноза в случае игнорирования независимого признака х; U(y/x) – количество ошибок прогноза у-ка с учётом знания распределения признака х.

Существует 2 коэффициента для определения силы связи, основанной на модели прогноза:

Если зависимая переменная у располагается по столбцам, а независимая переменная х – по строчкам, то

– максимальная частота в i-той строке; – максимальная частота в маргинальной строке.

Теоретико-информационные коэффициенты имеют смысл лишь тогда, когда в исходной таблице сопряженности присутствует связь.

Свойства коэффициент λ-Гуттмана:

- изменяется в интервале от 0 до 1;

- стремится к 1, если в каждой строке существует ярко выраженное модальное значение и они не пересекаются по столбцам;

- равен 1, если 100%-ное предсказания у по х. Такая ситуация возникает, если все ненулевые частоты располагаются по главной диагонали;

- равен 0 в нескольких случаях:

- если все ненулевые частоты сосредоточены в одной строке;

- отсутствие феномена модальности, то есть, мы наблюдаем полную размытость данных в таблице сопряженности (не можем выбрать наибольшую частоту);

- если все модельные частоты сосредоточены в одном столбце. В этом случае создается ситуация, когда модальные значения присутствуют и теоретически вероятность предсказания у по х должна быть больше 0, а на самом деле λ обращается в 0. В таком случае говорят, что коэффициент λ плохо ведет себя в 0 и прогноз на основе модальных значений неэффективен.

Коэффициент τ-Гудмана и Краскала

Конструируется предположением, что прогноз сводится не к единственному, хоть и модальному, значению независимой переменной, а к распределению независимой переменной с определенной вероятностью. Если зависимая у располагается по столбцам, а независимая х по строчкам, то формула коэффициента будет следующей:

Свойства:

- изменяется в интервале от 0 до 1;

- равняется 0, если структура распределения по строкам одинаковая и совпадает со структурой распределения в маргинальной строке. Наблюдается статистическая независимость у от х;

- равно 1, если ненулевые частоты располагаются по главной диагонали.