Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Metodichka (data analysis) Part 1 / Metodichka (data analysis) Part 1.doc
Скачиваний:
137
Добавлен:
18.05.2015
Размер:
1.12 Mб
Скачать

Таблицы сопряженности

Справочный материал.

Статистика для таблиц сопряженности

Таблицы сопряженности  это совместное распределение двух переменных. Строки таблицы образуются значениями одной переменной. Столбцы таблицы образуются значениями второй переменной. В клетке таблицы (на пересечении строки и столбца) указывается частота совместного появления соответствующих значений. Суммы частот по строке или по столбцу называются маргинальными частотами. Распределения маргинальных частот представляют собой одномерное распределение переменных.

Таблицы сопряженности можно составлять для дискретных переменных, а также для непрерывных переменных, сгруппированных в интервалы. Обычно таблицы сопряженности строятся для шкал наименований и для шкал порядка. В зависимости от типа шкалы можно применять различные статистические процедуры:

Для шкал наименований

Для шкал порядка

  • критерий 2 Пирсона

  • коэффициент сопряженности С

  • V Крамера

для таблиц 2*2:

  • Ф

  • критерий2 МакНемара

  • критерий Фишера

  • критерий Йетса (Yates)

  • ...

Все, что можно для шкал наименований

+

  • Кендалла,

  • Гамма (G),

  • r Спирмена,

  • d Соммера

Статистические критерии для таблиц сопряженности проверяют, есть ли зависимость в распределении по одной переменной от распределения по другой переменной. Наиболее употребительными являются 2 Пирсона (для межгрупповой схемы) и 2 МакНемара (для интра-индивидуальной схемы) .

Подсчет критерия 2 Пирсона осуществляется по формуле

, где

–эмпирическая частота, – теоретическая частота

k=r*c (r– число строк в таблице, c –число столбцов в таблице).

Следует помнить, что этот критерий имеет следующие ограничения:

  • Наблюдения должны быть независимы, поэтому нельзя использовать одного и того же испытуемого более одного раза.

  • 2 пропорционален размеру выборки. Если увеличить размер выборки в 2 раза при соблюдении всех пропорций, то и 2 возрастет в 2 раза. Поэтому не рекомендуется использовать этот критерий для больших выборок (более 500 испытуемых).

  • Если теоретическая частота клеток маленькая, то вычисления могут быть не точны. Общепринятым является правило, что когда df>1 теоретическая частота должна быть равна или больше 5 по крайней мере в 80% клеток.

Критерий 2 МакНемара употребляется только для таблиц 2*2 и обычно служит для определения, произошли ли какие-либо изменения после какого-либо условия (события). Данные, как правило, представляют в виде таблицы:

после

ii

i

до

I

a

b

ii

c

d

и критерий вычисляется по формуле: . Критерий 2 МакНемара обладает только одним ограничением: A+D должно быть не меньше 10.

В программе STATISTICA можно посчитать три меры зависимости для шкал наименований:

Коэффициент . Употребляется в основном с таблицами 2*2, изменяется от 0 (когда переменные независимы) до 1 (когда переменные абсолютно зависимы).

Коэффициент сопряженности (С или Ф). Разработан для использования с квадратными таблицами размером больше, чем 2*2. Меняется от 0 (когда переменные независимы до , гдеk – число строк (столбцов в таблице).