Скачиваний:
110
Добавлен:
01.05.2014
Размер:
1.19 Mб
Скачать
  1. Понятие об измерении связи между качественными признаками. Статистический подход

Как мы уже знаем, качественные признаки возникают при измерениях свойств объектов, например, в номинальной или ранговой шкалах. Пусть два качественных признака измерены в однотипных шкалах. Часто возникает вопрос о существовании или отсутствии связи между ними. Такая ситуация типична, например, при обработке результатов анкетирования. Рассмотрим измерение связи в номинальной шкале.

Пусть N- число наблюдений. Тогда, если в номинальной шкале присутствуетr наименований, тоNi- наблюденная частота появленияi-го значения. Очевидно, что. Тогда- относительная частота

i-го значения, где.

Типичным является наглядное представление распределения объектов по группам в виде столбиковой диаграммы (гистограммы или полигона частот). В связи с таким представлением данных рассмотрим следующую статистическую задачу.

Пусть выдвинута гипотеза H о том, что Nизмерений некоторого признака есть выборкаNзначений случайной величины с некоторым законом распределения. Если гипотеза H справедлива, то дискретное распределение выборки можно считать статистической оценкой распределения всей генеральной совокупности. Из-за случайных колебаний эти два распределения не будут совпадать, но можно ожидать, что с ростомNраспределение выборки будет приближаться к распределению генеральной совокупности. Тогда следует ввести некоторую меру несовпадения распределений и изучить свойства ее выборочного распределения.

Такие меры несовпадения можно конструировать различными способами, но наиболее важной является мера, основанная на критерии К.Пирсона.

Пусть - вероятности дискретных значений, где, образующие генеральный закон распределения случайной величины. По методу наименьших квадратов построим меру различия как сумму квадратов отклонений наблюдаемых частот от теоретических, гдеci - произвольные коэффициенты. К.Пирсон показал, что приполучается мера расхождения

,

распределение которой при стремится к распределению.

Вспомним данное распределение. Пусть имеется rнезависимых нормальных случайных величин,. Обозначим, а плотность распределения данной суммы как- распределение

,

где: - аргумент распределенияf(x);

Kr- константа для выполнения условия нормировки;

Г(n) - гамма-функция, где для целыхn>0 :

и;

r- число степеней свободы.

Вид - распределения полностью определяется числомr, а приr>30 практически переходит в нормальное. Для некоторыхrраспределение имеет вид (рис. 2.2):

f(x) r=1

0.5

r=2

0.4

r=3

0.3

r= 4

0.2

0.1

0

1 2 3 4 5 6x

,

Рис. 2.2. Распределение Пирсона.

Пусть x=-- значимое значениесr-1 степенью свободы. Оно определяется так, чтобы вероятность для наблюденного значенияпревыситьравнялась величине

.

Пусть настолько мало, что можно считать практически достоверным, что при одном испытании событие с вероятностью не произойдет. Если гипотеза Н верна, то практически невозможно в единственном эксперименте получить значение. Если же это так, то мы должны признать значимое отклонение от гипотезы Н и ее отвергнуть.

Вероятность ошибки (отвергнута справедливая гипотеза Н) есть вероятность . Это так называемая ошибка первого рода.

Измерим связь между двумя признаками. Статистическая интерпретация силы связи номинальных признаков основана на критерии . Пусть даны два таких признака и построены их гистограммы, не обязательно графически, а, например, в виде числового ряда. Совместное распределениеNнаблюдений одновременно поrзначениям первого признакаX и поsзначениям второго признакаYобразуют таблицу сопряженности (рис.2.3), где

,

- маргинальные частоты, то есть частоты независимого распределения значений каждого из данных двух признаков.

Рис. 2.3. Таблица сопряженности двух признаков.

Для такой таблицы требуется проверить гипотезу Н о статистической независимости признаков. Пусть pi j- вероятность того, что значениеxiпризнакаXсоответствует значениюyj признакаY. Тогда при справедливости гипотезы Н о независимости признаков в таблице соблюдается соотношениедляпостоянных маргинальных вероятностей. Тогда совместное распределение двух признаков определяетсянеизвестными параметрами, где изпараметровпараметрыможно выразить через остальные.

Вычислим величину как величину

.

Если справедлива исходная гипотеза Н, то по условию независимости оценки маргинальных частот определяются как . Тогда получим

.

Так как для таблицы сопряженности размером имеетсяrsпеременных значений ипараметров, то предельное распределениеимеетстепеней свободы. Окончательно:

.

Для таблицы размером число степеней свободы. Тогда значениес 1 степенью свободы на уровне значимостиопределяет вероятность, где(найдено по таблице). Следовательно, значениевстретится только 1 раз из 1000 при справедливости гипотезы Н о независимости признаков. Поэтому при справедливости гипотезы Н крайне маловероятно (), что наблюдаемые и ожидаемые частоты отличаются настолько, величина оценки окажется. Если же это так, то гипотезу Н следует отвергнуть.

Таким образом, с помощью теста можно оценить степень риска (вероятность ошибки первого рода), предполагая существование связи между признаками. Большие значенияговорят о значимом отклонении от гипотезы независимости, то есть о связи.

Но в то же время тест не дает возможности измерить силу связи. Поэтому для измерения силы связи логично использовать некоторую характеристику, принимающую минимальное значение при отсутствии связи и максимальное значение при максимальной связи. Критерийзависит от объема выборкиN. Поэтому Пирсон использовал в качестве меры связи между двумя признаками величину среднеквадратичной сопряженности. При независимости. Действительно, изследует

и.

Тогда .

Найдем максимальное значение . Очевидно, что справедливы соотношения

и.

Тогда выполняются соотношения

,и

.

Тогда и окончательно:

.

Недостаток такой характеристики в том, что при или. Поэтому А.А.Чупровым был предложен коэффициент

, где.

В свою очередь, коэффициент Чупрова только при. Если, то даже при полной связи. Поэтому Г.Крамером был предложен коэффициент

, где.

Коэффициент Крамера изменяется в данных пределах независимо от размера таблицы сопряженности.

Соседние файлы в папке Методы анализа больших массивов данных