Понятие об измерении связи между качественными признаками. Статистический подход

Добавил:

Studfiles2 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Санкт-Петербургский государственный электротехнический университет "ЛЭТИ"

Предмет:

Анализ и интерпретация данных

Файл:

Методы анализа больших массивов данных / bmd2.doc

Скачиваний:

110

Добавлен:

01.05.2014

Размер:

1.19 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 45 / 75 6 7 > Следующая >>>

Понятие об измерении связи между качественными признаками. Статистический подход

Как мы уже знаем, качественные признаки возникают при измерениях свойств объектов, например, в номинальной или ранговой шкалах. Пусть два качественных признака измерены в однотипных шкалах. Часто возникает вопрос о существовании или отсутствии связи между ними. Такая ситуация типична, например, при обработке результатов анкетирования. Рассмотрим измерение связи в номинальной шкале.

Пусть N- число наблюдений. Тогда, если в номинальной шкале присутствуетr наименований, тоN_i- наблюденная частота появленияi-го значения. Очевидно, что. Тогда- относительная частота

i-го значения, где.

Типичным является наглядное представление распределения объектов по группам в виде столбиковой диаграммы (гистограммы или полигона частот). В связи с таким представлением данных рассмотрим следующую статистическую задачу.

Пусть выдвинута гипотеза H о том, что Nизмерений некоторого признака есть выборкаNзначений случайной величины с некоторым законом распределения. Если гипотеза H справедлива, то дискретное распределение выборки можно считать статистической оценкой распределения всей генеральной совокупности. Из-за случайных колебаний эти два распределения не будут совпадать, но можно ожидать, что с ростомNраспределение выборки будет приближаться к распределению генеральной совокупности. Тогда следует ввести некоторую меру несовпадения распределений и изучить свойства ее выборочного распределения.

Такие меры несовпадения можно конструировать различными способами, но наиболее важной является мера, основанная на критерии К.Пирсона.

Пусть - вероятности дискретных значений, где, образующие генеральный закон распределения случайной величины. По методу наименьших квадратов построим меру различия как сумму квадратов отклонений наблюдаемых частот от теоретических, гдеc_i - произвольные коэффициенты. К.Пирсон показал, что приполучается мера расхождения

распределение которой при стремится к распределению.

Вспомним данное распределение. Пусть имеется rнезависимых нормальных случайных величин,. Обозначим, а плотность распределения данной суммы как- распределение

где: - аргумент распределенияf(x);

K_r- константа для выполнения условия нормировки;

Г(n) - гамма-функция, где для целыхn>0 :

и;

r- число степеней свободы.

Вид - распределения полностью определяется числомr, а приr>30 практически переходит в нормальное. Для некоторыхrраспределение имеет вид (рис. 2.2):

f(x) r=1

_0.5

r=2

_0.4

r=3

_0.3

r= 4

_0.2



^0.1

⁰

¹^{2 3 4 5 6}x

Рис. 2.2. Распределение Пирсона.

Пусть x=-- значимое значениесr-1 степенью свободы. Оно определяется так, чтобы вероятность для наблюденного значенияпревыситьравнялась величине

Пусть настолько мало, что можно считать практически достоверным, что при одном испытании событие с вероятностью не произойдет. Если гипотеза Н верна, то практически невозможно в единственном эксперименте получить значение. Если же это так, то мы должны признать значимое отклонение от гипотезы Н и ее отвергнуть.

Вероятность ошибки (отвергнута справедливая гипотеза Н) есть вероятность . Это так называемая ошибка первого рода.

Измерим связь между двумя признаками. Статистическая интерпретация силы связи номинальных признаков основана на критерии . Пусть даны два таких признака и построены их гистограммы, не обязательно графически, а, например, в виде числового ряда. Совместное распределениеNнаблюдений одновременно поrзначениям первого признакаX и поsзначениям второго признакаYобразуют таблицу сопряженности (рис.2.3), где

- маргинальные частоты, то есть частоты независимого распределения значений каждого из данных двух признаков.

Рис. 2.3. Таблица сопряженности двух признаков.

Для такой таблицы требуется проверить гипотезу Н о статистической независимости признаков. Пусть p_{i j}- вероятность того, что значениеx_iпризнакаXсоответствует значениюy_j признакаY. Тогда при справедливости гипотезы Н о независимости признаков в таблице соблюдается соотношениедляпостоянных маргинальных вероятностей. Тогда совместное распределение двух признаков определяетсянеизвестными параметрами, где изпараметровпараметрыможно выразить через остальные.

Вычислим величину как величину

Если справедлива исходная гипотеза Н, то по условию независимости оценки маргинальных частот определяются как . Тогда получим

Так как для таблицы сопряженности размером имеетсяrsпеременных значений ипараметров, то предельное распределениеимеетстепеней свободы. Окончательно:

Для таблицы размером число степеней свободы. Тогда значениес 1 степенью свободы на уровне значимостиопределяет вероятность, где(найдено по таблице). Следовательно, значениевстретится только 1 раз из 1000 при справедливости гипотезы Н о независимости признаков. Поэтому при справедливости гипотезы Н крайне маловероятно (), что наблюдаемые и ожидаемые частоты отличаются настолько, величина оценки окажется. Если же это так, то гипотезу Н следует отвергнуть.

Таким образом, с помощью теста можно оценить степень риска (вероятность ошибки первого рода), предполагая существование связи между признаками. Большие значенияговорят о значимом отклонении от гипотезы независимости, то есть о связи.

Но в то же время тест не дает возможности измерить силу связи. Поэтому для измерения силы связи логично использовать некоторую характеристику, принимающую минимальное значение при отсутствии связи и максимальное значение при максимальной связи. Критерийзависит от объема выборкиN. Поэтому Пирсон использовал в качестве меры связи между двумя признаками величину среднеквадратичной сопряженности. При независимости. Действительно, изследует