Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ГОС по социологии - все части.doc
Скачиваний:
2
Добавлен:
01.05.2025
Размер:
3.64 Mб
Скачать

4.3 Основные меры разброса значений признака.

Важно не только знать, что типично для выборки наблюдений, но и установить, насколько выражены отклонения от типичных значений. Чтобы определить, насколько хорошо та или иная мера центральной тенденции опи­сывает распределение, нужно воспользоваться какой-либо мерой изменчивос­ти, разброса.

Самой известной мерой разброса количественного признака является его дисперсия:

эта статистика может быть формально адекватной только для интервальных шкал (хотя бы потому, что только при этом условии разумно использование среднего арифметического).

Для порядковых шкал обычно используют какие-либо разницы между квантилями. Например, употребительной мерой является квартильный размах: Q3 - Q1. Но, строго говоря, это некорректно, поскольку для порядковой шкалы разности между шкальными значениями не являются осмысленными.

Для номинальных признаков (чем ближе распределение к равномерному – тем разброс больше, чем дольше от равномерного – тем разброс меньше) – мера качественной вариации = количество возможных пар, которые можно составить из разнокачественных элементов деленное на максимально возможное количество пар для выборки с таким количеством элементов и таким количеством градаций (равномерное распределение). где N - объем выборки, k - количество градаций рассматриваемого признака, ni и nj - соответственно, частоты встречаемости i -й и j -й градаций.

4.4 Коэффициент «хи-квадрат». Производные от него.

X = 1, …, r и Y = 1,…, c - дискретные переменные. нам задана частотная таблица вида || n ij ||, где i = 1, … , r (raw); j = 1,…,c (column), n ij - количество объектов (например, респондентов), обладающих i –м значением признака Х и j-м значением признака Y. Обозначим также через и маргинальные частоты (соответственно, по i – й строке и j- му столбцу), а через - объем выборки. Частоты, стоящие в клетках этой таблицы, назовем эмпирическими, или наблюдаемыми.

Н0: «связь между рассматриваемыми признаками отсутствует».

Представим себе, что мы организуем (теоретически) бесконечное количество выборок, для каждой из которых вычисляем величину Х2. Образуется последовательность таких величин:

(8)

Очевидно, имеет смысл говорить о соответствующем распределении, т.е. о вероятности попадания вычисленного для какой-либо выборки значения «Хи-квадрата» в тот или иной интервал. В математической статистике доказано следующее положение: если наши признаки в генеральной совокупности независимы, то величины (8) имеют хорошо изученное распределение, называемое «2 – распределение». Приблизительность можно игнорировать (т.е. считать, что величины (8) в точности распределены по закону 2), если клетки тех выборочных частотных таблиц, для которых рассчитываются величины X2, достаточно наполнены – обычно считают, что в каждой клетке должно быть по крайней мере 5 наблюдений. Будем считать, что это условие соблюдено (если это не так, то какие-то значения хотя бы одного из признаков следует объединить, чтобы соответствующие строки (столбцы) таблицы сопряженности сложились и частоты вследствие этого увеличились бы. Число степеней свободы равно df = (r-1)(c-1).

Чтобы логика проверки нашей нуль гипотезы стала более ясной, отметим, что при отсуствии связи в генеральной сововокупности среди выборочных значений (8) будут преобладать значения, близкие к нулю: отсутствие связи означает близость эмпирических и теоретических частот и, следовательно, близость к нулю всех слагаемых из определения критерия Х2 (…). Большие значения критерия будут встречаться относительно редко и поэтому они будут маловероятны. Мы имеем только одно значение – то, которое вычислено для нашей единственной выборки. Обозначим его через В силу сказанного, большое значение этой величины должно приводить нас к выводу о наличии связи, малое – об ее отсутствии. Описанная выше логика проверки статистической гипотезы превращается в следующее рассуждение.

Вычислим число степеней свободы df и зададимся уровнем значимости . Найдем в таблице распределения 2 такое значение (называемое иногда критическим значение критерия и обозначаемое через ), для которого выполняется неравенство:

( - обозначение случайной величины, имеющей распределение2 с рассматриваемым числом степеней свободы).

Если  (то есть вероятность появления при справедливости нуль гипотезы о независимости достаточно велика), то полагаем, что наши выборочные наблюдения не дают оснований сомневаться в том, что в генеральной совокупности признаки действительно независимы – ведь, «ткнув» в одну выборку, мы встретили такое значение X2, которое действительно вполне могло встретиться при независимости. В таком случае мы полагаем, что у нас нет оснований отвергать нашу нуль гипотезу, посольку эмпирия ей не противоречит. Мы ее принимаем – считаем, что признаки независимы. Если же  , (то есть вероятность появления очень мала, меньше ), то мы вправе засомневаться в нашем предположении о независимости – ведь мы «наткнулись» на такое событие, которое вроде бы не должно было встретиться при таком предположении. В таком случае мы отвергаем нашу нуль-гипотезу, полагаем, что признаки зависимы.

Итак, рассматриваемый критерий не гарантирует наличие связи. Не измеряет ее величину. Он либо говорит о том, что эмпирия не дает оснований сомневаться в отсутствии связи, либо, напротив, дает повод для сомнений.

Сами значения рассматриваемого критерия непригодны для оценки связи между признаками, поскольку они зависят от объема выборки и других обстоятельств. Возникает необходимость определенной нормировки найденного значения критерия – такого его преобразования, которое устранит описанную зависимость от случайных (для оценки связи) факторов.

Имеются разные подходы к требующейся нормировке. Наиболее известными являются такие, которые превращают критерий “Хи-квадрат” в известные коэффициенты, называемые обычно по именам впервые предложивших их авторов - Пирсона, Чупрова, Крамера.

Пирсона: Чупрова: Крамера:

Все коэффициенты изменяются от 0 до 1 и равны нулю в случае полной независимости признаков. Как и критерий “хи-квадрат”, эти показатели являются симметричными относительно наших признаков: с их помощью нельзя выделить зависимую и независимую переменную, на основе их анализа нельзя говорить о том, какая переменная на какую "влияет".

Обычно в качестве недостатка коэффициента Пирсона Р упоминается зависимость его максимальной величины от размера таблицы (максимум Р достигается при c=r, но величина максимального значения изменяется с изменением числа категорий: при с=3 значение Р не может быть больше 0,8, при с=5 максимальное значение Р равно 0,89 и т.д. Естественно, это приводит к возникновению трудностей при сравнении таблиц разного размера.