Скачиваний:
59
Добавлен:
08.04.2015
Размер:
595.46 Кб
Скачать

3.2. Анализ таблиц сопряженности признаков с двумя входами

Анализ таблиц сопряженности признаков используется в случае, когда обе переменные измерены в наименее информативной номинальной шкале. Различают таблицы сопряженности признаков с двумя входами и таблиц сопряженности признаков с управляющей переменной.

Начнем к самого “простого” типа измерения двух признаков А и В, отвечающему дихотомическим шкалам измерения, когда фиксируется лишь наличие или отсутствие какого-либо качества у обоих признаков. Это очень распространенный при анализе данных социологических исследований случай. Исходные данные при этом представляют в виде так называемой таблицы сопряженности 22, в которой даются частоты сочетаний двух уровней признаков – 0 и 1 (отсутствие или наличие качества). Вместо частот в ячейках таблицы сопряженности могут быть и частости, т.е. вероятности тех или иных комбинаций уровней двух признаков.

Мерой силы связи является коэффициент “фи”, который определяется по формуле

 = , (3.9)

где px – доля “единиц” для признака X; pу – доля “единиц” для признака Y; qx=1px; qy=1py. Коэффициент  и наиболее известная и распространенная мера связи признаков – коэффициент корреляции Пирсона rXY – следующим образом связаны друг с другом: их значения равны, если каждый из признаков имеет только два значения: 0 и 1.

Дж. Гласс и Дж. Стенли не включили в свою классификацию еще один вариант – оба признака качественные (номинальные), но не дихотомические, а имеют более чем два уровня. Этот более общий случай очень важен для анализа данных социологических исследований, поскольку большинство вопросов анкет предусматривают от двух до пяти альтернатив ответов.

Разработаны разнообразные меры связи двух дискретных признаков, позволяющие оценить ее силу и/или уровень статистической значимости соответствующего критерия. Приведем лишь те из них, которые включены в процедуру Crosstabs (Таблицы сопряженности) программы SPSS Base (табл. 3.3). В таблицу включены критерии, используемые не только для номинальных признаков, но и для переменных с упорядоченными категориями (порядковых переменных).

Таблица 3.3

Критерии корреляции дискретных (номинальных и упорядоченных) признаков

Структура таблицы сопряженности

Критерий силы связи между двумя дискретными переменными

22

Хи-квадрат Пирсона, хи-квадрат отношения правдоподобия, точный критерий Фишера, хи-квадрат с поправкой Йетса, критерий Макнамара, относительный риск, отношение шансов

RC

Хи-квадрат Пирсона и отношения правдоподобия, Фи, V Крамера, коэффициент сопряженности, симметричная и асимметричная лямбды, тау Гудмена и Краскела, коэффициент неопределенности

RC с упорядоченными категориями

Гамма, ро Спирмана, тау-b и тау-с Кендалла, d Соммерса

RR

Мера согласия каппа Коэна

Многие из перечисленных критериев основаны на наиболее общем подходе к определению силы связи двух номинальных признаков по критерию хи-квадрат (критерию Пирсона).

Рассмотрим пример подобного анализа в конкретном социологическом исследовании, выполненном лабораторией социальных технологий Орловского государственного технического университета (рук. В.И. Уварова) в 1998 г. Была сформулирована задача: выявить взаимосвязи между признаками, выражаемыми ответами респондентов на вопросы, связанные с удовлетворенностью и общественной значимостью работы.

В табл. 3.4 приведены данные социологического исследования в виде таблицы сопряженности с двумя входами для признаков: Удовлетворенность работой” и “Общественная значимость работы”.

Таблица получена с помощью программы SPSS Base и содержит парные распределения, т.е. частоты по альтернативам этих двух вопросов (число респондентов, выбравших то или иное сочетание альтернатив ответов), а также долю (в процентах) ответов по каждой альтернативе второго признака (общественная значимость работы). В последней колонке приведены суммы частот для различных альтернатив первого признака (удовлетворенность работой), а также доли (в процентах) ответов по каждой его альтернативе.

Подобные таблицы содержат также всю необходимую информацию и по линейным распределениям каждого из признаков (суммы по строкам и столбцам).

Таблица 3.4

Частоты и проценты (по строкам и столбцам) парного распределения ответов респондентов

Ваша работа общест-венно значимая, нужная

Ваша работа в целом удовлетворяет Вас ... Альтернативы ответов

Суммы по строкам

Альтернативы ответов

полностью согласен

не совсем согласен

не согласен полностью

затрудняюсь ответить

Полностью согласен

142 42,1%

149 44,2%

32 9,5%

14 4,2%

337 100,0%

Не совсем согласен

25 22,9%

57 52,3%

18 16,5%

9 8,3%

109 100,0%

Не согласен полностью

2 42,1%

6 42,1%

6 42,1%

0 0%

14 100,0%

Затрудняюсь ответить

7 23,3%

8 26,7%

9 30,0%

6 20,0%

30 100,0%

Суммы по столбцам

176 35,9%

220 44,9%

65 13,3%

29 5,9%

490 100,0%

Заметим, что средства пакета SPSS позволяют выводить на печать, помимо абсолютных значений частот по сочетаниям уровней двух признаков, также и относительные их величины (в процентах). Однако для корректной обработки данных парных распределений требуется знание именно абсолютных значений частот. Дело в том, что выводы по статистической обработке парных распределений полностью корректны, если ожидаемые частоты встречаемости nij (частоты для ячейки таблицы сопряженности на пересечении строки i и столбца j) не менее единицы, а число ячеек с ожидаемыми значениями, меньшими 5, не более 20%.

Статистический анализ двумерных таблиц сопряженности — распределений статистических единиц по значениям двух признаков — позволяет решить следующие задачи:

  • установление факта наличия связи на основе статистической оценки ее значимости;

  • измерение тесноты связи;

  • анализ направленности связи с изменением значений переменных.

Уже простое сравнение данных табл. 3.4 позволяет заключить, что наблюдается явное влияние степени общественной значимости работы на удовлетворенность ею. Так, из группы респондентов, не совсем согласных с тем, что их работа является общественно значимой, ответили положительно об удовлетворенности ею 25 из 109, т.е. каждый четвертый-пятый (22,9%), а из группы респондентов, полностью согласных с тем, что их работа является общественно значимой, положительно ответили 142 из 337, т.е. каждый второй-третий (42,1%).

Более наглядно степень влияния общественной значимости работы на удовлетворенность ею видна из графика, представляющего «зависимость» частоты встречаемости nij от уровня одного из признаков при фиксированном значении другого признака (рис. 3.6). При построении графика исключены данные табл. 3.4 по альтернативам «затрудняюсь ответить», которые представляют интерес лишь с точки зрения оценки корректности поставленного вопроса, но не дают дополнительной информации о взаимосвязи признаков.

Рис. 3.6. Распределение групп респондентов по степени удовлетворенности работой: 1 – полностью согласных с тем, что их работа общественно значимая, нужная; 2 – не совсем согласных с тем, что их работа общественно значимая, нужная; 3 – не согласных полностью с тем, что их работа общественно значимая, нужная

Из хода точечно-линейчатых графиков на рис. 3.6 видно, что ломаные прямые 1-3, отвечающие группам респондентов, различающихся по степени признания своей работы общественно значимой, не параллельны друг другу. Это отражает факт взаимосвязи признаков. Чем больше степень отклонения ломаных прямых от параллельного хода (симбатности), тем сильнее связь признаков. Не вызывает никакого сомнения и направленность этой взаимосвязи: группа респондентов, полностью согласных с тем, что их работа общественно значимая, нужная (график 1), характеризуется большей вероятностью удовлетворенности работой по сравнению с группой респондентов, не совсем согласных с тем, что их работа общественно значимая, нужная (график 2). Ход же графика 3, отражающего зависимость частоты от степени удовлетворенности работой для группы респондентов, не согласных полностью с тем, что их работа общественно значимая, нужная, имеет противоположный (антибатный) графику 1 характер.

Как указывалось выше, статистической мерой силы связи двух номинальных признаков могут служить различные коэффициенты. Одним из них является фи-коэффициент, определяемый для таблиц любого размера RC по более общей формуле, и для таблиц сопряженности размером 22 идентичной приведенной нами ранее формуле (3.9)

3 = (2 / n)1/2, (3.10)

где n – объем выборки, 2 – критерий Пирсона, который, в свою очередь, определяется как

2 =  (nijn0ij)2 / n0ij. (3.11)

Здесь nij – эмпирические частоты для ячейки таблицы сопряженности на пересечении строки i и столбца j; n0ij – соответствующие теоретические частоты, вычисленные в предположении независимости признаков. Чаще применяется мера Крамера, выражаемая формулой

V = [2 / (n(q1))]1/2. (3.12)

Множитель n(q1), где q=min(R, C), вводится для компенсации факта прямой зависимости 2 от n и для учета размера таблицы сопряженности RC.

Чем больше величина критерия Пирсона 2 и, соответственно, чем ближе значение фи-коэффициента и коэффициента Крамера к единице, тем сильнее связь между признаками. Можно также вычислить вероятность Р того, что признаки независимы.

Наконец, в частном случае упорядоченной таблицы сопряженности (т.е. когда уровни обоих признаков являются упорядоченными), можно также использовать коэффициент ранговой корреляции Спирмана . Последний удобен, поскольку указывает не только силу связи, но также и направленность взаимосвязи признаков.

Теоретические частоты, входящие в формулу (3.11), могут быть рассчитаны с помощью программы SPSS при использовании процедуры Crosstabs “Таблицы сопряженности” или же по формуле

n0ij = ninj /nij, (3.13)

где ni и nj – суммы частот респондентов по строке i и столбцу j (приведены в маргинальных столбце и строке табл. 3.4, т.е. итоги по строкам и столбцам таблицы сопряженности).

В качестве примера в табл. 3.5 приведены значения эмпирических, теоретических частот и их разностей, рассчитанных для рассматриваемой таблицы сопряженности. Однако, поскольку из анализа исключена альтернатива “затрудняюсь ответить”, предварительно исходные данные были преобразованы путем придания этой альтернативе статуса “пропуски”.

Таблица 3.5

Таблица сопряженности между уровнем удовлетворенности респондентов работой и степенью признания работы общественно значимой, нужной (эмпирические, теоретические частоты (в скобках) и их разности )

Степень признания работы общественно значимой, нужной

Уровень удовлетворенности респондентов работой

полностью удовлетворен

не совсем удовлетворен

полностью не удовлетворен

Итого

Полностью согласен

142 (124,9)  = 17,1

149 (156,6)  = -7,7

32 (41,4)  = -9,4

323

Не совсем согласен

25 (38,7)  = -13,7

57 (48,5)  = 8,5

18 (12,8)  = 5,2

100

Не согласен полностью

2 (5,4)  = -3,4

6 (6,8)  = -0,8

6 (1,8)  = 4,2

14

Итого

169

212

56

437

Из табл. 3.5 видно, что эмпирические и теоретические частоты значительно различаются почти для всех ячеек таблицы сопряженности рассматриваемых признаков, что является отражением достаточно сильной связи последних. Знаки разностей частот указывают на направленность влияния уровней одного признака на частоту встречаемости ответов по уровню другого признака. Так, из того факта, что для ячейки табл. 3.5 с сочетанием уровней обоих признаков “полностью согласен” =17,1 можно заключить, что по сравнению со средней тенденцией признание работы общественно значимой способствует увеличению доли респондентов, полностью удовлетворенных работой.

С помощью программы SPSS Base можно рассчитать все упомянутые выше показатели связи, а также оценить степень их значимости. Так, критерий Пирсона 2=25,37 оказался значимым на высоком уровне =0,00004. Это означает, что вероятность отклонения нулевой гипотезы о независимости признаков, когда она верна, очень мала и составляет величину 0,004%. Или, иначе, надежность принятия альтернативной гипотезы о наличии взаимосвязи признаков Р=1=99,996%. Это очень высокая вероятность.

Такой же степенью значимости обладают и коэффициенты  и V, построенные на основе критерия Пирсона. Их значения составляют =0,241 и V=0,170 соответственно. Чем больше отличаются оба коэффициенты от нуля, тем сильнее связь между обсуждаемыми признаками.

Поскольку оба признака – атрибутивные (номинальные) и измеряются в номинальных шкалах, то к данным табл. 3.5 не применимы такие показатели тесноты связи, как коэффициент ранговой корреляции Спирмана и коэффициент корреляции Пирсона. Однако можно полагать, что при принятом порядке расположения альтернатив ответов: полностью согласен – не совсем согласен – не согласен полностью, мы имеем дело с порядковыми переменными, для которых применимы ранговые критерии и в том числе критерий тесноты связи – коэффициент ранговой корреляции Спирмана.

Расчеты с помощью программы статистического анализа SPSS показали, что величина коэффициента ранговой корреляции Спирмана =0,212. Это указывает на положительную корреляционную связь между признаками, т.е. с переходом от “нижних” (негативных) уровней признака “степень признания работы общественно значимой, нужной”, к “верхним” (позитивным) степень удовлетворенности работой также изменяется в том же направлении – от “нижних” (негативных) уровней признака “степень удовлетворенности работой” к “верхним” (позитивным).

Примечательно, что уровень значимости коэффициента ранговой корреляции Спирмана еще выше – 0,00001. Это обусловлено тем, что расчет данного коэффициента основан на более сильном предположении об упорядоченности альтернатив признаков, т.е. мы полагаем, что оба признака измеряются в порядковой шкале (коэффициенты  и V, построенные на основе критерия Пирсона, вычислены из предположения, что оба признака измеряются в более низкой номинальной шкале). Если предположить, что признаки измерены в еще более высокой интервальной шкале (т.е. уровням обоих признаков приписаны числа, которые можно складывать и вычитать, например 1, 2 и 3 соответственно для уровней “полностью согласен”, “не совсем согласен”, “не согласен полностью’), тогда сила связи может быть измерена коэффициентом корреляции Пирсона R=0,224, значимым на еще более высоком уровне (=0,00000, т.е. меньше 0,000005).

Не всегда анализ таблиц сопряженности размером RC показывает значимость связи признаков в совокупности их уровней, но в то же время для некоторых сочетаний уровней такая связь просматривается из графического представления данных по обоим признакам. В таком случае проводится анализ либо только по этим уровням, или же производится суммирование частот по нескольким альтернативам.

Другими мерами для измерения тесноты связи двух номинальных признаков являются коэффициент сопряженности (контингенции), также основанный на критерии хи-квадрат, и группа мер, основанных на идее пропорциональной редукции (пропорционального снижения) ошибки (PRE – proportional reduction in error). Последние могут быть также направленными мерами, т.е. при их вычислении можно объявить зависимой каждую из переменных. К ним относятся: лямбда, тау Гудмена и Краскела, коэффициент неопределенности.

Коэффициент контингенции был предложен еще в 1901 г. К. Пирсоном и для таблицы сопряженности 22, называемой также часто “таблицей четырех полей”, вычисляется непосредственно по частотам ее ячеек a, b, c, d по формуле

Кк = . (3.14)

Иногда в литературе встречается также такая мера связи, как коэффициент ассоциации Ка, определяемый по таблице четырех полей по формуле

Ка = . (3.15)

В терминах эмпирической социологии числа в числителе a, b, c, d – частоты групп респондентов с определенным сочетанием уровней двух признаков, а суммы в знаменателе – маргинальные частоты, т.е. итоги по строкам и столбцам таблицы сопряженности (табл. 3.6).

Таблица 3.6

Таблица сопряженности 22

Признак Y

Итого

0

1

Признак X

0

a

b

b+d

1

c

d

c+d

Итого

a+c

b+d

n

Коэффициент контингенции Кк всегда меньше коэффициента ассоциации Ка; близость обоих коэффициентов к единице свидетельствует о тесной связи признаков.

Направленные меры (лямбда, тау Гудмена и Краскела, а также коэффициент неопределенности) изменяются от 0 до 1: “0” означает, что независимая переменная не помогает предсказывать значение зависимой переменной, “1” – знание независимой переменной полностью определяет категории зависимой переменной. Лямбда и коэффициент неопределенности имеют также и симметричную форму. Все эти коэффициенты могут применяться для анализа таблиц сопряженности любого размера.

Приведем пример анализа таблицы сопряженности с помощью этих и других мер связи, осуществляемый с помощью процедуры Crosstabs “Таблицы сопряженности” программы SPSS Base.

В социологическом исследовании (лаборатория социальных технологий Орловского государственного технического университета, 1998 г., рук. В.И. Уварова) с целью оценки репрезентативности выборки было необходимо выявить взаимосвязь между полом работающих респондентов (в возрасте от 26 до 50 лет) и сферой их занятости. В вопросе анкеты “В какой отрасли Вы работаете?” предусматривались следующие альтернативы: “Промышленность”, “Строительство”, “Транспорт и связь”, “Сельское хозяйство”, “Торговля и общественное питание”, “Наука, культура, просвещение”, “Здравоохранение”, “Органы государственного и местного управления”, “Сфера обслуживания”, “Мелкая (лоточная) торговля, малый бизнес”, “Милиция, армия”, “Другое” — всего 12 вариантов ответов. Было опрошено 436 респондентов. Исходные данные могут быть представлены в виде таблицы сопряженности, причем пользователю программы предоставляется выбор, градации какой из переменных образует строки и какой — столбцы. Аналогично, следует выбрать, будут ли подсчитываться частости (проценты) по строкам, столбцам или же по отношению к общему числу респондентов.

В табл. 3.7 приведена таблица сопряженности с вычисленными процентами по строкам (сфера занятости), что соответствует поставленной задаче.

Таблица 3.7

Таблица сопряженности «В какой отрасли Вы работаете? * Ваш пол?»

1

2

3

4

5

Ваш пол?

Итого

муж

жен

В какой отрасли Вы работаете?

Промышленность

Встречаемость

48

56

104

%

46,2%

53,8%

100,0%

Строительство

Встречаемость

22

11

33

%

66,7%

33,3%

100,0%

Транспорт и связь

Встречаемость

21

19

40

%

52,5%

47,5%

100,0%

Сельское хозяйство

Встречаемость

8

7

15

%

53,3%

46,7%

100,0%

Торговля и общественное питание

Встречаемость

15

26

41

%

36,6%

63,4%

100,0%

Наука, культура, просвещение

Встречаемость

16

54

70

%

22,9%

77,1%

100,0%

Здравоохранение

Встречаемость

2

19

21

%

9,5%

90,5%

100,0%

Органы государственного и местного управления

Встречаемость

5

10

15

%

33,3%

66,7%

100,0%

Сфера обслуживания

Встречаемость

11

20

31

%

35,5%

64,5%

100,0%

Мелкая (лоточная) торговля, малый бизнес

Встречаемость

11

14

25

%

44,0%

56,0%

100,0%

Милиция, армия

Встречаемость

17

2

19

%

89,5%

10,5%

100,0%

Другое

Встречаемость

9

13

22

%

40,9%

59,1%

100,0%

Итого

Встречаемость

185

251

436

%

42,4%

57,6%

100,0%

Из табл. 3.7 следует, что при большей занятости респондентов-женщин этого возраста (57,6%) наибольшие половые различия наблюдаются в таких сфер занятости, как преимущественно “мужских”: “Милиция, армия” и “Строительство” – 90% и 67% мужчин соответственно, и преимущественно “женских”: “Здравоохранение”, “Наука, культура, просвещение”, “Органы государственного и местного управления”, “Сфера обслуживания”, “Торговля и общественное питание” – 90%, 77%, 67%, 64% и 63% женщин соответственно. Уже только эти факты достаточно убедительно говорят в пользу гипотезы о зависимости сферы занятости респондентов от их пола.

Но вопрос можно поставить не только как “определить связь рассматриваемых признаков”, но и более конкретно: “насколько способствует знание пола респондента в предсказании сферы занятости и наоборот, насколько знание сферы занятости респондента способствует предсказанию пола”.

На первый вопрос отвечают, прежде всего, меры связи двух признаков, основанные на критерии Пирсона – критерии хи-квадрат (табл. 3.8).

Таблица 3.8

Критерии хи-квадрат для признаков “В какой отрасли Вы работаете? * Ваш пол?”

Значение

ст.св.

Асимпт. значимость (2-стор.)

Хи-квадрат Пирсона

50,158

11

0,000

Отношение правдоподобия

54,162

11

0,000

Линейно-линейная связь

1,008

1

0,315

Кол-во валидных наблюдений

436

Ожидаемая встречаемость в ячейках 0 (0,0%) меньше 5.

Минимальная ожидаемая встречаемость равна 6,36.

Из последней графы табл. 3.8 “Асимптотическая значимость (2-сторонняя)” следует, что два коэффициента связи – “Хи-квадрат Пирсона” и “Отношение правдоподобия” – значимы на уровне не хуже чем 0,0005, что позволяет отвергнуть нулевую гипотезу о независимости рассматриваемых признаков по выборке 436 респондентов (объем выборки указан в последней строке табл. 3.8 “Количество валидных наблюдений”). Этот вывод корректен, поскольку, как отмечено в примечании к табл. 3.8, “Ожидаемая встречаемость в ячейках 0 (0,0%) меньше 5. Минимальная ожидаемая встречаемость равна 6,36”, т.е. требование к “наполненности” ячеек таблицы сопряженности выполнено.

Кроме показателя “Хи-квадрат Пирсона”, в табл. 3.8 приведены значения еще двух, связанных с ним: “Отношение правдоподобия” и “Линейно-линейная связь”.

Первый из них – “Отношение правдоподобия”, равен 54,162, что практически совпадает со значением критерия 2=50,158 при том же числе степеней свободы 11. Этот критерий, называемый “Критерий хи-квадрат отношения правдоподобия”, является альтернативой критерию хи-квадрат Пирсона и используется в логлинейных моделях при так называемой логарифмически-линейной параметризации таблиц сопряженности. Для больших выборок этот критерий дает сходные с критерием 2 результаты.

Второй критерий – “Критерий хи-квадрат линейно-линейной связи” является функцией коэффициента корреляции Пирсона и применяется для оценки связи количественных переменных (в данном случае мы имеем переменные с неупорядоченными категориями, и этот коэффициент нами не обсуждается).

Значения других мер связи, родственных критерию Пирсона, приведены в таблице “Симметричные меры” – табл. 3.9.

Таблица 3.9

Симметричные меры связи признаков “В какой отрасли Вы работаете? * Ваш пол?”

Значение

Прибл. значимость

Номинальная по номинальной

Фи

0,339

0,000

V Крамера

0,339

0,000

Коэффициент сопряженности

0,321

0,000

Кол-во валидных наблюдений

436

Как отмечалось ранее, все меры связи, основанные на критерии Пирсона, имеют одинаковые число степеней свободы (в данном случае число степеней свободы равно 11) и статистическую значимость (не хуже 0,0005 – см. данные последней графы табл. 3.9).

Данные по другому типу мер связи – направленным мерам – приведены в табл. 3.10, также полученной с помощью процедуры Crosstabs программы SPSS Base.

Как отмечалось, с помощью направленных мер можно ответить на второй поставленный нами выше вопрос: “насколько способствует знание пола респондента в предсказании сферы занятости и наоборот, насколько знание сферы занятости респондента способствует предсказанию пола”. По значению меры “Лямбда” при зависимой переменной “В какой отрасли Вы работаете?”, равном 0,000, можно сделать следующий вывод: если пол используется для предсказания сферы занятости (зависимая переменная “В какой отрасли Вы работаете?”), значение меры лямбда сообщает о снижении ошибки на 0,0%. Равенство этой меры значению 0,051 при выборе в качестве зависимой другого признака – “Ваш пол?” означает, что если предсказание строится противоположным образом: зная сферу занятости, предсказываем пол, снижение ошибки достигает 15,7%. Уровень значимости (последняя графа табл. 3.10) показывает, что второе значение достоверно (<0.005); по первому значению данные о значимости в рассматриваемом примере отсутствуют.

Таблица 3.10

Направленные меры связи признаков “В какой отрасли Вы работаете? * Ваш пол?”

Значение

Асимпт. стд. ошибка

Прибл. T

Прибл. значимость

Номинальная по номинальной

Лямбда

Симметричная

0,056

0,019

2,829

0,005

Зависимая

В какой отрасли Вы работаете?

0,000

0,000

.

.

Зависимая

Ваш Ваш пол?

0,157

0,051

2,829

0,005

Тау Гудмена и Краскала.

Зависимая

В какой отрасли Вы работаете?

0,010

0,003

0,000

Зависимая

Ваш пол?

0,115

0,025

0,000

Коэффи-циент неопреде-ленности

Симметричная

0,042

0,010

4,031

0,000

Зависимая

В какой отрасли Вы работаете?

0,027

0,007

4,031

0,000

Зависимая

Ваш пол?

0,091

0,023

4,031

0,000

Две другие меры – “Тау Гудмена и Краскала” и “Коэффициент неопределенности” – показывают примерно такие же результаты снижения ошибки предсказания пола по сфере занятости (11,5 и 9,1% для этих двух мер соответственно); снижение ошибки предсказания сферы занятости по полу значительно меньше (1,0 и 2,7% соответственно). Заметим, что в табл. 3.10 приведены также и симметричные формы коэффициентов “Лямбда” и “Коэффициент неопределенности”; при их вычислении суммируются числители и знаменатели для двух направленных форм и берется их отношение.

В графе “Асимптотическая стандартная ошибка” табл. 3.10 приведены исходные данные для определения доверительных интервалов оцениваемых мер связи. Так, мера лямбда, точечная оценка которой для зависимой (предсказываемой) переменной “Ваш пол” равна 0,157, имеет интервальную оценку при уровне доверия 95%, равную 0,1572*0,051=(0,055; 0,259).

Для выявления ячеек, сильно отклоняющихся от модели независимости признаков и вносящих наибольший вклад в критерий Пирсона, на экран выводится таблица так называемое приведенных, или скорректированных остатков, равных отношению разности между наблюденной частотой и ожидаемой (теоретической) к оценке стандартной ошибке остатка. Это ячейки, для которых приведенные остатки по абсолютной величине превышают число 2. (Подобную таблицу можно получить с помощью процедуры Crosstabs программы SPSS Base.)

В табл. 3.11 приведены величины приведенных остатков для таблицы сопряженности “В какой отрасли Вы работаете? * Ваш пол?”.

Вычисленные остатки превышают число 2 для категории “Муж.” только для двух категорий переменной “В какой отрасли Вы работаете?” – “Милиция, армия” и “Строительство”. Эти сферы деятельности преимущественно свойственны мужчинам. Для категории “Жен.” число 2 превышено также для двух ячеек – для категорий “Наука, культура, просвещение” и “Здравоохранение” (скорректированные остатки составляют 3,6 и 3,1 соответственно); эти сферы деятельности преимущественно свойственны женщинам. Полученные результаты уточняют выводы, сделанные нами ранее из сравнительного анализа частостей (процентов) по строкам исходной таблицы сопряженности (табл. 3.7), когда к преимущественно “женским” сферам деятельности нами были отнесены еще три: “Органы государственного и местного управления”, “Сфера обслуживания”, “Торговля и общественное питание”.

Таблица 3.11

Приведенные остатки для таблицы сопряженности

“В какой отрасли Вы работаете? * Ваш пол?”

Ваш пол?

муж

жен

В какой отрасли Вы работаете?

Промышленность

0,9

-0,9

Строительство

2,9

-2,9

Транспорт и связь

1,4

-1,4

Сельское хозяйство

0,9

-0,9

Торговля и общественное питание

-0,8

0,8

Наука, культура, просвещение

-3,6

3,6

Здравоохранение

-3,1

3,1

Органы государственного и местного управления

-0,7

0,7

Сфера обслуживания

-0,8

0,8

Мелкая (лоточная) торговля, малый бизнес

0,2

-0,2

Милиция, армия

4,2

-4,2

Другое

-0,1

0,1

Использование процедуры Crosstabs программы SPSS Base значительно облегчает выполнение анализа отдельных, интересующих исследователя фрагментов таблицы сопряженности, проиллюстрированное нами ранее на ряде примеров.

Соседние файлы в папке моно_2012_Шуметов_Крюкова