3.1.3.Explore– исследование распределений и сравнение групп объектов

Команда меню Exploreна языке программирования имеет имяEXAMINE. Она реализует удобный инструмент исследования распределения данных в подвыборках объектов и расcчитывает статистики для проверки нормальности распределения и однородности дисперсий в группах. Мы не будем подробно описывать эту процедуру, поскольку она хорошо описана в книге [7. С. 43 – 71].

Команда отличается развитыми графическими возможностями. В ней предусмотрены гистограммы, диаграммы типа «ствол с листьями», ящичковые диаграммы, графики сравнения эмпирического распределения с нормальным. Для описательного анализа удобны ящичковые диаграммы. Для примера рассмотрим диаграмму распределения по возрасту в группах по семейному положению, полученную командой

EXAMINE VARIABLES = V9 BY V11

/PLOT BOXPLOT HISTOGRAM NPPLOT SPREADLEVEL(1)

/COMPARE GROUP /STATISTICS DESCRIPTIVES

/CINTERVAL 95 /MISSING LISTWISE /NOTOTAL.

Нижние и верхние границы «ящичков» показывают 25 % и 75 % процентили распределений, черта посередине – медиана, «усы» показывают максимальные и минимальные значения в группах, если они не отстоят от верхнего (нижнего) края ящичка более чем на 1,5 его длины. Иначе они показывают эту границу, а вышедшие за эти пределы значения отмечаются отдельными точками или кружками (рис. 3.3).

Рис. 3.3. Ящичковые диаграммы

а диаграмме видим, что для всех групп медиана находится не в центре возрастных интервалов. Особенно велик перекос для не состоявших в браке, т. е. среди этой группы опрошенные были в возрасте 20 лет. Выборка ограничена трудоспособным возрастом 16 лет, что отчасти объясняет перекошенность в последней группе. Людям более старшего возраста свойственно заводить семью. Для женатых медиана находилось в возрасте около 40 лет. Медиана возраста разведенных приходится примерно на 44 года и вдовцов в возрасте 52 лет. Т. е. «центральный» возраст разведенных примерно на 4 года больше «центрального» возраста разведенных.

3.2 Анализ связи между неколичественными переменными

3.2.1.Crosstabs– таблицы сопряженности

CROSSTABSпозволяет получать таблицы сопряженности многомерных распределений и связей двух и более переменных. Рекомендуется использоватьCROSSTABSдля переменных с небольшим числом значений (обычно для неколичественных переменных), так как каждая комбинация значений соответствует новой клетке в таблице.

CROSSTABS /TABLES = v1 v2 BY v10 BY pol.

Таблицы сопряженности для пары переменных XиYсодержат частотыN_ij, с которыми встретилось сочетаниеi-го значенияXиj-го значенияY. Кроме того, в таблице обязательно присутствуют маргинальные частотыN_i_..,равные сумме чиселN_ijпоi-строке;N_._j– сумме по столбцу (частотыi-го значенияXиj-го значенияY, подсчитанные независимо) иN– общее число объектов.

Основные подкоманды CROSSTABS:

/TABLES– задание таблиц;

/CELLS– статистики клеток таблицы;

/STATISTICS – статистики взаимосвязи переменных;

/METHOD– метод проверки значимости связи переменных;

/BARCHART– столбиковая диаграмма.

3.2.1.1. Подкоманда /tables– задание таблиц

Параметр TABLESможет быть опущен:

CROSSTABS v1 TO v5 BY v10.

Строки таблицы сопряженности соответствуют значениям переменной, указанной в тексте команды перед ключевым словом «BY»; столбцы матрицы соответствуют значениям переменной, расположенной после «BY».

Пример.Совместное распределение по региону (R), точке зрения на иностранную помощь (v1) и полу (V8):

CROSSTABS TABLES R BY v1 BY v8/cells = COUNT ROW.

В результате выполнения этой команды рассчитывается табл. 3.3. Перед ключевым словомBYуказываются переменные, по которым вычисляется двувходовая таблица (переменная, значения которой идентифицируют строки), после ключевого словаBYуказываются переменные, идентифицирующие столбцы. За следующимиBYидут переменные условий, определяющие подвыборки, на которых рассчитываются таблицы. Хотя в современной версии пакета эти таблицы объединяются в одну таблицу, их статистический анализ производится по отдельности. Ключевым словомBYмогут разделяться и списки переменных. В этом случае процедурой получаются таблицы по всем парам таблиц из первого и второго списка. Например,

CROSSTABS V8 V11 V12 BY V4 V1.

Эта команда выведет таблицу сопряженности: V8cV4,V8cV1,V11cV4,V11cV1и т. д., то есть сочетания по всем переменным, перечисленным в команде. Всего будет выдано на печать 6 таблиц. Если более двух списков переменных разделены ключевыми словамиBY, то переменные, стоящие за вторым, третьим и т. д.BY, задают условия получения таблиц. Таблицы формируются на подвыборках, соответствующих сочетаниям значений этих переменных.

Таблица 3.3

<<< < Предыдущая 9 10 11 12 13 14 15 16 17 18 19 2021 / 6921 22 23 24 25 26 27 28 29 30 31 32 33 > Следующая >>>