
- •Глава 1. Информация, обрабатываемая статистическим пакетом
- •1.1. Анкетные данные
- •1.2. Типы переменных
- •1.3. Имена переменных и метки, коды неопределенных значений
- •Глава 2. Статистический пакет для социологических исследований. Общее описпние и поодготовка данных
- •2.1. Структура пакета
- •2.2. Схема организации данных, окна spss
- •2.3. Управление работой пакета
- •2.4. Режим диалога и командный режим
- •Глава 2. Статистический пакет для социологических исследований. Общее описпние и поодготовка данных
- •2.1. Структура пакета
- •2.2. Схема организации данных, окна spss
- •2.3. Управление работой пакета
- •2.4. Режим диалога и командный режим
- •Variable labels rangv14 "ранг по доходам"/
- •V14_5 "квинтильные группы по доходам"/
- •Variable labels oppos 'Степень противостояния ссср и Японии'
- •Value labels oppos 1 'Взаимное' 2 'Одна из сторон' 3 'Нет противостояния'.
- •2.5. Операции с файлами Агрегирование данных (команда aggregate)
- •Функции агрегирования
- •Глава 3. Процедуры получения описательных статистик и таблиц сопряженности
- •3.1. Команды описания распределений
- •3.2 Анализ связи между неколичественными переменными. Crosstabs - таблицы сопряженности
- •Var lab w4 "Возможность удовлетворить территориториальные требования Японии".
- •Val lab w4 1 "отдать" 2 "не надо" "не знаю".
- •Cells статистики смещения частот
- •Statistics - исследование связи неколичественных перемееных
- •Измерение силы связи между номинальными переменными
- •Статистический эксперимент для оценки значимости и ее прямое вычисление
- •3.3. Сложные табличные отчеты. Таблицы для неальтернативных вопросов
- •ТипичнЫe примеРы использования Multiple Response Tables
- •Var lab m1 "Зап Сиб" m2 "Вост Сиб" m3 "Дальн Вост".
- •Var lab d1 'Жесткий вариант'
- •3.4. Множественные сравнения в таблицах для неальтернативных вопросов. Программа Typology Tables
- •Глава 4. Сравнение средних, корреляции
- •4.3. Compare Means - простые параметрические методы сравнения средних.
- •Variable labels lnv14m "логарифм промедианного дохода".
- •Var lab w10 "образование".
- •Value lab w10 1 "Высшее" 2 "н/высш" 3 "ср. Спец" 4 "среднее" 5 "ниже среднего".
- •4.4. Корреляции (correlations)
- •Глава 5. Непараметрические тесты. Команда Nonparametric tests.
- •5.1. Одновыборочные тесты
- •Var lab w4 "отношение к передаче островов".
- •Val lab 1 "Отдать" 2 "нет".
- •5.3. Тесты для ранговых переменных
- •5.4. Тесты для связанных выборок (related samples)
Variable labels rangv14 "ранг по доходам"/
V14_5 "квинтильные группы по доходам"/
percv14 "процентили по доходам".
Подробнее см. в "Руководстве пользователя SPSS6.1"
Отбор подмножеств наблюдений
Для выбора подмножества наблюдений необходимо использовать команду из главного меню:
DATA
SELECT CASES
после выполнения этих команд появляется окно диалога с вариантами организации отбора данных по условию.
Невыбранные объекты могут быть исключены из сеанса работы или временно отфильтрованы. Имеется возможность организовать случайную выборку, например, выбрать 10% данных.
Если необходимость во временной выборке отпала, нужно снова обратиться к этому же пункту меню и в диалоге указать ,что необходимы все объекты (ALL CASES).
Добавление команд временного отбора данных в файл синтаксиса с использованием диалогового окна (Paste) приводит к появлению в программе целой серии команд, такой как
USE ALL.
COMPUTE filter_$=(v8 = 1).
VARIABLE LABEL filter_$ 'v8 = 1 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .
Как видно из сгенерированного SPSS текста, в случае использования условия для временной подвыборки объектов, программа выборки создает переменную фильтра (filter_$) и использует команду FILTER BY filter_$.
Можно не использовать диалога, а для временной выборки объектов сформировать программу, создающую переменную фильтра, в частности для выборки мужчин в нашем учебном массиве можно воспользоваться командой
FILTER BY V8.
Для отмены фильтра необходимо запустить команду
FILTER OFF.
Для сохранения массива данных только отобранных объектов в команде SAVE нужно использовать подкоманду /UNSELECTED DELETE:
SAVE FILE='D:\mydir\city' /KEEP=x1 to x10, x15
/UNSELECTED DELETE/COMPRESSED.
Если необходимо исключить наблюдения из массива, диалог даст последовательность команд такого типа
USE ALL.
SELECT IF(v8 = 1).
EXECUTE .
Можно обойтись и одной командой SELECT IF(v8 = 1).
Обратим еще раз внимание на то, что в результате применения команды SELECT IF не выбранные объекты теряются полностью.
Команда SPLIT FILE
Нередко возникает необходимость получить однотипные таблицы для различных групп наблюдений, а, возможно и сравнить их. С этой целью предусмотрена команда SPLIT FILE. Ее удобно запускать из меню редактора данных. Команда SPLIT FILE требует предварительной сортировки данных по переменным разбиения. В ней указываются переменные разбиения выборки, а также цель расщепления - получение независимых выдач для различных групп объектов (ключевое слово SEPARATE), или сравнение данных по группам (LAYERED). В последнем случае для большинства статистических программ выдачи по группам объединяются в единую таблицу.
Например, расщепление наших учебных данных выборки по полу с целью сравнения групп можно сделать программой.
SORT CASES BY v8 .
SPLIT FILE LAYERED BY v8 .
Descriptives Variables= v9 v14.
Команда Descriptives получает описательные статистики переменных. В таблице 2.2 благодаря команде SPLIT результаты работы команды Descriptives на разных группах по полу объединены в одну таблицу.
Таблица 2.2. Описательные статистики, полученные при расщеплении данных для сравнения групп
V8 Пол |
|
N |
Minimum |
Maximum |
Mean |
Std. Deviation |
1 муж. |
V9 Возраст |
354 |
16.0 |
76.0 |
39.6 |
13.0 |
|
V14 Ср.мес. душевой доход |
341 |
21.0 |
1254.0 |
237.9 |
168.2 |
|
Valid N (listwise) |
335 |
|
|
|
|
2 жен. |
V9 Возраст |
344 |
16.0 |
74.0 |
39.5 |
12.2 |
|
V14 Ср.мес. душевой доход |
324 |
50.0 |
1500.0 |
219.8 |
132.8 |
|
Valid N (listwise) |
317 |
|
|
|
|
При получении результатов для отдельных групп программой
SORT CASES BY v8 .
SPLIT FILE SEPARATE BY v8 .
Descriptives Variables= v9 v14.
будут получены две отдельные таблицы.
Взвешивание выборки WEIGHT
Социологи достаточно часто некорректно работают со статистическими данными. К примеру, перед ними стоит задача изучить социальные факторы людей, занятых в правовых органах. Известно, что в органах юстиции занято 2% трудоспособного населения. При определении объектов исследования на практике возникают трудности с репрезентативностью выборки. Например, если будет отобрано 500 человек, то из них может оказаться только 10 занятых в органах юстиции. Их обследование будет недостаточно для формирования выводов.
Поэтому социологи осознанно выбирают большее число занятых в этих органах, например 50 из 500. Иногда они рассчитывают целую половозрастную, отраслевую и т.д. таблицу, по которой решают, сколько человек в каждой социальной группе опросить. Это, как правило, деформирует выборку, от которой требуется репрезентация населения, например, всего города. Чтобы уменьшить влияние деформированности выборки на результаты статистического анализа, применяют взвешивание объектов: группы, которые были искусственно уменьшены, выбираются с весовым коэффициентом, превышающим единицу. Обычно суммарный вес объектов равен числу объектов в рассматриваемом файле.
Пусть, например, опрошено 300 человек, из них 100 мужчин, 200 женщин (бухгалтеров застать на рабочем месте было проще всего). Предполагается, что в генеральной совокупности 50% мужчин, 50% женщин. Целесообразно учитывать мужчину с весом 1.5, а женщину - с весом 0.75, тогда с учетом весов выборка будет выровнена.
Пусть переменная SEX содержит сведения о поле респондентов (1 - мужской, 2 - женский). Соответствующие веса будут назначены соответствующими командами
Recode SEX (1=1.5)(2=0.75) into wsex.
WEIGHT by wsex
Execute.
Вообще, если известно распределение объектов k групп в генеральной совокупности p1,…,pk; получено частотное распределение n1,…,nk, то i-й группе должен быть
приписан вес wi=pi/ni*n, где n= |
|
Назначение веса можно сделать также через меню редактора данных (DATA->WEIGHT CASES).
Замечания: взвешивание - это не физическое повторение наблюдения. Если значение веса отрицательное или неопределенное (предварительно определенное как SYSMIS), то оно обрабатывается статистическими процедурами как вес, равный нулю.
Пример 2.1
Приемы использования команд описания и преобразования данных рассмотрены нами на примере анкеты "Курильские острова".
Задача. На основании ответов на вопросы анкеты получить переменную, отражающую степень противостояния СССР и Японии.
Решением этой задачи может быть переменная, в зависимости от ответов респондентов имеющая значения:
1. Япония противостоит Союзу и Союз - Японии, т.е. противостояние взаимно.
2. Одна из сторон (Япония или Союз) против контактов.
3. Стороны не противостоят по отношению друг к другу.
Основой для конструирования такой переменной используем ответы на вопрос анкеты "III. Как Вы считаете, что мешает подписать мирный договор между СССР и Японией?" с подсказками:
1. Нет настоятельной необходимости, отношения и без того нормальные.
2. Традиционное недоверие друг к другу в результате войн в прошлом.
3. Слабая экономическая заинтересованность Японии.
4. Разные политические симпатии СССР и Японии.
5. Нежелание Японии признать послевоенные границы с СССР.
6. Нежелание СССР рассматривать вопрос о спорных островах.
7. Другое (что именно).
8. Не знаю, затрудняюсь сказать.
Под ответы на вопрос III в матрице данных отведено восемь столбцов, поименованных V3S1 - V3S8; для заполнения ответов по этому вопросу используется кодирование в виде списка. Анализируя ответы, строим переменную ТР, соответствующую этим трем типам. Для этого построим вспомогательные переменные Т1 и Т2, являющиеся индикаторами того, что Япония противостоит СССР и СССР противостоит Японии, соответственно.
Построить такие переменные можно воспользовавшись командами
COUNT T1 = V3S1 to V3S7 (2,5) /
T2 = V3S1 to V3S7 (2,6).
В результате выполнения команды переменной T1 присваивается либо 1 (когда в анкете была обведена одна из двух подсказок: 2 или 5); либо 2 ( когда обведены обе подсказки) и 0, если респондент не обвел ни подсказку 2, ни подсказку 5. По аналогии заполнены значениями - количествами обведенных соответствующих подсказок - переменные B и Т2.
COMPUTE OPPOS=3.
IF ( T1 > 0 | T2>0) OPPOS = 2.
IF (T1 > 0 & T2>0) OPPOS = 1.
Execute.