- •Предисловие
- •Глава 1. Информация, обрабатываемая статистическим пакетом
- •1.1. Анкетные данные
- •1.2. Типы переменных
- •1.2.1. Типы кодирования переменных
- •1.2.2. Тип шкалы измерения переменной
- •1.2.3. Неколичественные шкалы
- •1.2.4. Количественные шкалы
- •1.2.5. Неальтернативные признаки
- •1.3. Имена и метки переменных
- •1.4. Коды неопределенных значений
- •Глава 2. Общее описание статистического пакета для социологических исследований и подготовка данных
- •2.1. Структура пакета
- •2.2. Схема организации данных, окна spss
- •2.3. Управление работой пакета
- •2.3.1. Основные команды меню spss верхнего уровня
- •2.3.2. Статусная строка
- •2.3.3. Ввод данных с экрана
- •2.4. Режим диалога и командный режим
- •2.4.1. Командный режим работы с пакетом. Основные правила написания команд на языке пакета
- •2.4.2. Порядок выполнения команд
- •2.4.3. Команды вызоваGeTи сохранения данныхSave
- •2.4.4. Основные команды описания данных
- •2.5. Основные команды преобразования данных
- •2.5.1. КомандыComputEиIf
- •2.5.1.1. Основные функции и операторы команд computEиIf
- •Сдвиг, произведенный функцией lag (данные «Проблем и жалоб»)
- •2.5.1.2. Работа с неопределенными значениями
- •2.5.1.3. Функции для неопределенных значений
- •2.5.1.4. Работа с пользовательскими неопределенными значениями
- •2.5.1.5. Работа с функциями missinGиSysmis.
- •2.5.2. КомандаRecode
- •2.5.3. КомандаCount
- •2.5.4. Условное выполнение команд
- •Интервалы для мужчин и женщин
- •2.5.5. КомандаRank
- •2.5.6. Отбор подмножеств наблюдений
- •2.5.7. КомандаSplitfile
- •Описательные статистики для групп, полученные при расщеплении данных для сравнения
- •2.5.8. Взвешивание выборкиWeight
- •2.6. Операции с файлами
- •2.6.1. Агрегирование данных (командаAggregate)
- •2.6.1.1. Функции агрегирования
- •2.6.1.2. Пример агрегирования файла
- •2.6.2. Объединение файлов (merge files)
- •Глава 3. Процедуры получения описательных статистик и таблиц сопряженности
- •3.1. Команды получения распределений и описательных статистик
- •3.1.1. Frequencies – получение одномерных распределений переменных
- •3.1.1.1. Подкоманды /barchart, /piecharTи /histogram– диаграммы распределения
- •3.1.1.2. Подкоманды /ntiles, /percentiles–n-тили, процентили
- •3.1.1.3. Подкоманда /statistics– описательные статистики
- •Статистики переменной v14 – «Душевой доход», выданные командой frequencies
- •3.1.2.Descriptives– описательные статистики
- •3.1.3.Explore– исследование распределений и сравнение групп объектов
- •3.2 Анализ связи между неколичественными переменными
- •3.2.1.Crosstabs– таблицы сопряженности
- •3.2.1.1. Подкоманда /tables– задание таблиц
- •Распределение переменной «Точка зрения на иностранную помощь» в разрезе региона и пола респондентов
- •3.2.1.2. Подкоманда /cells
- •Связь ответов на вопросы «Точки зрения на иностранную помощь» и «Возможности удовлетворения территориальных требований Японии» (частоты и проценты)
- •3.2.1.3. Cтатистики смещения частот
- •Связь ответов на вопросы «Точки зрения на иностранную помощь» и «Возможностью удовлетворить территориальные требования Японии» (статистики смещений частот)
- •3.2.1.4. Подкоманда /statistics– исследование связи неколичественных переменных
- •Тесты хи-квадрат
- •3.2.1.5. Измерение силы связи между номинальными переменными
- •3.2.1.6. Коэффициенты связи между ранговыми переменными
- •Коэффициенты для ранговых переменных
- •3.2.1.7. Точные методы оценки значимости
- •3.3. Сложные табличные отчеты. Таблицы для неальтернативных вопросов
- •3.3.1. Работа с командой General Tables
- •Средний возраст в группах по ответам на вопрос III «Что мешает заключить договор?» для мужчин и женщин
- •3.3.2. Типичные примеры использования Multiple Response Tables
- •3.4. Множественные сравнения в таблицах для неальтернативных вопросов. Программа Typology Tables
- •3.4.3. Как выяснить надежность результата?
- •3.4.4. Критические значенияZ-статистики при множественных сравнениях
- •3.4.5. Статистические эксперименты
- •3.4.6. Работа с программой Typology Tables
- •3.4.7. Примеры использования программы Typology Tables
- •3.4.7.1. Частотная таблица. Наличие крупной собственности и покупки спиртного и табака.
- •Покупка алкоголя и табачных изделий и наличие крупной собственности (фрагмент таблицы сопряженности, частоты и % по строкам)
- •3.4.7.2. Таблица средних. Молочные продукты и жилплощадь
- •Средняя жилплощадь в группах семей по покупкам молочных продуктов
- •3.4.7.3. Душевой доход любителей сладкого и жилье. Одновременное сравнение средних по строкам таблицы
- •Средний логарифм доходов в группах по жилищным условиям и покупкам сладкого (среднее, стд. Отклонение, численность в группах)
- •Глава 4. Сравнение средних, корреляции
- •4.1. Compare Means – простые параметрические методы сравнения средних
- •4.1.1. Одновыборочный тест (One sample t-test)
- •Одновыборочный t-тест. Средний промедианный доход незначимо отличается от нуля
- •Одновыборочный t-тест. Средний логарифм промедианного дохода в группе с относительно низким образованием отличается от нуля при уровне значимости 5 %
- •4.1.2. Двухвыборочный t-тест (independent sample t-test)
- •4.1.3. Двухвыборочныйt-тестдля связанных выборок (Paired sample t-test)
- •4.1.4. КомандаMeans– сравнение характеристик числовой переменной по группам
- •Среднемесячный душевой доход в семье
- •Результаты однофакторного дисперсионного анализа
- •4.1.5. Одномерный дисперсионный анализ (oneway)
- •4.1.6. Множественные сравнения
- •Oneway, сравнение среднего промедианного логарифма доходов
- •Oneway, проверка однородности дисперсий
- •Oneway, обычный дисперсионный анализ
- •Oneway, группы неразличимых средних
- •Oneway, множественные попарные сравнения
- •4.2. Correlationsкорреляции
- •4.2.1. Парные корреляции
- •Коэффициенты корреляции Спирмена (Spearman's rho)
- •4.2.2. Частные корреляции
- •Коэффициент корреляции времени приготовления пищи и закупки продуктов
- •Коэффициент корреляции времени приготовления пищи и закупки продуктов
- •Глава 5. Непараметрические тесты. Командаnonparametrictests
- •5.1. Одновыборочные тесты
- •5.1.1.Тест хи-квадрат
- •Наблюдаемые и ожидаемые частоты
- •Статистика хи-квадрат
- •Значимость критерия хи-квадрат
- •5.1.2. Тест, основанный на биномиальном распределении
- •Значимость критерия хи-квадрат
- •5.1.3. Тест КолмогороваСмирнова
- •Проверка нормальности распределения доходов с использованием критерия Колмогорова – Смирнова
- •Проверка лог-нормальности распределения доходов
- •5.2. Тесты сравнения нескольких выборок
- •5.2.1. Двухвыборочный тест КолмогороваСмирнова
- •Cравнение распределения доходов в двух группах на основе критерия Колмогорова – Смирнова
- •5.2.2. Тест медиан
- •Метод медиан. Разделение на две подвыборки
- •Метод медиан. Значимость критерия
- •5.3. Тесты для ранговых переменных
- •5.3.1. Двухвыборочный тест Манна – Уитни (Mann – Witney)
- •Критерий Манна Уитни. Суммы рангов
- •Критерий Манна Уитни. Значимость критерия
- •5.3.2. Одномерный дисперсионный анализ КраскэлаУоллиса (KruskalWallis)
- •Тест Краскэла – Уоллиса. Средние ранги
- •Тест Краскэла Уоллиса. Значимость критерия
- •5.4. Тесты для связанных выборок (Related samples)
- •5.4.1. Двухвыборочный критерий знаков (Sign)
- •Тест знаков для парных наблюдений. Частоты
- •Тест знаков для парных наблюдений. Значимость критерия
- •5.4.2. Двухвыборочный знаково-ранговый критерий Вилкоксона (Wilcoxon)
- •Знаково-ранговый тест Вилкоксона. Средние ранги
- •Знаково-ранговый тест Вилкоксона. Средние ранги
- •5.4.3. Критерий Фридмана (Friedman)
- •Tест Фридмана. Средние ранги
- •Tест Фридмана. Значимость
- •Глава 6. Регрессионный анализ
- •6.1. Классическая линейная модель регрессионного анализа
- •6.1.1. Существует ли линейная регрессионная зависимость?
- •6.1.2. Коэффициенты детерминации и множественной корреляции
- •6.1.3. Оценка влияния независимой переменной
- •6.1.3.1. Стандартизация переменных. Бета-коэффициенты
- •6.1.3.2. Надежность и значимость коэффициента регрессии
- •6.1.3.3. Значимость включения переменной в регрессию
- •6.1.4. Пошаговая процедура построения модели
- •6.1.5. Переменные, порождаемые регрессионным уравнением
- •6.1.6. Взвешенная регрессия
- •6.1.7. Команда построения линейной модели регрессии
- •6.1.8. Пример построения модели
- •Общие характеристики уравнения
- •Дисперсионный анализ уравнения
- •Коэффициенты регрессии
- •6.1.9.Можно ли в регрессии использовать неколичественные переменные?
- •Коэффициенты регрессии с индексными переменными
- •6.1.10.Взаимодействие переменных
- •6.2.Логистическая регрессия
- •6.2.1.Отношение шансов и логит
- •6.2.2. Решение уравнения с использованием логита
- •6.2.3. Неколичественные данные
- •6.2.4. Взаимодействие переменных
- •6.2.5. Пример логистической регрессии и статистики
- •Средняя зарплата по децилям
- •6.2.6. Качество логистической регрессии
- •6.2.7. Вероятность правильного предсказания
- •Связь наблюдения и предсказания в логистической регрессии
- •6.2.8. Коэффициенты логистической регрессии
- •6.2.9. О статистике Вальда
- •6.2.10. Сохранение переменных
- •Глава 7. Исследование структуры данных
- •7.1. Факторный анализ
- •7.1.1. Метод главных компонент
- •7.1.2. Интерпретация факторов
- •7.1.3. Оценка факторов
- •7.1.4. Статистические гипотезы в факторном анализе
- •7.1.5. Задание факторного анализа
- •Дисперсия, объясненная факторным анализом
- •Матрица факторных нагрузок
- •Матрица факторных нагрузок после вращения факторов
- •7.2. Кластерный анализ
- •7.2.1. Иерархический кластерный анализ
- •Протокол объединения кластеров
- •7.2.2. Быстрый кластерный анализ
- •Центры кластеров (Final Cluster Centers)
- •Дисперсионный анализ в методе k-средних (anova, имееет только описательное значение)
- •7.3. Многомерное шкалирование
- •7.3.1. Евклидово пространство
- •7.3.2. Идея многомерного шкалирования
- •7.3.3. Качество подгонки модели
- •7.3.4. Вызов процедуры многомерного шкалирования
- •7.3.5. Исходная матрица расстояний
- •7.3.6. Пример построения шкал
- •Коэффициенты ранговой корреляции Спирмена построенных шкал с обеспеченностью предметами быта
- •Литература
- •Приложение 1 Анкета опроса общественного мнения
- •Приложение 2 Переменные файла обследования общественного мнения
- •Оглавление
- •Глава 1. Информация, обрабатываемая статистическим пакетом 5
- •Глава 2. Общее описание статистического пакета для социологических исследований и подготовка данных 10
- •Глава 3. Процедуры получения описательных статистик и таблиц сопряженности 40
- •Глава 4. Сравнение средних, корреляции 78
- •Глава 5. Непараметрические тесты. Команда nonparametric tests 96
- •Глава 6. Регрессионный анализ 109
- •Глава 7. Исследование структуры данных 131
Сдвиг, произведенный функцией lag (данные «Проблем и жалоб»)
N Анкеты |
Пол (Sex) |
Возраст (Age) |
Возраст (Age1) |
Возраст (Age2) |
1 |
1 |
20 |
|
|
2 |
1 |
25 |
20 |
|
3 |
2 |
34 |
25 |
|
4 |
1 |
18 |
34 |
20 |
. |
. |
. |
|
|
Функция полезна для анализа временных рядов, при анализе анкетных данных – для поиска повторов объектов и других вспомогательных операций.
Логические функции:
RANGE(v, a1, b1, a2, b2, …) принимают значение 1, если значениеVпопало хотя бы в один из интервалов [a1, b1], [a2, b2], и 0 – в противном случае.
ANY(v, a1, a2, …) принимают значение 1, если значениеVсовпало хотя бы с одним из значенийa1, a2, … и 0 – в противном случае.
Кроме того, в пакете имеются строчные функции, функции обработки данных типа даты и времени.
2.5.1.2. Работа с неопределенными значениями
Вообще говоря, если в арифметическом выражении встретится переменная с неопределенным значением, результат не будет определен, однако значения выражения 0*«неопределенное значение»(нуль, умноженный на неопределенное значение) и 0/ «неопределенное значение»(нуль, деленный на неопределенное значение) приравниваются к нулю.
2.5.1.3. Функции для неопределенных значений
VALUE – функция игнорирования назначения пользовательского неопределенного значения;
MISSING – логическая функция для обнаружения пользовательского или системного отсутствующего значения; ее значение – истина (единица), если значение аргумента не определено, ложь (нуль) – в противном случае;
SYSMIS– то же, но только для системных неопределенных значений;
NMISS– подсчитывает число неопределенных значений в списке аргументов;
NVALID– число определенных значений в списке аргументов.
2.5.1.4. Работа с пользовательскими неопределенными значениями
В матрице данных по вопросу о Курильских островах переменные V15,V16,v17означают время проживания в Западной Сибири, Восточной Сибири и на Дальнем Востоке. Допустим, для удобства проведения текущих расчетов нулевые коды этих переменных объявлены неопределенными:
MISSING VALUES V15, V16, v17 (0).
Тогда вычисление времени проживания за Уралом вычисляется командой
COMPUTE Y = V15 + V16 + v17.
приведет в большинстве случаев к неопределенным значениям Y.
В этом случае функция VALUEпозволяет работать с пользовательскими неопределенными значениями без отмены объявления о неопределенности кодов, как с определенными:
COMPUTE Y = VAL(V15) + VAL(V16)+VAL(V17).
2.5.1.5. Работа с функциями missinGиSysmis.
В RLMS [13](Российском мониторинге экономики и здоровья), волна 2, имеется переменнаяBO2a– ответ на вопрос «Сколько времени в течение последних 7 дней Вы потратили на работу … ?», причем коды 997, 998, 999 соответствуют ответам «ЗАТРУДНЯЮСЬ ОТВЕТИТЬ», «ОТКАЗ ОТ ОТВЕТА», «НЕТ ОТВЕТА». Имеет смысл эти коды объявить пользовательскими неопределенными, а системные неопределенные коды перекодировать в 0. Делается это следующими командами:
MISSING VALUES BO2a (997, 998, 999).
If (SYSMIS(BO2a)) BO2a = 0.
EXECUTE.
Аналогичным путем в других обстоятельствах можно употребить и функцию MISSING.