- •Оглавление
- •Глава 1. Особенности обработки данных в среде spss …...………...5
- •Глава 2. Программа курса «Использование spss в социологии»..………………………………………………………...…75 пояснительная записка к учебно-методическому пособию
- •Глава 1. Особенности обработки данных в среде spss.
- •Введение.
- •1.2. Роль исследователя и возможности spss.
- •1.3. Основы работы в spss.
- •1.4. Определение переменных и ввод данных в программу spss.
- •1.5. Определение и ввод данных для переменных с множественными ответами.
- •1.6. Основы анализа данных.
- •1.7. Анализ переменных с множественными ответами.
- •1.8. Отбор данных и формирование подвыборок в spss.
- •1.9. Анализ связей между переменными.
- •1.10. Сравнение выборок и проверка гипотез о равенстве средних.
- •Глава 2. Программа курса «Использование spss в социологии».
- •Программа курса «анализ данных в spss»
- •Раздел 1. Организация работы с данными в spss.
- •Тема 1. Spss и его особенности.
- •Тема 2. Подготовка рабочего поля для ввода данных.
- •Тема 3. Ввод данных в spss.
- •Раздел 2. Обработка и анализ данных в spss.
- •Тема 4. Работа с переменными и группировка данных.
- •Тема 5. Частотные распределения и описательные статистики.
- •Литература.
1.9. Анализ связей между переменными.
До этого мы говорили преимущественно об описательном частотном анализе социологических данных, однако описательная статистика представляет собой лишь первую ступень собственно анализа данных. Хотя на практике часто встречаются случаи, при котором именно на описательной статистике и останавливаются, с точки зрения более глубокого социологического анализа такую постановку вопроса нельзя принять удовлетворительной.
Социология относится к номотетичческим наукам, целью которых является не просто описание явлений и событий, но, прежде всего, - выявление связей и установление закономерностей. Именно по этой причине мы обратимся к вопросу анализа связей между переменными как основы собственно аналитической, научной работы с полученными данными.
Анализ связей между переменными тесным образом связан (как собственно и любой этап анализа данных) с типом шкалы, по которой происходит измерение переменной. Принципиальные различия в обработке данных относительно расчета связей проводится между номинальной и остальными шкалами. Рассмотрим особенности анализа связи между переменными подробнее.
Номинальная шкала измерений.
Как уже было отмечено выше, номинальная шкала является самой неудобной с очки зрения возможностей анализа данных. Процедура анализа связей между переменными, измеряемыми по номинальной шкале состоит из двух этапов:
Построение таблиц сопряженности.
Вычисление коэффициента связи. Чаще всего используется статистика χ2.
Построение таблиц сопряженности в программе SPSS может использоваться не только как один из этапов анализа связи между переменными, измеряемыми по номинальной шкале, но и как вполне самостоятельный метод анализа данных. Таблица сопряженности показывает взаимное распределение ответов респондентов, в которых сразу учитываются два и более признака. Мы получаем своего рода матрицу упорядоченных данных.
Стоит отметить, что для того, чтобы отказаться от использования расчета коэффициентов корреляций для порядковой и метрической шкал, достаточно, чтобы, по крайней мере, одна из анализируемых переменных относилась к номинальной шкале. Вместе с тем, при достаточно значительных объемах выборки дихотомическая номинальная шкала может быть условно принята за порядковую (например, такая переменная, как пол).
Процедура построения таблиц сопряженности вызывается из меню Analyze – Descriptive Statistic – Crosstabs (таблицы сопряженности). Откроется следующее окно.
Рис. 30. Построение таблиц сопряженности.
В левой части отображены переменные. В нашем случае это пол и образование. Будем считать объем выборки не достаточно большим, для того, чтобы принять переменную «пол» за порядковую. В правой части указаны окна Row(s) и Column(s), обозначающие соответственно строки и столбцы нашей будущей таблицы. Перенесите переменную «пол» в строки, а переменную «образование» - в столбцы. Если после этого нажать кнопку ОК, то мы получим таблицу сопряженности следующего вида.
Рис. 31. Таблица сопряженности.
Перед нами собственно две таблицы. Верхняя содержит общие сведения – что в выборке 62 наблюдения, пропущенных значений нет. Нижняя таблица собственно и есть та самая таблица сопряженности. Как мы и определяли, по строкам содержится информация относительно половой дифференциации выборки, а по столбцам – образование. Уже глядя на эту таблицу можно сделать предположение, что связь между полом и уровнем образования существует. Однако при проведении исследований подобного рода выводы должны отвечать четким требованиям математической достоверности. Именно для этого и осуществляется расчет коэффициента χ2 .
Для расчета коэффициента χ2 нужно также пройти процедуру построения таблиц сопряженности, но после того, как переменные были определены для строк и столбцов, нужно нажать на кнопку Cells… (ячейки). Появится следующее окно (см. рис. 32), в котором, кроме предлагаемого по умолчанию флажка Observed, нужно еще установить флажки в значениях Expected и Standardized (ожидания и стандартизация). После этого подтвердить выбор кнопкой Continue.
Рис. 32. Диалоговое окно Cells.
Возвратившись в прежнее окно, нужно нажать кнопку Statistics и в новом окне поставить флажок напротив Chi-square (хи-квадрат), подтвердить выбор кнопкой Continue и, вернувшись в главное окно нажать ОК. в окне вывода мы получим следующие данные.
Рис.33. Результаты теста хи-квадрат.
Верхняя таблица осталась прежней. Во второй таблице появились ожидаемые и стандартизированные частоты. Именно последние показывают, в каких пересечениях наиболее сильно появляется связь. В нашем примере – это наличие начального образования и ученая степень. Ну и, наконец, - собственно сам расчет коэффициента χ2 . приводится значение критерия χ2 (4,152), которое в нашем примере не очень велико, значимость (Asymp. Sig - в нашем примере 0, 246). Тест не значим, так как значение 0,246 больше, чем требуемый минимум 0,05. Следовательно мы можем отвергнуть гипотезу относительно наличия связи между полом и уровнем образования, так как наше предположение оказалось статистически недостоверным.
Кроме прочего стоит обращать особое внимание еще на один факт, который касается ограничения применения критерия χ2. Под таблицей указан процент ячеек, в которых ожидаемая частота меньше 5. В нашем примере 12,5%. Стоит помнить, что если таковых оказывается более 20%, то тест χ2 не может применяться.
Порядковые и метрические шкалы.
Связь между переменными определяется как корреляция. Корреляция показывает как изменение одной переменной влияет на изменение другой переменной. В программе SPSS реализован принцип вычисления коэффициентов корреляций Пирсона, Кендела и Спирмена. Вообще пользователь может использовать любой коэффициент, хотя есть небольшие нюансы: коэффициент Спирмена лучше реагирует на порядковую шкалу, коэффициент Пирсона и Кендела – на интервальную. Хотя как показывают результаты вычислений – можно пользоваться практически любым коэффициентом, так как их значения довольно близки.
Коэффициенты корреляции варьируются от -1 до 1. Чем ближе значение к 1 – тем сильнее связь между переменными. Знак минус свидетельствует об обратной связи. Общий принцип интерпретирования значений сводится к следующему:
До 0,5 – слабая корреляция14
До 0,7 – средняя корреляция
До 0,9 – сильная корреляция
Свыше 0,9 – очень сильная корреляция
Рассмотрим процедуру расчета корреляции в программе SPSS. В меню Analyze нужно выбрать Correlate (Корреляции) и затем Bivariate (Парные). Откроется диалоговое окно.
Рис.34. Расчет корреляций в программе SPSS.
В данном окне нужно перенести в правое поле пары переменных, в отношение которых проверяется связь. В данном примере мы проверяем зависимость между возрастом респондентов и уровнем образования. Обратите внимание, что обе переменные изменяются по восходящему принципу – мы можем проставить возраст от самого маленького до самого большого, и аналогично – с уровнем образования. для расчета корреляций поставим галочку в окошке Pearson (расчет корреляции Пирсона). В окне Test of Significance (тест значимости) по умолчанию стоит значение двустороннего (Two-tailed). Поскольку часто мы не знаем о характере направленности связи, то оставляем этот флажок без изменения. Аналогично стоит по умолчанию флажок «показывать значимость». Нажимаем кнопку ОК. в результате в окне вывода будут получены данные результата расчета коэффициента корреляции Пирсона.
Рис.35. Результаты расчета коэффициента корреляции.
Перед нами таблица, в которой представлены результаты расчета корреляции. Обратите внимание, что по диагонали стоят единицы – это и естественно, переменная, разумеется, находится в самой высокой корреляционной связи сама с собой. Значения коэффициентов находятся на пересечении переменных. В данном примере мы получили высокую прямую связь (коэффициент 0,895), которая показывает, что в нашем случае, у респондентов - чем больше возраст, тем выше уровень образования.
Весьма важным является статистическая значимость полученного результата. Степень этой значимости рассчитана во второй строке, напротив sig. (значимость). В нашем примере она очень высока (0,000). Существует правило, согласно которому, если sig. меньше, чем 0,05, то связь статистически значима. Другая интерпретация этого значения – вероятность ошибки менее 5%. В нашем примере вероятность ошибки – менее 1% или на 99% эта связь не случайна и значима.
Знак ** дополнительно свидетельствует о наличии высокой статистической значимости вычисленного коэффициента.
