
- •Содержание
- •Введение
- •Рабочая программа курса
- •Материалы к лекционному курсу
- •Тема 1. Основные статистические показатели
- •Тема 2. Основы описательной (дескриптивной) статистики
- •Тема 3. Выборочный метод
- •Тема 4. Анализ статистической взаимосвязи
- •Тема 5. Анализ взаимосвязи качественных признаков
- •Тема 6. Многомерный статистический анализ
- •Тема 7. Анализ динамических рядов
- •Тема 8. Булева алгебра в сравнительных исследованиях
- •Тема 9. Контент-анализ текстов в гуманитарных исследованиях
- •Методические указания к практическим занятиям
- •Тема 1. Электронные таблицы: ms Excel
- •Тема 2. Базы данных: ms access
- •Тема 3. Прикладные статистические программы: spss.
- •Список рекомендуемой литературы
- •Вопросы для подготовки к зачету
- •Тесты для контроля остаточных знаний
Тема 3. Прикладные статистические программы: spss.
Пакет программ SPSS (Statistical Package for Social Science) является наиболее распространенным инструментом компьютеризованного статистического анализа, адаптированным для решения задач гуманитарных наук.
Создание таблиц в SPSS. Откройте программу SPSS (Пуск – Программы – SPSS for Windows) и, в открывшемся стартовом меню, выберите Тип данных. Открывшееся окно Редактора данных SPSS содержит два основных режима работы: Вид переменной (режим конструктора в SPSS) и Панель данных (режим таблицы данных), они располагаются в нижнем левом углу экрана и переключаются с помощью мыши. В режиме Вид переменной задаются настройки будущей таблицы данных. Наиболее важные среди них:
Имя (Name) – задает названия переменных, т.е. заголовки столбцов в таблице данных (максимальное количество символов в имени 8, имя не может начинаться с цифры).
Тип (Type) – задает формат ячейки таблицы данных: Числовой – вводимые переменные отображаются в стандартном цифровом формате (например, 10345); Запятая – вводимые цифры разбиваются через каждые три знака запятой (например, 10,345); Точка – вводимые цифры разбиваются через каждые три знака точкой (например, 10.345); Учетная нотация – вводимые цифры отображаются через множители (например, число 1200 может быть записано как 12х102); Дата – формат, предназначенный для хранения хронологической информации; Строковое – формат хранения не числовой (текстовой) информации, переменные, записанные в данном формате в вычислениях не участвуют.
Значение (Values) – в этой настройке задаются параметры переменных, имеющих несколько вариантов значений (например, альтернативных признаков).
Создайте таблицу из двух переменных («фамилия» и «пол»), для этого, в режиме конструктора Вид переменной в первой строке в настройке Имя запишите название первой переменной «фамилия», в настройке Тип выберите Строковое. Во второй строке в настройке Имя пишете «пол», в настройке Тип – Числовой формат, а в настройке Значение активируйте меню Метки переменных. В открывшемся окне в поле Значение напишете число 1, а в поле Метка первый вариант переменной «пол» слово «мужской», затем нажмите Добавление. В пустом поле появляется запись 1,00=“мужской”. Так же добавьте значение 2 и метку «женский», затем нажмите ОК и переключитесь в режим Панель данных. В первой ячейке по переменной «фамилия» напишете «Петров», а во второй – «Иванова». Активируйте на панели управления графическую кнопку Метки значений и значения по переменной «пол» выберите из самораскрывающегося списка, соответственно «мужской» и «женский».
При вводе данных из различных опросов и анкет в таблицу SPSS, для удобства статистической обработки информации, рекомендуется каждый вариант ответа на закрытый вопрос анкеты представлять в виде самостоятельной переменной, выраженной в двоичной шкале (1=да, 0=нет, т.е. наличие или отсутствие положительного выбора данного варианта ответа на вопрос анкеты).
Анализ статистической информации с помощью SPSS. Откройте базу данных «World95» (Файл – Открыть – папка SPSS – World95.sav), в которой представлена статистическая информация по странам мира за 1995 год. Переключитесь в режим Вид переменной. База содержит следующие переменные: Country – страна; Populatn (Population in thousands) – численность населения; Density (Number of people / sq. Kilometer) – плотность жителей на кв.километров; Urban (People living in cities (%)) – процент городского населения; Religion (Predominant religion) – господствующая религия; Lifeexpf (Average female life expectancy) – средняя продолжительность жизни женщин; Lifeexpm (Average male life expectancy) средняя продолжительность жизни мужчин; Literacy (People who read (%)) – процент грамотного населения; Pop_incr (Population increase (% per year)) – рост населения за год (в %); Babymort (Infant mortality (deaths per 1000 live births)) – детская смертность на 1000 жителей; Gdp_cap (Gross domestic product / capita) – объем ВВП; Region (Region or economic group) – принадлежность страны к одному из экономических регионов; Calories (Daily calorie intake) – дневное потребление калорий; Aids (Aids cases) – количество больных СПИДом; Birth_rt (Birth rate per 1000 people) – рождаемость на 1000 жителей; Death_rt (Death rate per 1000 people) – смертность на 1000 жителей; Aids_rt (Number of aids cases / 100000 people) – количество больных СПИДом на 100000 жителей; Lit_male (Males who read (%)) – процент грамотности среди мужчин; Lit_fema (Females who read (%)) процент грамотности среди женщин; Climate (Predominant climate) – господствующий климат.
Постройте таблицу частот по переменной Predominant religion, для этого в меню Анализ на панели управления выберите Описательная статистика – Частоты. В открывшемся окне в левой его части (список переменных) выберите переменную Predominant religion и, с помощью графической кнопки переноса, поместите ее в правую часть окна (выбранные переменные). Затем в разделе Диаграммы этого же окна, выберите Части круга и укажите, чтобы диаграмма строилась в Процентах. Далее нажмите ОК. Программа выводит результаты анализа на отдельном листе Output1. В левой части нового листа Output1 расположена схема объектов (таблиц и графиков), содержащихся в данном выводе. Каждому из этих объектов здесь можно присваивать имена. Результаты анализа частот в Output1 реализуются следующим образом (См. Рис. 19, 20.).
Пояснение к результатам: Frequency – это частота встречаемости разновидностей изучаемой переменной (так из 108 стран, по которым имеется информация (Valid), 41 страна – католическая, 8 православных, 7 буддистских и т.д.) По одной стране данные отсутствуют (Missing). Percent – показывает процент стран, исповедующих отдельные религии от общего числа стран (т.е. от 109). Так католиков 37,6%, православных 7,3%, буддистов 6,4%. Valid Percent – показывает процент от числа стран по которым данные не пропущены (т.е. от 108 стран). Cumulative Percent – показывает какая доля выборки задействована по сумме нескольких религий.
Рис. 19. Output1. Statistics Predominant religion
N |
Valid |
108 |
|
Missing |
1 |
Рис. 20. Output1. Predominant religion
|
|
Frequency |
Percent |
Valid Percent |
Cumulative Percent |
Valid |
Animist |
4 |
3,7 |
3,7 |
3,7 |
|
Buddhist |
7 |
6,4 |
6,5 |
10,2 |
|
Catholic |
41 |
37,6 |
38,0 |
48,1 |
|
Hindu |
1 |
,9 |
,9 |
49,1 |
|
Jewish |
1 |
,9 |
,9 |
50,0 |
|
Muslim |
27 |
24,8 |
25,0 |
75,0 |
|
Orthodox |
8 |
7,3 |
7,4 |
82,4 |
|
Protstnt |
16 |
14,7 |
14,8 |
97,2 |
|
Taoist |
2 |
1,8 |
1,9 |
99,1 |
|
Tribal |
1 |
,9 |
,9 |
100,0 |
|
Total |
108 |
99,1 |
100,0 |
|
Missing |
|
1 |
,9 |
|
|
Total |
|
109 |
100,0 |
|
|
Постройте таблицу сопряженности (Crosstab) по качественным переменным Predominant religion и Predominant climate, для этого в меню Анализ на панели управления выберите Описательная статистика – Перекрестные таблицы. В открывшемся окне в левой его части (список переменных) выберите переменную Predominant religion и, с помощью графической кнопки переноса, поместите ее в правую часть окна (строки), а переменную Predominant climate поместите в правую часть окна (колонки). Активируйте меню графической кнопки Статистика и выберите в нем функцию хи-квадрат. Далее нажмите ОК. Программа выводит результаты анализа на отдельном листе Output2.
Пояснение к результатам: На Рис. 21. показан вывод Output2 о количестве объектов (стран) по которым информация имеется (Valid) и отсутствует (Missing). Рис. 22. представляет собственно таблицу сопряженности (Crosstabulation Count) распределения объектов по двум выбранным переменным. На Рис. 23. значение критерия χ2 хи-квадрат (Value) существенно меньше единицы, а значение вероятности (Asymp. Sig.) меньше порогового значения, равного 0,05, из чего можно сделать вывод о независимости переменных.
Рис. 21. Output2. Case Processing Summary
|
Cases |
|
|
|
|
|
|
Valid |
|
Missing |
|
Total |
|
|
N |
Percent |
N |
Percent |
N |
Percent |
Predominant religion * Predominant climate |
106 |
97,2% |
3 |
2,8% |
109 |
100,0% |
Рис. 22. Output2. Predomin. religion * Predomin. climate Crosstabulation Count
|
|
climate |
|
|
|
|
|
|
|
|
Total |
|
|
desert |
arid / desert |
arid |
4 |
tropical |
mediterranean |
maritime |
temperate |
arctic / temp |
|
Predominant religion |
Animist |
|
|
|
1 |
2 |
1 |
|
|
|
4 |
|
Buddhist |
|
|
|
|
4 |
1 |
|
1 |
|
6 |
|
Catholic |
|
|
2 |
3 |
15 |
3 |
2 |
15 |
1 |
41 |
|
Hindu |
|
|
|
|
|
1 |
|
|
|
1 |
|
Jewish |
|
|
|
|
|
|
|
1 |
|
1 |
|
Muslim |
7 |
4 |
3 |
|
7 |
3 |
|
3 |
|
27 |
|
Orthodox |
|
|
|
|
|
1 |
|
5 |
1 |
7 |
|
Protstnt |
|
|
1 |
|
3 |
|
2 |
8 |
2 |
16 |
|
Taoist |
|
|
|
|
1 |
|
|
1 |
|
2 |
|
Tribal |
|
|
|
1 |
|
|
|
|
|
1 |
Total |
|
7 |
4 |
6 |
5 |
32 |
10 |
4 |
34 |
4 |
106 |
Рис. 23. Output2. Chi-Square Tests
|
Value |
Asymp. Sig. (2-sided) |
Pearson Chi-Square |
,106 |
,005 |
N of Valid Cases |
106 |
|
Корреляционный анализ: в меню Анализ на панели управления выберите Согласование-Одновариантность. В открывшемся окне с помощью графической кнопки переноса выберите следующие переменные: People living in cities (%), People who read (%), Infant mortality (deaths per 1000 live births), Gross domestic product / capital, Number of aids cases / 100000 people. Далее нажмите ОК. Программа выводит результаты анализа на отдельном листе Output3.
Пояснение к результатам: На Рис. 24. представлена матрица корреляций по пяти выбранным переменным. Для каждой пары переменных рассчитываются значения коэффициента корреляции Пирсона (Pearson Correlation), уровень статистической значимости (Sig.), и количество объектов (N) по которым строились расчеты. Из таблицы видно, что наиболее высокие значения коэффициента имеются у переменной Infant mortality с переменными People living in cities, People who read, причем в обоих случаях коэффициент отрицательный, что свидетельствует о сильной обратной связи. Это подтверждается и нулевыми значениями показателя уровень статистической значимости (Sig.). Наименьшие значения коэффициента корреляции с высоким, превышающим пороговое значение, уровнем статистической значимости выявлены у переменной Number of aids cases с переменными People who read и Gross domestic product / capital, что свидетельствует об отсутствии связи между ними.
Рис. 24. Output3. матрица корреляций..
|
|
People living in cities (%) |
People who read (%) |
Infant mortality (deaths per 1000 live births) |
Gross domestic product / capita |
Number of aids cases / 100000 people |
People living in cities (%) |
Pearson Correlation |
1 |
,650 |
-,718 |
,605 |
-,287 |
|
Sig. (2-tailed) |
, |
,000 |
,000 |
,000 |
,003 |
|
N |
108 |
107 |
108 |
108 |
105 |
People who read (%) |
Pearson Correlation |
,650 |
1 |
-,900 |
,552 |
-,160 |
|
Sig. (2-tailed) |
,000 |
, |
,000 |
,000 |
,104 |
|
N |
107 |
107 |
107 |
107 |
104 |
Infant mortality (deaths per 1000 live births) |
Pearson Correlation |
-,718 |
-,900 |
1 |
-,640 |
,285 |
|
Sig. (2-tailed) |
,000 |
,000 |
, |
,000 |
,003 |
|
N |
108 |
107 |
109 |
109 |
106 |
Gross domestic product / capita |
Pearson Correlation |
,605 |
,552 |
-,640 |
1 |
-,031 |
|
Sig. (2-tailed) |
,000 |
,000 |
,000 |
, |
,749 |
|
N |
108 |
107 |
109 |
109 |
106 |
Number of aids cases / 100000 people |
Pearson Correlation |
-,287 |
-,160 |
,285 |
-,031 |
1 |
|
Sig. (2-tailed) |
,003 |
,104 |
,003 |
,749 |
, |
|
N |
105 |
104 |
106 |
106 |
106 |
Регрессионный анализ: в меню Анализ на панели управления выберите Регрессия – Линейный. Выберите переменную Infant mortality и, с помощью графической кнопки переноса, поместите ее в строку Подчиненный, а переменную People living in cities в строку Независимые. Активируйте меню графической кнопки Статистика и выберите в нем функции Оценки и Согласие модели. Далее нажмите ОК. Программа выводит результаты анализа на отдельном листе Output4.
Пояснение к результатам: на Рис. 25. рассчитаны значения множественного коэффициента корреляции R и коэффициента детерминации R Square. Первый из которых показывает силу связи между зависимой и независимой переменными, а второй – характеризует долю от общей дисперсии зависимой переменной, объясняемую регрессией. На Рис. 26. представлены коэффициент регрессии В равный -1,131 и показатель смещения по оси ординат, равный 106,55 (значение Constant). Таким образом: Infant mortality = 106,55+(-1,131* People living in cities). Следовательно, при росте городского населения на 1% детская смертность снижается на 1,1%. Для оценки статистической значимости коэффициента регрессии также рассчитан t-критерий Стьюдента; если его фактическое значение превышает пороговое, то гипотеза о влиянии независимой переменной на зависимую отклоняется.
Рис. 25. Output4. Model Summary
Model |
R |
R Square |
Adjusted R Square |
Std. Error of the Estimate |
1 |
,718 |
,516 |
,511 |
26,6580 |
Рис. 26. Output4. Coefficients
|
|
Unstandardized Coefficients |
|
Standardized Coefficients |
t |
Sig. |
Model |
|
B |
Std. Error |
Beta |
|
|
1 |
(Constant) |
106,550 |
6,543 |
|
16,285 |
,000 |
|
People living in cities (%) |
-1,131 |
,106 |
-,718 |
-10,622 |
,000 |
Факторный анализ: в меню Анализ на панели управления выберите Уменьшение размерности – Факторный анализ. С помощью графической кнопки переноса задайте следующие независимые переменные: People living in cities, People who read, Infant mortality, Gross domestic product, Daily calorie intake, Number of aids cases. Войдите в меню графической кнопки Извлечение и задайте, в качестве метода анализа, метод Главных компонент (Principal components). Далее нажмите ОК. Программа выводит результаты анализа на отдельном листе Output5.
Рис. 27. Output5.Total Variance Explained
|
Initial Eigenvalues |
|
|
Extraction Sums of Squared Loadings |
|
|
Component |
Total |
% of Variance |
Cumulative % |
Total |
% of Variance |
Cumulative % |
1 |
3,955 |
65,919 |
65,919 |
3,955 |
65,919 |
65,919 |
2 |
,988 |
16,468 |
82,386 |
|
|
|
3 |
,451 |
7,517 |
89,903 |
|
|
|
4 |
,337 |
5,623 |
95,527 |
|
|
|
5 |
,212 |
3,527 |
99,053 |
|
|
|
6 |
5,681E-02 |
,947 |
100,000 |
|
|
|
Рис. 28. Output5.Component Matrix
-
Component
1
People living in cities (%)
,849
People who read (%)
,884
Infant mortality (deaths per 1000 live births)
-,946
Gross domestic product / capita
,818
Daily calorie intake
,887
Number of aids cases / 100000 people
-,319
Пояснение к результатам: на Рис. 27. представлены рассчитанные программой факторные нагрузки по каждой из компонент. Первый фактор (Component 1) имея начальное собственное значение (Total) равное 3,955 объясняет 65,9% дисперсии данных. Следовательно, большинство избранных для анализа переменных изменяются согласованно и на этом основании их можно включить в один фактор. Рис. 28. показывает степень связи каждой участвующей в анализе переменной с выявленным фактором. Сила связи, в том числе и обратной, достаточно велика у всех переменных, кроме одной – Number of aids cases, которая выбивается из общего ряда, что может свидетельствовать о возможном действии еще одного самостоятельного фактора.
Кластерный анализ: в меню Анализ на панели управления выберите Классификация – Иерархические группы. В открывшемся окне необходимо задать в качестве Метки регистра ту переменную, множественные значения которой программа будет группировать в кластеры, в данном примере это переменная Country. Далее, с помощью графической кнопки переноса следует указать переменные, участвующие в анализе: People who read, Average male life expectancy, Daily calorie intake. В меню графической кнопки Графики выберите Dendrograma, нажмите Продолжение, а затем ОК. Программа выводит результаты анализа на отдельном листе Output6.
Пояснение к результатам: на Рис. 29. представлены итоги многомерной классификации стран по избранным переменным. Каждый объект (страна) объединен в кластеры первого (наиболее типологически схожие), второго, третьего или четвертого порядка. Чем дальше по порядку друг от друга расположены объекты, тем меньше у них типологического сходства по участвующим в анализе переменным.
Рис. 29. Дендрограмма иерархической кластеризации
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
Netherlands 70
UK 101
Turkey 99
Australia 4
Iran 52
Libya 64
New Zealand 71
Norway 74
Greece 43
Ireland 54
Austria 5
Italy 56
Canada 21
Germany 42
Hungary 48
USA 102
China 24
Uruguay 105
Colombia 25
Brazil 15
Costa Rica 26
Saudi Arabia 87
Bolivia 12
Somalia 90
Bangladesh 8
Cent. Afri.R 22
Zambia 109
Guatemala 44
Cameroon 20
Nicaragua 72
Cambodia 19
Uganda 103
Kenya 59
Peru 79
Liberia 63
Nigeria 73
Burkina Faso 17
Ethiopia 36
Задания для самоконтроля:
Самостоятельно создайте в SPSS анкету.
Фамилия
Возраст: 1-18; 19-25; 26-45; 46-60; <60
Пол: Мужской; Женский
Образование: Начальное; Среднее; Неоконченное высшее; Высшее
Доход: Низкий; Средний; Высокий
Семейное положение: не состою в браке; состою в официальном браке; состою в гражданском браке; в разводе, вдовец (вдова)
Количество детей: нет; один; два; три; четыре; пять; более пяти
Религиозная принадлежность: атеист; православный; католик; протестант; мусульманин; иудей; буддист; иное
Место жительства: город, поселок городского типа, село, деревня
За кого голосовали на Президентских выборах 2008 г.: Богданов; Жириновский; Зюганов; Медведев
По таблице WORLD95 выполните следующие запросы.
1. Постройте таблицу частот по переменной «Region or economic group», и постройте диаграмму, отражающую полученные результаты.
2. Создайте таблицу, показывающую корреляцию между следующими переменными: «Average male life expectancy», «Females who read (%)», «Number of people / sq. Kilometer», «deaths per 1000 live births». Объясните полученные результаты.
3. Проведите кластерный анализ стран, используя имеющихся переменных «People living in cities (%)», «Gross domestic product / capita», «deaths per 1000 live births», и постройте дендрограмму.
4. Расчитаетй фактурную нагрузку по трем любым свободным переменным на выбор.
По таблице INDUSTRY (промышленные предприятия по результатм переписей 1900 и 1908 гг.)
4. Переведите базу INDUSTRY из ACCESS в SPSS.
5. Постройте круговую диаграмму частотности по губернии.
6. Создайте таблицу корреляции между годом основания, числом рабочих, суммой производства и мощностью двигателя.
7. Для этих же переменных проведите кластерный анализ и постройте дендограмму.
8. Проведите расчеты регрессионного анализа при зависимой переменной – «число рабочих», и независимой переменной – «сумма производства».