Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Кол. методы и информ. технологии.doc
Скачиваний:
1
Добавлен:
27.02.2020
Размер:
629.25 Кб
Скачать

Тема 3. Прикладные статистические программы: spss.

Пакет программ SPSS (Statistical Package for Social Science) является наиболее распространенным инструментом компьютеризованного статистического анализа, адаптированным для решения задач гуманитарных наук.

Создание таблиц в SPSS. Откройте программу SPSS (Пуск – Программы – SPSS for Windows) и, в открывшемся стартовом меню, выберите Тип данных. Открывшееся окно Редактора данных SPSS содержит два основных режима работы: Вид переменной (режим конструктора в SPSS) и Панель данных (режим таблицы данных), они располагаются в нижнем левом углу экрана и переключаются с помощью мыши. В режиме Вид переменной задаются настройки будущей таблицы данных. Наиболее важные среди них:

Имя (Name) – задает названия переменных, т.е. заголовки столбцов в таблице данных (максимальное количество символов в имени 8, имя не может начинаться с цифры).

Тип (Type) – задает формат ячейки таблицы данных: Числовой – вводимые переменные отображаются в стандартном цифровом формате (например, 10345); Запятая – вводимые цифры разбиваются через каждые три знака запятой (например, 10,345); Точка – вводимые цифры разбиваются через каждые три знака точкой (например, 10.345); Учетная нотация – вводимые цифры отображаются через множители (например, число 1200 может быть записано как 12х102); Дата – формат, предназначенный для хранения хронологической информации; Строковое – формат хранения не числовой (текстовой) информации, переменные, записанные в данном формате в вычислениях не участвуют.

Значение (Values) – в этой настройке задаются параметры переменных, имеющих несколько вариантов значений (например, альтернативных признаков).

Создайте таблицу из двух переменных («фамилия» и «пол»), для этого, в режиме конструктора Вид переменной в первой строке в настройке Имя запишите название первой переменной «фамилия», в настройке Тип выберите Строковое. Во второй строке в настройке Имя пишете «пол», в настройке ТипЧисловой формат, а в настройке Значение активируйте меню Метки переменных. В открывшемся окне в поле Значение напишете число 1, а в поле Метка первый вариант переменной «пол» слово «мужской», затем нажмите Добавление. В пустом поле появляется запись 1,00=“мужской”. Так же добавьте значение 2 и метку «женский», затем нажмите ОК и переключитесь в режим Панель данных. В первой ячейке по переменной «фамилия» напишете «Петров», а во второй – «Иванова». Активируйте на панели управления графическую кнопку Метки значений и значения по переменной «пол» выберите из самораскрывающегося списка, соответственно «мужской» и «женский».

При вводе данных из различных опросов и анкет в таблицу SPSS, для удобства статистической обработки информации, рекомендуется каждый вариант ответа на закрытый вопрос анкеты представлять в виде самостоятельной переменной, выраженной в двоичной шкале (1=да, 0=нет, т.е. наличие или отсутствие положительного выбора данного варианта ответа на вопрос анкеты).

Анализ статистической информации с помощью SPSS. Откройте базу данных «World95» (Файл – Открыть – папка SPSS – World95.sav), в которой представлена статистическая информация по странам мира за 1995 год. Переключитесь в режим Вид переменной. База содержит следующие переменные: Country – страна; Populatn (Population in thousands) – численность населения; Density (Number of people / sq. Kilometer) – плотность жителей на кв.километров; Urban (People living in cities (%)) – процент городского населения; Religion (Predominant religion) – господствующая религия; Lifeexpf (Average female life expectancy) – средняя продолжительность жизни женщин; Lifeexpm (Average male life expectancy) средняя продолжительность жизни мужчин; Literacy (People who read (%)) – процент грамотного населения; Pop_incr (Population increase (% per year)) – рост населения за год (в %); Babymort (Infant mortality (deaths per 1000 live births)) – детская смертность на 1000 жителей; Gdp_cap (Gross domestic product / capita) – объем ВВП; Region (Region or economic group) – принадлежность страны к одному из экономических регионов; Calories (Daily calorie intake) – дневное потребление калорий; Aids (Aids cases) – количество больных СПИДом; Birth_rt (Birth rate per 1000 people) – рождаемость на 1000 жителей; Death_rt (Death rate per 1000 people) – смертность на 1000 жителей; Aids_rt (Number of aids cases / 100000 people) – количество больных СПИДом на 100000 жителей; Lit_male (Males who read (%)) – процент грамотности среди мужчин; Lit_fema (Females who read (%)) процент грамотности среди женщин; Climate (Predominant climate) – господствующий климат.

Постройте таблицу частот по переменной Predominant religion, для этого в меню Анализ на панели управления выберите Описательная статистика – Частоты. В открывшемся окне в левой его части (список переменных) выберите переменную Predominant religion и, с помощью графической кнопки переноса, поместите ее в правую часть окна (выбранные переменные). Затем в разделе Диаграммы этого же окна, выберите Части круга и укажите, чтобы диаграмма строилась в Процентах. Далее нажмите ОК. Программа выводит результаты анализа на отдельном листе Output1. В левой части нового листа Output1 расположена схема объектов (таблиц и графиков), содержащихся в данном выводе. Каждому из этих объектов здесь можно присваивать имена. Результаты анализа частот в Output1 реализуются следующим образом (См. Рис. 19, 20.).

Пояснение к результатам: Frequency – это частота встречаемости разновидностей изучаемой переменной (так из 108 стран, по которым имеется информация (Valid), 41 страна – католическая, 8 православных, 7 буддистских и т.д.) По одной стране данные отсутствуют (Missing). Percent – показывает процент стран, исповедующих отдельные религии от общего числа стран (т.е. от 109). Так католиков 37,6%, православных 7,3%, буддистов 6,4%. Valid Percent – показывает процент от числа стран по которым данные не пропущены (т.е. от 108 стран). Cumulative Percent – показывает какая доля выборки задействована по сумме нескольких религий.

Рис. 19. Output1. Statistics Predominant religion

N

Valid

108

Missing

1

Рис. 20. Output1. Predominant religion

Frequency

Percent

Valid Percent

Cumulative Percent

Valid

Animist

4

3,7

3,7

3,7

Buddhist

7

6,4

6,5

10,2

Catholic

41

37,6

38,0

48,1

Hindu

1

,9

,9

49,1

Jewish

1

,9

,9

50,0

Muslim

27

24,8

25,0

75,0

Orthodox

8

7,3

7,4

82,4

Protstnt

16

14,7

14,8

97,2

Taoist

2

1,8

1,9

99,1

Tribal

1

,9

,9

100,0

Total

108

99,1

100,0

Missing

1

,9

Total

109

100,0

Постройте таблицу сопряженности (Crosstab) по качественным переменным Predominant religion и Predominant climate, для этого в меню Анализ на панели управления выберите Описательная статистика – Перекрестные таблицы. В открывшемся окне в левой его части (список переменных) выберите переменную Predominant religion и, с помощью графической кнопки переноса, поместите ее в правую часть окна (строки), а переменную Predominant climate поместите в правую часть окна (колонки). Активируйте меню графической кнопки Статистика и выберите в нем функцию хи-квадрат. Далее нажмите ОК. Программа выводит результаты анализа на отдельном листе Output2.

Пояснение к результатам: На Рис. 21. показан вывод Output2 о количестве объектов (стран) по которым информация имеется (Valid) и отсутствует (Missing). Рис. 22. представляет собственно таблицу сопряженности (Crosstabulation Count) распределения объектов по двум выбранным переменным. На Рис. 23. значение критерия χ2 хи-квадрат (Value) существенно меньше единицы, а значение вероятности (Asymp. Sig.) меньше порогового значения, равного 0,05, из чего можно сделать вывод о независимости переменных.

Рис. 21. Output2. Case Processing Summary

Cases

Valid

Missing

Total

N

Percent

N

Percent

N

Percent

Predominant religion * Predominant climate

106

97,2%

3

2,8%

109

100,0%

Рис. 22. Output2. Predomin. religion * Predomin. climate Crosstabulation Count

climate

Total

desert

arid / desert

arid

4

tropical

mediterranean

maritime

temperate

arctic / temp

Predominant religion

Animist

1

2

1

4

Buddhist

4

1

1

6

Catholic

2

3

15

3

2

15

1

41

Hindu

1

1

Jewish

1

1

Muslim

7

4

3

7

3

3

27

Orthodox

1

5

1

7

Protstnt

1

3

2

8

2

16

Taoist

1

1

2

Tribal

1

1

Total

7

4

6

5

32

10

4

34

4

106

Рис. 23. Output2. Chi-Square Tests

Value

Asymp. Sig. (2-sided)

Pearson Chi-Square

,106

,005

N of Valid Cases

106

Корреляционный анализ: в меню Анализ на панели управления выберите Согласование-Одновариантность. В открывшемся окне с помощью графической кнопки переноса выберите следующие переменные: People living in cities (%), People who read (%), Infant mortality (deaths per 1000 live births), Gross domestic product / capital, Number of aids cases / 100000 people. Далее нажмите ОК. Программа выводит результаты анализа на отдельном листе Output3.

Пояснение к результатам: На Рис. 24. представлена матрица корреляций по пяти выбранным переменным. Для каждой пары переменных рассчитываются значения коэффициента корреляции Пирсона (Pearson Correlation), уровень статистической значимости (Sig.), и количество объектов (N) по которым строились расчеты. Из таблицы видно, что наиболее высокие значения коэффициента имеются у переменной Infant mortality с переменными People living in cities, People who read, причем в обоих случаях коэффициент отрицательный, что свидетельствует о сильной обратной связи. Это подтверждается и нулевыми значениями показателя уровень статистической значимости (Sig.). Наименьшие значения коэффициента корреляции с высоким, превышающим пороговое значение, уровнем статистической значимости выявлены у переменной Number of aids cases с переменными People who read и Gross domestic product / capital, что свидетельствует об отсутствии связи между ними.

Рис. 24. Output3. матрица корреляций..

People living in cities (%)

People who read (%)

Infant mortality (deaths per 1000 live births)

Gross domestic product / capita

Number of aids cases / 100000 people

People living in cities (%)

Pearson Correlation

1

,650

-,718

,605

-,287

Sig. (2-tailed)

,

,000

,000

,000

,003

N

108

107

108

108

105

People who read (%)

Pearson Correlation

,650

1

-,900

,552

-,160

Sig. (2-tailed)

,000

,

,000

,000

,104

N

107

107

107

107

104

Infant mortality (deaths per 1000 live births)

Pearson Correlation

-,718

-,900

1

-,640

,285

Sig. (2-tailed)

,000

,000

,

,000

,003

N

108

107

109

109

106

Gross domestic product / capita

Pearson Correlation

,605

,552

-,640

1

-,031

Sig. (2-tailed)

,000

,000

,000

,

,749

N

108

107

109

109

106

Number of aids cases / 100000 people

Pearson Correlation

-,287

-,160

,285

-,031

1

Sig. (2-tailed)

,003

,104

,003

,749

,

N

105

104

106

106

106

Регрессионный анализ: в меню Анализ на панели управления выберите Регрессия – Линейный. Выберите переменную Infant mortality и, с помощью графической кнопки переноса, поместите ее в строку Подчиненный, а переменную People living in cities в строку Независимые. Активируйте меню графической кнопки Статистика и выберите в нем функции Оценки и Согласие модели. Далее нажмите ОК. Программа выводит результаты анализа на отдельном листе Output4.

Пояснение к результатам: на Рис. 25. рассчитаны значения множественного коэффициента корреляции R и коэффициента детерминации R Square. Первый из которых показывает силу связи между зависимой и независимой переменными, а второй – характеризует долю от общей дисперсии зависимой переменной, объясняемую регрессией. На Рис. 26. представлены коэффициент регрессии В равный -1,131 и показатель смещения по оси ординат, равный 106,55 (значение Constant). Таким образом: Infant mortality = 106,55+(-1,131* People living in cities). Следовательно, при росте городского населения на 1% детская смертность снижается на 1,1%. Для оценки статистической значимости коэффициента регрессии также рассчитан t-критерий Стьюдента; если его фактическое значение превышает пороговое, то гипотеза о влиянии независимой переменной на зависимую отклоняется.

Рис. 25. Output4. Model Summary

Model

R

R Square

Adjusted R Square

Std. Error of the Estimate

1

,718

,516

,511

26,6580

Рис. 26. Output4. Coefficients

Unstandardized Coefficients

Standardized Coefficients

t

Sig.

Model

B

Std. Error

Beta

1

(Constant)

106,550

6,543

16,285

,000

People living in cities (%)

-1,131

,106

-,718

-10,622

,000

Факторный анализ: в меню Анализ на панели управления выберите Уменьшение размерности – Факторный анализ. С помощью графической кнопки переноса задайте следующие независимые переменные: People living in cities, People who read, Infant mortality, Gross domestic product, Daily calorie intake, Number of aids cases. Войдите в меню графической кнопки Извлечение и задайте, в качестве метода анализа, метод Главных компонент (Principal components). Далее нажмите ОК. Программа выводит результаты анализа на отдельном листе Output5.

Рис. 27. Output5.Total Variance Explained

Initial Eigenvalues

Extraction Sums of Squared Loadings

Component

Total

% of Variance

Cumulative %

Total

% of Variance

Cumulative %

1

3,955

65,919

65,919

3,955

65,919

65,919

2

,988

16,468

82,386

3

,451

7,517

89,903

4

,337

5,623

95,527

5

,212

3,527

99,053

6

5,681E-02

,947

100,000

Рис. 28. Output5.Component Matrix

Component

1

People living in cities (%)

,849

People who read (%)

,884

Infant mortality (deaths per 1000 live births)

-,946

Gross domestic product / capita

,818

Daily calorie intake

,887

Number of aids cases / 100000 people

-,319

Пояснение к результатам: на Рис. 27. представлены рассчитанные программой факторные нагрузки по каждой из компонент. Первый фактор (Component 1) имея начальное собственное значение (Total) равное 3,955 объясняет 65,9% дисперсии данных. Следовательно, большинство избранных для анализа переменных изменяются согласованно и на этом основании их можно включить в один фактор. Рис. 28. показывает степень связи каждой участвующей в анализе переменной с выявленным фактором. Сила связи, в том числе и обратной, достаточно велика у всех переменных, кроме одной – Number of aids cases, которая выбивается из общего ряда, что может свидетельствовать о возможном действии еще одного самостоятельного фактора.

Кластерный анализ: в меню Анализ на панели управления выберите Классификация – Иерархические группы. В открывшемся окне необходимо задать в качестве Метки регистра ту переменную, множественные значения которой программа будет группировать в кластеры, в данном примере это переменная Country. Далее, с помощью графической кнопки переноса следует указать переменные, участвующие в анализе: People who read, Average male life expectancy, Daily calorie intake. В меню графической кнопки Графики выберите Dendrograma, нажмите Продолжение, а затем ОК. Программа выводит результаты анализа на отдельном листе Output6.

Пояснение к результатам: на Рис. 29. представлены итоги многомерной классификации стран по избранным переменным. Каждый объект (страна) объединен в кластеры первого (наиболее типологически схожие), второго, третьего или четвертого порядка. Чем дальше по порядку друг от друга расположены объекты, тем меньше у них типологического сходства по участвующим в анализе переменным.

Рис. 29. Дендрограмма иерархической кластеризации

C A S E 0 5 10 15 20 25

Label Num +---------+---------+---------+---------+---------+

Netherlands 70 

UK 101 

Turkey 99 

Australia 4 

Iran 52 

Libya 64  

New Zealand 71  

Norway 74   

Greece 43   

Ireland 54    

Austria 5    

Italy 56   

Canada 21   

Germany 42  

Hungary 48  

USA 102  

China 24  

Uruguay 105  

Colombia 25   

Brazil 15    

Costa Rica 26   

Saudi Arabia 87   

Bolivia 12   

Somalia 90   

Bangladesh 8   

Cent. Afri.R 22   

Zambia 109   

Guatemala 44   

Cameroon 20   

Nicaragua 72    

Cambodia 19    

Uganda 103    

Kenya 59    

Peru 79   

Liberia 63  

Nigeria 73  

Burkina Faso 17  

Ethiopia 36 

Задания для самоконтроля:

Самостоятельно создайте в SPSS анкету.

  • Фамилия

  • Возраст: 1-18; 19-25; 26-45; 46-60; <60

  • Пол: Мужской; Женский

  • Образование: Начальное; Среднее; Неоконченное высшее; Высшее

  • Доход: Низкий; Средний; Высокий

  • Семейное положение: не состою в браке; состою в официальном браке; состою в гражданском браке; в разводе, вдовец (вдова)

  • Количество детей: нет; один; два; три; четыре; пять; более пяти

  • Религиозная принадлежность: атеист; православный; католик; протестант; мусульманин; иудей; буддист; иное

  • Место жительства: город, поселок городского типа, село, деревня

  • За кого голосовали на Президентских выборах 2008 г.: Богданов; Жириновский; Зюганов; Медведев

По таблице WORLD95 выполните следующие запросы.

1. Постройте таблицу частот по переменной «Region or economic group», и постройте диаграмму, отражающую полученные результаты.

2. Создайте таблицу, показывающую корреляцию между следующими переменными: «Average male life expectancy», «Females who read (%)», «Number of people / sq. Kilometer», «deaths per 1000 live births». Объясните полученные результаты.

3. Проведите кластерный анализ стран, используя имеющихся переменных «People living in cities (%)», «Gross domestic product / capita», «deaths per 1000 live births», и постройте дендрограмму.

4. Расчитаетй фактурную нагрузку по трем любым свободным переменным на выбор.

По таблице INDUSTRY (промышленные предприятия по результатм переписей 1900 и 1908 гг.)

4. Переведите базу INDUSTRY из ACCESS в SPSS.

5. Постройте круговую диаграмму частотности по губернии.

6. Создайте таблицу корреляции между годом основания, числом рабочих, суммой производства и мощностью двигателя.

7. Для этих же переменных проведите кластерный анализ и постройте дендограмму.

8. Проведите расчеты регрессионного анализа при зависимой переменной – «число рабочих», и независимой переменной – «сумма производства».