- •12 Лекция 9-10. Spss
- •Визуализация различий средних значений.
- •Результаты выполнения команды means, приведенной на рисунке 3.2
- •Столбиковая диаграмма значений средней заработной платы в населенных пунктах различного типа
- •.2.1. Команда t-Test для сравнения двух независимых выборок.
- •Результаты выполнения команды сравнения средних возрастов респондентов, проживающих в столицах и в больших городах
- •3.2.2. Команда t-Test для одной выборки.
- •3.2.3. Команда t-Test для парных данных.
- •3 Однофакторный дисперсионный анализ.
3 Однофакторный дисперсионный анализ.
Рассмотренные возможности применения различных модификаций Т-теста (теста Стьюдента) показывают, однако, существенные ограничения этого метода. Например, приведенные в таблице 1 результаты работы команды MEANS показывают, что в данном случае число градаций в качественной переменной больше 2. Т-тест же позволяет сопоставить только 2 градации. Как быть в данной ситуации? Иными словами, как проверить статистическую гипотезу H0: μ1 = μ2 =…. = μn, где μ1, μ2 ,…., μn - средние значения анализируемых переменных в n независимых выборках?
Данная задача решается с помощью методов дисперсионного анализа С точки зрения построения социологической модели эту ситуацию можно сформулировать следующим образом. Оказывает ли значимое влияние на значение некоторой количественной переменной интересующая нас переменная, которая измерена на номинальном или порядковом уровне? В терминах метода дисперсионного анализа та переменная, которая, как мы считаем, должна оказывать влияние на конечный результат, называется фактором. Например, если для данных таблицы 3.1 мы начнем строить модель объяснения различий в заработных платах респондентов тем, что респонденты проживают в населенных пунктах разного типа, переменная «Тип населенного пункта» будет выступать фактором.
Задачи однофакторного анализа являются самыми простыми в своем классе, но тем не менее весьма часто встречаются на практике.
Рассмотрим задачу: Пусть у нас есть результаты (по урожайности пшеницы) при различных обработках удобрениями. Необходимо проверить гипотезу о неизменности средней урожайности. Или необходимо установить зависимость выполненных за смену работ от работающей бригады.
Пусть результаты наблюдений составляют
L независимых выборок,
полученных из L нормально
распределенных совокупностей, которые
имеют разные средние и одинаковые
дисперсии. Проверяется гипотеза о
равенстве средних
.
Пусть
-
i–ый элемент k-ой
выборки,
,
-выборочное
среднее k-ой выборки:
-
общее выборочное среднее
n- общее количество наблюдений
Сумма квадратов отклонений наблюдений от общего среднего может быть представлена в виде:
или Q=Q1+Q2
Q - Сумма квадратов отклонений наблюдений от общего среднего
Q1 - Сумма квадратов отклонений выборочных средних от общего среднего
Q2 - Сумма квадратов отклонений наблюдений от выборочных средних групп
Это тождество легко проверяется, если
возвести в квадрат обе части очевидного
равенства
,
затем просуммировать обе части по I
и по k и учесть, что
Все эти характеристики необходимы для вычисления F-статистики, которая служит инструментом для проверки исходной гипотезы H0: μ1 = μ2 =…. = μn, где μ1, μ2 ,…., μn . F-статистика представляет собой просто отношение межгруппового и внутригруппового средних квадратов. При этом F-статистика имеет F-распределение (см. приложение), что дает нам инструмент для проверки уровня значимости и, соответственно, для принятия или непринятия гипотезы H0.
Если верна гипотеза
,
то величина
имеет распределение Фишера с L-1
и n-L степенями
свободы. Гипотеза не противоречит
результатам наблюдений, если
.
Если
,
то гипотеза отвергается.
Fкр=FРАСПОБР(альфа,L-1,n-L)
Если в процессе анализа выявлено влияние
фактора А на результативный признак,
то можно измерить степень данного
влияния с помощью выборочного коэффициента
детерминации:
.
В рамках пакета SPSS программа, реализующая метод однофакторного дисперсионного анализа называется One-Way ANOVA и находится она в блоке команд COMPARE MEANS (см. рисунок 3.1). Название One-Way отражает тот факт, что эта программа выполняет метод однофакторного дисперсионного анализа, то есть анализируется влияние только одной качественной переменной (фактора) на количественную переменную.
Результаты выполнения команды One-Way ANOVA по проверке модели
различия средней зарплаты в различных образовательных группах
ANOVA
|
Sum of Squares |
df |
Mean Square |
F |
Sig. |
Between Groups |
3637891345,3 |
6 |
606315224,2 |
5,666 |
,000 |
Within Groups |
114704562245,6 |
1072 |
107000524,4 |
|
|
Total |
118342453590,9 |
1078 |
|
|
|
Таблица 3.6 содержит межгрупповую (Between Groups), внутригрупповую (Within Groups) и общую (Total) суммы квадратов. Далее следуют числа степеней свободы для этих трех сумм (df), средние суммы квадратов и значение F-статистики. Наконец, колонка Sig. содержит значимость полученного значения F-статистики.
Полученный результат говорит нам, что вероятность справедливости гипотезы H0 крайне мала. То есть, у нас практически нет причин принимать гипотезу о равенстве средних зарплат в различных образовательных группах, и есть убедительные причины согласиться с альтернативной гипотезой, то есть с предположением о том, что не все образовательные группы имеют одинаковую среднюю зарплату.
Линейные контрасты. Если гипотеза о равенстве средних отклоняется, то требуется определить, какие именно группы имеют значимое различие средних. Для этих целей используется метод линейных контрастов. Линейный контраст определяется как линейная комбинация
- константы, однозначно определяемые
из формулировки проверяемых альтернативных
гипотез., причем
.
- математические ожидания. Оценка
линейного контраста равна
.
В условиях примера о влажности семян
нулевая гипотеза отклоняется, следует
считать, что среди средних имеется хотя
бы два не равных друг другу. Проверим
гипотезы:
В соответствии с проверяемыми гипотезами определяются линейные контрасты:
Вычислим контрасты:
,
,
,
Вычислим границы доверительных интервалов для контрастов:
,
,
,
Доверительные границы:
Так как нулевое значение накрывается доверительными интервалами для гипотез 3 и 4, то эти гипотезы принимаются, а гипотезы 1 и 2 отвергаются. Отвергается, что
Таким образом, значимо различны средние первой и второй групп, а также средние первой и третьей групп.
Пример: Влажность удобрений. Удобрения были расфасованы в 30 пакетов. Они были распределены по трем условиям хранения.
A |
B |
C |
D |
E |
F |
Влажность 1 |
Влажность 2 |
Влажность 3 |
|
|
|
10,1 |
11,7 |
10,2 |
7,3984 |
0,984675 |
0,024694 |
7,3 |
12,2 |
12 |
0,0064 |
2,226982 |
3,830408 |
5,6 |
11,8 |
8,8 |
3,1684 |
1,193136 |
1,544694 |
6,2 |
7,8 |
8,7 |
1,3924 |
8,454675 |
1,803265 |
8,4 |
8,9 |
10,5 |
1,0404 |
3,267751 |
0,20898 |
8,1 |
9,9 |
11 |
0,5184 |
0,652367 |
0,916122 |
8 |
12,4 |
9,1 |
0,3844 |
2,863905 |
0,88898 |
7,6 |
11 |
|
0,0484 |
0,085444 |
9,217143 |
5,3 |
10,3 |
|
4,3264 |
0,166213 |
|
7,2 |
13,8 |
|
0,0324 |
9,562367 |
|
|
10,5 |
|
18,316 |
0,043136 |
|
|
9,8 |
|
|
0,823905 |
|
|
9,1 |
|
|
2,584675 |
|
среднее |
|
|
|
32,90923 |
|
7,38 |
10,70769 |
10,04286 |
9,443333 |
|
|
кол-во нблюдений |
|
|
|
|
|
10 |
13 |
7 |
30 |
|
|
Q1=10*(7.38-9.4433)^2+13*(10.70-9.4433)^2+7*(10.04-9.4433)^2 |
65,87129 |
F= |
14,71257 |
|
|
Q2=D12+E15+F9 |
60,44237 |
Fкритич.= |
3,354131 |
|
|
Q= |
126,3137 |
|
|
|
|
Гипотеза о равенстве средних отклоняется, так как , т.е. условия хранения оказывают влияние на влажность семян.
Выборочный коэффициент детерминации
показывает, что 52% общей выборочной
вариации влажности связано с условиями
хранения семян.
1 О форме и параметрах t-распределения – см. приложение.
2 Российский статистический ежегодник 2002. М., 2002, С.87
3 Для примера взяты данные исследования RLMS 9-й волны (октябрь-ноябрь 2001 года).
