Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекция 9-10_.doc
Скачиваний:
9
Добавлен:
25.08.2019
Размер:
254.98 Кб
Скачать

3 Однофакторный дисперсионный анализ.

Рассмотренные возможности применения различных модификаций Т-теста (теста Стьюдента) показывают, однако, существенные ограничения этого метода. Например, приведенные в таблице 1 результаты работы команды MEANS показывают, что в данном случае число градаций в качественной переменной больше 2. Т-тест же позволяет сопоставить только 2 градации. Как быть в данной ситуации? Иными словами, как проверить статистическую гипотезу H0: μ1 = μ2 =…. = μn, где μ1, μ2 ,…., μn - средние значения анализируемых переменных в n независимых выборках?

Данная задача решается с помощью методов дисперсионного анализа С точки зрения построения социологической модели эту ситуацию можно сформулировать следующим образом. Оказывает ли значимое влияние на значение некоторой количественной переменной интересующая нас переменная, которая измерена на номинальном или порядковом уровне? В терминах метода дисперсионного анализа та переменная, которая, как мы считаем, должна оказывать влияние на конечный результат, называется фактором. Например, если для данных таблицы 3.1 мы начнем строить модель объяснения различий в заработных платах респондентов тем, что респонденты проживают в населенных пунктах разного типа, переменная «Тип населенного пункта» будет выступать фактором.

Задачи однофакторного анализа являются самыми простыми в своем классе, но тем не менее весьма часто встречаются на практике.

Рассмотрим задачу: Пусть у нас есть результаты (по урожайности пшеницы) при различных обработках удобрениями. Необходимо проверить гипотезу о неизменности средней урожайности. Или необходимо установить зависимость выполненных за смену работ от работающей бригады.

Пусть результаты наблюдений составляют L независимых выборок, полученных из L нормально распределенных совокупностей, которые имеют разные средние и одинаковые дисперсии. Проверяется гипотеза о равенстве средних .

Пусть - i–ый элемент k-ой выборки, ,

-выборочное среднее k-ой выборки:

- общее выборочное среднее

n- общее количество наблюдений

Сумма квадратов отклонений наблюдений от общего среднего может быть представлена в виде:

или Q=Q1+Q2

Q - Сумма квадратов отклонений наблюдений от общего среднего

Q1 - Сумма квадратов отклонений выборочных средних от общего среднего

Q2 - Сумма квадратов отклонений наблюдений от выборочных средних групп

Это тождество легко проверяется, если возвести в квадрат обе части очевидного равенства , затем просуммировать обе части по I и по k и учесть, что

Все эти характеристики необходимы для вычисления F-статистики, которая служит инструментом для проверки исходной гипотезы H0: μ1 = μ2 =…. = μn, где μ1, μ2 ,…., μn . F-статистика представляет собой просто отношение межгруппового и внутригруппового средних квадратов. При этом F-статистика имеет F-распределение (см. приложение), что дает нам инструмент для проверки уровня значимости и, соответственно, для принятия или непринятия гипотезы H0.

Если верна гипотеза , то величина имеет распределение Фишера с L-1 и n-L степенями свободы. Гипотеза не противоречит результатам наблюдений, если . Если , то гипотеза отвергается.

Fкр=FРАСПОБР(альфа,L-1,n-L)

Если в процессе анализа выявлено влияние фактора А на результативный признак, то можно измерить степень данного влияния с помощью выборочного коэффициента детерминации: .

В рамках пакета SPSS программа, реализующая метод однофакторного дисперсионного анализа называется One-Way ANOVA и находится она в блоке команд COMPARE MEANS (см. рисунок 3.1). Название One-Way отражает тот факт, что эта программа выполняет метод однофакторного дисперсионного анализа, то есть анализируется влияние только одной качественной переменной (фактора) на количественную переменную.

Результаты выполнения команды One-Way ANOVA по проверке модели

различия средней зарплаты в различных образовательных группах

ANOVA

Sum of Squares

df

Mean Square

F

Sig.

Between Groups

3637891345,3

6

606315224,2

5,666

,000

Within Groups

114704562245,6

1072

107000524,4

Total

118342453590,9

1078

Таблица 3.6 содержит межгрупповую (Between Groups), внутригрупповую (Within Groups) и общую (Total) суммы квадратов. Далее следуют числа степеней свободы для этих трех сумм (df), средние суммы квадратов и значение F-статистики. Наконец, колонка Sig. содержит значимость полученного значения F-статистики.

Полученный результат говорит нам, что вероятность справедливости гипотезы H0 крайне мала. То есть, у нас практически нет причин принимать гипотезу о равенстве средних зарплат в различных образовательных группах, и есть убедительные причины согласиться с альтернативной гипотезой, то есть с предположением о том, что не все образовательные группы имеют одинаковую среднюю зарплату.

Линейные контрасты. Если гипотеза о равенстве средних отклоняется, то требуется определить, какие именно группы имеют значимое различие средних. Для этих целей используется метод линейных контрастов. Линейный контраст определяется как линейная комбинация

- константы, однозначно определяемые из формулировки проверяемых альтернативных гипотез., причем . - математические ожидания. Оценка линейного контраста равна .

В условиях примера о влажности семян нулевая гипотеза отклоняется, следует считать, что среди средних имеется хотя бы два не равных друг другу. Проверим гипотезы:

В соответствии с проверяемыми гипотезами определяются линейные контрасты:

Вычислим контрасты:

, ,

,

Вычислим границы доверительных интервалов для контрастов:

,

,

,

Доверительные границы:

Так как нулевое значение накрывается доверительными интервалами для гипотез 3 и 4, то эти гипотезы принимаются, а гипотезы 1 и 2 отвергаются. Отвергается, что

Таким образом, значимо различны средние первой и второй групп, а также средние первой и третьей групп.

Пример: Влажность удобрений. Удобрения были расфасованы в 30 пакетов. Они были распределены по трем условиям хранения.

A

B

C

D

E

F

Влажность 1

Влажность 2

Влажность 3

10,1

11,7

10,2

7,3984

0,984675

0,024694

7,3

12,2

12

0,0064

2,226982

3,830408

5,6

11,8

8,8

3,1684

1,193136

1,544694

6,2

7,8

8,7

1,3924

8,454675

1,803265

8,4

8,9

10,5

1,0404

3,267751

0,20898

8,1

9,9

11

0,5184

0,652367

0,916122

8

12,4

9,1

0,3844

2,863905

0,88898

7,6

11

 

0,0484

0,085444

9,217143

5,3

10,3

 

4,3264

0,166213

7,2

13,8

 

0,0324

9,562367

 

10,5

 

18,316

0,043136

 

9,8

 

0,823905

 

9,1

 

2,584675

среднее

32,90923

7,38

10,70769

10,04286

9,443333

кол-во нблюдений

10

13

7

30

Q1=10*(7.38-9.4433)^2+13*(10.70-9.4433)^2+7*(10.04-9.4433)^2

65,87129

F=

14,71257

Q2=D12+E15+F9

60,44237

Fкритич.=

3,354131

Q=

126,3137

Гипотеза о равенстве средних отклоняется, так как , т.е. условия хранения оказывают влияние на влажность семян.

Выборочный коэффициент детерминации показывает, что 52% общей выборочной вариации влажности связано с условиями хранения семян.

1 О форме и параметрах t-распределения – см. приложение.

2 Российский статистический ежегодник 2002. М., 2002, С.87

3 Для примера взяты данные исследования RLMS 9-й волны (октябрь-ноябрь 2001 года).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]