Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
часть 2.doc
Скачиваний:
58
Добавлен:
18.03.2016
Размер:
1.76 Mб
Скачать

5.4. Дисперсионный анализ (anova)

Процедура ANOVA служит для сравнения нескольких выборок одной и той же измеряемой величины, полученных в разных условиях. Эти условия определяются значениями некоторых количественных или качественных показателей, которые принято называть факторами. Как следует из названия, сравнение производится на основе анализа дисперсий выборок ( ANalisis Of Variance). В отличие от t-теста число таких выборок больше двух, а в отличие от -теста снимаются ограничения на числа вариант в каждом интервале. Дисперсионный анализ основан на разложении суммы квадратов отклонений вариант от общего для всех выборок среднего на сумму слагаемых, позволяющих выявить влияние отдельных факторов на измеряемые случайные величины.

5.4.1. Однофакторный дисперсионный анализ.

Рассматривается несколько выборок некоторой величины, каждая из которых получена в условиях, которые можно характеризовать тем или иным определённым значением одного количественного или качественного фактора. Обозначим:значение-ой варианты в-ой выборке,- объём-ой выборки,- число выборок,- общее число вариант,-общее среднее для всех выборок,- среднее значение-ой выборки,- сумма квадратов отклонений всех вариант от общего среднего,- сумма квадратов отклонений средних отдельных выборок от общего среднего(межгрупповая сумма квадратов,Sum Square Between Groups), - сумма квадратов отклонений вариант выборок от их средних (внутригрупповая сумма квадратов, ). Sum Square Within Groups

Можно показать, что, в случае независимости выборок .

Если все выборки получены из одной и той же генеральной совокупности с нормальным распределением , т.е. справедлива гипотезао том, что условия получения выборок не влияют на результат, то статистикииявляются несмещёнными оценками одного и того же параметра - неизвестной дисперсии, а их отношениеимеет распределение Фишера систепенями свободы. Следовательно, гипотезуможно принять на уровне значимости, если. Если же это условие не выполняется, то следует считать, что по крайней мере две выборки из совокупности принадлежат разным распределениям.

В Excel в меню СервисАнализ данных имеется процедура «Однофакторный дисперсионный анализ». Рассмотрим её применение на следующем примере: На химическом заводе разработаны 3 варианта технологического процесса. Для оценки производительности установка работала по каждому из этих вариантов по 10 дней. Результаты представлены в следующей таблице:

A

B

C

D

1

День работы

Суточная производительность

2

вариант 1

вариант 2

вариант 3

3

1

46

74

52

4

2

48

82

63

5

3

73

64

72

6

4

52

72

64

7

5

72

84

48

8

6

44

68

70

9

7

66

76

78

10

8

46

88

68

11

9

60

70

70

12

10

48

60

54


В диалоговом окне функции Однофакторный дисперсионный анализ вводим входной интервал B2:D12, помечаем группирование – по столбцам, метка – в первой строке, Альфа – 0,05, выходной интервал – F2. В результате появляется следующая таблица:

Однофакторный дисперсионный анализ

ИТОГИ

Группы

Счет

Сумма

Среднее

Дисперсия

 

 

вариант 1

10

555

55,5

127,3888889

вариант 2

10

738

73,8

79,51111111

вариант 3

10

639

63,9

94,32222222

Дисперсионный анализ

Источник вариации

SS

df

MS

F

P-Значение

F критическое

Между группами

1678,2

2

839,1

8,356953154

0,0014963

3,354130829

Внутри групп

2711

27

100,4074074

Итого

4389,2

29

 

 

 

 

В этой таблице SS – суммы квадратов отклонений: между группами - =1678,2; внутри групп -=2711; итого -; df – степени свободы:;; MS -==839,1 и=100,4074074;=8,356953154; P-Значение – вероятность=0,0014963;

F критическое - =3,354130829. Так как значение F оказалось больше F критическое, гипотезу о равенстве средней производительности для всех вариантов следует отбросить, и различие средних нельзя считать случайным.

Заметим, что объёмы выборок могут быть различными, как видно из приведённого примера, в котором сравниваются успехи студентов, обучающихся в разных группах.

группа

Количество ошибок у студента на вопросы

A

B

C

D

E

F

G

1

1

3

2

1

0

2

1

2

2

3

2

1

4

-

-

3

4

5

3

-

-

-

-

Однофакторный дисперсионный анализ

ИТОГИ

Группы

Счет

Сумма

Среднее

Дисперсия

 

 

Строка 1

7

10

1,42857142

0,95238095

Строка 2

5

12

2,4

1,3

Строка 3

3

12

4

1

Дисперсионный анализ

Источник вариации

SS

df

MS

F

P-Значение

F критическое

Между группами

14,01904

2

7,0095238

6,5132743

0,0121529

3,885293835

Внутри групп

12,91428

12

1,0761904

Итого

26,93333

14

 

 

 

 

В этом случае значение оказалось выше критического, поэтому различие успеваемости студентов различных групп можно считать значимым.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]