Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

m29668_5

.doc
Скачиваний:
6
Добавлен:
13.11.2022
Размер:
290.3 Кб
Скачать

Тема 5.

ОДНОФАКТОРНЫЙ ДИСПЕРСИОННЫЙ

АНАЛИЗ.

Впервые дисперсионный анализ был разработан английским математиком-статистиком Р.А. Фишером в 1925 г. для обработки результатов агрономических опытов по выявлению условий получения максимального урожая различных сортов сельскохозяйственных культур. Этот статистический метод позволяет выявлять влияние отдельных факторов на результат эксперимента, а также планировать проведение последующих аналогичных экспериментов.

Рассмотрим следующий пример.

Исследовалось влияние глицерофосфата железа на содержание гемоглобина в крови поросят. Для проведения опыта было образовано 4 группы по 5 поросят, подобранных по принципу аналогов. Одна из них, контрольная, не получала препарата железа; три другие, опытные, получали препарат железа, но в разных дозах. По истечении определенного срока был проведен лабораторный анализ крови поросят всех четырех групп. Если через обозначить процент гемоглобина в крови поросенка под номером из группы , то результаты лабораторного анализа можно представить в виде таблицы:

Поросята

Группы

опытная группа 1

опытная группа 2

опытная группа 3

контрольная группа 4

1

2

3

4

5

Среднее значение для процента гемоглобина в группе обозначим через . Спрашивается, можно ли считать различие между средними , , , достоверными (т.е. считать влияние препарата на процент гемоглобина значимым) или эти различия случайны (объясняются случайными факторами, не связанными с действием препарата)?

Имея конкретные числовые значения , можно ответить на поставленный вопрос с помощью дисперсионного анализа. Дисперсионный анализ позволяет выделить в общей изменчивости процента гемоглобина компоненты, характеризующие влияние организованного фактора (препарата железа) и влияние случайных факторов.

Итак, мы рассматриваем четыре средних значения по группам , , , . Сформулируем так называемую «нулевую гипотезу»: все эти четыре значения являются средними случайных выборок из одной и той же генеральной совокупности (т.е. различия в содержании гемоглобина не значимы, обусловлены в той же степени случайными причинами, что и влиянием глицерофосфата железа). Нулевую гипотезу принято обозначать .

Обозначим через общую среднюю для всех = 20 данных. Если считать, что гипотеза справедлива, то рассеяние средних , , , относительно общей средней не должно быть велико. Используемый в дисперсионном анализе -критерий (критерий Фишера) как раз и позволяет ответить на вопрос: не слишком ли велика дисперсия средних по группам, чтобы можно было утверждать, что все они являются средними случайных выборок из одной и той же генеральной совокупности?

Как известно, дисперсия, характеризующая изменчивость любого варьирующего признака, лишь постоянным множителем отличается от суммы квадратов отклонений от среднего значения. Основная задача дисперсионного анализа состоит в том, чтобы разбить сумму квадратов отклонений индивидуальных значений от общего среднего на составляющие, каждой из которых можно приписать свой источник вариаций. В нашем примере таких источников два:

первый – различие средних по группам (влияние фактора);

второй – индивидуальные различия между поросятами, находящимися в группе.

Первый источник представляет собой систематическое отклонение, второй – ошибку выборки или «шум».

Образуем три суммы квадратов отклонений:

– общая сумма квадратов,

– межгрупповая (факторная) сумма квадратов,

– внутригрупповая (остаточная) сумма квадратов.

Общая сумма квадратов отклонений есть сумма квадратов отклонений вариант от их общего среднего

=

.

Межгрупповая (факторная) сумма квадратов получается из , если каждую варианту заменить соответствующей групповой средней :

Внутригрупповая (остаточная) сумма квадратов складывается из квадратов отклонений вариант от (в нашем примере она содержит 20 слагаемых) :

.

Источником отклонений, составляющих межгрупповую сумму квадратов, является влияние фактора. Источником отклонений во внутригрупповой сумме квадратов является случайная вариация (шум).

Проводя алгебраические выкладки, можно убедиться, что

(5.1)

Данное равенство позволяет разбить общую сумму квадратов отклонений на составляющие, каждая из которых имеет свой источник вариации. Чтобы использовать эти величины для проверки нулевой гипотезы, нам надо образовать дисперсии: межгрупповую (дисперсию средних по группам) и внутригрупповую (дисперсию вариант внутри групп). В формировании каждой из этих дисперсий наряду с суммой квадратов отклонений участвует также число степеней свободы. Эта величина определяется как разность между числом переменных в сумме квадратов отклонений и числом связей между ними.

Если каждую сумму квадратов разделить на соответствующее число степеней свободы, получится дисперсия, служащая оценкой вклада, вносимого данным источником в общий источник вариации. Если нулевая гипотеза справедлива, то межгрупповая и внутригрупповая дисперсии должны быть почти равны; вследствие ошибок выборки они почти никогда не имеют в точности одно и тоже значение. И все же, если различия по группам значимы, то межгрупповая дисперсия, как правило, будет больше внутригрупповой.

Для проверки гипотезы составляют дисперсионное отношение:

.

В предположении справедливости нулевой гипотезы дисперсионное отношение должно быть равно единице. Однако вследствие ошибок выборки вычисленное дисперсионное отношение может быть отлично от единицы и в случае, когда нулевая гипотеза справедлива. Чтобы установить достоверность отличия от единицы, эту величину сравнивают с критическим значением , которое находится по таблице -распределения Фишера (приложение 4). Табличную величину находят на пересечении столбца с числом степеней свободы для большей дисперсии и строки с числом степеней свободы для меньшей дисперсии. Прежде чем обратиться к таблице для отыскания , необходимо задать уровень значимости – степень достоверности, с которой может быть отвергнута нулевая гипотеза. Обычно уровень значимости берут равным 0,01 или 0,05.

Отметим, что в рассматривавшемся выше примере нас интересовало влияние фактора – глицерофосфата железа на результативный признак – содержание гемоглобина в крови поросят. Тот факт, что каждая из четырех групп поросят получала свою определенную дозу препарата (одна не получала вовсе), формулируется иначе как то, что фактор задан на четырех уровнях ( или что фактор имеет четыре градации).

Сформулируем задачу и алгоритм однофакторного дисперсионного анализа в общем виде.

Допустим, что для оценки влияния фактора на результативный признак были выбраны уровней (градаций) фактора и на каждом уровне получены данные о значениях признака, причем на уровне проведено наблюдений.

Пусть общее число наблюдений

.

Положим

.

Сформулируем нулевую гипотезу «влияние фактора незначимо» и заметим, что ее проверка опирается на предположение о нормальности распределения данных.

Для проверки нулевой гипотезы необходимо:

1. Вычислить суммы квадратов

= ;

= .

2. Найти соответствующие этим суммам числа степеней свободы

; .

  1. Вычислить дисперсии

;

.

4. Вычислить -отношение

.

5. Сравнить с табличным значением , где - заданный уровень значимости.

Если , влияние фактора статистически значимо (нулевая гипотеза отвергается). Если же , то при заданном уровне значимости нет оснований отвергнуть нулевую гипотезу, т.е. влияние фактора статистически не значимо.

Вспомним, что для общей суммы квадратов справедливо равенство (5.1) и отметим, что аналогичное равенство связывает соответствующие суммам квадратов числа степеней свободы:

.

Результаты дисперсионного анализа принято представлять в виде следующей таблицы.

Таблица 5.1

Дисперсионный анализ данных (общая форма)

Источник вариации

Суммы квадратов ( )

Числа степеней свободы ( )

Дисперсии

Дисперсионное

отношение

Между

группами

Внутри

Групп

Общий

Наряду с оценкой достоверности (значимости) влияния фактора дисперсионный анализ позволяет оценить и силу этого влияния. Показателем силы влияния фактора служит величина

,

которая характеризует долю вариации, обусловленной влиянием фактора, в общей вариации признака.

ПРИМЕР

Исследовалось влияние различных режимов питания (фактор А) на увеличение веса экспериментальных животных (кг). Требуется проверить влияние фактора А на вес животных. Выборка взята из генеральных совокупностей с нормальным законом распределения и одинаковыми дисперсиями.

Количество

животных

Уровни фактора А

i

А1

А2

А3

А4

1

2

3

4

5

2,4

2,5

2,1

2,6

-

1,6

2,1

1,9

1,7

1,7

2,0

1,6

1,8

-

-

2,4

2,2

-

-

-

РЕШЕНИЕ

Очевидно, что: N=14; k=4; n1=4; n2=5; n3=3; n4=2.

Групповые выборочные средние:

Общая выборочная средняя:

  1. Вычислим суммы квадратов:

SSфакт=4(2,4-2)2+5(1,8-2)2+3(1,8-2)2+2(2,6-2)2=1,68;

SSост=(2,4-2,4)2+(2,5-2,4)2+(2,1-2,4)2+(2,6-2,4)2+(1,6-1,8)2+

+(21,-1,8)2+(1,9-1,8)2+(1,7-1,8)2+(1,7-1,8)2+(2-1,8)2+(1,6-1,8)2+(1,8-1,8)2+(2,4-2,6)2+(2,2-2,6)2=0,44;

SSобщ=1,68+0,4=2,08.

  1. Определим число степеней свободы:

νфакт= 4-1=3; νост= 14-4 =10.

  1. Вычислим дисперсии:

и

4. Вычислим F- отношение:

  1. Сравним Fрасч с табличным значением Fкр=F(0,05;3;10)=3,71,

т.к. Fрасч> Fкр, то влияние фактора А статистически значимо с вероятностью 0,95. Т.о. различные режимы питания влияют на вес экспериментальных животных.

ВОПРОСЫ ДЛЯ САМОПРОВЕРКИ

  1. Сформулируйте задачу однофакторного дисперсионного анализа.

  2. Поясните на примере понятие уровней (градаций) фактора.

  3. В чем состоит нулевая гипотеза относительно групповых средних? К чему сводится проверка этой гипотезы?

  4. Какие источники вариации рассматриваются в однофакторном дисперсионном анализе?

  5. Какое равенство связывает величины SSфакт, SSост, SSобщ?

  6. Как определяется число степеней свободы статистического показателя?

  7. Что называется дисперсионным отношением?

  8. Какие таблицы применяются в дисперсионном анализе?

  9. Что понимают под уровнем значимости? Вывод более сильный: при уровне значимости в α = 0,05 или 0,01, если нулевая гипотеза отвергается?

  10. Как и в зависимости от чего формулируется вывод на основе проведенного дисперсионного анализа?

ИНДИВИДУАЛЬНЫЕ ЗАДАНИЯ

  1. Получены данные о плодовитости мышей при облучении рентгеновскими лучами:

Группы

Число мышат от отдельных самок

Контроль

10

12

11

10

Доза 100 р.

8

10

7

9

Доза 200 р.

7

9

6

4

Влияет ли облучение на плодовитость мышей?

  1. Изучали процент гемоглобина в крови кур разных пород

Породы

Отдельные набдюдения

Итальянские

53

59

50

52

62

60

Куропатчатые

64

68

70

60

-

-

Минорки

59

62

65

70

65

-

Бентамы

65

68

72

-

-

-

Влияет ли породность на процент гемоглобина?

  1. Определите влияние возраста коров-матерей на живую массу телят при рождении (кг):

Возраст коров (месяцев)

25-30

31-36

37 и старше

32

31

30

30

35

-

31

40

35

32

34

38

43

40

42

35

36

38

  1. Изучали продолжительность развития эмбрионов (в днях) кроликов разных пород:

Породы

Продолжительность развития отдельных крольчат

Альбиносы

Шиншилла

Голландские

Польские

30

31

30

30

36

32

29

31

31

30

30

29

30

34

31

30

34

32

30

29

32

31

33

30

-

-

-

30

Влияет ли породность на продолжительность развития эмбрио - нов кроликов?

  1. Установить долю влияния породы на жирномолочность коров за первую лактацию:

Порода

Жирномолочность каждой коровы в %

Черно-пестрая

Айрширская

2,8

4,2

3,5

4,5

3,7

3,9

3,0

4,1

3,2

4,0

  1. Проверьте влияет ли возраст на частоту распространенности изолированной систолической артериальной гипертензии в различных регионах России (в %):

Регионы

Возраст (лет)

50

60

70

80

1

24

47

66

73

2

23

45

60

70

3

21

43

65

72

4

25

42

65

71

5

23

46

65

73

  1. Исследовать влияние породы животных на уровень их иммунитета. Животные трех пород в возрасте 31 месяц искусственно заражали одинаковым количеством личинок Boophilus micropolus и через 20 дней подсчитывали число самок клещей:

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]