- •Міністерство освіти та науки україни
- •Інформаційні системи в менеджменті
- •Содержание
- •Лабораторная работа №1 Проверка гипотезы о нормальном распределении
- •Лабораторная работа №2 Проверка гипотезы о математическом ожидании
- •Задание
- •Лабораторная работа №3 Двухвыборочные критерии
- •Задания
- •Лабораторная работа №4 Проверка гипотезы об однородности дисперсий
- •Задания
- •Лабораторная работа №5 Однофакторный дисперсионный анализ
- •Задания
- •Лабораторная работа №6 Ранговый критерий
- •Задания
- •Лабораторная работа №7 Двухфакторный дисперсионный анализ
- •Задания.
- •Продолжительности проявления.
- •Лабораторная работа №8 Проверка гипотезы об однородности выборок
- •Содержание контрольного задания
- •Литература
Лабораторная работа №5 Однофакторный дисперсионный анализ
Для дисперсионного анализа нулевая гипотеза такова: генеральные совокупности, из которых извлечены рассматриваемые выборки, не отличаются с точки зрения интересующих нас характеристик. Нулевая гипотеза: 1 = 2 = … = k , где k – количество категорий. Если нулевая гипотеза об отсутствии различий между генеральными совокупностями справедлива, то тогда все средние, вычисленные для каждой из случайных выборок в отдельности, будут приблизительно равны между собой. Необходимо выяснить, являются различия между выборками достаточно большими для того, чтобы отвергнуть нулевую гипотезу и обосновать вывод о том, что генеральные совокупности, представленные выборками, различаются.
Дисперсионный анализ позволяет сравнивать величину изменчивости между категориями (например, марками бетона) с величиной изменчивости внутри категории (для каждой марки бетона). Чем больше различия между категориями по отношению к различиям внутри категории, тем больше вероятность того, что нулевая гипотеза об отсутствии различий является ложной и может быть отвергнута. Итак, если прочность конструкции действительно изменяется в зависимости от марки бетона, то тогда выборочное среднее для каждой марки бетона должно заметно отличаться от других, и разброс внутри категорий должен быть относительно мал.
Хотя дисперсионный анализ рассматривается как метод для проверки значимости различий между выборочными средними, его вычислительная схема включает построение двух различных оценок дисперсии генеральной совокупности 2 (отсюда и название «дисперсионный анализ»). Одна оценка дисперсии генеральной совокупности основана на уровне изменчивости внутри каждой категории независимой переменной, другая оценка – на уровне изменчивости между категориями. Чем больше различие между средними категорий и чем более однородны категории, тем больше вероятность, что различия являются статистически значимыми.
Фактическая статистика критерия, используемого в дисперсионном анализе, называется F-отношением и вычисляется так:
F
=
(1)
Очевидно, что значение F-отношения (критерия Фишера) будет функцией отношения величины изменчивости между категориями к величине изменчивости внутри категории. Чем больше изменчивость между категориями по сравнению с изменчивостью внутри категорий, тем больше будет значение F-критерия и тем больше вероятность того, что следует отвергнуть нулевую гипотезу.
Критическое значение F зависит от уровня значимости и числа степеней свободы для двух оценок дисперсии генеральной совокупности: межгрупповой dfb и внутригрупповой dfw. Если статистика критерия, вычисленная по статистическим данным, не превышает критического значения Fкр , нулевую гипотезу отвергнуть нельзя.
Для проведения дисперсионного анализа можно использовать надстройку Microsoft Excel Пакет анализа. Рассмотрим, какую последовательность действий необходимо для этого выполнить, на примере решения такой задачи.
Задача 1. В большом университете был проведен эксперимент по преподаванию начальной биологии. Одна группа студентов обучалась по традиционному методу «лекции плюс лабораторные работы»; вторая группа – по методу «только лабораторные работы плюс демонстрации, без лекций»; третья
группа – по методу «видеозаписи лекций плюс демонстрации», причем здесь студенты могли смотреть видеозаписи в любое время и сколько угодно раз. Студентов случайным образом по 9 человек распределили по указанным трем группам. В конце семестра все студенты сдавали экзамен; были получены случайные выборки оценок для каждой группы. Существует ли значимое различие в знаниях (оценках) студентов в зависимости от метода обучения?
Алгоритм решения задачи :
Разместить статистические данные на рабочем листе Excel
|
A |
B |
C |
1 |
|
Оценки |
|
2 |
Лекции |
ЛР+дем. |
Видеозап |
3 |
X1 |
X2 |
X3 |
4 |
55 |
56 |
50 |
5 |
57 |
60 |
52 |
6 |
60 |
62 |
60 |
7 |
63 |
67 |
61 |
8 |
72 |
70 |
63 |
9 |
73 |
71 |
69 |
10 |
79 |
82 |
71 |
11 |
85 |
88 |
80 |
12 |
92 |
95 |
82 |
Рис.1. Оценки трех групп
Вызвать инструмент дисперсионного анализа: Сервис – Анализ данных – Однофакторный дисперсионный анализ.
В появившемся диалоговом окне Однофакторный дисперсионный анализ заполнить поля следующим образом:
Входной интервал $A$3:$C$12 – диапазон ячеек, в которых расположены статистические данные (диапазон должен быть непрерывным);
флажок перед полем Метки в первой строке означает, что входной интервал содержит в первой строке имена переменных;
Альфа – уровень значимости равен 0,05;
установлен переключатель Параметры вывода в положение Выходной интервал F2 для вывода результатов дисперсионного анализа на этот же рабочий лист, начиная с ячейки F2.
Щелкнуть на кнопке ОК.
Рис.2. Заполнение полей диалогового окна
Рабочий лист, созданный с помощью этой процедуры, не является динамически обновляемым. Следовательно, если данные изменятся, все действия необходимо повторить.
Результат дисперсионного анализа имеет вид:
Однофакторный дисперсионный анализ |
|
|
|
|
||
|
|
|
|
|
|
|
ИТОГИ |
|
|
|
|
|
|
Группы |
Счет |
Сумма |
Среднее |
Дисперсия |
|
|
X1 |
9 |
636 |
70,66667 |
167,75 |
|
|
X2 |
9 |
651 |
72,33333 |
176,75 |
|
|
X3 |
9 |
588 |
65,33333 |
125,5 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Дисперсионный анализ |
|
|
|
|
|
|
Источник вариации |
SS |
df |
MS |
F |
p-значение |
F критическое |
Между группами |
240,6667 |
2 |
120,3333 |
0,768085 |
0,4749695 |
3,402826105 |
Внутри групп |
3760 |
24 |
156,6667 |
|
|
|
|
|
|
|
|
|
|
Итого |
4000,667 |
26 |
|
|
|
|
Рис.3. Результаты однофакторного дисперсионного анализа
В столбце SS приведены значения SSB и SSW , в столбце df – значения dfb = c-1 и dfw = n-c ; в столбце MS – значения выборочных дисперсий , равных отношениям элементов столбца SS к соответствующим степеням свободы в столбце df.
Поскольку F = 0,768, а Fкр (α;c-1;n-c) = F(0,05;2;24) = 3,4 , то нулевую гипотезу о равенстве средних генеральных совокупностей нельзя отвергнуть. Следовательно, наблюденные различия между средними по категориям (уровням) являются случайными результатами, а знания студентов по данному предмету не изменяются значимо в зависимости от метода обучения. Это подтверждает и p-значение, так как оно значительно больше уровня значимости, равного 0,05.
Однофакторный F-критерий можно применять, только если выполняются три основных предположения: экспериментальные данные должны быть случайными и независимыми, иметь нормальное распределение, а их дисперсии должны быть одинаковыми. Следовательно, прежде чем проводить однофакторный дисперсионный анализ, необходимо проверить, выполняются ли все три предположения. Для выборок задачи 1 такая проверка была выполнена в ЛР№ 4, и, значит, выполнение дисперсионного анализа обосновано, а выводы достоверны.
Индивидуальные задания к лабораторным работам №5-№8 выбираются в соответствии с вариантом по таблице, приведенной в конце ЛР №8.
