
- •Методический материал для подготовки к зачету по предмету: «Анализ данных»
- •Описательная статистика
- •Критерий Хи-квадрат
- •3. Сравнение средних. Дисперсионный анализ
- •1. Общая постановка задачи
- •2. Понятие зависимой переменной и фактора
- •3. Тип данных для дисперсионного анализа
- •4. Однофакторный и двухфакторный дисперсионный анализ
- •5. Формулировка гипотез для двухфакторного анализа
- •6. Эффекты взаимодействия
- •8. Критерий Левене об однородности дисперсий.
- •9. Ограничения дисперсионного анализа и теста Стьюдента
- •10. Зависимые и независимые выборки
- •11. Непараметрические аналоги (Критерий знаков, Манна-Уитни, Вилкоксона, Краскела-Уоллиса, Фридмана).
- •4. Регрессионный анализ
- •6 Этапов регрессионного исследования
- •Уравнение линейной регрессии
- •Значимость коэффициентов линейной регрессии
- •Коэффициент детерминации
- •Кластерный анализ
- •Понятие расстояния
- •Основные метрики, используемые при кластеризации.
- •Расстояние между кластерами
3. Сравнение средних. Дисперсионный анализ
1. Общая постановка задачи
Сравнение средних значений различных выборок относится к наиболее часто применяемым методам статистического анализа. При этом всегда должен быть выяснен вопрос, можно ли объяснить имеющееся различие средних значений статистическими колебаниями или нет. В последнем случае говорят о статистически значимом различии.
При сравнении средних значений выборок предполагается, что обе выборки подчиняются нормальному распределению. Если это не так, то вычисляются медианы и для сравнения выборок используется непараметрический тест.
При сравнении средних значений выборок выделяют четыре различные тестовые ситуации:
сравнение двух независимых выборок
сравнение двух зависимых (спаренных) выборок
сравнение более двух независимых выборок
сравнение более двух зависимых выборок
В этих ситуациях соответственно применяются следующие статистические тесты:
t-тест для независимых выборок (тест Стьюдента)
t-тест для зависимых выборок
однофакторный дисперсионный анализ
однофакторный дисперсионный анализ с повторными измерениями
Первые три из этих тестов вызываются с помощью меню Analyze (Анализ) CompareMeans (Сравнение средних)
Основной целью дисперсионного анализа является исследование значимости различия между средними, проверка статистической значимости различия между средними (для групп или переменных). Эта проверка проводится с помощью разбиения суммы квадратов на компоненты, т.е. с помощью разбиения общей дисперсии (вариации) на части, одна из которых обусловлена случайной ошибкой (то есть внутригрупповой изменчивостью), а вторая связана с различием средних значений. Если это различие значимо, нулевая гипотеза отвергается и принимается альтернативная гипотеза о существовании различия между средними. Дисперсионный анализ следует применять только тогда, когда доказано, что распределение является нормальным.
2. Понятие зависимой переменной и фактора
Переменные, значения которых определяется с помощью измерений в ходе эксперимента (например, балл, набранный при тестировании), называются зависимыми переменными. Переменные, которыми можно управлять при проведении эксперимента (например, методы обучения или другие критерии, позволяющие разделить наблюдения на группы или классифицировать) называются факторами или независимыми переменными.
3. Тип данных для дисперсионного анализа
Дисперсионный анализприменяется дляисследования влияния одной или нескольких качественных переменных (факторов) на одну зависимую количественную переменную (отклик).
В основе дисперсионного анализа лежит предположение о том, что одни переменные могут рассматриваться как причины (факторы, независимые переменные), а другие как следствия (зависимые переменные). Независимые переменные называют иногда регулируемыми факторами именно потому, что в эксперименте исследователь имеет возможность варьировать ими и анализировать получающийся результат. Сущность дисперсионного анализа заключается в расчленении общей дисперсии изучаемого признака на отдельные компоненты, обусловленные влиянием конкретных факторов, и проверке гипотез о значимости влияния этих факторов на исследуемый признак.