
- •Методический материал для подготовки к зачету по предмету: «Анализ данных»
- •Описательная статистика
- •Критерий Хи-квадрат
- •3. Сравнение средних. Дисперсионный анализ
- •1. Общая постановка задачи
- •2. Понятие зависимой переменной и фактора
- •3. Тип данных для дисперсионного анализа
- •4. Однофакторный и двухфакторный дисперсионный анализ
- •5. Формулировка гипотез для двухфакторного анализа
- •6. Эффекты взаимодействия
- •8. Критерий Левене об однородности дисперсий.
- •9. Ограничения дисперсионного анализа и теста Стьюдента
- •10. Зависимые и независимые выборки
- •11. Непараметрические аналоги (Критерий знаков, Манна-Уитни, Вилкоксона, Краскела-Уоллиса, Фридмана).
- •4. Регрессионный анализ
- •6 Этапов регрессионного исследования
- •Уравнение линейной регрессии
- •Значимость коэффициентов линейной регрессии
- •Коэффициент детерминации
- •Кластерный анализ
- •Понятие расстояния
- •Основные метрики, используемые при кластеризации.
- •Расстояние между кластерами
4. Однофакторный и двухфакторный дисперсионный анализ
По количеству выявляемых регулируемых факторов дисперсионный анализ может быть
однофакторным (при этом изучается влияние одного фактора на результаты эксперимента), Исследователя интересует вопрос, как изменяется определенный признак в разных условиях действия переменной (фактора). Например, как изменяется время решения задачи при разных условиях мотивации испытуемых (низкой, средней, высокой мотивации) или при разных способах предъявления задачи (устно, письменно или в виде текста с графиками и иллюстрациями), в разных условиях работы с задачей (в одиночестве, в комнате с преподавателем, в классе). В первом случае фактором является мотивация, во втором – степень наглядности, в третьем – фактор публичности.
двухфакторным (при изучении влияния двух факторов). При применении двухфакторного дисперсионного анализа исследователь проверяет влияние двух независимых переменных (факторов) на зависимую переменную. Может быть изучен также эффект взаимодействия двух переменных.
и многофакторным(позволяет оценить не только влияние каждого из факторов в отдельности, но и их взаимодействие).
5. Формулировка гипотез для двухфакторного анализа
Основная - различие не достоверно, Альтернативная - различие достоверно. Схема двухфакторного дисперсионного анализа имеет несколько нулевых гипотез: одна для каждой независимой переменной и одна для взаимодействия.
При истинности нулевой гипотезы(о равенстве средних в нескольких группах наблюдений, выбранных из генеральной совокупности), оценка дисперсии, связанной с внутригрупповой изменчивостью, должна быть близкой к оценке межгрупповой дисперсии. Если вы просто сравниваете средние в двух выборках, дисперсионный анализ даст тот же результат, что и обычный t-критерий для независимых выборок (если сравниваются две независимые группы объектов или наблюдений) или t-критерий для зависимых выборок (если сравниваются две переменные на одном и том же множестве объектов или наблюдений).
Дисперсионный анализ используют, если зависимая переменная измеряется в шкале отношений, интервалов или порядка, а влияющие переменные имеют нечисловую природу (шкала наименований).
6. Эффекты взаимодействия
Преимущество дисперсионного анализа перед обычным t-критерием состоит в следующем: дисперсионный анализ позволяет обнаружить эффекты взаимодействия между факторами и, поэтому, позволяет проверять более сложные гипотезы.
Общий способ описания взаимодействий. В общем случае взаимодействие между факторами описывается в виде изменения одного эффекта под воздействием другого. На практике это может проявляться как изменение главного эффекта фактора, характеризующего сложность задачи, под воздействием фактора, описывающего другую переменную. Для взаимодействия трех можно сказать, что взаимодействие двух факторов изменяется под воздействием третьего. Если изучается взаимодействие четырех факторов, можно сказать, что взаимодействие трех факторов, изменяется под воздействием четвертого фактора, т.е. существуют различные типы взаимодействий на разных уровнях четвертого фактора. Оказалось, что во многих областях взаимодействие пяти или даже большего количества факторов не является чем-то необычным.
7. Уровни фактора - значение фактора, уровней столько же, сколько и значений фактора.