
- •Методический материал для подготовки к зачету по предмету: «Анализ данных»
- •Описательная статистика
- •Критерий Хи-квадрат
- •3. Сравнение средних. Дисперсионный анализ
- •1. Общая постановка задачи
- •2. Понятие зависимой переменной и фактора
- •3. Тип данных для дисперсионного анализа
- •4. Однофакторный и двухфакторный дисперсионный анализ
- •5. Формулировка гипотез для двухфакторного анализа
- •6. Эффекты взаимодействия
- •8. Критерий Левене об однородности дисперсий.
- •9. Ограничения дисперсионного анализа и теста Стьюдента
- •10. Зависимые и независимые выборки
- •11. Непараметрические аналоги (Критерий знаков, Манна-Уитни, Вилкоксона, Краскела-Уоллиса, Фридмана).
- •4. Регрессионный анализ
- •6 Этапов регрессионного исследования
- •Уравнение линейной регрессии
- •Значимость коэффициентов линейной регрессии
- •Коэффициент детерминации
- •Кластерный анализ
- •Понятие расстояния
- •Основные метрики, используемые при кластеризации.
- •Расстояние между кластерами
8. Критерий Левене об однородности дисперсий.
Сравнение двух независимых выборок
Критерий Левене используется для проверки того, чтоm выборок имеют равные дисперсии. Считается, что критерий Левене менее чувствителен к отклонениям от нормальности.
Проверяемая гипотеза о постоянстве дисперсии m выборок имеет вид:
где
неравенство выполняется, по крайней
мере, для одной пары индексов
,
Как правило, гипотеза о равенстве (гомогенности) дисперсий не принимается, если тест Левена дает значение р < 0,05 (гетерогенность дисперсий).
В случае, если уровень значимости оказывается меньшим, чем 0,05 различие средних признается статистически значимым.
9. Ограничения дисперсионного анализа и теста Стьюдента
Дисперсионный анализ относится к группе параметрических методов и поэтому его следует применять только тогда, когда доказано, что распределение является нормальным. Метод дисперсионного анализа для связанных выборок применяется в тех случаях, когда исследуется влияние разных градаций фактора или разных условий на одну и ту же выборку испытуемых. Градаций фактора должно быть не менее трех.
Критерий Стьюдента для независимых выборок (t-testforindependentsamples)
1. Размеры выборок могут отличаться
2. Выборки должны иметь нормальное распределение, и их
дисперсии должны быть равны.
3. Ограничение на размер выборки: N ≥ 10 в каждой группе.
4. Критерий может быть односторонним и двусторонним
10. Зависимые и независимые выборки
Выборки называются независимыми (несвязными), если процедура эксперимента и полученные результаты измерения некоторого свойства у испытуемых одной выборки не оказывают влияния на особенности протекания этого же эксперимента и результаты измерения этого же свойства у испытуемых (респондентов) другой выборки. И, напротив, выборки называется зависимыми (связными) если процедура эксперимента и полученные результаты измерения некоторого свойства, проведенные на одной выборке, оказывают влияние на другую.
11. Непараметрические аналоги (Критерий знаков, Манна-Уитни, Вилкоксона, Краскела-Уоллиса, Фридмана).
Критерий знаков (signtest) — статистический критерий, позволяющий проверить нулевую гипотезу, что выборка подчиняется биномиальному распределению с параметром p=1/2.
Практическое применение критерия знаков включает следующие этапы:
1) Определяется направленность изменений в сравниваемых наблюдениях.
2) Подсчитывается общее число парных наблюдений, имеющих различия (n).
3) Подсчитывается меньшее число однозначных результатов сравнения, обозначаемых как Z.
4) Z сравнивается по специальной таблице с критическими значениями для данногоn.
U-критерий Манна-Уитнипредставляет собой непараметрическую альтернативу t-критерия для независимых выборок и используется для оценки различий между двумя малыми выборками (n1,n2≥3 или n1=2, n2≥5) по уровню количественно измеряемого признака. При этом первой выборкой принято считать ту, где значение признака больше.
Критерий Вилкоксонадвухвыборочный — непараметрический статистический критерий, используемый для оценки различий между двумя выборками, взятыми из закона распределения, отличного от нормального, либо измеренными с использованием порядковой шкалы. Критерий является ранговым.
Практический расчет критерия включает следующие этапы:
1) Найти разности парных вариант.
2) Определить ранги полученных разностей (без учета знаков, пары наблюдений, разности которых оказались равными нулю, из дальнейшей оценки исключаются).
3) Определить сумму рангов полученных разностей, имеющих одинаковые алгебраические знаки и взять меньшую из них (Т).
4) Установить достоверность различий. При количестве наблюдений меньше 26 сравнивают найденную сумму с критическими значениями из таблицы, в противном случае рассчитывают по специальной формуле случайную переменную (u).
Критерий Краскела-Уоллиса - Он используется для сравнения трех или более выборок, и проверяет нулевые гипотезы, согласно которым различные выборки были взяты из одного и того же распределения, или из распределений с одинаковыми медианами.
Критерий Фридмана - это непараметрический аналог дисперсионного анализа повторных измерений, применяется для анализа повторных измерений, связанных с одним и тем же индивидуумом. Логика критерия очень проста. Каждый больной ровно один раз подвергается каждому методу лечения (или наблюдается в фиксированные моменты времени). Результаты наблюдения у каждого больного упорядочиваются.