Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Пчёлкина К.К._Анализ данных.docx
Скачиваний:
0
Добавлен:
01.03.2025
Размер:
177.9 Кб
Скачать

3. Сравнение средних. Дисперсионный анализ

1. Общая постановка задачи

Сравнение средних значений различных выборок относится к наиболее часто применяемым методам статистического анализа. При этом всегда должен быть выяснен вопрос, можно ли объяснить имеющееся различие средних значений статистическими колебаниями или нет. В последнем случае говорят о статистически значимом различии.

При сравнении средних значений выборок предполагается, что обе выборки подчиняются нормальному распределению. Если это не так, то вычисляются медианы и для сравнения выборок используется непараметрический тест.

При сравнении средних значений выборок выделяют четыре различные тестовые ситуации:

  •  сравнение двух независимых выборок

  •  сравнение двух зависимых (спаренных) выборок

  •  сравнение более двух независимых выборок

  •  сравнение более двух зависимых выборок

В этих ситуациях соответственно применяются следующие статистические тесты:

  •  t-тест для независимых выборок (тест Стьюдента)

  •  t-тест для зависимых выборок

  •  однофакторный дисперсионный анализ

  •  однофакторный дисперсионный анализ с повторными измерениями

Первые три из этих тестов вызываются с помощью меню Analyze (Анализ) CompareMeans (Сравнение средних)

Основной целью дисперсионного анализа является исследование значимости различия между средними, проверка статистической значимости различия между средними (для групп или переменных). Эта проверка проводится с помощью разбиения суммы квадратов на компоненты, т.е. с помощью разбиения общей дисперсии (вариации) на части, одна из которых обусловлена случайной ошибкой (то есть внутригрупповой изменчивостью), а вторая связана с различием средних значений. Если это различие значимо, нулевая гипотеза отвергается и принимается альтернативная гипотеза о существовании различия между средними. Дисперсионный анализ следует применять только тогда, когда доказано, что распределение является нормальным.

2. Понятие зависимой переменной и фактора

Переменные, значения которых определяется с помощью измерений в ходе эксперимента (например, балл, набранный при тестировании), называются зависимыми переменными. Переменные, которыми можно управлять при проведении эксперимента (например, методы обучения или другие критерии, позволяющие разделить наблюдения на группы или классифицировать) называются факторами или независимыми переменными.

3. Тип данных для дисперсионного анализа

Дисперсионный анализприменяется дляисследования влияния одной или нескольких качественных переменных (факторов) на одну зависимую количественную переменную (отклик).

В основе дисперсионного анализа лежит предположение о том, что одни переменные могут рассматриваться как причины (факторы, независимые переменные), а другие как следствия (зависимые переменные). Независимые переменные называют иногда регулируемыми факторами именно потому, что в эксперименте исследователь имеет возможность варьировать ими и анализировать получающийся результат. Сущность дисперсионного анализа заключается в расчлене­нии общей дисперсии изучаемого признака на отдельные компо­ненты, обусловленные влиянием конкретных факторов, и про­верке гипотез о значимости влияния этих факторов на исследуе­мый признак.