- •Методический материал для подготовки к зачету по предмету: «Анализ данных»
- •Описательная статистика
- •Критерий Хи-квадрат
- •3. Сравнение средних. Дисперсионный анализ
- •1. Общая постановка задачи
- •2. Понятие зависимой переменной и фактора
- •3. Тип данных для дисперсионного анализа
- •4. Однофакторный и двухфакторный дисперсионный анализ
- •5. Формулировка гипотез для двухфакторного анализа
- •6. Эффекты взаимодействия
- •8. Критерий Левене об однородности дисперсий.
- •9. Ограничения дисперсионного анализа и теста Стьюдента
- •10. Зависимые и независимые выборки
- •11. Непараметрические аналоги (Критерий знаков, Манна-Уитни, Вилкоксона, Краскела-Уоллиса, Фридмана).
- •4. Регрессионный анализ
- •6 Этапов регрессионного исследования
- •Уравнение линейной регрессии
- •Значимость коэффициентов линейной регрессии
- •Коэффициент детерминации
- •Кластерный анализ
- •Понятие расстояния
- •Основные метрики, используемые при кластеризации.
- •Расстояние между кластерами
4. Регрессионный анализ
Теория:
Корреляция – статистический метод, позволяющий определить, существует ли зависимость между переменными и на сколько она сильна.
Регрессия – статистический метод, который используется для описания характера связи между переменными (положительнаяили отрицательная, линейная или нелинейная зависимость).
Линейный тренд – уравнение линейной регрессии. Выявляет ключевую закономерность.
Регрессионный анализ (regressionanalysis) — это мощный и гибкий метод установления формы и изучения связей между метрической (интервальной или поряковая шкала) зависимой переменной и одной или несколькими независимыми переменными.
Если больше одной независимой переменной - множественная регрессия.
Независимую переменную в регресии можно менять, зависимую нельзя!
6 Этапов регрессионного исследования
Шаг 1. Графически изобразить пары значений (x;y) (График рассеянности)
Шаг 2. Если визуально просматривается связь, найти коэффициент корреляции
Шаг 3. Оценить значимость коэффициента корреляции
Шаг 4. Если коэфф. значим, найти уравнение регрессии
Шаг 5. Построить разумные прогнозы: для значения независимой переменной х предсказать значение зависимой переменной у
Шаг 6. Оценить качество и надежность прогноза
График рассеяния – это визуальный анализ связи. На нем точки (выведенные по 2 признакам) находятся на прямоугольной системе координат.
В SPSS: graphs→scatterplots
На оси оу зависимая переменная, на оси ох независимая переменная.
Уравнение линейной регрессии
Для построения линейной регрессии используется метод наименьших квадратов.
Наши данные представляют собой пары (x, y). Для каждого x имеется некоторое значение y. Кроме того, каждому x соответствует значение линейной функции y = ax + b. Сравним их.
Т.е. у нас есть прямая, которая показывает основную тенденцию или трендовый прогноз. Нам нужно вычислить отклонение реального (т.е. точки х;у) от трендового (т.е. точки на прямой), вычислить в каком случаи это оклонение будет минимальным.
Сумма зависит только от двух параметров - a и b, используем метод наименьших квадратов.
Для того, чтобы найти минимальное расстояние, нужно взять производную от данных параметров.
В конце мы получим формулу:
Формулы для вычисления в таблице! Для табличных вычислений более удобны следующие формулы:
Значимость коэффициентов линейной регрессии
Коэффициент корреляции генеральной совокупности (р) – это коэффициент, вычесленный с использованием всевозможных пар значений признаков генеральной совокупности.
Требуется: оценить коэф. корреляции генеральной совокупности на основе значения коэф. корреляции выборки.
Условия:
- переменные Х и У линейно зависимы
- переменные являются случайными
- обе переменные имеют нормальное распределение
H0 : p = 0 – основная гипотеза – не существует корреляции между Х и У в генеральной совокупности
H1 : p ≠ 0 – альтернативная гипотеза – корреляция между Х и У значима
Для проверки используется t – критерий с df = n – 2 (степень свободы):
Границы 2-сторонней критической области находятся при помощи таблиц значений t-распределения.
Уровень значимости: (0;1)
Шаг 1: H0 : p = 0 и H1 : p ≠ 0
Шаг 2: критическая область – sig = 0,05, df = n – 2
находим критическое значение по таблице
Шаг 3: сравниваем с t
