Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Пчёлкина К.К._Анализ данных.docx
Скачиваний:
1
Добавлен:
01.03.2025
Размер:
177.9 Кб
Скачать

4. Регрессионный анализ

Теория:

Корреляция – статистический метод, позволяющий определить, существует ли зависимость между переменными и на сколько она сильна.

Регрессия – статистический метод, который используется для описания характера связи между переменными (положительнаяили отрицательная, линейная или нелинейная зависимость).

Линейный тренд – уравнение линейной регрессии. Выявляет ключевую закономерность.

Регрессионный анализ (regressionanalysis) — это мощный и гибкий метод установления формы и изучения связей между метрической (интервальной или поряковая шкала) зависимой переменной и одной или нескольки­ми независимыми переменными.

Если больше одной независимой переменной - множественная регрессия.

Независимую переменную в регресии можно менять, зависимую нельзя!

  1. 6 Этапов регрессионного исследования

Шаг 1. Графически изобразить пары значений (x;y) (График рассеянности)

Шаг 2. Если визуально просматривается связь, найти коэффициент корреляции

Шаг 3. Оценить значимость коэффициента корреляции

Шаг 4. Если коэфф. значим, найти уравнение регрессии

Шаг 5. Построить разумные прогнозы: для значения независимой переменной х предсказать значение зависимой переменной у

Шаг 6. Оценить качество и надежность прогноза

  1. График рассеяния – это визуальный анализ связи. На нем точки (выведенные по 2 признакам) находятся на прямоугольной системе координат.

В SPSS: graphs→scatterplots

На оси оу зависимая переменная, на оси ох независимая переменная.

  1. Уравнение линейной регрессии

Для построения линейной регрессии используется метод наименьших квадратов.

Наши данные представляют собой пары (x, y). Для каждого x имеется некоторое значение y. Кроме того, каждому x соответствует значение линейной функции y = ax + b. Сравним их.

Т.е. у нас есть прямая, которая показывает основную тенденцию или трендовый прогноз. Нам нужно вычислить отклонение реального (т.е. точки х;у) от трендового (т.е. точки на прямой), вычислить в каком случаи это оклонение будет минимальным.

Сумма зависит только от двух параметров - a и b, используем метод наименьших квадратов.

Для того, чтобы найти минимальное расстояние, нужно взять производную от данных параметров.

В конце мы получим формулу:

Формулы для вычисления в таблице! Для табличных вычислений более удобны следующие формулы:

  1. Значимость коэффициентов линейной регрессии

Коэффициент корреляции генеральной совокупности (р) – это коэффициент, вычесленный с использованием всевозможных пар значений признаков генеральной совокупности.

Требуется: оценить коэф. корреляции генеральной совокупности на основе значения коэф. корреляции выборки.

Условия:

- переменные Х и У линейно зависимы

- переменные являются случайными

- обе переменные имеют нормальное распределение

H0 : p = 0 – основная гипотеза – не существует корреляции между Х и У в генеральной совокупности

H1 : p ≠ 0 – альтернативная гипотеза – корреляция между Х и У значима

Для проверки используется t – критерий с df = n – 2 (степень свободы):

Границы 2-сторонней критической области находятся при помощи таблиц значений t-распределения.

Уровень значимости: (0;1)

Шаг 1: H0 : p = 0 и H1 : p ≠ 0

Шаг 2: критическая область – sig = 0,05, df = n – 2

находим критическое значение по таблице

Шаг 3: сравниваем с t