Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Статистика.docx
Скачиваний:
0
Добавлен:
01.03.2025
Размер:
387.21 Кб
Скачать

Корреляционный анализ. Анализ связи двух количественных признаков

Анализируя связь 2-х количественных признаков, мы отвечаем на вопросы:

1) существует ли связь между изучаемыми признаками;

2) насколько эта связь сильна;

3) каково направление связи;

4) линейная или не линейная связь.

Корреляционный анализ предполагает изучение связи в два этапа:

1) построение диаграммы рассеяния и ее анализ;

2) вычисление коэффициента и его анализ.

Диаграмма рассеяния – двумерный график, по одной оси которого откладываются значения одной переменной, а по другой оси – другой переменной. Объекты изображаются в виде точек с координатами, равными значениям переменных для объекта. Получаем облако точек или облако рассеяния. С помощью диаграммы рассеяния мы можем предварительно оценить наличие связи, направление связи, силу связи, линейность связи. Виды диаграмм рассеяния:

1) является довольно плотным, вытянутым, наклон влево. Связь есть (всегда, если облако имеет наклон к оси х). При увеличении значения х значение у увеличивается, значит, такая связь называется прямой положительной. Связь сильная, так как облако точек является плотным. Связь является линейной, так как через облако точек можно провести воображаемую прямую;

2) связь есть, так как наклон. Если при увеличении х значение у уменьшается, значит, связь отрицательная обратная. Связь сильная. Связь линейная;

3) связь есть, обратная, слабая, линейная;

4) связь есть, прямая, слабая, линейная;

5) связь отсутствует;

6) связь есть, сильная, нелинейная.

Линейный коэффициент корреляции Пирсона. В основе построения коэффициента Пирсона лежит ковариация – совместное отклонение изучаемых признаков от средних арифметических. Стоится на основе дисперсии.

Ковариация, в отличие от дисперсии, имеет знак. Знак ковариации указывает на направление связи. Не может быть мерой связь двух количественных признаков, так как ее значение не попадают в интервал от -1 до 1. Поэтому ковариацию нормируют делением на среднеквадратическое отклонение по х и по у. Отношение ковариации к СКО по х и по у и есть линейный коэффициент корреляции Пирсона.

Свойства:

- изменяется в интервале от -1 до 1;

- равен 0, если ковариация равна 0; отсутствие линейной связи;

- если значение коэффициент равно -1 или 1 – присутствует полная обратная или прямая статистическая связь;

- если значения коэффициент изменяются от 0 (не включая) до 0,3 – сила связи слабая; от 0,3 до 0,6 – средняя; от 0,6 до 1 (не включая) – сильная.

Проверка гипотезы о статистической значимости коэффициента Пирсона. Статистически значим, если его значение для ГС отлично от 0.

H0:rгсxy = 0

H1:rгсxy ≠ 0

df = n – 2

|tH| >

Регрессионный анализ. Парная линейная регрессия

Регрессионный анализ – вид статистического анализа, занимающийся изучением причинно-следственных связей двух или более количественных переменных, включающий в себя:

- определение формы связи;

- построение уравнения регрессии;

- оценку полученного уравнения.

Уравнение регрессии приближенно выражает зависимость среднего значения, объясняемого (зависимого) признака от одного или нескольких признаков-факторов. Наиболее часто используются регрессионные модели, в которых одна зависимая переменная функция и несколько независимых переменных факторов.

Основные требования регрессионного анализа к исходным данным:

- все переменные количественные;

- совокупность данных достаточно большая, чтобы показатели связи были статистически надежными (число единиц совокупности превосходит число коррелируемых переменных не менее чем в 6-8 раз);

- наблюдения статистически независимые, то есть, значения признаков у одной единицы наблюдения не должны зависеть от значения признака у других единиц совокупности;

- в регрессионном анализе предполагается, что каждому значению фактора х соответствует нормальное или близкое к нему распределение объясняемого или зависимого признака у;

- в модели множественной регрессии (несколько признаков-факторов) отсутствует явление мультиколлиниарности (признаки-факторы не коррелируют друг с другом).

Уравнение регрессии, описывающее зависимость объясняемого признака (у) от одного признака-фактора (х), называется уравнением парной регрессии. Могут быть разного вида в зависимости от того, линейна или нелинейна связь между изучаемыми признаками

Уравнение парной линейной связи: y = a + bx

Уравнение парной нелинейной связи:

y = a + bx + cx2

y = alogx

При построении модели нужно убедиться, линейна или нелинейная связь. Первый шаг РА – построение диаграммы рассеяния.

В УПЛС a (свободный член уравнения регрессии и отражает действие на зависимый признак у, не учтенных в уравнении регрессии факторов; как правило, не интерпретируется; знак зависит от соотношения вариации (дисперсия, СКО) у и х: если у варьирует сильнее, чем х, то минус, и наоборот) и b (коэффициент регрессии; сила связи изучаемых признаков и то, насколько в среднем изменится у при изменении на 1 признака-фактора – зависимый признак изменяется на коэффициент регрессии b) являются параметрами уравнения регрессии. Графическое изображение уравнения регрессии – теоретическая линия регрессии. При линейной зависимости коэффициента регрессии представляет собой тангенс угла наклона теоретической линии регрессии к оси х. Знак при коэффициенте b показывает направление связи. Пересечение теоретической линии регрессии с осью у соответствует значению свободного члена уравнения регрессии a.

Чтобы построить УР, необходимо рассчитать параметры a и b (должен быть средними для всей совокупности данных, чтобы выявить закон связь свободный от нарушений). При нахождении параметров регрессии исходим из того, что сумма квадратов отклонений от среднего арифметического меньше суммы квадратов отклонений от любой другой величины. Такой подход к расчету параметров регрессии называется методом наименьших квадратов.

Формулы вычисления:

------------->

После того как будут вычислены параметры уравнения регрессии, возникает задача оценки качества полученного уравнения (полученной регрессионной модели). Нужно подставить значения хi в формулу уравнения и получим вычисленные значения уi ( ).

От реальных значений уi вычесть значения уi. . Полученная разность позволяет найти величину, называемой остаточной дисперсией (дисперсией остатков):

Выступает в качестве критерия оценки найденного уравнения. Чем меньше вычисленное значение отличается от реального значения уi, тем меньше величина остаточной дисперсии, тем качественнее полученная регрессионная модель. Существует ещё один способ оценки регрессии по величине коэффициента детерминации – возведенный в квадрат линейный коэффициент корреляции Пирсона.

Показывает процент дисперсии зависимого признака у, объясняемый действием независимого признака фактора х.

Если коэффициент превышает 30%, то полученная модель качественная.