Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
4.Корреляционный анализ.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
190.98 Кб
Скачать

Корреляционный и регрессионный анализ

АНАЛИЗ ПАРНЫХ ВЗАИМОСВЯЗЕЙ

Основные понятия

      Статистическая связь и ее отличие от функциональной.

      Связь как синхронность (согласованность) – корреляционный анализ.

      Связь как зависимость (влияние) – регрессионный анализ (причинно-следственные связи).

      Парная связь как частный случай множественной связи.

      Неучтенные факторы.

Этапы анализа

      Выявление наличия взаимосвязи между признаками;

      Определение формы связи;

      Определение силы (тесноты) и направления связи.

Значительная корреляция между двумя случайными величинами всегда является свидетельством существования некоторой статистической связи в данной выборке.

Но эта связь не обязательно должна наблюдаться для другой выборки и иметь причинно-следственный характер. Часто заманчивая простота корреляционного исследования подталкивает исследователя делать ложные интуитивные выводы о наличии причинно-следственной связи между парами признаков, в то время как коэффициенты корреляции устанавливают лишь статистические взаимосвязи. Например, рассматривая пожары в конкретном городе, можно выявить весьма высокую корреляцию между ущербом, который нанес пожар, и количеством пожарных, участвовавших в ликвидации пожара, причём эта корреляция будет положительной. Из этого, однако, не следует вывод «бо́льшее количество пожарных приводит к бо́льшему ущербу. В то же время, отсутствие корреляции между двумя величинами ещё не значит, что между ними нет никакой связи.

Выявление наличия связи между признаками

Диаграммы рассеяния

Выявление наличия связи между признаками

      Простейшим визуальным способом выявить наличие взаимосвязи между количественными переменными является построение диаграммы рассеяния (scatterplot). Это график, на котором по горизонтальной оси (X) откладывается одна переменная, по вертикальной (Y) другая. Каждому объекту на диаграмме соответствует точка, координаты которой равняются значениям пары выбранных для анализа переменных.

Диаграмма рассеяния (scatterplot)

Направление связи

      Если бы существовала функциональная (математически точная) положительная зависимость между числом рабочих и доходом, т.е. если бы на каждом предприятии каждый рабочий за год производил в точности одинаковое количество продукции, все точки-объекты расположились бы на «растущей» прямой.

      В этом случае чем больше значения одного признака, тем больше значения другого ) и чем меньше значения одного признака, тем меньше значения другого.

      Пример положительной функциональной связи между признаками X и Y.

      Однако на практике мы встречаемся не с функциональными, а со статистическим связями (действительно, эффективность труда, т.е. количество продукции, произведенной одним рабочим, различается на разных предприятиях). Поэтому на графике точки-объекты не лежат на одной прямой, и какую бы прямую мы ни провели, все точки на нее не попадут.

      В случае положительной статистической связи мы видим "облако" точек, о котором можно сказать, что оно вытянуто по диагонали от левого нижнего угла к правому верхнему, т.е. с ростом одного признака другой в среднем растет.

      Значит, и в этом случае чем больше значения одного признака, тем больше значения другого и чем меньше значения одного признака, тем меньше значения другого. Однако это верно не для каждого объекта, а для статистической совокупности.

      Пример положительной статистической связи между признаками X и Y.

      Если бы между признаками существовала функциональная отрицательная (а не положительная) зависимость, точки на диаграмме также расположились бы на одной прямой, однако эта прямая проходила бы в противоположном направлении.

      В этом случае чем больше значения одного признака, тем меньше значения другого и чем меньше значения одного признака, тем больше значения другого.

      Пример отрицательной функциональной связи между признаками X и Y.

      Для статистической отрицательной связи мы увидим на графике "облако" точек, о котором можно сказать, что оно вытянуто по диагонали от левого верхнего угла к правому нижнему, т.е. с ростом одного признака другой признак в среднем убывает.

      Значит, и в этом случае чем больше значения одного признака, тем меньше значения другого и чем меньше значения одного признака, тем больше значения другого. Однако это верно не для каждого объекта, а для статистической совокупности.

      Пример отрицательной статистической связи между X и Y.

Подбор формы связи

Линейная связь

Форма связи

      Почему прямая?

      Если наше облако точек напоминает очертания некоторой линии, то можно предполагать, что мы видим на диаграмме рассеяния именно такую по форме зависимость, однако искаженную воздействием как случайных, так и неучтенных факторов, вызывающим отклонение точек от теоретической формы.

      Поскольку наиболее простой формой зависимости в математике является прямая, то в корреляционном и регрессионном анализе наиболее популярны линейные модели.

      Однако иногда расположение точек на диаграмме рассеяния показывает нелинейную зависимость либо вообще отсутствие связи между признаками.

      Примеры нелинейной связи (рис. а) и отсутствия связи (рис. б) между признаками X и Y

      Попробуем провести прямую линию через облако точек на диаграмме рассеяния. Таких линий можно нарисовать множество, причем на глаз невозможно определить, какая из них лучше подходит для описания диаграммы рассеяния.

      Однако существует метод, который позволяет совершенно точно вычислить положение прямой линии, наилучшим образом проходящей через облако точек.

      Это – метод наименьших квадратов.

      Вычисляемая с его помощью прямая линия называется линией регрессии. Она характеризуется тем, что сумма квадратов расстояний от точек на диаграмме до этой линии минимальна (по сравнению со всеми возможными линиями).

      Таким образом, линия регрессии дает наилучшее  приближенное описание линейной зависимости между двумя переменными.

Линия регрессии