Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Metodichka (data analysis) Part 1 / Metodichka (data analysis) Part 1.doc
Скачиваний:
236
Добавлен:
18.05.2015
Размер:
1.12 Mб
Скачать

Тема 3.

Исследование взаимосвязи между переменными

СправочнЫй материал

Корреляционные исследования

Корреляционную технику можно использовать для исследования зависимостей между различными явлениями и свойствами. Использование корреляционной техники позволяет определить степень отношения между двумя интересующими нас переменными. Обычно при этом мы надеемся, что по одной переменной можно предсказать другую. Сначала собираются наблюдения об интересующем нас поведении и потом вычисляется коэффициент корреляции, который и выражает степень связи между двумя переменными или измерениями.

Коэффициент корреляции это показатель степени связи между двумя переменными или измерениями.

Коэффициент корреляции обычно изменяется от -1 до +1.

Величина коэффициента корреляции показывает степень зависимости (бóльшие числа показывают бóльшую степень зависимости). Корреляционные связи различаются по величине следующим образом:

r=0  нет никакой связи;

r=0.01–0.3  слабая связь;

r=0.31–0.7  умеренная связь;

r=0.71–0.99  сильная связь;

r=1  совершенная связь.

Знак коэффициента корреляции показывает направление отношений (“+” прямая зависимость, “–” – обратная).

Удобно определять степень и вид зависимости между переменными на диаграмме рассеяния (Scatterplot). Диаграмма рассеяния  это график, где каждая пара значений переменных представлена в виде точки координатной плоскости. Обычно по оси Х откладывается независимая переменная, а по оси У  зависимая переменная. Каждая точка на графике имеет, таким образом, две координаты  значение по независимой перемой Х и значение по зависимой переменной У.

Значимость коэффициента корреляции (тот, кто еще не знаком с логикой проверки гипотез, должен сначала прочитать справочный материал к Теме 4). Часто для коэффициента корреляции подсчитывают уровень статистической значимости р. Это уровень значимости, полученный при проверке нуль-гипотезы о равенстве нулю коэффициента корреляции между интересующими нас переменными в генеральной совокупности. Если p<0,05, то говорят, что коэффициент корреляции оказался значимым, и, следовательно, можно отвергнуть нуль-гипотезу об отсутствии связи и принять гипотезу о наличии зависимости между интересующими нас переменными и в генеральной совокупности. Не имеет смысла интерпретировать незначимые коэффициенты корреляции.

Тесно связан с корреляционным анализом регрессионный анализ, который служит для определения вида связи между переменными и дает возможность для прогнозирования значения одной (зависимой) переменной, отталкиваясь от значений других (независимых) переменных.

Если можно предположить, что множество точек, соответствующих наблюдаемым значениям, концентрируется вблизи прямой, то в таком случае говорят о линейной связи. В таком случае уравнение прямой имеет вид

y=bx+a,

где b называется регрессионным коэффициентом, a  смещением.

Задача состоит в нахождении a и b.

Коэффициенты a и b вычисляются по формулам:

Знак коэффициента регрессии совпадает со знаком коэффициента корреляции. Равенство значения коэффициента регрессии нулю говорит об отсутствии линейной связи.

Коэффициент регрессии показывает, насколько, в среднем, увеличится или уменьшится значение зависимой переменной y при увеличении независимой переменной x на 1.

Качество уравнения простой регрессии, его объясняющая способность измеряется коэффициентом детерминации r2. Коэффициент детерминации показывает, какая доля дисперсии (изменчивости) переменной y объясняется влиянием независимой переменной x.