
- •Тема 12. Корреляционно-регрессионный анализ ---- 10ч.
- •Корреляционный и регрессионный анализ как два базовых инструмента анализа двумерных количественных данных.
- •Характеристика и задачи корреляционно-регрессионного анализа.
- •Корреляционный анализ. Диаграмма рассеяния. Коэффициент корреляции. Интерпретация коэффициента корреляции.
- •Способы представления корреляционной связи
- •Направление корреляционной связи
- •1) Метод квадратов
- •2) Ранговый метод
- •Оценка достоверности коэффициента корреляции, полученного методом ранговой корреляции и методом квадратов
- •4.Регрессионный анализ. Уравнение регрессии. Стандартная ошибка оценки. Коэффициент детерминации.
-
Оценка достоверности коэффициента корреляции, полученного методом ранговой корреляции и методом квадратов
Способ 1 Достоверность определяется по формуле:
Критерий t оценивается по таблице значений t с учетом числа степеней свободы (n — 2), где n — число парных вариант. Критерий t должен быть равен или больше табличного, соответствующего вероятности р ≥99%.
Способ 2 Достоверность оценивается по специальной таблице стандартных коэффициентов корреляции. При этом достоверным считается такой коэффициент корреляции, когда при определенном числе степеней свободы (n — 2), он равен или более табличного, соответствующего степени безошибочного прогноза р ≥95%.
4.Регрессионный анализ. Уравнение регрессии. Стандартная ошибка оценки. Коэффициент детерминации.
Регрессионный анализ (regression analysis) — это мощный и гибкий метод установления формы и изучения связей между метрической зависимой переменной и одной или несколькими независимыми переменными.
Регрессионный анализ используют в следующих случаях.
1. Действительно ли независимые переменные обуславливают значимую вариацию зависимой переменной; действительно ли эти переменные взаимосвязаны?
2. В какой степени вариацию зависимой переменной можно объяснить независимыми переменными: теснота связи?
3. Определить форму связи: математическое уравнение, описывающее зависимость между зависимой и независимой переменными.
4. Предсказать значения зависимой переменной.
5. Контролировать другие независимые переменные при определении вкладов конкретной переменной.
ПАРНАЯ РЕГРЕССИЯ
Парная регрессия (bivariate regression) — это метод установления математической (в форме уравнения) зависимости между одной метрической зависимой (критериальной) переменной и одной метрической независимой переменной (предиктором). Во многом этот анализ аналогичен определению простой корреляции между двумя переменными. Однако для того чтобы вывести уравнение, мы должны одну переменную представить как зависимую, а другую — как независимую.
Статистики и термины, относящиеся к парному регрессионному анализу.
Модель парной регрессии. Основное уравнение регрессии имеет вид:
Yi=β0+ βiXi+ ei
Где Y - зависимая или критериальная переменная, X— независимая переменная, или предиктор,
β0 — точка пересечения прямой регрессии с осью OY;
βi — тангенс угла наклона прямой
ei — остаточный член (остаток), связанный с наблюдением, характеризующий отклонение от функции регрессии.
Коэффициент детерминации. Тесноту связи измеряют коэффициентом детерминации r2. Он колеблется в диапазоне между 0 и 1 и указывает на долю полной вариации Y, которая обусловлена вариацией X.
Вычисляемое
(теоретическое) значение Y.
Вычисляемое значение Y
равно
i=
а + bх,
где
i
— вычисляемое значение Уi,
а параметры а и b
— это вычисляемые оценки β0
и
β1
соответственно.
Коэффициент регрессии. Вычисляемый параметр b обычно называют ненормированным коэффициентом регрессии.
Стандартная
ошибка уравнения регрессии
- Эта статистика SEE
представляет собой стандартное отклонение
фактических значений Y
теоретических значений
Стандартная ошибка коэффициента регрессии b. Стандартное отклонение b, обозначаемое SEb, называется стандартной ошибкой.
Нормированный коэффициент регрессии. Также называется бета-коэффициентом, или взвешенным бета-коэффициентом. Показывает изменение У в зависимости от изменения X (угол наклона прямой уравнения регрессии) при условии, что все данные нормированы.
Сумма квадратов ошибок. Значения расстояний всех точек до линии регрессии возводят в квадрат и суммируют, получая сумму квадратов ошибок, которая является показателем общей ошибки e .
t-статистика,
t-статистику
с n-2
степенями свободы можно использовать
для проверки нулевой гипотезы, которая
утверждает, что между X
и У не существует линейной зависимости
или H0:
=0,
где t=
Стадии, из которых состоит процедура парного регрессионного анализа:
1)-построение поля корреляции
2)-формирование общей модели
3)-вычисление параметров
4)-вычисление нормированного коэффициента регрессии
5)-проверка значимости
6)-определение тесноты и значимости связи
7)-проверка точности предсказания
8)-анализ остаточных членов
9)-перекрёстная проверка модели
Диаграмма рассеяния (поле корреляции). Поле корреляции — это графическое представление точек с координатами, определяемыми значениями двух переменных (независимой и зависимой), для всех наблюдений.
Обычно
значения зависимой переменной откладывают
по вертикальной оси, в значения независимой
— по горизонтальной. На графике легко
идентифицировать любую необычную
комбинацию переменных. График зависимости
У (отношение к городу) от X(продолжительность
проживания)
На графике можно увидеть форму зависимости: с ростом одной переменной другая переменная также увеличивается. Из рисунка видно, что зависимость между У и X носит линейный характер и поэтому может быть описана уравнением прямой линии. Самый распространенный метод для расчета уравнения линейной регрессии по данным на диаграмме рассеяния — это метод наименьших квадратов (least-squares procedure).