Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Рег.анализ.docx
Скачиваний:
26
Добавлен:
30.03.2015
Размер:
111.14 Кб
Скачать

15

Регрессионный анализ

Характеристика причинных зависимостей

Причинно-следственные отношения – это связь явлений и процессов, когда изменение одного из них – причины – ведет к изменению другого – следствия.

Признаки по их значению для изучения взаимосвязи делятся на два класса.

Признаки, обуславливающие изменения других, связанных с ними признаков, называются факторными (или факторами).

Признаки, изменяющиеся под действием факторных признаков, являются результативными.

Различают следующие формы связи: функциональную и стохастическую. Функциональной называют такую связь, при которой определенному значению факторного признака соответствует одно и только одно значение результативного признака. Функциональная связь проявляется во всех случаях наблюдения и для каждой конкретной единицы исследуемой совокупности.

Функциональную связь можно представить следующим уравнением: yi=f(xi), где: yi результативный признак; f(xi ) известная функция связи результативного и факторного признаков; xi факторный признак. В реальной природе функциональных связей нет. Они являются лишь абстракциями, полезными при анализе явлений, но упрощающими реальность.

Стохастическая (статистическая или случайная) связь представляет собой связь между величинами, при которой одна из них реагирует на изменение другой величины или других величин изменением закона распределения. Иными словами, при данной связи разным значениям одной переменной соответствуют разные распределения другой переменной. Это обуславливается тем, что зависимая переменная, кроме рассматриваемых независимых, подвержена влиянию ряда неучтенных или неконтролируемых случайных факторов, а также некоторых неизбежных ошибок измерения переменных. В связи с тем, что значения зависимой переменной подвержены случайному разбросу, они не могут быть предсказаны с достаточной точностью, а могут быть только указаны с определенной вероятностью.

В силу неоднозначности стохастической зависимости между Y и X, в частности представляет интерес усредненная по х схема зависимости, т.е. закономерность в изменении среднего значения – условного математического ожидания Мх(У) (математического ожидания случайной переменной У, найденного при условии, что переменная Х приняла значение х) в зависимости от х.

Частным случаем стохастической связи является корреляционная связь. Корреля́ция (от лат.correlatio — соотношение, взаимосвязь). Прямое токование термина корреляция — стохастическая, вероятная, возможная связь между двумя (парная) или несколькими (множественная) случайными величинами.

Корреляционной зависимостью между двумя переменными также называют статистическую взаимосвязь между этими переменными, при которой каждому значению одной переменной соответствует определенное среднее значение, т.е. условное математическое ожидание другой. Корреляционная зависимость является частным случаем стохастиче­ской зависимости, при которой изменение значений факторных признаков (х 1 х2 ..., хn ) влечет за собой изменение среднего значения результативно­го признака.

Принято различать следующие виды корреляции:

  1. Парная корреляция – связь между двумя признаками (результативным и факторным или двумя факторными).

  2. Частная корреляция – зависимость между результативным и одним факторным признаками при фиксированном значении других факторных признаков, включенных в исследование.

  3. Множественная корреляция – зависимость результативного и двух или более факторных признаков, включенных в исследование.

Назначение регрессионного анализа

Аналитической формой представления причинно-следственных отношений являются регрессионные модели. Научная обоснованность и популярность регрессионного анализа делает его одним из основных математических средств моделирования исследуемого явления. Этот метод применяется для сглаживания экспериментальных данных и получения количественных оценок сравнительного влияния различных факторов на результативную переменную.

Регрессионный анализ заключается в определении аналитического выражения связи, в котором изменение одной величины (зависимой переменной или результативного признака) обусловлено влиянием одной или нескольких независимых величин (факторов или предикторов), а множество всех прочих факторов, также оказывающих влияние на зависимую величину, принимается за постоянные и средние значения.

Цели регрессионного анализа:

- оценка функциональной зависимости условного среднего значения результативного признака у от факторных (х12, …, хn);

- предсказание значения зависимой переменной с помощью независимой(-ых).

- определение вклада отдельных независимых переменных в вариацию зависимой переменной.

Регрессионный анализ нельзя использовать для определения наличия связи между переменными, поскольку наличие такой связи и есть предпосылка для применения анализа.

В регрессионном анализе зара­нее подразумевается наличие причинно-следственных связей между ре­зультативным (У) и факторными х1, х2..., хn признаками.

Функция , описывающая зависимость показателя от параметров, называется уравнением (функцией) регрессии1. Уравнение регрессии показывает ожидаемое значение зависимой переменной при определенных значениях независимых переменных. В зависимости от количества включенных в модель факторовХ модели делятся на однофакторные (парная модель регрессии) и многофакторные (модель множественной регрессии). В зависимости от вида функции модели делятся на линейные и нелинейные.

Парная регрессионная модель

В силу воздействия неучтенных случайных факторов и причин отдельные наблюдения у будут в большей или меньшей мере отклоняться от функции регрессии f(х). В этом случае уравнение взаимосвязи двух переменных (парная регрессионная модель) может быть представлено в виде:

Y=f(X) + ɛ,

где ɛ - случайная переменная, характеризующая отклонение от функции регрессии. Эту переменную называют возмущающей или возмущением (остатком или ошибкой). Таким образом, в регрессионной модели зависимая переменная Y есть некоторая функция f(X) с точностью до случайного возмущения ɛ.

Рассмотрим классическую линейную модель парной регрессии (КЛМПР). Она имеет вид

уi01хii (i=1,2, …, n), (1)

где уi объясняемая (результирующая, зависимая, эндогенная переменная); хi – объясняющая (предикторная, факторная, экзогенная) переменная; β0, β1 – числовые коэффициенты; ɛi – случайная (стохастическая) составляющая или ошибка.

Основные условия (предпосылки, гипотезы) КЛМПР:

  1. хi – детерминированная (неслучайная) величина, при этом предполагается, что среди значений хi – не все одинаковые.

  2. Математическое ожидание (среднее значение) возмущения ɛi равно нулю:

М[ɛi]=0 (i=1,2, …, n).

  1. Дисперсия возмущения постоянна для любых значений i (условие гомоскедастичности):

D[ɛi]=σ2 (i=1,2, …, n).

  1. Возмущения для разных наблюдений являются некоррелированными:

cov[ɛi, ɛj]=M[ɛi, ɛj]=0 при i≠j,

где cov[ɛi, ɛj] – коэффициент ковариации (корреляционный момент).

  1. Возмущения являются нормально распределенными случайными величинами с нулевым средним значением и дисперсией σ2:

ɛi ≈ N(0, σ2).

Для получения уравнения регрессии достаточно первых четырех предпосылок. Требование выполнения пятой предпосылки необходимо для оценки точности уравнения регрессии и его параметров.

Замечание: Внимание к линейным связям объясняется ограниченной вариацией переменных и тем, что в большинстве случаев нелинейные формы связи для выполнения расчётов преобразуют (путём логарифмирования или замены переменных) в линейную форму.

Традиционный метод наименьших квадратов (МНК)

Оценкой модели по выборке является уравнение

ŷi = a0 + a1xi (i=1,2, …, n), (2)

где ŷi – теоретические (аппроксимирующие) значения зависимой переменной, полученные по уравнению регрессии; a0 , a1 - коэффициенты (параметры) уравнения регрессии (выборочные оценки коэффициентов β0, β1 соответственно).

Согласно МНК неизвестные параметры a0, a1 выбирают так, чтобы сумма квадратов отклонений значений ŷi от эмпирических значений yi (остаточная сумма квадратов) была минимальной:

Qe=∑ei2 = ∑(yi – ŷi)2 = ∑(yi – (a0 + a1xi))2 → min, (3)

где ei= yi - ŷi – выборочная оценка возмущения ɛi , или остаток регрессии.

Задача сводится к отысканию таких значений параметров a0 и a1 , при которых функция Qe принимает наименьшее значение. Заметим, что функция Qe = Qe (a0 , a1) есть функция двух переменных a0 и a1 до тех пор, пока мы не нашли, а затем зафиксировали их «наилучшие» (в смысле метода наименьших квадратов) значения, а хi , yi – постоянные числа, найденные экспериментально.

Необходимые условия экстремума (3) находятся путем приравнивания к нулю частных производных этой функции двух переменных. В результате получим систему двух линейных уравнений, которая называется системой нормальных уравнений:

(4)

Эта система имеет единственное решение, так как ее определитель отличен от нуля. Можно убедиться, используя достаточные условия экстремума функции двух переменных, что найденные из системы (4) значения дают минимум функции Qe = Qe (a0 , a1). Причем в этой точке функция имеет не просто локальный минимум, но наименьшее значение (глобальный минимум).

Коэффициент a1 – выборочный коэффициент регрессии у на х, который показывает на сколько единиц в среднем изменяется переменная у при изменении переменной х на одну единицу своего измерения, то есть вариацию у, приходящуюся на единицу вариации х. Знак a1 указывает направление этого изменения. Коэффициент a0 – смещение, согласно (2) равен значению ŷi при х=0 и может не иметь содержательной интерпретации. За это иногда зависимую переменную называют откликом.