- •9.2. Линейная регрессия
- •9.3. Статистический коэффициент линейной корреляции и его свойства
- •9.4. Оценка достоверности статистических коэффициентов корреляции и регрессии по выборочным данным
- •9.5. Нелинейная регрессия
- •9.6. Статистическое корреляционное отношение и его свойства
- •9.7. Множественная линейная регрессия и корреляция
- •9.8. Анализ соответствия регрессионной модели наблюденным данным
9. СТАТИСТИЧЕСКОЕ ИССЛЕДОВАНИЕ ЗАВИСИМОСТЕЙ
В
гл. 6-8 проводились статистические
исследования наблюденных данных одного
измеримого признака. Рассмотрим способы
обработки наблюденных данных двух
измеримых признаков. Полученные в
результате проведения эксперимента
наблюденные данные объема п
состоят
из пар значений, которые можно рассматривать
как п
реализаций
двумерного случайного вектора (
).
Наибольший интерес представляет вопрос
о существовании зависимости между
компонентами случайного вектора
(измеримыми признаками) . Прежде всего
изучаются форма и сила (теснота) связи
между признаками.
9.1. ПОНЯТИЕ СТОХАСТИЧЕСКОЙ ЗАВИСИМОСТИ, РЕГРЕССИИ И КОРРЕЛЯЦИИ. ОСНОВНЫЕ ЗАДАЧИ КОРРЕЛЯЦИОННОГО И РЕГРЕССИОННОГО АНАЛИЗА
При
изучении экономических процессов
различают два вида зависимостей:
функциональную и стохастическую
(вероятностную). Функциональная
зависимость - это однозначное отображение
множества X
в
множество
,
Отметим, что функциональная связь может существовать и между случайными величинами. Например, зависимость между значениями х непрерывной случайной величины X и вероятностью неравенства {Х<х}, т.е. F(x) =P(X < х). Вероятность Р (X < х) является функцией от х.
Но
между случайными величинами может
существовать связь и другого рода, когда
изменение одной случайной величины
влечет за собой изменение закона
распределения другой случайной величины.
Например, существует зависимость
урожайности сельскохозяйственных
культур Y
от
массы внесенных удобрений X.
В
качестве пространства Ω,
на
котором определены эти случайные
величины, рассматриваются различные
участки земли. Тогда
— конкретный участок земли, Х(
) — масса внесенных удобрений, Y(
)
– урожайность сельскохозяйственной
культуры. Ясно, что при увеличении (до
известных пределов) Х(
)
увеличивается урожайность
.
Но на разных участках земли она будет
различной. Точно предсказать, урожайность
мы не можем, так как на нее влияет ряд
факторов (осадки; агрохимический состав
почвы и т.д.). Каждому значению Х(
)
в
различные годы соответствует различная
урожайность на участках, которая будет
изменяться с изменением массы внесенных
удобрений.
Такая
связь между случайными величинами,
имеющими общие случайные факторы,
которые влияют как на одну, так и на
другую случайную величину наряду с
другими неодинаковыми для обеих случайных
величин факторами, называется
стохастической,
т.е.
если X
—
функция случайных величин Z1
, Z2,...,Zk;
Vl,V2,...,Vr:
X
= f(Zl.....Zk
; V1,...,Vr),
а
-
функция тех
же случайных величин Z 1, Z 2,..., Zk и некоторых других Ul, U2, …, Um : =g ( Z1,..., Zk ; U1 ,..., Um ), то величины X и Y связаны между собой стохастически.
В статистике изучаются наблюденные данные случайных величин. Поэтому стохастическую зависимость будем называть статистической зависимостью. Статистической зависимостью между исследуемыми случайными величинами X и Y, являющимися составляющими двумерной случайной величины (X, Y), называется соответствие, устанавливающее каждому наблюденному значению случайной величины X условное распределение наблюденных значений случайной величины Y.
Наиболее
важной стохастической связью является
связь, устанавливающая зависимость
между значениями случайной величины X
и
условным математическим ожиданием
M(Y
=
х)* случайной
величины Y:
M(Y
= х) =
(х),
или между значениями случайной величины
Y
и
условным математическим ожиданием
M(X
=
у) *
случайной величины X:
М(Х
=у)
=
=
(у). Зависимости
такого рода называются регрессионными;
функции
(х)
или
(у),
устанавливающие такого рода зависимости,
называются функциями
регрессии Y
на
X
или
X
на Y,
а
график функции
(х) или
(у)
— линией регрессии Y
на
X
или X
на Y.
Для данного значения Х= х будем наблюдать рассеяние значений Y около центра M(Y = х). Мерой этого рассеяния может служить условная дисперсия Y при данном х:
Величину
(Y
)
=
можно
рассматривать как среднюю квадратическую
погрешность прогноза случайной величины
Y
по
наблюденному значению х
случайной
величины X,
если использовать для прогнозирования
известную функцию регрессии
(х).
Величина
(Y
)
и,
следовательно, точность прогноза зависят
от значения х.
Для
представления о точности прогноза Y
по
всем наблюденным х
мы
должны взять среднее взвешенное из
условных дисперсий:
=
___________
Условные
математические ожидания дискретных и
непрерывных случайных величин определяются
по формулам (3.28).
Среднее взвешенное вычисляется по формуле
=
(9.1)
Это
означает, что регрессия
(х)
является
функцией, минимизирующей среднюю
квадратическую погрешность прогноза
величины Y
по
X,
так как рассеяние, измеряемое средним
квадратом отклонения около центра
распределения
(х)
при
каждом х,
минимально.
Аналогичным свойством обладает регрессия (у) X на Y.
На
практике при обработке наблюденных
данных (хi
,
уi)
,i
=
,
двумерной
случайной величины (
)
находим оценку регрессионной связи,
т.е. оценку функции регрессии:
или
.
Для этого используются эмпирические
функции регрессии:
или
.
Вид
функции регрессии и ее оценки, эмпирической
функции регрессии выбирают исходя из
анализа расположения точек ( хi
,уi
),
i
=
, на корреляционном поле. Корреляционное
поле — это изображение наблюденных
данных (
),
i
=
,
в виде точек в декартовой системе
координат, где на оси абсцисс откладывают
значения независимой переменной, а на
оси ординат — значения зависимой
переменной.
В
связи с тем что оценками М(Y
)
являются
статистические средние
x
соответствующие определенным наблюденным
значениям
=
х,
то
эмпирическая линия регрессии
должна удовлетворять равенству
,
(9.2)
так
как из всех функций U(x)
минимум
величины М(Y
—
U(x))2
даст
функция
-
кривая регрессии Y
на
X.
Левая часть равенства (9.2) — средний
взвешенный квадрат расстояний вдоль
оси Оу
от
точки (х,
у) до
соответствующей точки кривой регрессии
с той же абсциссой в предположении, что
все наблюденные данные (хi
,уi),
i
=
,
различны.
Если среди наблюденных данных есть
одинаковые, то (9.2) превращается
в равенство
Таким образом, эмпирическая функция должна усреднить (сгладить) наблюденные данные (хi , уi), i = . При этом
содержит
неизвестные параметры
,
для определения которых мы должны
найти минимум функции S
(aQ,
а1,...,
ат
),
т.е. для нахождения эмпирического
уравнения регрессии
применяется метод наименьших
квадратов.
Метод
наименьших квадратов позволяет при
заданном виде эмпирической функции
регрессии
так
найти неизвестные параметры а0,
a1,...,
ат,
что функция
будет наилучшей оценкой функции регрессии
в том смысле, что сумма квадратов
отклонений наблюденных значений
случайной величины Y
от
соответствующих ординат эмпирической
регрессии
будет минимальной. Исходя из этих
соображений, эмпирической
функцией регрессии Y
на X
будем
называть функцию
,
параметры
которой
находят с помощью метода наименьших
квадратов по наблюденным данным (хi
,
yi
),
=
,
двумерной случайной величины
.
Аналогично определяется эмпирическое уравнение регрессии X на Y, т.е. функция .
Итак, регрессия — это односторонняя стохастическая зависимость, устанавливающая соответствие между случайными величинами.
В зависимости от числа случайных величин, описывающих изучаемый экономический процесс, различают простую регрессию и множественную. Например, простая регрессия - это регрессия между затратами на производство и объемом продукции, произведенной промышленным предприятием. Множественная регрессия - это регрессия между производительностью труда и уровнем механизации производственных процессов, фондом рабочего времени, материалоемкостью, квалификацией рабочих.
Простая регрессия может быть положительной, т.е. когда с увеличением (уменьшением) независимой случайной величины увеличивается (уменьшается) зависимая случайная величина, или отрицательной, т.е. при увеличении (уменьшении) независимой случайной величины уменьшается (увеличивается) зависимая случайная величина.
По форме различают линейную регрессию и нелинейную, т.е. регрессию, выражаемую линейной и нелинейной функциями.
В зависимости от типа соответствия между случайными величинами рассматривают непосредственную регрессию, косвенную и нонсенс-регрессию (ложную). При непосредственной регрессии случайные величины связаны непосредственно друг с другом; при косвенной регрессии они детерминируются общей для них причиной. Нонсенс-регрессия возникает при формальном подходе к исследуемым явлениям.
Понятие регрессии тесно переплетается с понятием корреляции. В корреляционном анализе оценивается сила стохастической связи, в регрессионном - исследуется ее форма. Оба вида анализа служат для установления причинных соотношений между явлениями и определения наличия или отсутствия связи. Очевидно, что себестоимость продукции зависит от объема производства. Но так как на себестоимость влияют и потери от брака, ассортимент продукции, технология производства, используемое сырье, структура цен, то на различных предприятиях с одинаковым объемом производства существует различная себестоимость, т.е. наблюдается рассеяние величины себестоимости для фиксированных значений объема производства. Значит, установление корреляции не означает наличия причинной связи.
Так же как и регрессия, корреляция может быть положительной или отрицательной.
Относительно числа переменных различают корреляцию простую или парную (корреляция между двумя случайными величинами); множественную (корреляция между более чем двумя переменными) и частную (корреляция между двумя переменными при фиксированном влиянии остальных переменных для случая множественной корреляции) .
Корреляция может быть линейной и нелинейной; непосредственной и косвенной.
Задачи корреляционного анализа:
измерение степени связи (тесноты, силы, строгости, интенсивности) двух и более явлений;
отбор факторов, оказывающих наиболее существенное влияние на результативный признак, на основании измерения степени связности между явлениями;
обнаружение неизвестных причинных связей. Корреляция непосредственно не выявляет причинных связей между явлениями, но устанавливает степень необходимости этих связей и достоверность суждения об их наличии. Затем уже при помощи логически профессиональных рассуждений выясняется причинный характер связей.
Регрессионный анализ — это исследование односторонних стохастических зависимостей.
Задачи регрессионного анализа:
1) установление формы зависимости;
2) определение функции регрессии;
3) построение точечных и интервальных оценок параметров функции регрессии;
4) нахождение точечных и интервальных оценок условных математических ожиданий, необходимых для указания пределов, в которых с заданной надежностью будут содержаться средние значения интересующей нас величины, если другие связанные с нею величины принимают определенные значения;
5) проверка согласованности (качества) найденной эмпирической функции регрессии наблюденным данным.
Таким образом, основной задачей регрессионного анализа является подбор такой функции, которая бы наилучшим образом отображала экономическую закономерность, с помощью которой можно было бы решать задачи обоснованного прогноза. Поэтому при выборе функции регрессии необходим обстоятельный качественный экономический анализ исследуемого процесса. В результате анализа выбирается вид функции. Ее правдоподобие проверяется по эмпирическим (наблюденным) данным.
При анализе экономического процесса, описываемого двумя признаками X и Y, целесообразно использовать диаграмму рассеяния (поле корреляции или поле рассеяния), представляющую совокупность точек (хi , уi), i = , координаты которых - наблюденные данные. Диаграмма рассеяния позволяет провести визуальный анализ эмпирических (наблюденных) данных и графически определить функцию регрессии.
Позже мы рассмотрим построение различных форм регрессий и измерение степени, интенсивности и тесноты стохастических связей.
Вопросы для самопроверки
1. Сформулируйте определение стохастической (статистической) зависимости.
2. Как называется зависимость между значениями одной случайной величины и условным математическим другой случайной величины?
3. Сформулируйте определение эмпирической функции регрессии.
4. Какой метод применяется для нахождения неизвестных параметров эмпирической функции регрессии?
5. Определите сущность метода наименьших квадратов.
6. Сформулируйте задачи регрессионного и корреляционного анализов.
9.2. Линейная регрессия
При изучении двумерного нормального распределения (см. § 3.9) были получены прямые регрессии Y на X
и на
,
которые можно записать в виде:
M(Y
)
=
M(Y
)
=
,
где
Таким образом, если случайные величины X и Y двумерной случайной величины (X, Y) распределены нормально, то линии регрессии Y на X и X на Y являются прямыми линиями. В общем случае распределение случайных величин X и исследуемой случайной величины (X, Y) неизвестно. Но известно, что если зависимые случайные величины X и Y можно рассматривать как суммы большого числа независимых или почти независимых случайных слагаемых, то X и Y связаны вероятностной (стохастической) линейной зависимостью. Такую зависимость мы и рассмотрим ниже, при этом расчет эмпирических линейных уравнений регрессии проведем по несгруппированным данным с помощью метода наименьших квадратов.
Пусть
в результате изучения случайного
эксперимента, описываемого двумерной
случайной величиной (
),
получены наблюденные значения
.
Двумерное
дискретное распределение, сосредоточенное
в п
выборочных
точках Ai
(xi
,yi),
i
=
,
с соответствующими относительными
частотами
,
называется
эмпирическим
распределением двумерной выборки.
Исходя
из соображений профессионально-теоретического
характера или из анализа характера
скопления точек Аi
(хi
,уi
)
, i=
, на корреляционном поле, предположим,
что функция регрессии Y
на
X
имеет
линейный вид: M(Y
) =
.
Тогда
эмпирическое уравнение регрессии Y
на
X
будем
искать в виде
,
(9.3)
где
и
—
неизвестные параметры. Искомой прямой
считаем ту, которая наилучшим образом,
в смысле метода наименьших квадратов,
описывает изучаемую корреляционную
зависимость, т.е. ближе всего расположена
к точкам
.
Отметим, что среди наблюденных значений X могут встречаться и одинаковые.
Определение
9.1. Величина
называется
наилучшим приближением величины V
в смысле метода наименьших квадратов,
если
принимает наименьшее возможное значение;
при этом величина
(и)
называется средней квадратической
регрессией величины V
на величину U.
В соответствии с определением 9.1 для нахождения искомой прямой рассмотрим средний взвешенный квадрат расстояний по ординатам точек Аi,
от
точек
на
прямой BD
(рис.
9.1), имеющих одинаковые абсциссы:
Рис.9.1
Следовательно,
S
- функция
двух независимых переменных b1
и
.
Для искомой прямой эта сумма должна
быть минимальной, т.е. частные производные
S/
bl
и
S/
b0
должны
быть равны нулю:
Раскрывая знак суммы, получаем:
или
(9.4)
где
=
.
Из второго уравнения системы (9.4) находим
=
-
(9.5)
Подставив
значение
из
выражения (9.5) в уравнение (9.3), получим
эмпирическое уравнение прямой
регрессии
,
(9.6)
которое
показывает, что эмпирическая прямая
регрессии проходит через точку с
координатами
.
Это
средняя точка корреляционного поля.
Коэффициент
уравнения
(9.6) эмпирической прямой регрессии
на X
называется
статистическим
коэффициентом регрессии Y
на
X
и
обозначается
.
Уравнение
(9.6) перепишем в виде
,
где
.
Определим статистический коэффициент
регрессии
,
подставляя
выражение (9.5) в первое уравнение системы
(9.4). Преобразовав полученное выражение,
получим равенство
откуда
.
(9.7)
Так
как
,
а
,
то эмпирическое уравнение регрессии
Y
на
X
можно
записать
в виде
.
(9.8)
Аналогично можно получить эмпирическое уравнение прямой регрессии X на , если оценивать расстояния отклонений вдоль оси Ох, т.е. прямой
(9.9)
где статистический коэффициент регрессии X на Y определяется по формуле
а
В формулах статистических коэффициентов регрессии (9.7) и (9.10) числители совпадают, а знаменатели всегда положительные, так как выражают статистические дисперсии случайных величин X и Y. Поэтому статистические коэффициенты регрессии Y на X (X на У) имеют одинаковые знаки.
Таким
образом, линейная функция
или
наилучшим образом среди всех линейных функций выражает зависимость от X или X от . Приведенные выше уравнения похожи на уравнения линейной регрессии случайной величины на случайную величину X (случайной величины X на случайную величину ).
В
уравнении (9.8) величины
не
являются случайными, в то время как
соответствующие ординаты
случайны. Аналогично в равенстве (9.9)
величины
не случайны, а соответствующие им
абсциссы
случайны.
Отметим,
что статистический коэффициент регрессии
(или
) —
это мера, которая на основании выборочных
данных
в среднем указывает влияние изменения
независимой переменной
(или
)
на зависимую переменную
(или
).
Поэтому, когда в экономических исследованиях нужно определить влияние одного экономического явления на другое, необходимо вычислить коэффициент регрессии.
Пример 9.1. По данным работы 40 предприятий, приведенных в таблице
Фондоотдача, , ден. ед. |
Удельный
вес продукции высшей категории,
|
Фондоотдача, , ден. ед |
Удельный вес продукции высшей категории, ,% |
1,4700 |
34,080 |
1,8800 |
49,980 |
1,2500 |
35,890 |
1,6300 |
39,710 |
1,8200 |
36,930 |
1,4000 |
31,380 |
1,4500 |
32,310 |
1,9300 |
49,010 |
1,7500 |
34,910 |
1,4700 |
48,170 |
1,3700 |
30,200 |
1,5500 |
24,110 |
1,6100 |
31,230 |
1,9000 |
50,560 |
1,9300 |
48,130 |
1,3300 |
26,130 |
1,6800 |
30,080 |
1,2200 |
24,730 |
1,6600 |
42,860 |
1,0500 |
36,480 |
1,9100 |
40,890 |
1,9200 |
50,870 |
1,8300 |
47,630 |
1,9500 |
51,890 |
1,8100 |
45,630 |
1,4000 |
47,000 |
1,5100 |
43,070 |
2,0500 |
55,000 |
1.5400 |
44,160 |
1,9500 |
56,000 |
1,9800 |
35.220 |
1,5100 |
49,280 |
1,6900 |
38,830 |
1,4000 |
33,330 |
1,6800 |
39,690 |
1,1300 |
38,960 |
1,7600 |
39,390 |
1,7400 |
48,000. |
1,7300 |
43,170 |
1,7900 |
49,000 |
построить эмпирическое уравнение прямой регрессии на Х.
Р е ш е н и е. Построим прямую регрессии с использованием программы пакета прикладных программ.
В результате получим следующее эмпирическое уравнение регрессии
0,026
+
0,563.
Статистический
коэффициент регрессии
показывает, что при изменении удельного
веса продукции высшей категории на 1%,
фондоотдача в среднем изменяется на
0,026 ден. ед.
Статистический коэффициент корреляции rXY = 0,765, что свидетельствует о тесной корреляционной зависимости между удельным весом продукции высшей категории X и фондоотдачей Y.
Вопросы для самопроверки
Сформулируйте схему построения прямой регрессии на , на .
Сформулируйте экономический смысл коэффициента регрессии.
Чем отличаются прямые регрессии на , на ?
