Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
9 глава. Статистическое исследование зависимостей.doc
Скачиваний:
1
Добавлен:
01.07.2025
Размер:
5.97 Mб
Скачать

9. СТАТИСТИЧЕСКОЕ ИССЛЕДОВАНИЕ ЗАВИСИМОСТЕЙ

В гл. 6-8 проводились статистические исследования наблюденных данных одного измеримого признака. Рассмотрим способы обработки наблюденных данных двух изме­римых признаков. Полученные в результате проведения эксперимента наблюденные дан­ные объема п состоят из пар значений, которые можно рассматривать как п реализаций двумерного случайного вектора ( ). Наибольший интерес представляет вопрос о су­ществовании зависимости между компонентами случайного вектора (измеримыми при­знаками) . Прежде всего изучаются форма и сила (теснота) связи между признаками.

9.1. ПОНЯТИЕ СТОХАСТИЧЕСКОЙ ЗАВИСИМОСТИ, РЕГРЕССИИ И КОРРЕЛЯЦИИ. ОСНОВНЫЕ ЗАДАЧИ КОРРЕЛЯЦИОННОГО И РЕГРЕССИОННОГО АНАЛИЗА

При изучении экономических процессов различают два вида зависимостей: функциональную и стохастическую (вероятностную). Функциональная зависимость - это однозначное отображение множества X в множество ,

Отметим, что функциональная связь может существовать и между случайными величинами. Например, зависимость между значениями х непрерывной случайной величины X и вероятностью неравенства {Х<х}, т.е. F(x) =P(X < х). Вероятность Р (X < х) является функцией от х.

Но между случайными величинами может существовать связь и другого рода, когда изменение одной случайной величины влечет за собой изменение закона распределения другой случайной величины. Например, существует зависимость урожайности сельскохозяйственных культур Y от массы внесенных удобрений X. В качестве пространства Ω, на котором определены эти случайные величины, рассматриваются различные участки земли. Тогда — конкретный участок земли, Х( ) — масса внесенных удобрений, Y( ) – урожайность сельскохозяйственной культуры. Ясно, что при увеличении (до известных пределов) Х( ) увеличивается урожайность . Но на разных участках земли она будет различной. Точно предсказать, урожайность мы не можем, так как на нее влияет ряд факторов (осадки; агрохимический состав почвы и т.д.). Каждому значению Х( ) в различные годы соответствует раз­личная урожайность на участках, которая будет изменяться с изменением массы внесенных удобрений.

Такая связь между случайными величинами, имеющими общие случайные факторы, которые влияют как на одну, так и на другую случайную величину наряду с другими неодинаковыми для обеих случайных величин факторами, называется стохастической, т.е. если X — функция случайных величин Z1 , Z2,...,Zk; Vl,V2,...,Vr: X = f(Zl.....Zk ; V1,...,Vr), а - функция тех

же случайных величин Z 1, Z 2,..., Zk и некоторых других Ul, U2, …, Um : =g ( Z1,..., Zk ; U1 ,..., Um ), то величины X и Y связаны между собой стохас­тически.

В статистике изучаются наблюденные данные случайных величин. Поэтому стохастическую зависимость будем называть статистической зависимостью. Статистической зависимостью между исследуемыми случайными величинами X и Y, являющимися составляющими двумерной случайной величины (X, Y), называется соответствие, устанавливающее каждому наблюденному значению случайной величины X условное распределение наблюденных значений случайной величины Y.

Наиболее важной стохастической связью является связь, устанавливающая зависимость между значениями случайной величины X и условным математическим ожиданием M(Y = х)* случайной величины Y: M(Y = х) = (х), или между значениями случайной величины Y и условным математическим ожиданием M(X = у) * случайной величины X: М(Х =у) = = (у). Зависимости такого рода называются регрессионными; функции (х) или (у), устанавливающие такого рода зависимости, называются функциями регрессии Y на X или X на Y, а график функции (х) или (у) — линией регрессии Y на X или X на Y.

Для данного значения Х= х будем наблюдать рассеяние значений Y около центра M(Y = х). Мерой этого рассеяния может служить условная дисперсия Y при данном х:

Величину (Y ) = можно рассматривать как среднюю квадратическую погрешность прогноза случайной величины Y по наблюденному значению х случайной величины X, если использовать для прогнозирования известную функцию регрессии (х). Величина (Y ) и, следовательно, точность прогноза зависят от значения х. Для представления о точности прогноза Y по всем наблюденным х мы должны взять среднее взвешенное из условных дисперсий:

=

___________

Условные математические ожидания дискретных и непрерывных случайных величин определяются по формулам (3.28).

Среднее взвешенное вычисляется по формуле

= (9.1)

Это означает, что регрессия (х) является функцией, минимизирующей среднюю квадратическую погрешность прогноза величины Y по X, так как рассеяние, измеряемое средним квадратом отклонения около центра распределения (х) при каждом х, минимально.

Аналогичным свойством обладает регрессия (у) X на Y.

На практике при обработке наблюденных данных i , уi) ,i = , дву­мерной случайной величины ( ) находим оценку регрессионной связи, т.е. оценку функции регрессии: или . Для этого используются эмпирические функции регрессии: или .

Вид функции регрессии и ее оценки, эмпирической функции регрессии выбирают исходя из анализа расположения точек ( хii ), i = , на корре­ляционном поле. Корреляционное поле — это изображение наблюденных данных ( ), i = , в виде точек в декартовой системе координат, где на оси абсцисс откладывают значения независимой переменной, а на оси орди­нат — значения зависимой переменной.

В связи с тем что оценками М(Y ) являются статистические средние x соответствующие определенным наблюденным значениям = х, то эмпири­ческая линия регрессии должна удовлетворять ра­венству

, (9.2)

так как из всех функций U(x) минимум величины М(Y U(x))2 даст функ­ция - кривая регрессии Y на X. Левая часть равенства (9.2) — средний взвешенный квадрат расстояний вдоль оси Оу от точки (х, у) до соответст­вующей точки кривой регрессии с той же абсциссой в предположении, что все наблюденные данные (хi i), i = , различны. Если среди наблюденных данных есть одинаковые, то (9.2) превращается в равенство

Таким образом, эмпирическая функция должна усреднить (сгладить) наблюденные данные (хi , уi), i = . При этом

содержит неизвестные параметры , для опреде­ления которых мы должны найти минимум функции S (aQ, а1,..., ат ), т.е. для нахождения эмпирического уравнения регрессии при­меняется метод наименьших квадратов.

Метод наименьших квадратов позволяет при заданном виде эмпирической функции регрессии так найти неизвестные параметры а0, a1,..., ат, что функция будет наилучшей оценкой функции регрессии в том смысле, что сумма квадратов отклонений наб­люденных значений случайной величины Y от соответствующих ординат эмпи­рической регрессии будет минимальной. Исходя из этих соображений, эмпирической функцией регрессии Y на X будем называть функцию , параметры которой находят с помощью метода наименьших квадратов по наблюденным данным i , yi ), = , двумерной случайной величины .

Аналогично определяется эмпирическое уравнение регрессии X на Y, т.е. функция .

Итак, регрессия — это односторонняя стохастическая зависимость, устанавливающая соответствие между случайными величинами.

В зависимости от числа случайных величин, описывающих изучаемый экономический процесс, различают простую регрессию и множественную. Напри­мер, простая регрессия - это регрессия между затратами на производство и объемом продукции, произведенной промышленным предприятием. Множественная регрессия - это регрессия между производительностью труда и уровнем механизации производственных процессов, фондом рабочего времени, материалоемкостью, квалификацией рабочих.

Простая регрессия может быть положительной, т.е. когда с увеличением (уменьшением) независимой случайной величины увеличивается (уменьшается) зависимая случайная величина, или отрицательной, т.е. при увеличении (уменьшении) независимой случайной величины уменьшается (увеличивается) зависимая случайная величина.

По форме различают линейную регрессию и нелинейную, т.е. регрессию, выражаемую линейной и нелинейной функциями.

В зависимости от типа соответствия между случайными величинами рас­сматривают непосредственную регрессию, косвенную и нонсенс-регрессию (ложную). При непосредственной регрессии случайные величины связаны непосредственно друг с другом; при косвенной регрессии они детерминируются общей для них причиной. Нонсенс-регрессия возникает при формальном подходе к исследуемым явлениям.

Понятие регрессии тесно переплетается с понятием корреляции. В корреляционном анализе оценивается сила стохастической связи, в регрессионном - исследуется ее форма. Оба вида анализа служат для установления причинных соотношений между явлениями и определения наличия или отсутствия связи. Очевидно, что себестоимость продукции зависит от объема производства. Но так как на себестоимость влияют и потери от брака, ассортимент продукции, технология производства, используемое сырье, структура цен, то на различных предприятиях с одинаковым объемом производства существует различная себестоимость, т.е. наблюдается рассеяние величины себестоимости для фиксированных значений объема производства. Значит, установление корреляции не означает наличия причинной связи.

Так же как и регрессия, корреляция может быть положительной или от­рицательной.

Относительно числа переменных различают корреляцию простую или парную (корреляция между двумя случайными величинами); множественную (корреляция между более чем двумя переменными) и частную (корреляция между двумя переменными при фиксированном влиянии остальных перемен­ных для случая множественной корреляции) .

Корреляция может быть линейной и нелинейной; непосредственной и косвенной.

Задачи корреляционного анализа:

  1. измерение степени связи (тесноты, силы, строгости, интенсивности) двух и более явлений;

  2. отбор факторов, оказывающих наиболее существенное влияние на ре­зультативный признак, на основании измерения степени связности между яв­лениями;

  3. обнаружение неизвестных причинных связей. Корреляция непосредст­венно не выявляет причинных связей между явлениями, но устанавливает сте­пень необходимости этих связей и достоверность суждения об их наличии. За­тем уже при помощи логически профессиональных рассуждений выясняется причинный характер связей.

Регрессионный анализ — это исследование односторонних стохастических зависимостей.

Задачи регрессионного анализа:

1) установление формы зависимости;

2) определение функции регрессии;

3) построение точечных и интервальных оценок параметров функции регрессии;

4) нахождение точечных и интервальных оценок условных математических ожиданий, необходимых для указания пределов, в которых с заданной надежностью будут содержаться средние значения интересующей нас величины, если другие связанные с нею величины принимают определенные значения;

5) проверка согласованности (качества) найденной эмпирической функции регрессии наблюденным данным.

Таким образом, основной задачей регрессионного анализа является подбор такой функции, которая бы наилучшим образом отображала экономическую закономерность, с помощью которой можно было бы решать задачи обоснованного прогноза. Поэтому при выборе функции регрессии необходим обстоятельный качественный экономический анализ исследуемого процесса. В результате анализа выбирается вид функции. Ее правдоподобие проверяется по эмпирическим (наблюденным) данным.

При анализе экономического процесса, описываемого двумя признаками X и Y, целесообразно использовать диаграмму рассеяния (поле корреляции или поле рассеяния), представляющую совокупность точек i , уi), i = , координаты которых - наблюденные данные. Диаграмма рассеяния позволяет провести визуальный анализ эмпирических (наблюденных) данных и графически определить функцию регрессии.

Позже мы рассмотрим построение различных форм регрессий и измерение степени, интенсивности и тесноты стохастических связей.

Вопросы для самопроверки

1. Сформулируйте определение стохастической (статистической) зависимости.

2. Как называется зависимость между значениями одной случайной величины и условным математическим другой случайной величины?

3. Сформулируйте определение эмпирической функции регрессии.

4. Какой метод применяется для нахождения неизвестных параметров эмпирической функции регрессии?

5. Определите сущность метода наименьших квадратов.

6. Сформулируйте задачи регрессионного и корреляционного анализов.

9.2. Линейная регрессия

При изучении двумерного нормального распределения (см. § 3.9) были получены прямые регрессии Y на X

и на

,

которые можно записать в виде:

M(Y ) = M(Y ) = ,

где

Таким образом, если случайные величины X и Y двумерной случайной ве­личины (X, Y) распределены нормально, то линии регрессии Y на X и X на Y являются прямыми линиями. В общем случае распределение случайных ве­личин X и исследуемой случайной величины (X, Y) неизвестно. Но известно, что если зависимые случайные величины X и Y можно рассматривать как суммы большого числа независимых или почти независимых случайных слагаемых, то X и Y связаны вероятностной (стохастической) линейной зависимостью. Такую зависимость мы и рассмотрим ниже, при этом расчет эмпирических линейных уравнений регрессии проведем по несгруппированным данным с помощью метода наименьших квадратов.

Пусть в результате изучения случайного эксперимента, описываемого двумерной случайной величиной ( ), получены наблюденные значения .

Двумерное дискретное распределение, сосредоточенное в п выборочных точках Ai (xi ,yi), i = , с соответствующими относительными частотами , называется эмпирическим распределением двумерной выборки.

Исходя из соображений профессионально-теоретического характера или из анализа характера скопления точек Аiii ) , i= , на корреляцион­ном поле, предположим, что функция регрессии Y на X имеет линейный вид: M(Y ) = . Тогда эмпирическое уравнение регрессии Y на X будем искать в виде

, (9.3)

где и — неизвестные параметры. Искомой прямой считаем ту, которая наилучшим образом, в смысле метода наименьших квадратов, описывает изу­чаемую корреляционную зависимость, т.е. ближе всего расположена к точкам .

Отметим, что среди наблюденных значений X могут встречаться и одинаковые.

Определение 9.1. Величина называется наилучшим приближением величины V в смысле метода наименьших квадратов, если принимает наименьшее возможное значение; при этом величина (и) называется средней квадратической регрессией величины V на величину U.

В соответствии с определением 9.1 для нахождения искомой прямой рассмотрим средний взвешенный квадрат расстояний по ординатам точек Аi,

от точек на прямой BD (рис. 9.1), имеющих одинаковые абсциссы:

Рис.9.1

Следовательно, S - функция двух независимых переменных b1 и . Для искомой прямой эта сумма должна быть минимальной, т.е. частные производные S/ bl и S/ b0 должны быть равны нулю:

Раскрывая знак суммы, получаем:

или

(9.4)

где

= .

Из второго уравнения системы (9.4) находим

= - (9.5)

Подставив значение из выражения (9.5) в уравнение (9.3), получим эмпи­рическое уравнение прямой регрессии

, (9.6)

которое показывает, что эмпирическая прямая регрессии проходит через точ­ку с координатами . Это средняя точка корреляционного поля.

Коэффициент уравнения (9.6) эмпирической прямой регрессии на X называется статистическим коэффициентом регрессии Y на X и обозначается . Уравнение (9.6) перепишем в виде , где . Определим статистический коэффициент регрессии , подставляя выражение (9.5) в первое уравнение системы (9.4). Преобразовав полученное выражение, получим равенство

откуда

. (9.7)

Так как , а , то эмпирическое уравнение регрессии Y на X можно записать в виде

. (9.8)

Аналогично можно получить эмпирическое уравнение прямой регрессии X на , если оценивать расстояния отклонений вдоль оси Ох, т.е. прямой

(9.9)

где статистический коэффициент регрессии X на Y определяется по формуле

а

В формулах статистических коэффициентов регрессии (9.7) и (9.10) числители совпадают, а знаменатели всегда положительные, так как выражают статистические дисперсии случайных величин X и Y. Поэтому статистические коэффициенты регрессии Y на X (X на У) имеют одинаковые знаки.

Таким образом, линейная функция

или

наилучшим образом среди всех линейных функций выражает зависимость от X или X от . Приведенные выше уравнения похожи на уравнения линейной регрессии случайной величины на случайную величину X (случайной величи­ны X на случайную величину ).

В уравнении (9.8) величины не являются случайными, в то время как соответствующие ординаты случайны. Аналогично в равенстве (9.9) величины не случайны, а соответствующие им абсциссы случайны.

Отметим, что статистический коэффициент регрессии

(или ) — это мера, которая на основании выборочных данных в среднем указывает влияние изменения независимой переменной (или ) на зависимую переменную (или ).

Поэтому, когда в экономических исследованиях нужно определить влия­ние одного экономического явления на другое, необходимо вычислить коэф­фициент регрессии.

Пример 9.1. По данным работы 40 предприятий, приведенных в таблице

Фондоотдача, , ден. ед.

Удельный вес продукции высшей категории, ,%

Фондоотдача, , ден. ед

Удельный вес продукции высшей категории, ,%

1,4700

34,080

1,8800

49,980

1,2500

35,890

1,6300

39,710

1,8200

36,930

1,4000

31,380

1,4500

32,310

1,9300

49,010

1,7500

34,910

1,4700

48,170

1,3700

30,200

1,5500

24,110

1,6100

31,230

1,9000

50,560

1,9300

48,130

1,3300

26,130

1,6800

30,080

1,2200

24,730

1,6600

42,860

1,0500

36,480

1,9100

40,890

1,9200

50,870

1,8300

47,630

1,9500

51,890

1,8100

45,630

1,4000

47,000

1,5100

43,070

2,0500

55,000

1.5400

44,160

1,9500

56,000

1,9800

35.220

1,5100

49,280

1,6900

38,830

1,4000

33,330

1,6800

39,690

1,1300

38,960

1,7600

39,390

1,7400

48,000.

1,7300

43,170

1,7900

49,000

построить эмпирическое уравнение прямой регрессии на Х.

Р е ш е н и е. Построим прямую регрессии с использованием программы пакета прикладных программ.

В результате получим следующее эмпирическое уравнение регрессии

0,026 + 0,563.

Статистический коэффициент регрессии показывает, что при изменении удельного веса продукции высшей категории на 1%, фондоотдача в среднем изменяется на 0,026 ден. ед.

Статистический коэффициент корреляции rXY = 0,765, что свидетельствует о тесной корреляционной зависимости между удельным весом продукции высшей категории X и фондоотдачей Y.

Вопросы для самопроверки

  1. Сформулируйте схему построения прямой регрессии на , на .

  2. Сформулируйте экономический смысл коэффициента регрессии.

  3. Чем отличаются прямые регрессии на , на ?