Скачиваний:
240
Добавлен:
01.08.2013
Размер:
7.86 Mб
Скачать

Тема 8 Регрессионный анализ

Эта тема тесно связана с курсом общей теории статистики и во многом опирается на понятия и определения, данные в этом курсе, особенно с разделом "Статистическое изучение связи между признаками".

Регрессионный анализ – раздел математической статистики, объединяющий практические методы исследования регрессионной зависимости между величинами по данным статистических наблюдений. Регрессия – зависимость среднего значения какой-либо случайной величины от некоторой другой величины или нескольких величин. Смысл регрессионного анализа состоит в выводе уравнения регрессии (включая оценку его параметров), с помощью которого оценивается величина случайной переменной, если величина другой (или других в случае множественной или многофакторной регрессии) известна, т.е. фиксирована, неслучайна.

В отличие от этого корреляционный анализ применяется для нахождения и выражения тесноты связи между случайными величинами, хотя часто эти методы объединяют в корреляционный анализ.

Практически речь идёт о том, чтобы, анализируя множество точек на графике (т.е. множество статистических данных), найти линию, по возможности точно отражающую заключённую в этом множестве закономерность, тенденцию – линию регрессии.

Существует ряд математико-статистических приёмов, позволяющих решить эту задачу. В случае, когда искомая закономерность может быть принята за линейную, наиболее эффективен метод наименьших квадратов.

Регрессионный анализ применяется в различного рода экономических исследованиях (производственные функции, анализ эластичности спроса от цены и др.), особенно при анализе хозяйственной деятельности предприятий (для определения влияния отдельных факторов на результаты) и во многих других областях экономической науки и хозяйственной практики.

Пример: средняя себестоимость поковок в кузнечных цехах машиностроительных заводов, по статистическим исследованиям, описывается следующим уравнением регрессии:

, где – заработная плата на 1 т поковок,– удельная металлоёмкость,– удельные цеховые расходы. Это уравнение означает, что лишний расход одного рубля заработной платы приведёт (приблизительно, в среднем) к повышению средней себестоимости тонны поковок наруб. Соответственно рассчитывается и влияние 2-х остальных факторов.

Таким образом, регрессионный анализ является методом статистической обработки наблюдений, в результате которой оказывается возможным составить уравнение регрессии и получить количественную оценку влияния факторных признаков на результативный признак.

В общем смысле мы можем сказать, что регрессионный анализ является одним из методов моделирования какого-либо случайного процесса, который можно представить следующим соотношением: , где– известный оператор преобразования,X – вектор входных неслучайных воздействий, – вектор выходных параметров,- вектор случайных параметров с известными законами распределения вероятностей.

Рис. 8.1. Общая схема процесса регрессионного анализа

Пусть производится измерений случайной величиныКаждое измерение зависит от некоторого числа параметров , которые могут принимать или дискретные, или непрерывные значения. Эту зависимость обычно представляют в виде линейной комбинации параметровс коэффициентами.

, (8.1)

где – индекс фактора (),– случайная ошибка измерения. Величины,,…,называютсяфакторами. Уравнение (8.1) называется линейной многофакторной моделью.

Оценивая с помощью метода наименьших квадратов для уравнения факторы ,,…,, составим сумму, где,,…,– средние квадратические оценки случайных факторов,– значения непрерывных переменныхУравнение

(8.2)

называется уравнением регрессии. Главной задачей регрессионного анализа является получение оптимальных оценок ,,…,, называемыхкоэффициентами регрессии. Уравнение (8.1) можно записать в виде

или в матричной форме

, (8.3)

где , , , – матрица, транспонированная к матрице

.

Оценку факторов ,,…,в уравнении (8.3) на основе метода наименьших квадратов можно получить по формуле:, где– матрица, обратная к матрице.

Регрессия называется парной, или однофакторной, если рассматривается влияние только одного фактора; и множественной, или многофакторной, если рассматривается влияние одновременно совокупности нескольких факторов. Уравнение парной зависимости можно представить в виде уравнения кривой (в частном случае прямой), называемой линией регрессии. Уравнение регрессии даёт описание корреляционной зависимости результативного признака Y от учтённых факторов. Уравнения регрессии парной зависимости могут иметь различный вид: ,,,,,,и др., гдеa и b – некоторые параметры. Они находятся чаще всего, как уже упоминалось, методом наименьших квадратов. Для построения уравнения регрессии по результатам наблюдений сначала полезно построить корреляционное поле. Как оно строится, известно из курса статистики.

      1. X

      1. 0

      1. Y

Рис.8.2. Различные виды корреляционных полей

Процесс выражения опытных данных функциональной зависимостью с помощью метода наименьших квадратов состоит из 2-х этапов: на первом выбирают вид искомой формулы (строится теоретическая линия регрессии), а на втором – для данной формулы подбирают параметры. На рис. 8.2 (левая часть) приведены опытные данные, для которых в качестве эмпирической формулы (полученной на основании опытных данных) можно принять линейную зависимость .

Для данных, приведённых на правой части рис. 8.2, эмпирическую зависимость целесообразно принять в виде . В соответствии с идеей метода наименьших квадратов необходимо минимизировать сумму

, (8.4)

где – значения опытных данных,– значение функции, взятое на эмпирической зависимости в точке,– число опытов.

В случае линейной эмпирической формулы сумма (8.4) принимает вид

, (8.5)

а в случае квадратической зависимости – следующий вид:

(8.6)

Минимум функции (8.5) и (8.6) имеют в тех точках, в которых частные производные от S по параметрам a, b, c обращаются в нуль. В результате дифференцирования и элементарных преобразований для определения параметров получают нормальную систему линейных уравнений. В случае линейной эмпирической зависимости составляют нормальную систему двух уравнений с двумя неизвестными a и b:

(8.7)

В случае квадратической зависимости нормальная система состоит из 3-х уравнений с 3-я неизвестными:

Для гиперболической зависимости :

Пример 8.1. Опытные данные о значениях x и y представлены в следующей таблице:

    1. Таблица 8.1

X

1

2

3

4

5

6

Y

15

10

2

2

-4

-10

Анализ опытных данных показывает, что в качестве эмпирической зависимости можно использовать линейную зависимость . Найти методом наименьших квадратов значениеa и b.

Подставляя полученные в таблице 8.2 данные в систему уравнений (8.7), получаем: ; .

Эмпирическая формула принимает вид: .

Не существует общего правила для выбора подходящего вида эмпирической формулы; можно лишь догадываться о подходящей формуле уравнений по форме кривой, изображающей данные. Однако существуют способы, с помощью которых можно проверить, является ли догадка удачной или нет.

Таблица 8.2

Расчёт вспомогательных данных для получения уравнения регрессии в примере 8.1

№№

xi

yi

xi2

xiyi

1

1

15

1

15

2

2

10

4

20

3

3

2

9

6

4

4

2

16

8

5

5

-4

25

-20

6

6

-10

36

-60

21

15

91

-31

Для наиболее часто встречающихся зависимостей с двумя параметрами, а именно: I) , II) , III) , IV) ,

V) ,VI) ,VII) , эмпирическую формулу можно выбирать с помощью табл. 8.3.

Таблица 8.3

Расчёт вспомогательных величин идля получения уравнений

регрессий различных видов

Номер формулы

Вид

эмпирической формулы

I

y=ax + b

II

y=axb

III

y=abx, y=aex, где =ln b

IV

V

VI

VII

y = a lgx + b

Для проверки пригодности выбранной эмпирической формулы, используя исходные данные, находят значения и. Затем сравнивают, соответствующеев исходных данных, со значением. Еслине находится среди исходных данных , это соответствующее значение можно определить с помощью линейной интерполяции:

где и– промежуточные значения, между которыми содержитсяЕсли величинабольшая, то соответствующая эмпирическая формула непригодна. Зависимости 1-7, приведённые в таблице, монотонные и, следовательно, пригодны только в том случае, еслив исходных данных аобладает постоянным знаком.

Пример 8.2. Определить вид эмпирической формулы, отвечающей следующей таблице:

Таблица 8.4

Исходные данные примера 8.2

X

2

3

4

5

6

7

8

9

10

Y

12

35

75

125

210

315

445

600

800

Решение задачи см. в табл. 8.5.

Полученное уравнение регрессии, вернее его оценка, тем точнее и надёжнее выражает истинное уравнение регрессии, чем больше объём выборки – число полученных значений каждого из факторов и результативного признака. При этом, чем больше факторов учитывается, тем больше должен быть и объём выборки. Минимально допустимый объём выборки, при котором оценка уравнения регрессии может быть использована для практических выводов, определяется соотношением , где– число учитываемых факторов.

Задача получения наилучшей оценки истинной функциине имеет однозначного решения, т.к. могут быть использованы различные критерии близости, одним из которых является уже рассмотренный метод наименьших квадратов.

При использовании функции интерес представляетa – коэффициент линейной регрессии, показывающий, на сколько единиц изменится среднее значение результативного признака y при изменении фактора x на единицу. Зная значение a, можно рассчитать значение коэффициента эластичности

Таблица 8.5

Методика определения вида эмпирической формулы

по исходным данным примера 8.2

Номер формулы

Вид

эмпирической

формулы

1

210

196

не подходит

2

98,5

0,5

подходит лучше других формул

3

210

112

не подходит

4

47

359

не подходит

5

210

186,4

не подходит

6

47

23,4

не подходит

7

98,5

307,5

не подходит

, который показывает, на сколько процентов в среднем изменится величина функции y при изменении признака – фактора x на один процент относительно своей средней. Из курса статистики известно, что коэффициент регрессии можно вычислить так: , гдеr – линейной коэффициент корреляции, оценивающий степень тесноты связи между изменениями аргумента x и функции y, и– средние квадратические отклонения соответственно результативного и факторного признаков. Оттуда же известно, что коэффициент корреляции

показывает не только тесноту, но и направление связи . Близость кпоказывает близость связи к функциональной. Индекс корреляции

показывает степень близости между выбранной теоретической линией регрессии и фактическими данными. На его величину влияет соотношение между числом исходных данных и числом параметров в выбранном уравнении регрессии. В отличие от коэффициента корреляции r этот показатель универсален – характеризует как линейную, так и нелинейную корреляцию.

Выбор вида кривой в регрессионном анализе может проводиться по специальным программам на ЭВМ, для чего задают класс функций, из которого ЭВМ выбирает по некоторым критериям подходящую функцию. Часто задают класс функций, называемых полиномами (или многочленами) и имеющих вид .

Известно, что практически всякую линию регрессии можно аппроксимировать полиномом с любой точностью. При задании ЭВМ полинома машина определит его порядок m, обеспечивающий приемлемое значение принятого критерия.

В случае множественной корреляции метод наименьших квадратов заключается в нахождении оценки , обеспечивающей минимальную сумму квадратов отношений, где, , …,i-е реализации факторов ,, …,. Линейное уравнение множественной регрессии: Также представляют интерес коэффициенты эластичности, которые показывают степень ''управляемости''y по каждому из учтённых факторов: чем больше по абсолютной величине , тем сильнее воздействует наy изменение . Множественный регрессионный анализ необходим для более полного исследования воздействия изучаемых факторов на результативный признак.

Многофакторный регрессионный анализ проводят на ЭВМ с использованием пакета программ. При этом решаются следующие задачи:

отбирают факторы, которые оказывают заметное влияние на результативный признак y и поэтому должны включаться в уравнение регрессии;

находят функциональную зависимость от каждого из учитываемых факторов, рассматриваемых в совокупности;

проверяют уровень адекватности полученного уравнения по F- критерию (или по другому критерию) и, если он высок, уравнение принимают.

В уравнение регрессии обязательно включают факторы, сильно коррелированные с результативным признаком. Если имеются пары факторов, сильно коррелированных один с другим (это явление называется мультикорреляцией), то в уравнение регрессии включается лишь один фактор из такой пары, а именно тот, который сильнее коррелирован с результативным признаком.

Для решения всех этих задач используют различные методы. Одним из наиболее широко применяемых является метод пошагового построения уравнения регрессии, включающего все факторы, которые оказывают существенное влияние на результативный признак.

В качестве примера приведём уравнение множественной регрессии, связывающее производительность труда с факторами, оказывающими заметное влияние на неё. Всего было рассмотрено 12 факторов, из которых пошаговым методом были отобраны, как главные, 4. Ими оказались: электровооружённость ; удельный вес (доля) оборудования, проработавшего более 20 лет; удельный вес универсально-сборных приспособлений (УСП) в общем количестве используемых приспособлений; коэффициент использования планового фонда времени работы оборудования. Высоким уровнем адекватности обладает линейное уравнение, имеющее вид

Коэффициент множественной детерминации для этих четырёх факторов оказался весьма высоким: . Иначе говоря, эти четыре фактора более, чем на 97% определяют изменение производительности труда. Из полученного уравнения регрессии могут быть сделаны выводы, имеющие важное практическое значение. Так, в частности, можно показать, что если факторы ,,, улучшатся на 10% по сравнению с имеющимися значениями, то производительность труда возрастёт на 24,1%.

Кроме наиболее распространенного метода наименьших квадратов, параметры регрессионного уравнения многофакторной связи можно рассчитывать с помощью коэффициентов парной корреляции, т.е. коэффициентов корреляции между признаком-фактором и результативным признаком, не учитывающим взаимодействия этого признака-фактора с другими признаками.

При множественной корреляционной зависимости для линий регрессии должны быть подобраны соответствующие типы кривых (прямая как частный случай). Например, если форма зависимости между данным признаком и каждом из двух факторов x, z представлена в виде параболы второго порядка, то уравнение регрессии можно выразить так:

.

Уравнение регрессии может иногда состоять из сочетания уравнения прямой со степенным уравнением или из линейных уравнений множественной зависимости. Некоторые из этих уравнений после логарифмирования и замены переменных приводят к линейной форме. Если заранее неизвестен тип функции, описывающий связь между функцией и аргументами, её можно представить в виде полинома n-го порядка, о чём упоминалось при рассмотрении парного анализа. Вообще всё, что говорилось о парном регрессионном анализе, подходит и для множественного.

Для интерпретации коэффициентов уравнения множественной регрессии используют частный коэффициент эластичности, который имеет вид. Частный коэффициент эластичности показывает, на сколько процентов в среднем изменится функция с изменением аргумента на один процент при фиксированномзначении других аргументов.

Коэффициент частной корреляции .

Этот коэффициент характеризует влияние факторного признака, входящего в корреляционное уравнение, и измеряет тесноту связи между признаком y и, например, при условии, что остальныефактора не оказывают на него влияния. Коэффициент частной корреляции вычисляется по формуле:где– коэффициент множественной корреляции, вычисленный при условии, что на результативный признак действует все факторы;– то же при условии, что на результативный признак действуют все факторы, кромеk-го.

Коэффициент парной корреляции неравен соответствующему коэффициенту частной корреляции. Первый измеряет тесноту связи между признаками, не учитывая их взаимодействия с другими признаками, а второй – тесноту связи с учётом взаимодействия с другими факторами.

Метод количественной оценки результатов регрессионного анализа состоит в подстановке средних значений факторов в уравнение регрессии и последующей оценке полученного соотношения. Общепризнанным обобщающим показателем оценки регрессионного анализа является корреляционное отношение. Корреляционное отношение выражает увеличение соответствия между расчётными и фактическими значениями зависимого показателя при использовании корреляционной формулы по сравнению с определением расчётного значения для всех объектов как среднего арифметического.

Величина коэффициента корреляции зависит от отношения между значениями, определёнными на основе уравнения множественной регрессии и наблюдаемыми значениями зависимой переменной. Чем меньше наблюдаемые величины отклоняются от линии множественной регрессии, тем большую величину имеет коэффициент корреляции, следовательно, связь является более тесной.

или , где– коэффициент множественной корреляции, отражающий тесноту связи между первым показателем и всеми остальными, начиная со второго и кончая n-м.

Если коэффициент корреляции незначителен по величине, то это может говорить о трёх фактах:

в уравнении множественной корреляции не учтены некоторые факторы, имеющие большое влияние на результативный признак, что можно поправить путём введения некоторых дополнительных факторов;

форма уравнений связи выбрана неверно;

проведённый теоретический анализ оказался несостоятельным.

Корреляционное отношение вычисляется по следующей формуле: гдеs – сумма квадратов отклонений точек линии регрессии от фактических данных; – остаточная дисперсия по первому фактору. Как уже говорилось, корреляционное отношение изменяется в пределах от 0 до 1:Еслито при заданной форме связи данный набор факторов вообще не объясняет изменение изучаемого показателя, если, то связь функциональная. Корреляционное отношение вычисляется автоматически, если используется ЭВМ.

Рассмотрим определение ошибок показателей множественной регрессии. Ясно, что ошибки коэффициентов множественной корреляции возрастают с увеличением числа взаимосвязанных признаков. Это надо учитывать при его применении. Величина называется коэффициентом множественной детерминации. Он показывает, какая часть дисперсии функции объясняется вариацией линейной комбинации аргументов при данных значениях коэффициентов регрессии. Коэффициент детерминации ещё можно вычислить по формуле:. Чем он больше, тем нелинейнее корреляционная зависимость. Проводится и качественный анализ корреляционного уравнения. Он состоит в проверке соответствия знаков и относительной величины полученных параметров (коэффициентов регрессии) при отдельных факторах-аргументах экономическому представлению об их влиянии на уровень и динамику исследуемого показателя. Если такое соответствие имеется, формула может быть признана годной. Если же его нет, необходимы дополнительный анализ факторов, выявление причин, вызвавших их "неправомерное" поведение в формуле, введение в первоначальное уравнение дополнительных факторов, проверка исходных данных и т.д.

Среди статистических характеристик качества уравнений регрессии можно выделить 2 группы характеристик: характеристика качества исходной информации и характеристики качества уравнений регрессии. Этим заканчивается регрессионный анализ.

Проверка значимости или адекватности уравнения регрессии проводится по – критерию, значение которого вычисляется по формуле:

,

где – дисперсия, характеризующая отклонение линий регрессии от фактических значенийy (дисперсия регрессии или дисперсия, обусловленная регрессией); – общая дисперсия, характеризующая отклонение реализацийy, вызванное случайностью y:

Полученное значение F сравнивают с табличным значением критерия, взятым из таблицF – распределения при заданной доверительной вероятности. Уравнение регрессии значимо и может быть использовано для практических выводов, если .

К характеристикам качества уравнений регрессии относится и оценка точности аппроксимации.

Точность аппроксимации оценивается в процентах ошибкой аппроксимации , которая вычисляется по формуле

Точность аппроксимации принято считать удовлетворительной при <1020%. Точность аппроксимации также может быть оценена величиной остаточной дисперсии. Чем меньше, тем выше точность аппроксимации, поэтому лучшей следует признать такую линию регрессии, которая даёт наименьшее значениепо сравнению с другими опробованными линиями.

Для подбора вида линии регрессии можно использовать и корреляционное отношение : чембольше его значение, тем точнее аппроксимация.

Так как регрессионный анализ делается для конкретной выборки результатов наблюдений, то оценка качества уравнений регрессии зависит и от величины объёма этой выборки, числа полученных значений каждого из факторов и результативного признака.

При этом, чем больше факторов учитывается, тем больше должен быть и объём выборки. Минимально доступный объём выборки, при котором оценка уравнения регрессии может быть использована для практических выводов, как уже упоминалось,

Регрессионный анализ находит своё применение во многих областях, в том числе при изучении так называемых производственных функций. Они относятся к описательным (дескриптивным) моделям производства и потребления, которые, в свою очередь, относятся к моделям экономических процессов на уровне народного хозяйства в целом.

Производственной функцией называется соотношение описывающее зависимость объёмов выпуска продукцииот величины ресурсов, , …, .

На народнохозяйственном (макроэкономическом) уровне неосуществимо точное математическое описание этой зависимости, поэтому разработка производственной функции требует выделения наиболее существенных факторов и максимального упрощения их связей. В качестве факторов-аргументов ,,…, обычно выступают трудовые ресурсы, производственные фонды, используемые земельные площади и другие.

Производственные функции являются, как правило, уравнениями регрессии, полученными в результате статистической обработки данных о величине затрат ресурсов и выпуска продукции.

В качестве примера производственной функции можно привести производственную функцию Кобба-Дугласа, имеющую вид: .

В функции Кобба-Дугласа y означает величину общественного продукта; – затраты труда;– объём производственных фондов;,. Заметим, что степенные производственные функции вида(или же в сокращённой записи) являются наиболее типичными.

Важную роль в экономическом анализе играет ряд специальных показателей, полученных на основе производственной функции:

–средняя удельная эффективность использования ресурса. Этот показатель представляет собой среднее количество продукции, приходящееся на единицу i-го ресурса:

.

Для функции Кобба-Дугласа – это средняя производительность труда,– средняя фондоотдача.

–предельная эффективность использования ресурсов. Экономический смысл показателя предельной эффективности состоит в том, что он показывает, сколько дополнительных единиц продукции может принести дополнительная единица определённого ресурса:

.

–коэффициент эластичности выпуска продукции от затрат различных ресурсов. Он показывает, на сколько процентов может увеличиться объём производства при увеличении затрат того или иного ресурса на 1%:

.

Производственная функция в виде произведения степенных функций обладает многими достоинствами: включает небольшое число имеющих явный экономический смысл параметров, имеет производные высших порядков, в большинстве случаев удовлетворительно выравнивает эмпирические данные, весьма удобна для оценки параметров (в частности, благодаря тому, что является линейной относительно логарифмов: ). Эта функция включает только безусловно необходимые ресурсы. Если какой-либо, то . Параметр интерпретируется какпоказатель общей эффективности ресурсов.

В макроэкономических исследованиях производственная функция была впервые применена К. Коббом и П. Дугласом (США) в 20-х годах XX в. для изучения связей между общим объёмом общественного продукта (национального дохода) и двумя важнейшими факторами производства – рабочей силой и основными производственными фондами. Построенная ими производственная функция имела вид: , где– затраты труда,– затраты производственных фондов или капитала, при этом (производственная функция в этом случае, как говорят, однородна).

Макроэкономические производственные функции применяются как инструмент прогнозирования объёма валового общественного продукта, конечного продукта и национального дохода для анализа сравнительной эффективности основных факторов экономического роста.

Важнейшим условием роста производства и производительности труда является увеличение фондовооружённости труда. Так, при условии из производственной функции Кобба-Дугласа получаем следующее соотношение между производительностью трудаи фондовооружённостью труда. Поскольку имеем, то производительность труда растёт медленнее фондовооружённости. Этот вывод (как и многие результаты анализа, проводимого на основе рассматриваемых производственных функций) всегда справедлив только для статического случая, т.е. в рамках существующих технических условий и качественных характеристик используемых ресурсов.

Параметры макроэкономических производственных функций обычно определяются путём обработки динамических рядов и поэтому отражают влияние научно-технического прогресса и других факторов интенсификации общественного производства. По этой причине сумма коэффициентов эластичности (степень однородности) в построенных производственных функциях, как правило, больше единицы. И вообще, с производственными функциями нужно быть осторожнее, т.к. они не отражают кризисные явления (кризис в США 1929-34 г.г. не был предсказан этими функциями), носят описательный характер.

Производственные функции применяются не только в макроэкономических расчётах на уровне народного хозяйства, но и на уровне предприятий. Частными случаями производственной функции можно считать функции издержек (зависимость объёма выпуска продукции от издержек производства), функции капитальных затрат (зависимость потребных инвестиций от производственной мощности предприятий) и другие.

Вопросы для самопроверки

Что изучает регрессионный анализ?

Можно ли регрессионный анализ рассматривать как один из методов моделирования случайного процесса?

Общий вид линейной многофакторной модели.

Уравнение регрессии в общем виде и в матричной форме.

Виды регрессии, понятие линии регрессии, возможные виды уравнений парной зависимости.

Этапы метода наименьших квадратов построения уравнения регрессии.

Итоговые системы нормальных уравнений для нахождения коэффициентов регрессии линейной, квалратической и гиперболической зависимости.

Метод проверки адекватности гипотезы о подходящем выражении для данной зависимости факторов.

Коэффициент эластичности при парной и множественной регрессии.

Показатели коэффициента корреляции, индекса корреляции, их расчёт.

Задачи и методы их решения на ЭВМ при проведении многофакторного регрессионного анализа.

Явление мультикорреляции при регрессионном анализе.

Расчёт коэффициента частной корреляции, их отличие от коэффициента парной корреляции.

Показатели количественной оценки результатов регрессионного анализа.

Определение ошибок показателей множественной регрессии.

Группы статистических характеристик качества уравнений регрессии.

Проверка значимости уравнения регрессии по – критерию.

Понятие производственной функции. Функция Кобба-Дугласа как пример производственной функции.

Специальные показатели, получаемые на основе производственной функции.

Достоинства и недостатки производственной функции как инструмента экономического анализа.

Применение регрессионного анализа в различных отраслях народного хозяйства.