Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Учебно-методические материалы / Конспект лекций / Лекции по ЭММ исправленочасть 1.DOC
Скачиваний:
186
Добавлен:
01.08.2013
Размер:
3.9 Mб
Скачать

Тема 8 Регрессионный анализ

Эта тема тесно связана с курсом общей теории статистики и во многом опирается на понятия и определения, данные в этом курсе, особенно с разделом "Статистическое изучение связи между признаками".

Регрессионный анализ - раздел математической статистики, объединяющий практические методы исследование регрессионной зависимости между величинами по данным статистических наблюдений. Регрессия - зависимость среднего значения какой-либо случайной величины от некоторой другой величины или нескольких величин. Смысл регрессионного анализа состоит в выводе уравнения регрессии (включая оценку его параметров), с помощью которого оценивается величина случайной переменной, если величина другой (или других в случае множественной или многофакторной регрессии) известна, т.е. фиксирована, неслучайна.

В отличие от этого корреляционный анализ применяется для нахождения и выражения тесноты связи между случайными величинами, хотя часто эти методы объединяют в корреляционный анализ.

Практически речь идет о том, чтобы, анализируя множество точек на графике (т.е. множество статистических данных), найти линию, по возможности точно отражающую заключенную в этом множестве закономерность, тенденцию – линию регрессии.

Существует ряд математико-статистических приемов, позволяющих решить эту задачу. В случае, когда искомая закономерность может быть принята за линейную, наиболее эффективен метод наименьших квадратов.

Регрессионный анализ применяется в различного рода экономических исследованиях (производственные функции, анализ эластичности спроса от цены и др.), особенно при анализе хозяйственной деятельности предприятий (для определения влияния отдельных факторов на результаты) и во многих других областях экономической науки и хозяйственной практики.

Пример: средняя себестоимость поковок в кузнечных цехах машиностроительных заводов, по статистическим исследованиям, описывается следующим уравнением регрессии: , где- заработная плата на 1 т поковок,– удельная металлоёмкость,– удельные цеховые расходы. Это уравнение означает, что лишний расход одного рубля заработной платы приведёт (приблизительно, в среднем) к повышению средней себестоимости тонны поковок наруб. Соответственно рассчитывается и влияние 2-х остальных факторов.

Таким образом, регрессионный анализ является методом статистической обработки наблюдений, в результате которой оказывается возможным составить уравнение регрессии и получить количественную оценку влиянии факторных признаков на результативный признак.

В общем смысле мы можем сказать, что регрессионный анализ является одним из методов моделирования какого-либо случайного процесса, который можно представить следующим соотношением: , где– известный оператор преобразования,X – вектор входных неслучайных воздействий, – вектор выходных параметров,- вектор случайных параметров с известными законами распределения вероятностей.

Рис. 20 Общая схема процесса регрессионного анализа

Пусть производится измерений случайной величиныКаждое измерение зависит от некоторого числа параметров , которые могут принимать или дискретные, или непрерывные значения. Эту зависимость обычно представляют в виде линейной комбинации параметровс коэффициентами.

, (8.1)

где - индекс фактора (),– случайная ошибка измерения. Величины,,…,называютсяфакторами. Уравнение (8.1) называется линейной многофакторной моделью.

Оценивая с помощью метода наименьших квадратов для уравнения (8.1) факторы ,,…,, составим сумму, где,,…,- средние квадратические оценки случайных факторов,- значения непрерывных переменныхУравнение

(8.2)

называется уравнением регрессии. Главной задачей регрессионного анализа является получение оптимальных оценок ,,…,, называемыхкоэффициентами регрессии. Уравнение (8.1) можно записать в виде

или в матричной форме

, (8.3)

где , , , – матрица, транспонированная к матрице

.

Оценку факторов ,,…,в уравнении (8.3) на основе метода наименьших квадратов можно получить по формуле:, где– матрица, обратная к матрице.

Регрессия называется парной, или однофакторной, если рассматривается влияние только одного фактора, и множественной, или многофакторной, если рассматривается влияние одновременно совокупности нескольких факторов. Уравнение парной зависимости можно представить в виде уравнения кривой (в частном случае прямой), называемой линией регрессии. Уравнение регрессии дает описание корреляционной зависимости результативного признака Y от учтенных факторов. Уравнения регрессии парной зависимости могут иметь различный вид: ,,,,,,, гдеa и b – некоторые параметры. Они находятся чаще всего, как уже упоминалось, методом наименьших квадратов. Для построения уравнения регрессии по результатам наблюдений сначала полезно построить корреляционное поле. Как оно строится, известно из курса статистики.

      1. X

      1. 0

      1. Y

Рис. 21 Различные виды корреляционных полей

Процесс выражения опытных данных функциональной зависимостью с помощью метода наименьших квадратов состоит из 2-х этапов: на первом выбирают вид искомой формулы (строится теоретическая линия регрессии), а на втором – для данной формулы подбирают параметры. На рис. 21 (левая часть) приведены опытные данные, для которых в качестве эмпирической формулы (полученной на основании опытных данных) можно принять линейную зависимость .

Для данных, приведенных на правой части рис. 21, эмпирическую зависимость целесообразно принять в виде . В соответствии с идеей метода наименьших квадратов необходимо минимизировать сумму

, (8.4)

где – значения опытных данных,– значение функции, взятое на эмпирической зависимости в точке,– число опытов.

В случае линейной эмпирической формулы сумма (8.4) принимает вид

, (8.5)

а в случае квадратической зависимости – следующий вид:

. (8.6)

Минимум функции (8.5) и (8.6) имеют в тех точках, в которых частные производные от S по параметрам a, b, c обращаются в нуль. В результате дифференцирования и элементарных преобразований для определения параметров получают нормальную систему линейных уравнений. В случае линейной эмпирической зависимости составляют нормальную систему двух уравнений с двумя неизвестными a и b:

(8.7)

В случае квадратической зависимости нормальная система состоит из 3-х уравнений с 3-я неизвестными:

Для гиперболической зависимости :

Пример: Опытные данные о значениях x и y представлены в следующей таблице:

    1. Таблица 8.1

X

1

2

3

4

5

6

Y

15

10

2

2

-4

-10

Анализ опытных данных показывает, что в качестве эмпирической зависимости можно использовать линейную зависимость . Найти методом наименьших квадратов значениеa и b.

Подставляя полученные в таблице данные в систему уравнений (8.7), получаем: ; .

Эмпирическая формула принимает вид: .

Таблица 8.2

i

xi

yi

xi2

xiyi

1

1

15

1

15

2

2

10

4

20

3

3

2

9

6

4

4

2

16

8

5

5

-4

25

-20

6

6

-10

36

-60

21

15

91

-31

Не существует общего правила для выбора подходящего вида эмпирической формулы; можно лишь догадываться о подходящей формуле уравнений по форме кривой, изображающей данные. Однако существуют способы, с помощью которых можно проверить, является ли догадка удачной или нет.

Для наиболее часто встречающихся зависимостей с двумя параметрами, а именно: I) , II) , III) , IV) ,V) ,VI) ,VII) , эмпирическую формулу можно выбирать с помощью табл. 8.3.

Для проверки пригодности выбранной эмпирической формулы, используя исходные данные, находят значения и. Затем сравнивают, соответствующеев исходных данных, со значением. Еслине находится среди исходных данных , это соответствующее значение можно определить с помощью линейной интерполяции:

где и– промежуточные значения , между которыми содержитсяЕсли величинабольшая, то соответствующая эмпирическая формула непригодна. Зависимости 1-7, приведенные в таблице, монотонные и, следовательно, пригодны только в том случае, если в исходных данныхаобладает постоянным знаком.

Таблица 8.3

Номер формулы

Вид

эмпирической формулы

I

y=ax + b

II

y=axb

III

y=abx, y=aex, где =ln b

IV

V

VI

VII

y = a lgx + b

Пример: Определить вид эмпирической формулы, отвечающей следующей таблице:

Таблица 8.4

X

2

3

4

5

6

7

8

9

10

Y

12

35

75

125

210

315

445

600

800

Решение задачи см. в табл. 8.5.

Таблица 8.5

Номер формулы

Вид

эмпирической

формулы

1

210

196

не подходит

2

98,5

0,5

подходит лучше других формул

3

210

112

не подходит

4

47

359

не подходит

5

210

186,4

не подходит

6

47

23,4

не подходит

7

98,5

307,5

не подходит

Полученное уравнение регрессии, вернее его оценка, тем точнее и надёжнее выражает истинное уравнение регрессии, чем больше объём выборки – число полученных значений каждого из факторов и результативного признака. При этом, чем больше факторов учитывается, тем больше должны быть и объём выборки. Минимально допустимый объём выборки, при котором оценка уравнения регрессии может быть использована для практических выводов, определяется соотношением , где– число учитываемых факторов.

Задача получения наилучшей оценки истинной функциине имеет однозначного решения, т.к. могут быть использованы различные критерии близости, одним из которых является уже рассмотренный метод наименьших квадратов.

При использовании функции интерес представляетa – коэффициент регрессии линейной, показывающий, на сколько единиц изменится среднее значение результативного признака y при изменении фактора x на единицу. Зная значение a, можно рассчитать значение коэффициента эластичности , который показывает, на сколько процентов в среднем изменится величина функцииy при изменении признака – фактора x на один процент относительно своей средней. Из курса статистики известно, что коэффициент регрессии можно вычислить так: , гдеr – линейной коэффициент корреляции, оценивающий степень тесноты связи между изменениями аргумента x и функции y, и– средние квадратические отклонения соответственно результативного и факторного признаков. Оттуда же известно, что коэффициент корреляции

показывает не только тесноту, но и направление связи . Близость кпоказывает близость связи к функциональной. Индекс корреляции

показывает степень близости выбранной теоретической линии регрессии и фактическими данными. На его величину влияет соотношение между числом исходных данных и числом параметров в выбранном уравнении регрессии. В отличие от коэффициента корреляции r этот показатель универсален – характеризует как линейную, так и нелинейную коррекцию.

Выбор вида кривой в регрессионном анализе может проводиться по специальным программам на ЭВМ, для чего задают класс функций, из которого ЭВМ выбирает по некоторым критериям подходящую функцию. Часто задают класс функций, называемых полиномами (или многочленами) и имеющих вид .

Известно, что практически всякую линию регрессии можно аппроксимировать полиномом с любой точностью. При задании ЭВМ полинома машина определит его порядок m, обеспечивающий приемлемое значение принятого критерия.

В случае множественной корреляции метод наименьших квадратов заключается в нахождении оценки , обеспечивающий минимальную сумму квадратов отношений, где, , …, i-е реализации факторов , , …, . Линейное уравнение множественной регрессии: Также представляют интерес коэффициенты эластичности, которые показывают степень ''управляемости''y по каждому из учтенных факторов: чем больше по абсолютной величине , тем сильнее воздействует наy изменение . Множественный регрессионный анализ необходим для более полного исследования воздействия изучаемых факторов на результативный признак.

Многофакторный регрессионный анализ проводят на ЭВМ с использованием пакета программ. При этом решаются следующие задачи:

  • отбирают факторы, которые оказывают заметное влияние на результативный признак y и поэтому должны включаться в уравнение регрессии;

  • находят функциональную зависимость от каждого из учитываемых факторов, рассматриваемых в совокупности;

  • проверяют уровень адекватности полученного уравнения по F- критерию (или по другому критерию), и если он высок, уравнение принимают.

В уравнении регрессии обязательно включают факторы, сильно коррелированные с результативным признаком. Если имеются пары факторов, сильно коррелированные один с другим (это явление называется мультикорреляцией), то в уравнение регрессии включается лишь один фактор из такой пары, а именно тот, который сильнее коррелирован с результативным признаком.

Для решения всех этих задач используют различные методы. Одним из наиболее широко применяемых является метод пошагового построения уравнения регрессии, включающего все факторы, которые оказывают существенное влияние на результативный признак.

В качестве примера приведем уравнение множественной регрессии, связывающие производительность труда с факторами, оказывающих заметное влияние на неё. Всего было рассмотрено 12 факторов, из которых пошаговым методом были отобраны как главные 4. Ими оказались: электровооружённость ; удельный вес (доля) оборудования, проработавшего более 20 лет; удельный вес (доля) универсально-сборных приспособлений (УСП) в общем количестве используемых приспособлений; коэффициент использования планового фонда времени работы оборудования. Высоким уровнем адекватности обладает линейное уравнение, имеющее вид

Коэффициент множественной детерминации для этих четырех факторов оказался весьма высоким: ; иначе говоря, эти четыре фактора более чем на 97% определяют изменение производительности труда. Из полученного уравнения регрессии могут быть сделаны выводы, имеющие важное практическое значение, так, в частности, можно показать, что если факторы , , , улучшаются на 10% по сравнению с имеющимися значениями, то производительность труда возрастет на 24,1%.

Кроме наиболее распространенного метода наименьших квадратов, параметры регрессионного уравнения многофакторной связи можно рассчитывать с помощью коэффициентов парной корреляции, т.е. коэффициентов корреляции между признаком-фактором, результативным признаком, не учитывающего взаимодействия этого признака-фактора с другими признаками.

При множественной корреляционной зависимости для линий регрессии должны быть подобраны соответствующие типы кривых (прямой частный случай). Например, если форма зависимости между данным признаком и каждом из двух факторов (x, z) представлена в виде параболы второго порядка, то уравнение регрессии можно выразить так:

.

Уравнение регрессии может иногда состоять из сочетания уравнения прямой со степенным уравнением или из линейных уравнений множественной зависимости. Некоторые из этих уравнений после логарифмирования и замены переменных приводят к линейной форме. Если заранее неизвестен тип функции, описывающий связь между функцией и аргументами, ее можно предоставить в виде полинома n-го порядка, о чем упоминали при парном анализе. Вообще всё, что говорилось о парном регрессионном анализе, подходит и для множественного.

Для интерпретации коэффициентов уравнения множественной регрессии используют частный коэффициент эластичности, который имеет вид. Частный коэффициент эластичности показывает, на сколько процентов в среднем изменится функция с изменением аргумента на один процент при фиксированном значении других аргументов.

Коэффициент частной корреляции .

Этот коэффициент характеризует влияние факторного признака, входящего в корреляционное уравнение, и измерит тесноту связи между признаком y и, например, при условии, что остальныефактора не оказывают на него влияния. Коэффициент частной корреляции вычисляется по формуле:где– коэффициент множественной корреляции, вычислений при условии, что на результативный признак действует все факторы;– то же при условии, что на результативный признак действуют все факторы, кромеk-го.

Коэффициент парной корреляции не равен соответствующему коэффициенту частной корреляции. Первый измеряет тесноту связи между признаками, не учитывая их взаимодействия с другими признаками, а второй - тесноту связи с учетом взаимодействия с другими явлениями.

Методы количественной оценки результатов регрессионного анализа состоит в подстановке средних значений факторов в уравнении регрессии и в последующей оценке полученного соотношения. Общепризнанным обобщающим показателем оценке регрессионного анализа является корреляционное отношение. Корреляционное отношение выражает увеличение соответствия между расчетными и фактическими значениями зависимого показателя при использовании корреляционной формулы по сравнению с определением расчетного значения для всех объектов как среднего арифметического.

Величина коэффициента корреляции зависит от отношения между значениями, определенными на основе уравнения множественной регрессии, и наблюдаемыми значениями зависимой переменной. Чем меньше наблюдаемые величины отклоняются от линии множественной регрессии, тем большую величину имеет коэффициент корреляции, следовательно, связь является более тесной.

или , где– коэффициент множественной корреляции, отражающий тесноту связи между первым показателем и всеми остальными, начиная со второго и кончаяn-м.

Если коэффициент корреляции незначителен по величине, то это может говорить о трёх фактах:

  1. в уравнении множественной корреляции не учтены некоторые факторы, имеющие большое влияние на результативный признак, что можно поправить путем введения некоторых дополнительных факторов;

  2. форма уравнений связи выбрана неверно;

  3. проведённый теоретический анализ оказался несостоятельным.

Корреляционное отношение вычисляется по следующей формуле: гдеs – сумма квадратов отклонений точек линии регрессии от фактических данных; – остаточная дисперсия по первому фактору. Как уже говорилось, корреляционное отношение изменяется в пределах от0 до 1: Еслито при заданной форме связи данный набор факторов вообще не объясняет колеблемости изучаемого показателя, если, то связь функциональная. Корреляционное отношение вычисляется непосредственно, если используется ЭВМ.

Рассмотрим определение ошибок показателей множественной регрессии. Ясно, что ошибки коэффициентов множественной корреляции возрастают с увеличением числа взаимосвязанных признаков. Это надо учитывать при его применении. Величина называется коэффициентом множественной детерминации. Он показывает, какая часть дисперсии функции объясняется вариацией линейной комбинации аргументов при данных значениях коэффициентов регрессии. Коэффициент детерминации ещё можно вычислить по формуле:. Чем он больше, тем нелинейнее корреляционная зависимость. Проводится и качественный анализ корреляционного уравнения. Он состоит в проверке соответствия знаков и относительной величины полученных параметров (коэффициентов регрессии) при отдельных факторах - аргументах экономическому представлению об их влиянии на уровень и динамику исследуемого показателя. Если такое соответствие имеется, формула может быть признана годной. Если же его нет, необходим дополнительный анализ факторов, выявления причин, вызвавших их "неправомерное" поведение в формуле, введения в первоначальное уравнение дополнительных факторов, проверка исходных данных и т.д.

Среди статистических характеристик качества уравнений регрессии можно выделить 2 группы характеристик: характеристика качества исходной информации и характеристики качества уравнений регрессии. Этим заканчивается регрессионный анализ.

Проверка значимости, или адекватности, уравнения регрессии проводится по – критерию, значение которого вычисляется по формуле:

,

где - дисперсия, характеризующая отклонения линий регрессии от фактических значенийy (дисперсия регрессии или дисперсия, обусловленная регрессий); - общая дисперсия, характеризующая отклонение реализациейy, вызванное случайностью y:

Полученное значение F сравнивают с табличным значением критерия, взятым из таблицF – распределения при заданной доверительной вероятности. Уравнение регрессии значимо и может быть использовано для практических выводов, если .

К характеристикам качества уравнений регрессии относится и оценка точности аппроксимации.

Точность аппроксимации оценивается в процентах ошибкой аппроксимации , которая вычисляется по формуле

Точность аппроксимации принято считать удовлетворительной при <1020%. Точность аппроксимации также может быть оценена величиной остаточной дисперсии. Чем меньше, тем выше точность аппроксимации, по этому лучшей следует признать такую линию регрессии, которое дает наименьшее значениепо сравнению с другими опробованными линиями.

Для подбора вида линии регрессии можно использовать и корреляционное отношение : чем больше его значение, тем точнее аппроксимация.

Так как регрессионный анализ делается для конкретной выборки результатов наблюдений, то оценка качества уравнений регрессии зависит и от величины объема этой выборки, числа полученных значений каждого из факторов и результативного признака.

При этом, чем больше факторов учитывается, тем больше должен быть и объём выборки. Минимально доступный объём выборки, при котором оценка уравнения регрессии может быть использована для практических выводов, как уже упоминалось,

Регрессионный анализ находит своё применение во многих областях, в том числе при изучении так называемых производственных функций. Они относятся к описательным (дескриптивным) модели производства и потребления, которые, в свою очередь, относятся к моделям экономических процессов на уровне народного хозяйства в целом.

Производственной функцией называется уравнение описывающее зависимость объёмов выпуска продукцииот величины затрат (ресурсов), , …, .

На народнохозяйственном (макроэкономическом) уровне неосуществимо точное математическое описание этой зависимости, поэтому разработка производственной функции требует выделения наиболее существенных факторов и максимального упрощения их связей. В качестве факторов – аргументов , , …, обычно выступают трудовые ресурсы, производственные фонды, используемые земельные площади и другие.

Производственные функции являются, как правило, уравнениями регрессии, полученными в результате статистической обработки данных о величине затрат ресурсов и выпуска продукции.

В качестве примера производственной функции можно привести производственную функцию Кобба-Дугласа, имеющую вид: .

В функции Кобба-Дугласа y означает величину общественного продукта; – затраты труда;– объем производственных фондов;,. Заметим, что степенные производственные функции вида(или же в сокращённой записи) являются наиболее типичными.

Важную роль в экономическом анализе играет ряд специальных показателей, полученных на основе производственной функции:

- средняя удельная эффективность использования ресурса. Этот показатель представляет собой средние количество продукции, приходящиеся на единицу i-го ресурса:

.

Для функции Кобба-Дугласа – это средняя производительность труда,– средняя фонда отдача.

–предельная эффективность использования ресурсов. Экономический смысл показателя предельной эффективности состоит в том, что он показывает, сколько дополнительных единиц продукции может принести дополнительная единица определенного ресурса:

.

–коэффициент эластичности выпуска продукции от затрат различных ресурсов. Он показывает, на сколько процентов может увеличиться объём производства при увеличении затрат того или иного ресурса на 1%:

.

Производственная функция обладает многими достоинствами: включает небольшое число имеющих явный экономический смысл параметров, имеет производные высших порядков, в большинстве случаев удовлетворительно выравнивает эмпирические данные, весьма удобна для оценки параметров (в частности, благодаря тому, что является линейной относительно логарифмов: ). Эта функция включает только, безусловно, необходимые ресурсы. Если какой-либо, то . Параметр интерпретируется как показатель общей эффективности ресурсов.

В макроэкономических исследованиях программирования функция была впервые применена К. Коббом и П. Дугласом (США) в 20-х годах XX в. для изучения связей между общим объемом общественного продукта (национального дохода) и двумя важнейшими факторами производства – рабочей силой и основными производственными фондами. Построенная ими производственная функция имела вид: , где– затраты труда,– затраты производственных фондов или капитала, при этом (производственная функция в этом случае, как говорят, однородна).

Макроэкономические производственные функции применяются как инструмент прогнозирования объёма валового общественного продукта, конечного продукта и национального дохода, для анализа сравнительной эффективности основных факторов экономического роста.

Важнейшим условиям роста производства и производственного труда является увеличение фондовооружённости труда. Так, при условии из производственной функции Кобба-Дугласа получаем следующие соотношение между производительностью трудаи фондовооружённостью труда. Поскольку имеем, то производительность труда растёт медленнее фондовооружённости. Этот вывод (как и многие результаты анализа, проводимого на основе рассматриваемых производственных функций) всегда справедлив только для статического случая, т.е. в рамках существующих технических условий и качественных характеристик используемых ресурсов.

Параметры макроэкономических производственных функций обычно определяются путем обработки динамических рядов и поэтому отражают влияние научно-технического прогресса и других факторов интенсификации общественного производства. По этой причине сумма коэффициентов эластичности (степень однородности) в построенных производственных функциях, как правило, больше единицы. И вообще, с производственными функциями нужно быть осторожнее, т.к. они не отражают кризисные явления (кризис в США 1929-33 г.г. не был предсказан этими функциями), носят описательный характер.

Производственные функции применяются не только в макроэкономических расчётах на уровне народного хозяйства, но и на уровне предприятий. Частными случаями производственной функции можно считать функции издержек (зависимость объёма выпуска продукции от издержек производства), функции капитальных затрат (зависимость потребных капиталовложений от производственной мощности предприятий) и другие.

100