Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Множественная линейная регрессия

..pdf
Скачиваний:
5
Добавлен:
15.11.2022
Размер:
2.08 Mб
Скачать

Министерство образования и науки Российской Федерации

Государственное образовательное учреждение высшего профессионального образования «Пермский государственный технический университет»

Кафедра экономики и управления на предприятии

МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ

Методические указания к выполнению контрольных заданий

Издательство Пермского государственного технического университета

2011

Составители: канд. экон. наук, доцент Н.М. Левда, канд. техн. наук, доцент М.Р. Якимов

УДК 330 (075.8) М73

Рецензент канд. экон. наук, доцент В.В. Ленина

Множественная линейная регрессия: методические указания к выполнению М73 контрольных заданий / сост. Н.М. Левда, М.Р. Якимов. – Пермь: Изд-во Перм. гос.

техн. ун-та, 2010. – 44 с.

Рассмотрены методы множественной регрессии, используемые при анализе и прогнозировании экономических показателей.

Предназначено для студентов экономических специальностей, аспирантов и преподавателей, для всех, кто занимается научными исследованиями в экономике с использованием методов математической статистики.

УДК 330 (075.8)

© ГОУ ВПО «Пермский государственный

технический университет», 2011

2

 

ОГЛАВЛЕНИЕ

 

Введение .....................................................................................................................................

4

1.

Теоретические основы регрессионного анализа.................................................................

4

 

1.1. Парная регрессия.............................................................................................................

4

 

1.1.1. Типы зависимостей..................................................................................................

5

 

1.1.2. Методы определения корреляционной связи........................................................

7

 

1.1.3. Выбор вида уравнения регрессии...........................................................................

8

 

1.2. Множественная регрессия..............................................................................................

9

 

1.2.1. Расчет коэффициента корреляции и его статистическая проверка.....................

9

 

1.2.2. Метод наименьших квадратов................................................................................

11

 

1.2.3. Критерий Фишера....................................................................................................

13

 

1.2.4. Ошибки прогнозирования (определение качества регрессионного анализа) ...

13

2.

Задание для самостоятельной работы..................................................................................

14

3.

Методические указания к выполнению работы в Мicrosoft Excel ...................................

19

4.

Пример оформления расчета.................................................................................................

39

Список использованной литературы........................................................................................

43

3

ВВЕДЕНИЕ

Множественная линейная регрессия – это эконометрическая модель, которая отражает статистическую зависимость исследуемого показателя от множества других показателей (факторов), выраженная в форме линейного уравнения. Такого рода модели находят большое применение для анализа и прогнозирования экономических показателей.

Цель данной работы – научить исследованию и прогнозированию экономических показателей с помощью моделей множественной регрессии.

Практическое использование многофакторных моделей требует решения ряда задач:

выбор важнейших факторов;

построение уравнения регрессии;

оценка качества уравнения регрессии;

прогнозирование на основе модели.

Все эти вопросы отражены в данной методической работе. Рассмотрены теоретические основы решения поставленных задач. Даны методические указания для осуществления расчетов в Exсel. Приведен пример исследования производительности труда от ряда факторов. Представлены контрольные задания для студентов, пример оформления отчета.

Авторы выражают глубокую благодарность студентам гр. ЭУП-07-1: М.М. Гакашеву, В.П. Постникову, М.А. Каменских, принявших активное участие в данной работе.

1.ТЕОРЕТИЧЕСКИЕ ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА

1.1.Парная регрессия

Качество корреляционной зависимости обратно пропорционально плотности точек.

(Один из постулатов Мэрфи)

Исследование отдельных статистических объектов позволяет получить о них полезную информацию и описать их стандартными показателями. При этом можно представить изучаемую совокупность в виде ряда распределения путем ранжирования (в порядке возрастания или убывания анализируемого количественного признака), дать характеристику этой совокупности, указав центральные значения ряда (среднее арифметическое, медиана, мода), размах варьирования, форму кривой распределения. Такого рода сведения могут быть вполне достаточными в случаях, когда приходится иметь дело с одномерными данными (т.е. лишь с одной характеристикой, например зарплатой) о каждой единице совокупности (скажем, о сотруднике фирмы).

Когда же мы анализируем двумерные данные (например, зарплата и образование), всегда есть возможность изучать каждое измерение по отдельности как часть одномерной совокупности данных. Однако реальную отдачу можно получить лишь при совместном изучении обоих параметров. Основное назначение такого подхода возможность выявления взаимосвязи между параметрами.

Следовательно, помимо традиционных измерений и последующих вычислений при анализе статистических данных приходится решать проблему и более высокого уровня

4

выявление функциональной зависимости между воздействующим фактором и регистри-

руемой (изучаемой) величиной.

1.1.1. Типы зависимостей

Зависимость одной случайной величины от значений, которые принимает другая случайная величина (физическая характеристика), в статистике называется регрессией. Если этой зависимости придан аналитический вид, то такую форму представления изобра-

жают уравнением регрессии.

Процедура поиска предполагаемой зависимости между различными числовыми совокупностями обычно включает следующие этапы:

установление значимости связи между ними;

возможность представления этой связи в форме математического выражения (уравнения регрессии).

Первый этап в указанном статистическом анализе касается выявления так называе-

мой корреляции, или корреляционной зависимости. Корреляция рассматривается как при-

знак, указывающий на взаимосвязь ряда числовых последовательностей. Иначе говоря, корреляция характеризует силу взаимосвязи в данных. Если это касается взаимосвязи двух числовых массивов xi и yi, то такую корреляцию называют парной.

При поиске корреляционной зависимости обычно выявляется вероятная связь одной измеренной величины x (для какого-то ограниченного диапазона ее изменения, например

от x1 до xn) с другой измеренной величиной y (также изменяющейся в каком-то интервале y1 yn). В таком случае мы будем иметь дело с двумя числовыми последовательностями, между которыми и надлежит установить наличие статистической (корреляционной) связи. На этом этапе пока не ставится задача определить, является ли одна из этих случайных величин функцией, а другая – аргументом. Отыскание количественной зависимости между ними в форме конкретного аналитического выражения y = f(x) это задача уже другого анализа, регрессионного.

Таким образом, корреляционный анализ позволяет сделать вывод о силе взаимосвязи между парами данных х и у, а регрессионный анализ используется для прогнозирования одной переменной (у) на основании другой (х). Иными словами, в этом случае пытаются выявить причинно-следственную связь между анализируемыми совокупностями.

Схематическое изображение изложенных соображений представлено на рис. 1.

Рис. 1. Схематическое пояснение сути корреляционного и регрессионного анализов

5

Строго говоря, принято различать два вида связи между числовыми совокупностями – это может быть функциональная зависимость или же статистическая (корреляционная). При наличии функциональной связи каждому значению воздействующего фактора (аргумента) соответствует строго определенная величина другого показателя (функции), т.е. изменение результативного признака всецело обусловлено действием факторного признака.

Графически это (при наличии линейной зависимости) может быть представлено в виде прямой линии (рис. 2, а).

а б

Рис. 2. Зависимость функциональная (а) и статистическая (б)

Аналитически функциональная зависимость представляется в следующем виде:

y= f(x).

Вслучае статистической связи значению одного фактора соответствует какое-то приближенное значение исследуемого параметра, его точная величина является непредсказуемой, непрогнозируемой, поэтому получаемые показатели оказываются случайными величинами. Это значит, что изменение результативного признака у обусловлено влиянием факторного признака х лишь частично, так как возможно воздействие и иных факторов, вклад которых обозначен как ε: y = f(x) + ε.

По своему характеру корреляционные связи – это соотносительные связи. Примером корреляционной связи показателей коммерческой деятельности является, например, зависимость сумм издержек обращения от объема товарооборота. В этой связи помимо факторного признака х (объема товарооборота) на результативный признак у (сумму издержек обращения) влияют и другие факторы, в том числе и неучтенные, порождающие вклад ε.

Такая зависимость графически изображается в виде экспериментальных точек, образующих поле рассеяния, или, как принято говорить, поле корреляции (рис. 2, б). Следовательно, такие двумерные данные можно анализировать с использованием диаграммы рассеяния в координатах «х у», которая дает визуальное представление о взаимосвязи исследуемых совокупностей.

Для количественной оценки существования связи между изучаемыми совокупностями случайных величин используется специальный статистический показатель – коэффи-

циент корреляции r.

6

Если предполагается, что эту связь можно описать линейным уравнением типа y = a0 + а1x (где a0 и а1 константы), то принято говорить о существовании линейной корреляции.

Коэффициент r это безразмерная величина, она может меняться от 0 до ±1. Чем ближе значение коэффициента к единице (неважно, с каким знаком), тем с большей уверенностью можно утверждать, что между двумя рассматриваемыми совокупностями переменных существует линейная связь. Иными словами, значение какой-то одной из этих случайных величин (y) существенным образом зависит от того, какое значение принимает другая (x).

Если окажется, что r = 1 (или 1), то имеет место классический случай чисто функциональной зависимости (т.е. реализуется идеальная взаимосвязь).

При анализе двумерной диаграммы рассеяния можно обнаружить различные взаимосвязи. Простейшим вариантом является линейная взаимосвязь, которая выражается в том, что точки размещаются случайным образом вдоль прямой линии. Диаграмма свидетельствует об отсутствии взаимосвязи, если точки расположены случайно и при перемещении слева направо невозможно обнаружить какой-либо уклон (ни вверх, ни вниз). В этом случае лучшей характеристикой результативного признака у является средняя величина y.

Если точки на ней группируются вдоль кривой линии, то диаграмма рассеяния характеризуется нелинейной взаимосвязью. Такие ситуации вполне возможны. Тем не менее для удобства понимания сути корреляционного соотношения мы ограничимся рассмотрением варианта линейной зависимости.

1.1.2. Методы определения корреляционной связи

Корреляцию и регрессию принято рассматривать как совокупный процесс статистического исследования, поэтому их использование в статистике часто именуют корреляци-

онно-регрессионным анализом.

Если между парами совокупностей просматривается вполне очевидная связь, то, минуя стадию корреляции, можно сразу приступать к поиску уравнения регрессии.

Если же исследования касаются какого-то нового процесса, ранее не изучавшегося, то наличие связи между совокупностями является предметом специального поиска.

При этом условно можно выделить методы, которые позволяют оценить наличие свя-

зи качественно, и методы, дающие количественные оценки.

Чтобы выявить наличие качественной корреляционной связи между двумя исследуемыми числовыми наборами экспериментальных данных, существуют различные методы, которые принято называть элементарными.

Ими могут быть приемы, основанные на следующих операциях:

параллельном сопоставлении рядов;

построении корреляционной и групповой таблиц;

графическом изображении с помощью поля корреляции.

Другой метод, более сложный и статистически надежный, это количественная оценка связи посредством расчета коэффициента корреляции и его статистической проверки (расчет коэффициента корреляции представлен в пункте 1.2. «Множественная регрессия».

7

1.1.3. Выбор вида уравнения регрессии

При изучении связи показателей применяются различного вида уравнения прямолинейной и криволинейной связи.

Формально могут возникать ситуации двух типов:

1.Вид функциональной зависимости неизвестен. В этом случае нужно предварительно решить задачу, направленную на отыскание подходящей функциональной зависимости. Это достаточно сложная задача, но она успешно решается современными средствами информационных технологий (программа Excel).

2.Вид функциональной зависимости известен, и требуется только найти ее пара-

метры (коэффициенты регрессии а0, а1, а2, …).

Термином линейный регрессионный анализ обозначают такое прогнозирование, которое описывается линейной взаимосвязью между исследуемыми переменными:

y= а0 + а1x.

Вслучае криволинейных зависимостей применяются математические функции следующего вида:

гиперболическая y = а0 + а1/x; показательная y = а0 + а1x;

степенная y = а0xа1;

параболическая y = а0 + а1x + а2x2; логарифмическая y = а0 + а1lg x;

экспоненциальная y = а0 exp (а1x) и другие.

Решение математических уравнений связи предполагает вычисление по исходным данным их параметров (свободного члена a0 и коэффициентов регрессии a1, a2, …).

Широкое применение таких уравнений объясняется следующими причинами:

1.Точное аналитическое выражение зависимости между исследуемыми величинами может оставаться неизвестным, и поэтому по необходимости приходится ограничиваться приближенными формулами эмпирического характера.

2.Точная функциональная зависимость выражается формулой настолько сложной, что ее непосредственное применение при вычислениях было бы очень затруднительным.

Эмпирические формулы могут быть разнообразными, так как при выборе аналитической зависимости руководствуются не какими-то строгими теориями (физическими или экономическими), а ставят только одно условие – возможно близкое соответствие значе-

ний, вычисленных по формуле опытным данным. Таким образом, формально описание од-

ного и того же процесса можно дать разными по виду уравнениями. Их пригодность оценивается только по одному критерию – наиболее точное предсказание экспериментального результата.

В эмпирическую формулу можно вводить различное число постоянных параметров (коэффициентов), величину которых нужно определить с большой точностью. Более удачными (удобными) следует считать уравнения с небольшим числом коэффициентов (не более 23). В противном случае возрастают трудности с применением и интерпретацией таких формул.

8

1.2. Множественная регрессия

Сложные проблемы всегда имеют простые, легкие для понимания неправильные решения.

(Закон Мэрфи)

До сих пор нами рассматривалась ситуация, когда на зависимую переменную (функцию) воздействовал только один фактор (аргумент). Подобное прогнозирование принято называть парной регрессией. Такие зависимости мы уже рассмотрели ранее.

Однако в подавляющем большинстве случаев приходится иметь дело с экспериментальными данными, касающимися влияния более чем одного фактора. Прогнозирование единственной переменной у на основании нескольких переменных хk (k = 1, 2, … m) называется множественной регрессией. В этом случае математическая модель процесса пред-

ставляется в виде уравнения регрессии с несколькими

переменными величинами, т.е.

у = f (x1, x2 , xm).

 

Общий вид уравнения множественной регрессии

обычно стараются представить

в форме линейной зависимости:

 

у = а0 + а1x1 + а2x2 + …+ аmxm,

где а0 – свободный член (или сдвиг); а1, а2, …, аm коэффициенты регрессии, которые подлежат вычислению методом наименьших квадратов.

При анализе уравнения множественной регрессии (как и в случае парной регрессии) используется также такое понятие, как ошибка прогнозирования у. Последняя понимается как разность между рассчитанным (теоретическим) значением функции yˆi и ее измерен-

ным (опытным) значением yi, т.е. ∆у = yˆi yi.

Статистический вывод о пригодности (значимости) уравнения обычно проверяется

вследующей последовательности:

1.Сначала проводится общая проверка методом F-теста, целью которой является выяснение, объясняют ли х-переменные значимую долю вариации у, т.е. превалирует ли

влияние факторов хk на изменение функции у над ее колебаниями случайного порядка; если регрессия не является значимой, то дальнейшее действие представляется нецелесообразным.

2.Если регрессия оказывается значимой, то можно продолжить анализ, используя t-тесты для отдельных коэффициентов регрессии; в этом случае пытаются выяснить, насколько значимой является влияние той или иной переменной х на параметр у при усло-

вии, что все другие факторы хk остаются неизменными. Построение доверительных интервалов и проверка гипотез на адекватность для отдельного коэффициента регрессии основывается на определении стандартной ошибки. Каждый коэффициент регрессии имеет свою стандартную ошибку Sa1, Sa2, …, Sam.

1.2.1.Расчет коэффициента корреляции

иего статистическая проверка

Существуют различные аналитические приемы определения коэффициента множественной корреляции R. Известна такая формула:

9

 

( yi y )

2

ˆ

2

 

 

ˆ

2

 

R =

 

( yi yi )

 

= 1

( yi yi )

 

,

( yi y )2

 

( yi y )2

 

 

 

 

 

где yi текущее значение результативного признака y;

y

средняя величина результатив-

ного признака, yˆi – расчетное значение результативного признака y. Введем обозначения:

Sост2 = ( yi yˆi )2.

Это остаточная вариация. Она характеризует величину суммы квадратов отклонений фактического значения результативного признака от его расчетного значения.

Sрегр2 = ( yˆi y )2.

Это регрессионная (объясненная) вариация. Она характеризует величину суммы квадратов отклонений рассчитанного значения результативного признака от общей средней.

Sполн2 = in=1( yi y )2.

Это общая (полная) вариация. Она характеризует величину суммы квадратов отклонений фактического значения результативного признака от общей средней.

Между этими величинами выполняется соотношение:

Sполн2 = Sост2 +Sрегр2 .

В рамках этих обозначений коэффициент корреляции:

S 2

R = регр .

Sполн2

Зная коэффициент корреляции, можно дать качественно-количественную оценку тесноты связи. Используются, например, специальные табличные соотношения (так называемая шкала Чеддока).

Ее представление может иметь следующий вид (табл. 1):

 

Таблица 1

Качественная оценка тесноты связи

 

 

Величина коэффициента парной корреляции

Характеристика силы связи

до 0,3

практически отсутствует

0,3–0,5

слабая

0,5–0,7

заметная

0,7–0,9

сильная

0,9–0,99

очень сильная

Такие оценки носят общий характер и не претендуют на статистическую строгость, поскольку не дают гарантий на вероятностную достоверность. Поэтому в статистике при-

10