Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Статистика лекции ЭИ, ЭТ 2012.doc
Скачиваний:
313
Добавлен:
03.05.2015
Размер:
1.93 Mб
Скачать

8.2 Корреляционно-регрессионный анализ: области применения, основные этапы и требования проведения анализа.

С широким применением информационных технологий и стандартного программного обеспечения экономических расчетов в отрасли связи все большее распространение получает корреляционно-регрессионный метод анализа взаимосвязей, позволяющий строить модели сложных явлений, выявлять факторы изменения экономических показателей в зависимости от различных причин и рассчитывать вероятные значения исследуемых показателей при определенных условиях и в будущем.

Обычно исследование экономических явлений начинается с изучения парных связей между результативным признаком и каждым из определяющих его факторов. Однако изучение только парных зависимостей оказывается малоэффективным при использовании полученных результатов в планировании, так как действительности свойственна множественность взаимосвязей и исследовать социально-экономические явления необходимо комплексно.

Уровень какого-либо результативного показателя зависит от множества взаимосвязанных факторов, действующих с разной силой и в противоположных направлениях; их влияние на результативный показатель нельзя рассматривать как простую сумму изолированных парных влияний. Это обусловливает ограниченность использования парных уравнений регрессии и построения однофакторных моделей. В условиях действия множества факторов показатели парной связи оказываются условными и неточными. Специфика корреляционных связей требует построения многофакторных моделей – уравнений множественной регрессии.

8.3 Корреляционно-регрессионный анализ: аналитическое выражение уравнения (прямолинейной, криволинейной) регрессии для однофакторной корреляционно-регрессионной модели.

Применение корреляционно-регрессионного метода анализа явлений начнем с оценки парной корреляции и построения однофакторной модели зависимости результативного признака от факторного в виде уравнения корреляционной связи. Уравнение корреляционной связи часто называют уравнением регрессии, показывающим вид зависимости среднего значения результативного признака от факторного. Аналитическая связь между результативным и факторным признаками может описываться уравнениями:

прямой a0 + a1x ;

гиперболы a0 + a1/x ;

параболы порядкаa0 + a1x +a2x2 ;

степенной функции и т.д.

Прежде чем приступить к построению модели – уравнения регрессии, необходимо выбрать тип функции, т.е. форму корреляционной связи. Некоторые данные о форме связи можно получить из графика эмпирической линии регрессии. Если на корреляционном поле соединить точки отрезками прямой, то получится ломаная линия с некоторой тенденцией к росту или снижению, которая и называется эмпирической линией регрессии. На рис. 8.2 и 8.3 представлена в качестве примера эмпирическая линия регрессии заработной платы почтовых работников от их производительности труда.

yx

y

Рис. 8.2. График корреляционной зависимости заработной платы (y)

и производительности труда (x)

Рис. 8.3 Графический способ подбора лучшей формы корреляционной зависимости

между (y) и (x) по максимальному значению R².

Изломы эмпирической линии регрессии y обусловлены тем, что на результативный показатель оказывают влияние кроме х другие факторы. Если отвлечься (абстрагироваться) от влияния других факторов, кроме х, то можно сделать вывод о виде аналитической функции yx, в определенной степени отражающей характер зависимости между y и х. В данном случае можно склониться к прямолинейной форме связи. Внешний вид эмпирической линии регрессии позволяет зрительно установить теоретическую форму зависимости y от х.

Главной же в обосновании формы теоретической линии связи должна быть экономическая теория, определяющая сущность и природу изучаемых явлений и, следовательно, взаимосвязь между ними. В примере взаимосвязь между оплатой труда и выработкой в виде прямой линии может быть принята только условно, для каких-то узких целей. В соответствии с экономической теорией воспроизводства, рост производительности труда должен опережать рост зарплаты, т.е. зависимость должна быть криволинейной и иметь вид экспоненты. При таком подходе к выбору зависимости корреляционное уравнение может быть использовано не только для анализа состояния экономической системы, но и для прогнозирования и планирования результатов и факторов производства.

После выбора вида зависимости приступают к расчету параметров аналитического уравнения корреляционной связи (уравнения регрессии). Параметры находят на основе метода наименьших квадратов. Для нахождения параметров уравнения прямой = а01х используется система нормальных уравнений вида:

a0n+a1x=y,

a0x+a1x2=xy,

где: n – объем исследуемой совокупности (число единиц наблюдения).

Решение этой системы относительно а0 и а1 позволяет определить параметры уравнения регрессии:

; .

По уравнению регрессии можно найти выровненные теоретические значения результативного признака при соответствующих значениях фактора х. Отклонения фактических значений (y) от теоретических обусловлены тем, что регрессия (y) строилась только по одному фактору (х), в то время как в действительности (y) зависит от множества факторов.

Выбор теоретической формы корреляционной связи всегда несколько условен, так как в действительности зависимости между признаками лишь приблизительно соответствуют функциональным. Поэтому только при высокой тесноте связи между признаками линия регрессии имеет содержательный смысл и практическое значение.

Показателями тесноты корреляционной связи служат коэффициент и индекс корреляции. Теснота связи между признаками измеряется с помощью показателей вариации результативного признака y.

На рис. 8.3 изображены три линии: y – ломаная, называемая эмпирической линией регрессии, которая отражает фактические значения y при соответствующих значениях факторного признака х; – прямая линия, параллельная оси абсцисс, соответствующая среднему значениюy при исключении влияния всех факторов; – выравненная линия регрессии, характеризующая значенияy при абстрагировании всех факторов, кроме фактора х. Поскольку на y помимо х оказывают влияние и другие факторы, то линия y не совпадает с линией . Это несовпадение свидетельствует о неполной связи междуy и х.

Чтобы измерить, насколько связь близка к функциональной, исчисляют показатели тесноты связи. Для этого необходимо оценить вариацию результативного признака y, вызванную только влиянием признака х, и остаточную его вариацию, обусловленную прочими факторами.

Общая дисперсия результативного признака характеризует вариациюy под влиянием всех факторов.

Средний квадрат отклонений отизмеряет вариациюy только под влиянием фактора хэто факторная дисперсия.

Средний квадрат отклонений y от =(y–)2/n характеризует остаточную вариацию y под влиянием всех остальных факторов. В математической статистике доказано, что 2y = , т.е.. Поэтому эту дисперсию называютостаточной дисперсией, она характеризует вариацию y за счет остальных факторов, не включенных в уравнение регрессии.

Теснота связи между y и х измеряется отношением факторной дисперсии к общей дисперсии результативного признака, называемым индексом детерминации, . Индекс детерминации характеризует долю вариации результативного признака под влиянием факторного признака в общей колеблемости результативного признака. Если между признаками имеется корреляционная связь, то по мере ее усиления, т.е. повышения тесноты связи между результативным и факторным признаками, индекс детерминации увеличивается, а по мере ослабления – уменьшается. Таким образом,индекс детерминации характеризует тесноту связи, близость корреляционной связи к функциональной.

Корень квадратный из индекса детерминации есть индекс корреляции или теоретическое корреляционное отношение. Индекс корреляции, или теоретическое корреляционное отношение, характеризует тесноту связи при любой форме зависимости. Остаточная дисперсия необходима для выбора наилучшей функции, которая в наибольшей степени выравнивает (аппроксимирует) эмпирическую линию регрессии.Аппроксимирующую функцию выбирают по минимуму остаточной дисперсии 2ост = (yt)2/n или .

Частным случаем индекса корреляции является линейный коэффициент корреляции r, который применяется для оценки тесноты связи при линейной зависимости. Коэффициент корреляции принимает значения от -1 до +1, показывая не только тесноту, но и направление связи. Знак "+" указывает на прямую зависимость между результативным и факторным признаками, знак «–» на обратную зависимость между ними. Если r=0, то связь между признаками отсутствует. Чем ближе r к единице, тем теснее связь между рассматриваемыми признаками.

При линейной форме связи параметр уравнения прямой – коэффициент регрессии а1 и коэффициент корреляции r взаимосвязаны следующим образом: а1 = ry/x. При прямолинейной связи линейный коэффициент корреляции тождествен индексу корреляции, они численно равны: .

Линейный коэффициент корреляции r применяется для оценки тесноты связи при линейной зависимости: уравнения прямой = а01х

Линейный коэффициент корреляции строится на сопоставлении отклонений коррелируемых признаков от их средних арифметических (х–) и (y–). Чтобы обеспечить соизмеримость отклонений признаков х и y по абсолютным размерам и единицам измерения, рассчитывают их нормированные отклонения:tx = (x–)/x; ty = (y–)/y , где x, y – средние квадратические отклонения признаков х и y.

Линейный коэффициент корреляции представляет собой среднюю величину из произведения нормированных отклонений по обоим признакам: .

Для упрощения расчетов линейного коэффициента корреляции пользуются преобразованной формулой: .

8.4 Корреляционно-регрессионный анализ: аналитическое выражение уравнения (прямолинейной, криволинейной) регрессии для многофакторной корреляционно-регрессионной модели. Определение параметров и их интерпретация.

Задача многофакторного корреляционно-регрессионного анализа заключается, во-первых, в изучении целого ряда факторов, влияющих на исследуемый показатель и отборе наиболее значимых; во-вторых, в определении степени влияния каждого фактора на результативный признак путем построения модели – уравнения множественной регрессии, которая позволяет установить, в каком направлении и на какую величину изменится результативный показатель при изменении каждого фактора, входящего в модель; в-третьих, в количественной оценке тесноты связи между результативным признаком и факторными.

Математически задача состоит в нахождении аналитического выражения функции = f(x1,x2,x3,...,xn), наилучшим образом отражающего связь факторных признаков с результативным. От правильного выбора функции регрессии зависят результаты теоретического анализа и возможность их приложения к практике, поэтому форма связи должна наилучшим образом соответствовать реально существующим связям между результативным признаком и факторными. Сложность выбора функции состоит в том, что результативный признак с разными факторами может находиться в различных формах связи – прямолинейных и криволинейных. Эмпирическое обоснование типа функции с помощью графиков парных связей практически непригодно для множественной корреляции и регрессии.

Выбор формы уравнения множественной регрессии основывается на теоретическом анализе изучаемого явления. Если анализ взаимосвязей результативного и факторных признаков не позволяет остановиться на какой-либо форме связи, то перебирают различные функции и выбирают оптимальную с точки зрения близости эмпирических значений результативного признака выравненным, но это сопряжено со значительной трудоемкостью расчетов параметров различных уравнений. При наличии специального программного обеспечения, реализующего алгоритм перебора различных уравнений множественной регрессии на ПЭВМ, получают несколько моделей, выбор наилучшей осуществляется путем статистической проверки параметров уравнения на основе t–критерия Стьюдента и F–критерия Фишера.

Выбор формы уравнения множественной регрессии осуществляется на практике

на основе использования пяти типов моделей:

линейная a0 + a1x1 + a2x2 + ... +anxn;

степенная ;

показательная ;

параболическая

гиперболическая

Чаще всего останавливаются на линейных моделях. Это объясняется тем, что, во-первых, параметры линейных уравнений легко интерпретируются, сами модели просты и удобны для экономического анализа, во-вторых, при желании любую функцию путем логарифмирования или замены переменных можно свести к линейной форме.

В уравнении множественной регрессии в линейной форме параметры а1, а2, а3, ..., аn – коэффициенты регрессии, показывают степень влияния соответствующих факторов на результативный признак при закреплении остальных факторов на среднем уровне, т.е. насколько изменится y при увеличении соответствующего фактора на 1 пункт его единицы изменения; параметр а0 – свободный член, экономического смысла не имеет.

Параметры уравнения множественной регрессии, как и парной, рассчитываются методом наименьших квадратов на основе решения системы нормальных уравнений. Поскольку коэффициенты регрессии между собой несопоставимы (факторы имеют разные единицы измерения), то нельзя сравнивать силу влияния каждого из включенных в модель факторов на результативный признак на основании коэффициентов регрессии. Для оценки сравнительной силы влияния факторов рассчитывают частные коэффициенты эластичности и b-коэф­фициенты.

Частный коэффициент эластичности показывает, на сколько процентов в среднем изменится результативный показатель при изменении фактора на 1% и фиксированном положении других факторов и рассчитываются отдельно по каждому фактору:

, где аi – коэффициент регрессии при i-м факторе; – среднее значение i-го фактора;– среднее значение результативного показателя.

-коэф­фициент показывает, на какую часть среднего квадратического отклонения изменяется результативный признак при изменении соответствующего фактора на величину его среднего квадратического отклонения , где xi, y – средние квадратические отклонения i-го фактора и результативного признака.

Вследствие того, что экономические явления подвергаются воздействию многочисленных и сложных причин, в уравнение множественной регрессии должны включаться существенные, систематически действующие факторы при элиминировании влияния остальных факторов. Наиболее важные факторы отбираются на основе анализа тесноты и существенности связи между факторами и результативным показателем. При этом условием включения в модель факторов является отсутствие между ними очень тесной корреляционной связи, близкой к функциональной. Наличие между двумя факторами весьма тесной линейной связи (линейный коэффициент корреляции r превышает по абсолютной величине 0,85) называется коллинеарностью, а между несколькими факторами – мультиколлинеарностью.

Причины возникновения мультиколлинеарности между признаками состоят, во-первых, в том, что анализируемые признаки характеризуют одну и ту же сторону явления или процесса (например, уставной фонд и численность работников характеризуют размер предприятия) и включать их в модель одновременно не целесообразно; во-вторых, факторные признаки являются составными элементами друг друга, дублируют друг друга или их суммарное значение дает постоянную величину (например, энерговооруженность и фондовооруженность, удельный вес заемных и собственных средств). Если в модель включены мультиколлинеарные факторы, то уравнение регрессии будет неадекватно отражать реальные экономические взаимосвязи, будут искажены величины параметров модели (завышены), изменен смысл и затруднена экономическая интерпретация коэффициентов регрессии и корреляции.

Поэтому при построении модели исключают один из коллинеарных факторов исходя из качественного и логического анализа или преобразуют исходные факторные признаки в новые, укрупненные. Качество и адекватность модели реальному социально-экономическому явлению и процессу определяется оптимальностью числа факторных признаков: чем больше включается факторов, тем модель лучше описывает явление и процесс, но такую модель трудно реализовать; при малом числе факторов модель недостаточно адекватна.

Проблема отбора факторных признаков и сокращения размерности модели множественной корреляции решается на основе эвристических и многомерных методов анализа. К эвристическим методам анализа относится метод экспертных оценок, основанный на интуитивно-логических предпосылках и содержательно-качественном анализе непараметрических показателей тесноты связи: коэффициентов корреляции рангов, конкордации. Наиболее часто используется метод пошаговой регрессии, состоящий в последовательном включении факторов в модель и оценке их значимости. При введении фактора определяется, насколько уменьшается сумма квадратов остатков и увеличивается величина множественного коэффициента корреляции R. Если при включении в модель фактора xk величина R увеличивается, а коэффициент регрессии ak не изменяется или меняется незначительно, то данный фактор существенен и его включение в модель необходимо.

Теснота связи между изучаемыми показателями при множественной корреляции определяется на основе различных коэффициентов. Чтобы уравнение регрессии достаточно адекватно отражало (аппроксимировало) реальные моделируемые социально-экономические процессы или явления должны быть соблюдены условия и требования множественного корреляционно-регрессионного анализа.

  • совокупность исследуемых показателей должна быть однородной по условиям формирования результативного и факторных признаков (выделяющиеся наблюдения следует исключить из совокупности);

  • результативный признак должен подчиняться нормальному закону распределения, факторные – быть близки к нормальному распределению. Если объем совокупности достаточно большой (n>50), то нормальность распределения может быть подтверждена на основе расчета и анализа критериев Пирсона, Ястремского, Колмогорова, Боярского и др.;

  • моделируемое явление или процесс описывается количественно (параметры должны иметь цифровое выражение) одним или несколькими уравнениями причинно-следственных связей. Причинно-следственные связи целесообразно описывать линейными или близкими к линейной форме зависимостями;

  • постоянство территориальной и временной структуры изучаемой совокупности, отсутствие количественных ограничений на параметры модели;

  • достаточность единиц совокупности: их количество должно быть в несколько раз больше, чем число факторов, включаемых в модель. На каждый фактор должно приходиться, как минимум, 5–6 наблюдений, т.е. число факторных признаков должно быть в 5–6 раз меньше объема изучаемой совокупности.

Основными этапами корреляционно-регрессионного анализа являются:

  • предварительный теоретический анализ сущности явления, позволяющий установить причинно-следственные связи между признаками, выбрать наиболее важные факторы, решить вопрос об измерении результативного и факторных признаков;

  • подготовка исходной информации, включающая вопросы достаточности единиц наблюдения, однородности совокупности изучаемых признаков и близости их распределения к нормальному;

  • выбор формы связи между результативным признаком и факторами на основе перебора нескольких аналитических функций;

  • исследование тесноты связи между результативным признаком и факторами, а также между факторами на основе построения матрицы парных линейных коэффициентов корреляции и отсев мультиколлинеарных факторов;

  • отбор существенных (значимых) факторов, включаемых в многофакторную модель – уравнение множественной регрессии, на основе соответствующих статистических методов;

  • расчет параметров уравнения множественной регрессии и оценка значимости отобранных факторов, коэффициентов корреляции и регрессии с помощью критериев t – Стьюдента и F – Фишера;

  • анализ полученных результатов.

Взаимосвязи между признаками анализируются, как правило, на материале выборочных наблюдений, поэтому для проверки того, что полученные зависимости носят закономерный, а не случайный характер, оценивается значимость (существенность) показателей корреляции и регрессии.

Корреляционно-регрессионный анализ служит для оценки показателей бизнес–плана и нормативных уровней экономических показателей, отражающих эффективность использования производственных ресурсов, выявления имеющихся резервов производства, проведения сравнительного анализа, оценки потенциальных возможностей предприятий, краткосрочного прогнозирования развития производства.

Уравнение множественной регрессии позволяет найти теоретическое, возможное значение результативного показателя при определенных значениях факторных признаков.

Параметры уравнения множественной регрессии рассчитываются методом наименьших квадратов на основе решения системы нормальных уравнений. Для линейного уравнения регрессии с n факторами строится система из (n+1) нормальных уравнений:

a0n + a1x1 + a2x2 +...+ anxn = y,

a0x1 + a1x21 + a2x1x2 +...+ anx1xn = yx1,

:

a0xn + a1x1xn + a2x2xn +...+ anx2n = yxn.