
- •Содержание
- •I. Понятие о корреляционной связи и предпосылки её использования
- •II. Определение наличия и формы связи
- •III. Измерение тесноты связи и оценка существенности корреляции
- •IV. Построение и оценка однофакторных моделей (уравнений) регрессии
- •V. Регрессия и корреляция при многофакторной зависимости
- •Контрольные вопросы и тесты
- •Задачи для самостоятельного решения
- •Список рекомендуемой литературы
IV. Построение и оценка однофакторных моделей (уравнений) регрессии
Как уже отмечалось ранее, приблизительное представление о линии регрессии при выборе аналитической формы связи можно получить на основе:
логического экономического анализа;
графического изображения зависимости в виде эмпирической линии регрессии;
опыта предыдущих исследований, где выбранные формы связи давали удовлетворительные результаты;
различных статистико-математических критериев адекватности конкурирующих уравнений регрессии (остаточных дисперсий, ошибок аппроксимации и др.).
Наиболее разработанной в теории статистики является методология парной регрессии, рассматривающая влияние вариации факторного признака x на вариацию результативного признака y. При этом для изучения связи экономических показателей применяются различного вида уравнения (типы математических функций) прямолинейной и криволинейной зависимостей.
При анализе линейной связи применяется уравнение прямой линии:
yx=a+bx.
При анализе нелинейных связей используются следующие функции:
параболическая yx=a+bx+cx2
гиперболическая
yx=a+
показательная yx=abx
степенная yx=axb
логарифмическая yx=a+blgx
логистическая
yx=
и др.
Решение математических уравнений связи предполагает вычисление по исходным данным их параметров a и b. Это осуществляется способом выравнивания эмпирических (фактических) данных методом наименьших квадратов. В основу этого метода положено требование минимальности суммы разности квадрата отклонений эмпирических значений результативного признака от его выровненных (теоретических) значений yxi, полученных по выбранному уравнению регрессии:
.
Соответственно для прямолинейной зависимости:
.
Посредством математических преобразований получаем систему нормальных уравнений для нахождения величин параметров a и b уравнения прямой линии:
n – объем исследуемой совокупности.
Решение этой системы дает следующие значения параметров (способ определителей):
Параметр «b» в уравнении называют коэффициентом регрессии. Если связь по направлению прямая – он имеет положительное значение, если обратная – отрицательное. Коэффициент регрессии показывает на сколько единиц своего измерения в среднем изменяется величина результативного признака при изменении факторного признака на единицу своего измерения.
Коэффициент регрессии применяют для определения коэффициента эластичности, который показывает на сколько процентов в среднем изменится величина результативного признака при изменении факторного признака на один процент и вычисляется по формуле:
Коэффициент регрессии можно определить, зная величину линейного коэффициента корреляции:
Для нахождения
параметров уравнения двучленной
гиперболы
решается система уравнений:
для уравнения
параболы 2 порядка
:
для логарифмической
функции
:
Для нахождения параметров уравнений показательной и степенной функций предварительно проводится их логарифмирование:
показательная
функция
:
степенная функция
:
При численности объектов анализа (т.е. единиц исследуемой совокупности) до 30 возникает необходимость испытания параметров уравнения регрессии на их типичность (значимость, существенность).
При этом осуществляется проверка, насколько вычисленные параметры характерны для того комплекса условий, в которых находится исследуемая совокупность, не являются ли они результатом действия случайных причин.
Применительно к совокупностям, у которых n<30, для проверки типичности параметров уравнения регрессии используется t-критерий Стьюдента. При этом вычисляются фактические значения t-критерия:
для параметра a:
для параметра b:
где
- среднее квадратическое отклонение
фактических значений результативного
признака от выровненных значений;
- среднее
квадратическое отклонение факторного
признака от общей средней
.
Полученные по этим формулам фактические значения ta и tb сравниваются с критическими tk, который получают по таблице Стьюдента с учетом принятого уровня значимости (например, =0,05) и числа степеней свободы k=n-2.
Полученные в анализе корреляционной связи параметры уравнения регрессии признаются типичными, если фактическое значение t-критерия больше его критического значения:
t a>t k<t b
В совокупностях достаточно большого объема вместо таблицы распределения Стьюдента пользуются таблицей интеграла вероятностей Лапласа.
По значению показателя тесноты связи можно посредством t-критерия произвести оценку значимости коэффициента регрессии:
Проверка практической значимости синтезированных в корреляционно-регрессионном анализе математических моделей осуществляется посредством показателей тесноты связи между признаками x и y.
Для ответа на вопрос о целесообразности использования той или иной функции в качестве уравнения регрессии может быть использована средняя квадратическая ошибка уравнения регрессии (стандартная ошибка аппроксимации):
yi – фактические значения результативного признака, полученные по данным наблюдения;
yxi – теоретические значения результативного признака, рассчитанные путем подстановки значений факторного признака x в решенное апробируемое уравнение регрессии;
n – число единиц наблюдения;
m – число параметров уравнения регрессии.
Величина средней
квадратичной ошибки сопоставляется со
средним квадратическим отклонением
результативного признака
,
а также рассчитывается отношение
.
Если это отношение не превышает 10-15% и
Se<
,
то использование апробируемого уравнения
регрессии является целесообразным для
выражения формы связи между x
и y.
Se можно использовать и при выборе в качестве формы связи той или иной функции. Предпочтение отдается тому уравнению, для которого величина Se оказалась меньшей.
По данным статистического наблюдения, представленным в таблице 1, проведем регрессионный анализ, т.е. построим и проанализируем экономико-математическую модель, выражающую зависимость между производственным стажем работы рабочих двадцати сельскохозяйственных предприятий региона и уровнем их среднемесячной заработной платы.
Для выбора формы связи воспользуемся графическим методом, проведенным нами ранее. Так как по своему виду эмпирическая линия связи (регрессии) приближается к прямой линии (см. рис. 1), мы предполагаем наличие между стажем работы рабочих и уровнем их заработной платы наличие прямолинейной по форме связи. Следовательно, теоретическая линия регрессии будет представлена уравнением линейной функции:
yx=a+bx
Для нахождения параметров «a» и «b» этого уравнения по эмпирическим данным используем метод наименьших квадратов, при котором решается система нормальных уравнений:
Подставим в эту систему соответствующие итоговые данные из таблицы 6:
Для упрощения системы разделим каждое уравнение на множитель при параметре «a»:
Вычтем из второго уравнения первое уравнение:
Отсюда,
В любое, например, в первое уравнение упрощенной системы, подставим полученное значение параметра «b» и определим значение параметра «a»:
Таким образом, в результате решения системы, получим следующее уравнение регрессии (синтезированную модель связи):
Параметр «b» в этом уравнении является коэффициентом регрессии. Его положительное значение указывает на прямую по направлению связь между изучаемыми признаками. Числовое значение коэффициента регрессии показывает, что при увеличении производственного стажа работы рабочих сельскохозяйственных предприятий на 1 год размер их среднемесячной заработной платы увеличивается в среднем на 0,82 тысячи рублей (на 820 рублей). Произведем оценку значимости коэффициента регрессии посредством t-критерия Стьюдента:
tтаб=2,101 (при =0,05 и числе степеней свободы k=n-2=20-2=18)
Т.к. tрасч.>tтабл., коэффициент регрессии признается значимым, надежным.
На основе коэффициента регрессии вычислим коэффициент эластичности:
Числовое значение коэффициента эластичности показывает, что при увеличении стажа работы рабочих на 1%, уровень их заработной платы увеличится в среднем на 0,86%.
С использованием коэффициента регрессии рассчитаем теоретические значения результативного признака – среднемесячной заработной платы рабочих.
Для этого в данное уравнение подставим значение факторного признака – стажа работы рабочих – по каждому предприятию, участвующему в исследовании. В таблице 13 сравним фактические и теоретические значения результативного признака.
Таблица 13 – Теоретический уровень заработной платы рабочих сельскохозяйственных предприятий региона
Номер предприятия |
Фактическая средняя заработная плата рабочих, тыс. руб. y |
Теоретическая средняя заработная плата рабочих, тыс. руб. yx |
Отклонение фактических уровней от теоретических, тыс. руб. y-yx |
Квадрат отклонения (y-yx)2 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 |
8,0 8,5 7,2 8,5 8,0 8,8 9,5 8,2 9,0 10,0 9,2 10,6 9,5 9,0 12,0 11,5 10,0 12,0 11,0 10,0 |
7,93 7,93 7,93 8,75 8,75 8,75 8,75 8,75 9,57 9,57 9,57 9,57 9,57 10,39 10,39 10,39 10,39 11,21 11,21 11,21 |
0,07 0,57 -0,73 -0,25 -0,75 0,05 0,75 -0,55 0,57 0,43 -0,37 1,03 -0,57 -1,39 1,61 1,11 -0,39 0,79 -0,21 -1,21 |
0,0049 0,3249 0,5329 0,0625 0,5625 0,0025 0,5625 0,3025 0,3249 0,1849 0,1369 1,0609 0,3249 1,9321 2,5921 1,2321 0,1521 0,6241 0,0441 1,4641 |
Сумма |
190,5 |
190,59 |
- |
12,4284 |
Изобразим теоретические значения уровня заработной платы рабочих сельскохозяйственных предприятий графически в виде линейной диаграммы (рисунок 3).
Рисунок
3 – Зависимость уровня заработной платы
рабочих сельскохозяйственных предприятий
региона от производственного стажа их
работы
Оценим адекватность полученного уравнения регрессии, т.е. определим насколько точно оно описывает зависимость между изучаемыми признаками. Для этого рассчитаем среднюю квадратическую (стандартную) ошибку уравнения регрессии:
- берем из итоговой
строки последней графы таблицы 13;
n=20 – число наблюдений;
m=2 – число параметров в линейном уравнении регрессии.
Сопоставим величину ошибки со средним значением результативного признака:
Так как это соотношение меньше установленного для него нормативного ограничения в 10 – 15%, то уравнение регрессии признается адекватным, т.е. достаточно точно описывающим связь между стажем работы рабочих сельскохозяйственных предприятий и уровнем их заработной платы.
Вывод о целесообразности
использования линейной функции в
качестве аппроксимирующей, подтверждается
также выполнением неравенства
.
Пример построения однофакторной модели связи, и ее интерпретация при криволинейной зависимости были рассмотрены нами ранее по данным 15-ти сельскохозяйственных предприятий района об объеме производства зерна и его производственной себестоимости (см. стр. 30 – 35).
Расчет теоретических значений результативного признака, построение теоретической линии связи и порядок оценки адекватности нелинейных уравнений регрессии аналогичны рассмотренным выше для линейных моделей связи.