Afonin_Tamozhennaya_Statistika
.pdf{(xi,yi), i=1,2,...,n} необходимо определить аналитическую зависимость ŷ=f(x), наилучшим образом описывающую данные наблюдений.
Построение уравнения регрессии осуществляется в два этапа (предполагает решение двух задач):
–спецификация модели (определение вида аналитической зависимости (ŷ=f(x));
–оценка параметров выбранной модели.
Спецификация модели
Парная регрессия применяется, если имеется доминирующий фактор, который и используется в качестве объясняющей переменной.
Применяется три основных метода выбора вида аналитической зависимости:
–графический (на основе анализа поля корреляций);
–аналитический, т. е. исходя из теории изучаемой взаимосвя-
зи;
– экспериментальный, т. е. путем сравнения величины оста-
точной дисперсии Dост или средней ошибки аппроксимации A , рассчитанных для различных моделей регрессии (метод перебора).
Понятие «свободные» или «независимые переменные» (x1, x2, …, xn) во многих случаях не соответствует реальной ситуации: «независимые переменные» могут быть зависимы и влиять одна на другую. Часто термин «независимые переменные» используется в другом контексте: это переменные, значения которых в процессе определения отклика, могут устанавливаться произвольно, независимо.
101
Оценка параметров модели
Уравнение парной линейной зависимости:
yˆ a bx |
(7.1) |
|
называется уравнением парной линейной регрессии, где:
yˆ – среднее значение результата при определенном значении фак-
торного признака; а – свободный член уравнения; b – коэффициент регрессии, измеряющий вариацию результата у, приходящуюся на единицу вариации фактора х.
Для оценки параметров модели регрессии выбирается определенный метод. Наиболее эффективным методом оценивания параметров рассматриваемой модели является метода наименьших квадратов.
Метод наименьших квадратов обеспечивает наименьшую сумму квадратов отклонения фактических значений результата (уi) от теоретических значений результата ( yˆi ) которые были по-
лучены по уравнению связи:
yi yˆi 2 min
или
f a,b yi a bxi 2 min
i
Рассмотрим необходимые условия минимума функции f(a,b): |
|||||
f a,b 0 ; |
|
|
|
f a,b |
0 |
a |
|
|
|
b |
|
Рассмотрим первое условие: |
|
|
|
||
f a,b 2 |
|
y |
i |
a bx 1 0 |
|
a |
|
i |
|
||
i |
|
|
|
|
|
|
|
102 |
|
Разделив обе части уравнения на ненулевое значение (-2n),
получим: |
|
|
|
|
|
|
|
|
|
|
||
|
yi |
|
|
a |
|
|
xi |
|
|
или, учитывая, что a na , |
||
|
|
i |
|
|
i |
|
b |
|
i |
|
0 |
|
|
|
n |
|
n |
|
n |
||||||
|
|
|
|
|
|
|
|
|
i |
|||
|
|
|
|
|
|
получим |
|
y a bx 0 , |
||||
|
|
|
|
|
|
|
|
|
тогда a y bx |
|||
Рассмотрим второе условие: |
|
|||||||||||
|
|
|
|
|
f a,b |
2 yi |
a bxi xi 0 |
|||||
|
|
|
|
|
b |
|
|
i |
|
|||
Разделив обе части уравнения на ненулевое значение (-2n), |
||||||||||||
получим: |
|
|
|
|
|
|
|
|
|
|
||
|
|
xi yi |
|
|
|
xi |
|
|
xi2 |
|
||
|
|
i |
|
|
a |
|
i |
b |
|
i |
0 , подставляя значение а из |
|
|
|
n |
|
|
|
n |
|
n |
||||
|
|
|
|
|
|
|
|
|
первого условия,
xy y bx x b x2 0 или xy x y b x 2 b x2 0
откуда b
xy x y
x2 x 2
Таким образом, коэффициенты линейного уравнения регрессии могут быть найдены из системы:
b |
|
|
x y |
|
xy |
|
|||
|
|
|
|
|
|
x2 x 2 |
|
||
|
(7.2) |
|||
|
|
|
|
|
a y bx |
|
|||
|
|
|
|
103 |
Свободный член а уравнения отражает влияние прочих факторов, не включенных в уравнение. Отрицательность этого фактора отражает то, что совокупное влияние прочих факторов противоположно направлено по сравнению с этим фактором.
Коэффициент регрессии b говорит о том, что при измерении факторного признака на единицу своего значения от своей средней происходит изменение результирующего признака в ту же сторону от своего среднего значения в используемых единицах измерения.
Однако для сравнительного анализа силы связи разных признаков коэффициент регрессии b использовать нельзя, т.к. его величина зависит от единиц измерения признаков, поэтому для сравнительной характеристики силы связи признаков используют другой показатель – коэффициент эластичности.
Эxy f |
|
x |
(7.3) |
|
|||
x |
y |
||
|
|
|
Коэффициент эластичности выражается в процентах и объясняется следующим образом: при изменении факторного признака на 1% от своей средней результат у изменяется на величину коэффициента эластичности от своей средней. Для линейной регрессии коэффициент эластичности равен:
Эxy b xy
По полученному уравнению регрессии можно определить теоретическое значение результата, для чего нужно в построенное уравнение подставить фактическое значение факторного признака.
7.4. ПОКАЗАТЕЛИ ТЕСНОТЫ ПАРНОЙ ЛИНЕЙНОЙ ЗАВИСИМОСТИ
И ИХ ИНТЕРПРЕТАЦИЯ
Наличие связи между двумя признаками называется парной корреляцией. Пусть y – анализируемый показатель; x – фактор,
104
под влиянием которого изменяется y. Первым шагом в проведении исследования является построение специального графика,
называемого корреляционным полем или диаграммой рассеяния,
где на оси абсцисс откладывается значение x, по оси ординат – y, а точки соответствуют сочетаниям первичных наблюдений x и y. По расположению точек, по их концентрации в определенном направлении можно судить о наличии связи.
Показателями тесноты парной линейной зависимости являются линейный коэффициент корреляции и коэффициент детерминации.
Коэффициент корреляции:
rxy b x
y
|
|
|
|
y |
|
|
y 2 |
|
|
x 2 |
|||||
x |
|
y2 |
|||||
x2 |
Тесноту связи между признаками оценивают по следующему правилу:
связь весьма тесная, если rxy 0.9
связь тесная, если 0.7 rxy 0.9 ;
связь умеренная, если 0.5 rxy 0.7 ;
связь слабая, если rxy 0.5 .
Существует несколько альтернативных определений коэффициента детерминации, однако в случае линейной регрессии он равен квадрату коэффициента корреляции.
Коэффициент детерминации rxy2 выражается в процентах и
показывает, какая доля дисперсии результативного признака объясняется влиянием независимых переменных. В случае линейной регрессии коэффициент детерминации показывает долю вариации результата y, обуславливаемую вариацией фактора x.
105
7.5. ОЦЕНКА ЗНАЧИМОСТИ УРАВНЕНИЯ РЕГРЕССИИ
Прежде чем использовать полученное уравнение регрессии в дальнейшем анализе оценивают существенность изучаемой связи и качество построенного уравнения регрессии. Оценка существенности связи проводится по F-критерию Фишера.
F-критерий Фишера заключается в проверке гипотезы Но о статистической незначимости уравнения регрессии. Для этого выполняется сравнение фактического Fфакт и критического (табличного) Fтабл значений F-критерия Фишера.
Fфакт определяется из соотношения значений факторной и остаточной дисперсий, рассчитанных на одну степень свободы:
|
2 |
|
|
yˆ y 2 |
|
|
ˆ |
2 |
|
|
|
|
||
|
|
m |
|
|
n m 1 |
|
||||||||
Fфакт |
факт |
|
|
|
|
y y |
|
|
, |
|||||
ост2 |
|
|
y yˆ 2 |
y yˆ 2 |
m |
|
||||||||
|
|
|
|
|
|
|||||||||
|
|
|
n m 1 |
|
|
|
|
|
|
|
|
где n – число единиц совокупности; m – число степеней свободы. Для линейной регрессии m=1. Fтабл – максимально возможное значение критерия под влиянием случайных факторов при степенях свободы k1 = m, k2 = n – m – 1 (для линейной регрессии m = 1) и уровне значимости α.
Уровень значимости α – вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно величина α принимается равной 0,05 или 0,01.
Если Fтабл < Fфакт, то Н0-гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистиче-
ская значимость и надежность. Если Fтабл > Fфакт, то гипотеза Н0 не отклоняется и признается статистическая незначимость, нена-
дежность уравнения регрессии.
106
Средняя ошибка аппроксимации – среднее относительное от-
клонение расчетных значений от фактических:
|
|
|
|
|
|
yˆ |
|
|
|
|
|
|
1 |
n |
y |
i |
i |
|
|
||
|
|
|
||||||||
А |
|
i 1 |
|
|
|
100% |
||||
n |
|
|
y |
|
Построенное уравнение регрессии считается удовлетвори-
тельным, если значение A не превышает 10-12%.
Причиной недостатка хорошего качества уравнения является несоответствие формы связи линейной.
7.6. ТОЧЕЧНЫЙ И ИНТЕРВАЛЬНЫЙ ПРОГНОЗ ПО УРАВНЕНИЮ ЛИНЕЙНОЙ РЕГРЕССИИ
Точечный прогноз заключается в получении прогнозного значения уp, которое определяется путем подстановки в уравнение регрессии yˆ a bx соответствующего (прогнозного) значения
xp:
уp = a + b·xp.
Интервальный прогноз заключается в построении доверительного интервала прогноза, т. е. нижней и верхней границ уpmin , уpmax интервала, содержащего точную величину для прогнозного
значения ŷp ( y p min yˆ p y p max ). Доверительный интервал всегда определяется с заданной вероятностью (степенью уверенности), соответствующей принятому значению уровня значимости α. Предварительно вычисляется стандартная ошибка прогноза myˆ p :
|
|
|
|
|
|
||
|
1 |
|
x p x 2 |
||||
myˆ p ост |
1 |
|
|
|
, |
||
n |
x x 2 |
||||||
|
107 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
где ост |
|
|
y yˆ 2 |
|
|
|
, |
|
|
|
|
||||||
|
|
n m 1 |
|
|
|
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
и затем строится доверительный интервал прогноза, т. е. |
|||||||||||||||||
определяются нижняя yˆ |
pmin |
|
и верхняя yˆ |
pmax |
границы интерва- |
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
ла прогноза: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
yˆ |
pmin |
yˆ p yˆ |
p |
; |
yˆ |
pmax |
yˆ p yˆ |
p |
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
где yˆ |
p |
tтабл myˆ |
p |
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
7.7. ПОСТРОЕНИЕ ПАРНОГО НЕЛИНЕЙНОГО УРАВНЕНИЯ
Для нелинейных уравнений регрессии, приводимых к линейным с помощью преобразования (x, y) → (x’, y’), система нормальных уравнений имеет вид (4.2) в преобразованных перемен-
ных x’, y’.
Степенная функция: yˆ x a xb
Линеаризация данного уравнения осуществляется путем логарифмирования обеих частей:
ln yˆ x ln a xb ;
|
|
|
|
ln yˆx ln a bln x ; |
||||||||||||||||||
|
x' ln x ; y' ln y ; |
a' ln a . |
||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
b |
|
x' y' x' y' |
|
ln x ln y ln x ln y |
||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||
|
|
|
|
x' 2 |
|
|
|
|
|
2 |
||||||||||||
|
|
x'2 |
|
|
ln x 2 |
|||||||||||||||||
|
|
ln x |
a' ln y bln y
108
Рассчитав a’ необходимо в интересах дальнейшего прогнозирования перейти к коэффициенту a исходного степенного уравнения: a ea' .
Коэффициент эластичности для степенного уравнения регрессии с учетом выражения (7.3) будет иметь вид:
|
|
x |
|
abxb 1 x |
|
|
Эxy f |
x |
|
|
|
b |
|
y |
a xb |
|||||
|
|
|
|
Таким образом, коэффициент b степенного регрессионного уравнения является коэффициентом эластичности для данной формы связи переменных.
Для нелинейных уравнений регрессии вместо линейного коэффициента парной корреляции рассчитывается индекс корреляции:
|
|
|
|
|
|
|
|
|
|
|
|
y yˆ |
2 |
|
|
|
|
|
|
xy |
1 |
|
|
1 |
ост2 |
. |
|||
y y |
2 |
|
факт2 |
||||||
|
|
|
|
|
|
|
0 xy 1
Долю дисперсии, объясняемой регрессией, в общей дисперсии результативного признака y для нелинейного уравнения связи
характеризует индекс детерминации R2 xy2 .
Значимость нелинейного уравнения связи также определяется по F-критерию Фишера. Фактическое значение критерия Fфакт определяется по формуле:
F |
|
|
R2 |
|
n m 1 |
|
|
|
|
||
факт |
1 |
R2 |
|
m |
|
|
|
Fтабл определяется из таблицы при степенях свободы k1 = m, k2 = n – m – 1 (для рассматриваемой степенной регрессии m = 1) и уровне значимости α. Если Fтабл < Fфакт, то признается статистическая значимость и надежность оцениваемых характеристик. Если
109
Fтабл > Fфакт, то признается статистическая незначимость, ненадежность уравнения регрессии.
Наряду с F-критерием Фишера для оценки нелинейного уравнения регрессии можно использовать среднюю ошибку ап-
проксимации A .
Прогноз и оценка прогноза по нелинейному уравнению регрессии проводится аналогично линейному уравнению регрессии.
Пример. Рассмотреть и оценить взаимосвязь для одной исследуемой субпозиции ТН ВЭД ТС между факторами: вес одного упаковочного места (в кг) и относительно разности между весом брутто-нетто (РБН). По имеющимся данным построить прогноз, выполнить его оценку. Показатель РБН рассчитывается по формуле:
РБН = (вес брутто – вес нетто) / вес брутто · 100%.
Результаты эмпирического распределения исследуемых признаков для товарной подсубпозиции 1605209100 ТН ВЭД ТС «ва- рено-мороженые креветки» представлены в табл. 7.1.
Таблица 7.1.
Результаты эмпирического распределения исследуемых признаков
Вес |
|
|
места |
|
РБН |
x |
|
y |
5 |
|
6,2 |
6 |
|
7,9 |
7 |
|
8,3 |
8 |
|
6,6 |
9 |
|
7,5 |
11 |
|
9,0 |
12 |
|
10,5 |
|
110 |