Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Afonin_Tamozhennaya_Statistika

.pdf
Скачиваний:
292
Добавлен:
29.03.2016
Размер:
1.44 Mб
Скачать

{(xi,yi), i=1,2,...,n} необходимо определить аналитическую зависимость ŷ=f(x), наилучшим образом описывающую данные наблюдений.

Построение уравнения регрессии осуществляется в два этапа (предполагает решение двух задач):

спецификация модели (определение вида аналитической зависимости (ŷ=f(x));

оценка параметров выбранной модели.

Спецификация модели

Парная регрессия применяется, если имеется доминирующий фактор, который и используется в качестве объясняющей переменной.

Применяется три основных метода выбора вида аналитической зависимости:

графический (на основе анализа поля корреляций);

аналитический, т. е. исходя из теории изучаемой взаимосвя-

зи;

– экспериментальный, т. е. путем сравнения величины оста-

точной дисперсии Dост или средней ошибки аппроксимации A , рассчитанных для различных моделей регрессии (метод перебора).

Понятие «свободные» или «независимые переменные» (x1, x2, …, xn) во многих случаях не соответствует реальной ситуации: «независимые переменные» могут быть зависимы и влиять одна на другую. Часто термин «независимые переменные» используется в другом контексте: это переменные, значения которых в процессе определения отклика, могут устанавливаться произвольно, независимо.

101

Оценка параметров модели

Уравнение парной линейной зависимости:

yˆ a bx

(7.1)

 

называется уравнением парной линейной регрессии, где:

yˆ – среднее значение результата при определенном значении фак-

торного признака; а – свободный член уравнения; b – коэффициент регрессии, измеряющий вариацию результата у, приходящуюся на единицу вариации фактора х.

Для оценки параметров модели регрессии выбирается определенный метод. Наиболее эффективным методом оценивания параметров рассматриваемой модели является метода наименьших квадратов.

Метод наименьших квадратов обеспечивает наименьшую сумму квадратов отклонения фактических значений результата (уi) от теоретических значений результата ( yˆi ) которые были по-

лучены по уравнению связи:

yi yˆi 2 min

или

f a,b yi a bxi 2 min

i

Рассмотрим необходимые условия минимума функции f(a,b):

f a,b 0 ;

 

 

 

f a,b

0

a

 

 

 

b

 

Рассмотрим первое условие:

 

 

 

f a,b 2

 

y

i

a bx 1 0

a

 

i

 

i

 

 

 

 

 

 

102

 

Разделив обе части уравнения на ненулевое значение (-2n),

получим:

 

 

 

 

 

 

 

 

 

 

 

yi

 

 

a

 

 

xi

 

 

или, учитывая, что a na ,

 

 

i

 

 

i

 

b

 

i

 

0

 

 

n

 

n

 

n

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

получим

 

y a bx 0 ,

 

 

 

 

 

 

 

 

 

тогда a y bx

Рассмотрим второе условие:

 

 

 

 

 

 

f a,b

2 yi

a bxi xi 0

 

 

 

 

 

b

 

 

i

 

Разделив обе части уравнения на ненулевое значение (-2n),

получим:

 

 

 

 

 

 

 

 

 

 

 

 

xi yi

 

 

 

xi

 

 

xi2

 

 

 

i

 

 

a

 

i

b

 

i

0 , подставляя значение а из

 

 

n

 

 

 

n

 

n

 

 

 

 

 

 

 

 

 

первого условия,

xy y bx x b x2 0 или xy x y b x 2 b x2 0

откуда b

xy x y

x2 x 2

Таким образом, коэффициенты линейного уравнения регрессии могут быть найдены из системы:

b

 

 

x y

 

xy

 

 

 

 

 

 

x2 x 2

 

 

(7.2)

 

 

 

 

a y bx

 

 

 

 

 

103

Свободный член а уравнения отражает влияние прочих факторов, не включенных в уравнение. Отрицательность этого фактора отражает то, что совокупное влияние прочих факторов противоположно направлено по сравнению с этим фактором.

Коэффициент регрессии b говорит о том, что при измерении факторного признака на единицу своего значения от своей средней происходит изменение результирующего признака в ту же сторону от своего среднего значения в используемых единицах измерения.

Однако для сравнительного анализа силы связи разных признаков коэффициент регрессии b использовать нельзя, т.к. его величина зависит от единиц измерения признаков, поэтому для сравнительной характеристики силы связи признаков используют другой показатель – коэффициент эластичности.

Эxy f

 

x

(7.3)

 

x

y

 

 

 

Коэффициент эластичности выражается в процентах и объясняется следующим образом: при изменении факторного признака на 1% от своей средней результат у изменяется на величину коэффициента эластичности от своей средней. Для линейной регрессии коэффициент эластичности равен:

Эxy b xy

По полученному уравнению регрессии можно определить теоретическое значение результата, для чего нужно в построенное уравнение подставить фактическое значение факторного признака.

7.4. ПОКАЗАТЕЛИ ТЕСНОТЫ ПАРНОЙ ЛИНЕЙНОЙ ЗАВИСИМОСТИ

И ИХ ИНТЕРПРЕТАЦИЯ

Наличие связи между двумя признаками называется парной корреляцией. Пусть y – анализируемый показатель; x – фактор,

104

под влиянием которого изменяется y. Первым шагом в проведении исследования является построение специального графика,

называемого корреляционным полем или диаграммой рассеяния,

где на оси абсцисс откладывается значение x, по оси ординат – y, а точки соответствуют сочетаниям первичных наблюдений x и y. По расположению точек, по их концентрации в определенном направлении можно судить о наличии связи.

Показателями тесноты парной линейной зависимости являются линейный коэффициент корреляции и коэффициент детерминации.

Коэффициент корреляции:

rxy b x

y

 

 

 

 

y

 

 

y 2

 

 

x 2

x

 

y2

x2

Тесноту связи между признаками оценивают по следующему правилу:

связь весьма тесная, если rxy 0.9

связь тесная, если 0.7 rxy 0.9 ;

связь умеренная, если 0.5 rxy 0.7 ;

связь слабая, если rxy 0.5 .

Существует несколько альтернативных определений коэффициента детерминации, однако в случае линейной регрессии он равен квадрату коэффициента корреляции.

Коэффициент детерминации rxy2 выражается в процентах и

показывает, какая доля дисперсии результативного признака объясняется влиянием независимых переменных. В случае линейной регрессии коэффициент детерминации показывает долю вариации результата y, обуславливаемую вариацией фактора x.

105

7.5. ОЦЕНКА ЗНАЧИМОСТИ УРАВНЕНИЯ РЕГРЕССИИ

Прежде чем использовать полученное уравнение регрессии в дальнейшем анализе оценивают существенность изучаемой связи и качество построенного уравнения регрессии. Оценка существенности связи проводится по F-критерию Фишера.

F-критерий Фишера заключается в проверке гипотезы Но о статистической незначимости уравнения регрессии. Для этого выполняется сравнение фактического Fфакт и критического (табличного) Fтабл значений F-критерия Фишера.

Fфакт определяется из соотношения значений факторной и остаточной дисперсий, рассчитанных на одну степень свободы:

 

2

 

 

yˆ y 2

 

 

ˆ

2

 

 

 

 

 

 

m

 

 

n m 1

 

Fфакт

факт

 

 

 

 

y y

 

 

,

ост2

 

 

y yˆ 2

y yˆ 2

m

 

 

 

 

 

 

 

 

 

 

n m 1

 

 

 

 

 

 

 

 

где n – число единиц совокупности; m – число степеней свободы. Для линейной регрессии m=1. Fтабл – максимально возможное значение критерия под влиянием случайных факторов при степенях свободы k1 = m, k2 = n – m – 1 (для линейной регрессии m = 1) и уровне значимости α.

Уровень значимости α – вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно величина α принимается равной 0,05 или 0,01.

Если Fтабл < Fфакт, то Н0-гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистиче-

ская значимость и надежность. Если Fтабл > Fфакт, то гипотеза Н0 не отклоняется и признается статистическая незначимость, нена-

дежность уравнения регрессии.

106

Средняя ошибка аппроксимации – среднее относительное от-

клонение расчетных значений от фактических:

 

 

 

 

 

 

yˆ

 

 

 

 

 

1

n

y

i

i

 

 

 

 

 

А

 

i 1

 

 

 

100%

n

 

 

y

 

Построенное уравнение регрессии считается удовлетвори-

тельным, если значение A не превышает 10-12%.

Причиной недостатка хорошего качества уравнения является несоответствие формы связи линейной.

7.6. ТОЧЕЧНЫЙ И ИНТЕРВАЛЬНЫЙ ПРОГНОЗ ПО УРАВНЕНИЮ ЛИНЕЙНОЙ РЕГРЕССИИ

Точечный прогноз заключается в получении прогнозного значения уp, которое определяется путем подстановки в уравнение регрессии yˆ a bx соответствующего (прогнозного) значения

xp:

уp = a + b·xp.

Интервальный прогноз заключается в построении доверительного интервала прогноза, т. е. нижней и верхней границ уpmin , уpmax интервала, содержащего точную величину для прогнозного

значения ŷp ( y p min yˆ p y p max ). Доверительный интервал всегда определяется с заданной вероятностью (степенью уверенности), соответствующей принятому значению уровня значимости α. Предварительно вычисляется стандартная ошибка прогноза myˆ p :

 

 

 

 

 

 

 

1

 

x p x 2

myˆ p ост

1

 

 

 

,

n

x x 2

 

107

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где ост

 

 

y yˆ 2

 

 

 

,

 

 

 

 

 

 

n m 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

и затем строится доверительный интервал прогноза, т. е.

определяются нижняя yˆ

pmin

 

и верхняя yˆ

pmax

границы интерва-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ла прогноза:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

yˆ

pmin

yˆ p yˆ

p

;

yˆ

pmax

yˆ p yˆ

p

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где yˆ

p

tтабл myˆ

p

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

7.7. ПОСТРОЕНИЕ ПАРНОГО НЕЛИНЕЙНОГО УРАВНЕНИЯ

Для нелинейных уравнений регрессии, приводимых к линейным с помощью преобразования (x, y) → (x’, y’), система нормальных уравнений имеет вид (4.2) в преобразованных перемен-

ных x’, y’.

Степенная функция: yˆ x a xb

Линеаризация данного уравнения осуществляется путем логарифмирования обеих частей:

ln yˆ x ln a xb ;

 

 

 

 

ln yˆx ln a bln x ;

 

x' ln x ; y' ln y ;

a' ln a .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

b

 

x' y' x' y'

 

ln x ln y ln x ln y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x' 2

 

 

 

 

 

2

 

 

x'2

 

 

ln x 2

 

 

ln x

a' ln y bln y

108

Рассчитав a’ необходимо в интересах дальнейшего прогнозирования перейти к коэффициенту a исходного степенного уравнения: a ea' .

Коэффициент эластичности для степенного уравнения регрессии с учетом выражения (7.3) будет иметь вид:

 

 

x

 

abxb 1 x

 

Эxy f

x

 

 

 

b

y

a xb

 

 

 

 

Таким образом, коэффициент b степенного регрессионного уравнения является коэффициентом эластичности для данной формы связи переменных.

Для нелинейных уравнений регрессии вместо линейного коэффициента парной корреляции рассчитывается индекс корреляции:

 

 

 

 

 

 

 

 

 

 

 

 

y yˆ

2

 

 

 

 

 

 

xy

1

 

 

1

ост2

.

y y

2

 

факт2

 

 

 

 

 

 

 

0 xy 1

Долю дисперсии, объясняемой регрессией, в общей дисперсии результативного признака y для нелинейного уравнения связи

характеризует индекс детерминации R2 xy2 .

Значимость нелинейного уравнения связи также определяется по F-критерию Фишера. Фактическое значение критерия Fфакт определяется по формуле:

F

 

 

R2

 

n m 1

 

 

 

 

факт

1

R2

 

m

 

 

Fтабл определяется из таблицы при степенях свободы k1 = m, k2 = n – m – 1 (для рассматриваемой степенной регрессии m = 1) и уровне значимости α. Если Fтабл < Fфакт, то признается статистическая значимость и надежность оцениваемых характеристик. Если

109

Fтабл > Fфакт, то признается статистическая незначимость, ненадежность уравнения регрессии.

Наряду с F-критерием Фишера для оценки нелинейного уравнения регрессии можно использовать среднюю ошибку ап-

проксимации A .

Прогноз и оценка прогноза по нелинейному уравнению регрессии проводится аналогично линейному уравнению регрессии.

Пример. Рассмотреть и оценить взаимосвязь для одной исследуемой субпозиции ТН ВЭД ТС между факторами: вес одного упаковочного места (в кг) и относительно разности между весом брутто-нетто (РБН). По имеющимся данным построить прогноз, выполнить его оценку. Показатель РБН рассчитывается по формуле:

РБН = (вес брутто – вес нетто) / вес брутто · 100%.

Результаты эмпирического распределения исследуемых признаков для товарной подсубпозиции 1605209100 ТН ВЭД ТС «ва- рено-мороженые креветки» представлены в табл. 7.1.

Таблица 7.1.

Результаты эмпирического распределения исследуемых признаков

Вес

 

 

места

 

РБН

x

 

y

5

 

6,2

6

 

7,9

7

 

8,3

8

 

6,6

9

 

7,5

11

 

9,0

12

 

10,5

 

110

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]