7 Пояснения по выполнению контрольной работы
При решении задачи 1 необходимо руководствоваться следующим алгоритмом решения, приведенным ниже.
Для нахождения параметров а и b парной линейной регрессии у=а+bх используют метод наименьших квадратов (МНК), который заключается в решении системы нормальных уравнений относительно а и b:
(1)
Для нахождения параметров а и b необходимо воспользоваться следующими формулами:
b=
,
(2)
где
=
-
(3)
a=ӯ-b
.
(4)
А также произвести вспомогательные расчеты в таблице 5.
Таблица 5 – Вспомогательные расчеты
№ предприятия |
х |
у |
х∙у |
х2 |
у2 |
1 |
? |
? |
? |
? |
? |
2 |
? |
? |
? |
? |
? |
3 |
? |
? |
? |
? |
? |
4 |
? |
? |
? |
? |
? |
5 |
? |
? |
? |
? |
? |
6 |
? |
? |
? |
? |
? |
7 |
? |
? |
? |
? |
? |
8 |
? |
? |
? |
? |
? |
9 |
? |
? |
? |
? |
? |
10 |
? |
? |
? |
? |
? |
11 |
? |
? |
? |
? |
? |
12 |
? |
? |
? |
? |
? |
∑ |
? |
? |
? |
? |
? |
Среднее значение |
? |
? |
? |
? |
? |
Уравнение регрессии всегда дополняется расчетом показателя тесноты связи. В линейных регрессиях в качестве такого показателя выступает линейный коэффициент корреляции, который рассчитывается по формуле:
=b
=
,
(5)
где
,
σy=
.
(6)
Если
коэффициент регрессии b
0,
то 0≤
≤1,
и, наоборот, при b<0
-1≤
≤0.
Для оценки качества подбора линейной функции рассчитывается квадрат линейного коэффициента корреляции, который называется коэффициентом детерминации, характеризующим долю дисперсии результативного признака у, объясняемую регрессией, в общей дисперсии результативного признака.
Чем больше доля объясненной вариации, тем меньше роль прочих факторов, и, следовательно, линейная модель хорошо аппроксимирует исходные данные. И соответственно ею можно воспользоваться для прогноза значений результативного признака. Чем ближе коэффициент детерминации к 1, тем в большей степени уравнение регрессии пригодно для прогнозирования.
Для того, чтобы иметь общее представление о качестве модели из относительных отклонений по каждому наблюдению, находят среднюю ошибку аппроксимации как среднюю арифметическую простую:
=
.
(7)
Ошибка аппроксимации, находящаяся в пределах 5-7 %, свидетельствует о хорошем подборе модели к исходным данным.
В линейной регрессии оценивается значимость не только уравнения в целом, но и отдельных его параметров.
Для этого по каждому из параметров определяется его стандартная ошибка, а также и для коэффициента корреляции: sa и sb, sr.
Стандартные ошибки коэффициентов регрессии (sa, sb) и коэффициента корреляции sr определяются соотношениями:
sb=
=
=
.
(8)
sa=
=
=sост
,
(9)
где s2ост - несмещенная оценка остаточной дисперсии.
s2ост=
.
(10)
sr=
.
(11)
Отношение коэффициента регрессии к его стандартной ошибке дает t-статистику при (n-2) степенях свободы, которую используют для проверки статистической значимости коэффициента регрессии и для расчета его доверительных интервалов.
Для оценки значимости коэффициента регрессии его величину сравнивают с его стандартной ошибкой, таким образом, определяя расчетное значение t-критерия Стьюдента:
ta=
,
(12)
tb=
,
(13)
tr=
,
(14)
которое затем сравнивают с табличным значением (приложение Б) при определенном уровне значимости α и числе степеней свободы df=n-2.
Для расчета доверительных интервалов для параметров а и b необходимо определить предельную ошибку для каждого параметра:
Δа=tт∙sa, Δb= tт∙sb. (15)
Доверительные интервалы имеют вид:
γa=a
Δa,
(16)
γb=b Δb. (17)
Анализ верхних и нижних границ доверительного интервала позволяет сделать вывод о том, что с вероятностью р=1-α параметры и b принимают или не принимают нулевых значений, и, соответственно, не являются или являются статистически незначимыми.
Полученные оценки уравнения регрессии используются для его прогноза.
Подставляя прогнозное значение в полученное уравнение регрессии, находим точечный прогноз.
Чтобы получить интервальный прогноз, необходимо рассчитать стандартную ошибку предсказываемого значения исследуемого показателя myp:
myp=Sост
(18)
Предельная ошибка прогнозируемой величины рассчитывается как
Δур=tа∙myp. (19)
Доверительный интервал прогнозируемой величины составит
ур=ур Δур. (20)
При решении задачи 2 необходимо производить расчеты в следующей последовательности.
Первоначально по элементам динамического ряда строится график для исследования характера варьирования показателя во времени.
Если графическое построение не дает возможности однозначно установить закономерность изменения признака, то на следующем этапе расчетов применяют различные статистические методы обработки данных (сглаживание по скользящей средней, определение последовательных разностей и др.), позволяющие упростить конфигурацию исходной кривой.
Цель сглаживания временного ряда заключается в получении ряда с меньшим разбросом уровней, что в ряде случаев позволяет на основе визуального анализа сделать вывод о наличии тенденции, ее характерных особенностях и модели развития явления
Сглаживание временного ряда по методу простой скользящей средней заключается в замене исходных уровней ряда yt сглаженными значениями y′t, которые получаются как среднее значение определенного числа уровней исходного ряда, симметрично окружающих значение yt.
В результате получается временной ряд y′t, меньше подверженный колебаниям.
Для вычисления сглаженных значений y′t по методу простой скользящей средней используются следующие формулы:
1. Нечетный интервал сглаживания (интервал сглаживания - количество исходных уровней ряда (yt), используемых для сглаживания):
=
=
,
(21)
где уt - фактическое значение уровня исходного ряда в момент t;
y′t - значение скользящей средней в момент t;
(2р+1) - длина интервала сглаживания.
Формула (20) при интервалах сглаживания, равных трем и пяти соответственно, принимает вид:
=
,
(22)
=
.
(23)
2. Четный интервал сглаживания:
=
(24)
Для задачи 2 необходимо использовать трехлетние скользящие средние.
Результаты расчета сводим в таблицу 6.
Таблица 6 - Результаты расчета трехлетних скользящих средних
Временные отрезки области исследования, t |
Потребление овощей по области, yt |
Скользящие трехлетние суммы, ∑уt |
Скользящие трехлетние средние |
1 |
? |
- |
- |
2 |
? |
? |
? |
3 |
? |
? |
? |
4 |
? |
? |
? |
5 |
? |
? |
? |
6 |
? |
? |
? |
7 |
? |
? |
? |
8 |
? |
? |
? |
9 |
? |
- |
- |
Затем строится график анализируемого показателя на основании рассчитанных значений трехлетних скользящих средних (по оси ординат отмечаем временные промежутки, по оси абсцисс – анализируемый показатель).
Далее, исходя из теоретических соображений, выявляется форма зависимости анализируемого показателя и общий вид модели – тренд (ŷt=f(t)).
Для расчета параметров выбранного вида модели воспользуемся методом наименьших квадратов, суть которого заключается в построении и решении системы нормальных уравнений.
Система нормальных уравнений имеет вид:
(25)
Чтобы решить данную систему производятся вспомогательные расчеты в таблице 7.
Таблица 7 – Вспомогательные расчеты
|
t |
yt |
yt∙t |
t2 |
ŷt |
1 |
2 |
3 |
4 |
5 |
|
1 |
? |
? |
? |
? |
|
2 |
? |
? |
? |
? |
|
3 |
? |
? |
? |
? |
|
4 |
? |
? |
? |
? |
|
5 |
? |
? |
? |
? |
|
6 |
? |
? |
? |
? |
|
7 |
? |
? |
? |
? |
|
8 |
? |
? |
? |
? |
|
9 |
? |
? |
? |
? |
|
∑ |
? |
? |
? |
? |
? |
Для оценки правильности выбора аналитической зависимости используется показатель F-критерий Фишера, основанный на применении методов дисперсионного анализа, позволяющих установить связь между явлениями по результатам изучения их вариации.
Расчетное значение F-критерия Фишера определяется по следующей формуле:
Fр=Dt2/Dост2, (26)
где Dt2 – факториальная дисперсия, измеряющая вариацию зависимой переменной уt за счет изменения t;
Dост2 – остаточная дисперсия, характеризующая отклонения между исходными и расчетными значениями переменной уt;
где
Dt2=
,
(27)
Dост2=
,
(28)
где
– среднее арифметическое значение
признака;
N – число параметров выбранной модели;
n – число временных отрезков исследования;
(N-1), (n-N) – число степеней свободы.
Для вычисления F-критерия произведем вспомогательные расчеты, которые сведем в таблицу 8.
Таблица 8 – Вспомогательные расчеты
t |
yt |
ŷt |
|
(yt-ŷt) |
|
|
|
1 |
? |
? |
? |
? |
? |
? |
? |
2 |
? |
? |
? |
? |
? |
? |
? |
3 |
? |
? |
? |
? |
? |
? |
? |
4 |
? |
? |
? |
? |
? |
? |
? |
5 |
? |
? |
? |
? |
? |
? |
? |
6 |
? |
? |
? |
? |
? |
? |
? |
7 |
? |
? |
? |
? |
? |
? |
? |
8 |
? |
? |
? |
? |
? |
? |
? |
9 |
? |
? |
? |
? |
? |
? |
? |
∑ |
- |
- |
- |
- |
- |
? |
? |
Примечание
- ӯt – средняя арифметическая
простая, которая рассчитывается по
формуле: ӯt= |
|||||||
Правильность выбора уравнения тренда определяется путем сравнения F-критерия Фишера с табличными значениями данного показателя (приложение А). Табличное значение критерия устанавливается для k1=N-1 и k2=n-N степеней свободы. Если расчетное значение показателя окажется больше табличного (Fp>Fт), то уравнение тренда можно использовать для описания тенденции. Если же Fp<Fт, то вывод о применимости уравнения регрессии следует считать необоснованным.
Для определения статистической значимости параметров уравнения тренда необходимо рассчитать доверительную зону выборочной линии регрессии.
В связи с этим следует оценить значимость параметров а0 и a1, определив их случайные ошибки. Случайные ошибки параметров (а0 и а1) определяются по формулам:
=Dост
,
(29)
=
,
(30)
Dост=
.
(31)
Для того, чтобы установить, насколько велики расхождения между параметрами уравнений, а также оценки статистической значимости параметров выбранной модели, рассчитываем t-критерий Стьюдента.
Расчетные значения t-критерия определяется для каждого параметра:
=
,
(32)
где
– i-е
параметры модели;
– случайные
ошибки i-х
параметров.
Расчетные значения tр сопоставляются с соответствующими табличными величинами tт (приложение Б), найденными для k=n-2 степеней свободы и принятой доверительной вероятности 0,95 либо 0,99 (для задачи 2 использовать 0,99; т. е. α=0,01). Если tр> tт, то параметры уравнения регрессии считаются статистически значимыми и могут применяться для отображения тенденции переменной у. Если же tр< tт, то возможность несовпадения закономерностей весьма велика.
Для того, чтобы построить доверительную зону исследуемого показателя в графической форме, необходимо для каждого значения t определить ординаты точек на верхних и нижних граничных кривых (уtв, уtн), после чего точки соединяются плавными линиями.
ŷtв(н)=ŷt Δt, (33)
где ŷtв(н) – соответственно ординаты на верхних и нижних граничных кривых доверительной зоны;
ŷt – расчетное значение признака при вариации аргумента в рамках области исследования;
Δt – доверительные интервалы, которые определяются по следующей формуле
Δt=tт∙Dост
,
(34)
где tт – табличное значение t-критерия Стьюдента.
Расчет ординат точек, расположенных на верхних и нижних граничных кривых, выполним в таблице 9.
Таблица 9 - Расчет ординат точек, расположенных на верхних и нижних граничных кривых
t |
ŷt |
Δtt |
ytв |
уtн |
1 |
? |
? |
? |
? |
2 |
? |
? |
? |
? |
3 |
? |
? |
? |
? |
4 |
? |
? |
? |
? |
5 |
? |
? |
? |
? |
6 |
? |
? |
? |
? |
7 |
? |
? |
? |
? |
8 |
? |
? |
? |
? |
9 |
? |
? |
? |
? |
На основании расчетов строится линия регрессии (ŷt=а0+а1t) и доверительная зона линии регрессии.
Доверительные
интервалы для индивидуальных значений
признака определяются по следующим
соотношениям, предварительно рассчитав
на указанный момент времени
и ∑t2:
=
ŷt
Δ′t,
(35)
где
Δ′t=
tт∙Dост
(36)
