- •Министерство образования российской федерации
- •Содержание Введение
- •Основы прогнозирования. Общие положения
- •Основные определения
- •Теоретико-методологические основы современного прогнозирования
- •Вопросы для самопроверки
- •Глава 2. Прогнозирование, основанное на методах математической статистики.
- •Раздел 2.1. Методы непосредственной экстраполяции Прогнозирование с использованием временных рядов
- •Сглаживание временного ряда
- •Метод скользящей средней
- •Метод конечных разностей
- •Подбор аналитической функции
- •Расчет возможной ошибки прогноза.
- •Порядок построения доверительной зоны
- •Вопросы для самопроверки
- •Раздел 2.2. Статистическое моделирование Общие положения
- •Авторегрессионные модели прогнозирования. Понятие авторегрессии
- •Определение порядка уравнения авторегрессии
- •Графический анализ исходных данных.
- •Исчисление автокорреляционной и частной автокорреляционной кривой.
- •Установление порядка прогнозирующей функции
- •Составление прогнозов с помощью уравнений авторегрессии
- •Вопросы для самоконтроля по теме
- •Задание
- •Экспертные методы прогнозирования.
- •Вопросы для самоконтроля
- •Методы нормативного прогнозирования
- •Метод сценариев
- •Вопросы для самоконтроля
- •Литература
Подбор аналитической функции
Представив в графическом виде данные, можно с помощью метода наименьших квадратов подобрать линию, в наибольшей степени соответствующую полученным данным и определить прогнозную величину исследуемого признака.
Замечание. Строго говоря подбор аналитической функции нельзя отнести к методу непосредственной экстраполяции. Ведь в данном случае происходит замена временного ряда некой подобранной функцией, т.е. ломаная линия заменяется непрерывной кривой, которую можно рассматривать как некую регрессивную функцию (или математическую статистическую модель). А это значит, что далее мы объединяем метод экстраполяции с методом статистического моделирования.
Рассмотрим метод наименьших квадратов, который находит применение как в экстраполяционных методах прогнозирования, так и в прогнозах с использованием статистического моделирования.
Суть метода наименьших квадратов (МНК) в том, чтобы подобрать параметры уравнения прогноза ўt = f(t) с таким расчетом, чтобы квадраты суммарных отклонений фактических значений ряда (yt) от найденных по статистической модели (ўt) были бы минимально возможными, то есть:
(yt - ўt)2 = min (2.9)
записав уравнение прямой в виде
ўt = a+bt
и подставив его в (2.9), получим:
(yt - a-bt)2 =min (2.10)
В рассматриваемом условии минимизации значения переменных yt и t за предпрогнозный период являются известными, а параметры a и b -неизвестными константами. Для их нахождения надо приравнять нулю частные производные от (2.10) по каждой искомой константе в отдельности. После соответствующих преобразований получают систему уравнений, которую называют нормальной. Для линейного тренда
ўt = a+bt
нормальные уравнения:
yt= na + bt,
(2.11)
ytt = at + bt2
Подставив в систему (2.11) имеющуюся исходную информацию (yt и t) рассчитываются параметры прогнозирующей функции а и b. Сомножитель n - длина временного ряда.
Также можно получить нормальные уравнения для квадратичного тренда ўt = a+bt+сt2, которые выглядят так:
yt=na+bt+сt2,
ytt =at + bt2 + сt3, (2.12)
ytt2 =at2 + bt3 + сt4,
Рассчитав все суммы и решив систему относительно а, b и с, получим уравнение параболического тренда.
Пример 2.4.. В таблице 2.3 представлены данные, характеризующие динамику выпуска продукции Финляндии ( млн долл.) за 17 лет. Провести расчет параметров линейного и экспоненциального тренда, построить графики ряда динамики и трендов.
Таблица 2.3
Условный год |
Объем выпуска продукции, млн долл. |
ytt |
t2 |
Линейный тренд |
1 |
14150 |
14150,00 |
1 |
9404,883 |
2 |
14004 |
28008,00 |
4 |
10928,023 |
3 |
13088 |
39264,00 |
9 |
12451,163 |
4 |
12518 |
50072,00 |
16 |
13974,303 |
5 |
13471 |
67355,00 |
25 |
15497,443 |
6 |
13617 |
81702,00 |
36 |
17020,583 |
7 |
16356 |
114492,00 |
49 |
18543,723 |
8 |
20037 |
160296,00 |
64 |
20066,863 |
9 |
21748 |
195732,00 |
81 |
21590,003 |
10 |
23298 |
232980,00 |
100 |
23113,143 |
11 |
26570 |
292270,00 |
121 |
24636,283 |
12 |
23080 |
276960,00 |
144 |
26159,423 |
13 |
23981 |
311753,00 |
169 |
27682,563 |
14 |
23446 |
328244,00 |
196 |
29205,703 |
15 |
29658 |
444870,00 |
225 |
30728,843 |
16 |
39573 |
633168,00 |
256 |
32251,983 |
17 |
38435 |
653395,00 |
289 |
33775,123 |
Итого |
367030 |
3924711 |
1785 |
367030,051 |
Для определения числовых значений констант уравнения (3.11) удобно пользоваться таблицей 2.3.
Определив все суммы и подставив их в систему нормальных уравнений
367030,0 = 17 a + b 153
3924711,0 = a 153 + b 1785
найдем свободный член уравнения a =7881,74 и коэффициент пропорциональности b = 1523,14. Таким образом, прогнозная модель имеет вид
ўt = 7881,74 +1523,14 t
Подставляя значения t=1,2…17, получим значения линейного тренда. Нанесем полученные данные на график (рис. 2.2). Из графика видно, что изменение выпуска продукции можно приблизить линейной зависимостью.
Рис. 2.2 Динамика выпуска продукции
В случаях, когда в качестве уравнения регрессии используются гиперболическая, экспоненциальная, степенная, логистическая и некоторые другие функции, процессу построения системы нормальных уравнений должен предшествовать процесс линеаризации кривой, осуществляемый с помощью замены переменных (табл.2.4)
Таблица 2.4
Функция |
Исходное уравнение |
Способы замены переменных |
Линеаризованное уравнение |
гиперболическая |
yt = a+b/t |
t’ =1/t |
yt’ = a+bt’ |
степенная |
yt=atb |
Lnt =t’ |
yt’ = a’+bt’ |
Экспоненциальная |
yt=aet |
Lna =a’; |
yt’ = a’+t’’ |
Логистическая |
yt=1/(a+be-t) |
|
yt’ = a’+bt’’ |
Простая модифицированная экспоненциальная |
yt=a-be-t |
e-t=t’ |
yt’ = a’-bt’’ |
Если для описания исходной кривой с равным основанием можно использовать несколько аналитических функций, то для выбора зависимости, наиболее точно отображающей наблюдаемую динамику, рекомендуется применять специальные статистические показатели. Наиболее распространенные из них: 2ост-остаточная дисперсия, ост-среднее квадратичное отклонение, V-коэффициент вариации, r- коэффициент линейной корреляции, Ry/t - индекс корреляции, d -коэффициент детерминации2. Первые три показателя связаны между собой:
2ост=(y –)2/n;
ост = ; V = ( ост/yср)100%
(здесь yср – средняя арифметическая yср=yt / n).
В качестве уравнения тренда следует использовать ту зависимость, у которой значения 2ост, ост, V - минимальны.
Индекс корреляции - дает относительную оценку степени близости тренда к точкам исходной кривой. Общее отклонение фактического значения переменной от среднего уровня можно представить как сумму двух слагаемых:
yt – yср=( yt – ) + (– yср),
или сокращенно
общ=ост+t,
где общ – (yt – yср) — отклонение, измеряющее общую вариацию за счет действия всех факторов;
ост=( yt – ) —остаточная вариация, характеризующая отклонение между исходным и расчетным значениями переменной yt;
t=(– yср) — отклонение значения функции от среднего уровня.
Если линия тренда подобрана удачно по отношению к точкам исходной кривой, то |yt-| 0. Следовательно:
Ry/t=t/общ=(общ-ост)/ общ=1-ост/общ (2.13)
По этому уравнению можно оценить близости исходной функции и уравнения регрессии. Чем значительнее разброс точек на графике, тем ниже значение Ry/t, и наоборот.
Формула (2.13) позволяет оценить расхождение для какого-то одного значения аргумента t. Для итоговой оценки надо просуммировать частные результаты по всем годам оцениваемого периода и для устранения влияния знаков отклонения возвести в квадрат. С учетом вышесказанного:
Ry/t=,(2.14)
где – 2общ=2 общ/n – общая дисперсия, измеряющая вариацию переменной за счет действия всех факторов;
2ост=2 ост/n – остаточная дисперсия, характеризующая отклонение между ихсодными и расчетными значениями переменной yt.
Показатель Ry/t принято называть индексом корреляции. Частный случай индекса корреляции - коэффициент линейной корреляции, который определяется для оценки силы связи при линейном взаимодействии признаков (=a+bt ). Он вычисляется по формуле (2.14) или по некоторым другим и принимает значения -1 r 1. Отрицательное значение r показывает на обратную связь между признаками, положительное - на прямую связь между ними.
Наряду с коэффициентом корреляции применяется коэффициент детерминации:
d=r2 (2.15)
Он показывает, какая часть общей колеблемости зависимой переменной yt объясняется действием фактор-аргумента t.
Пример 2.4. Используем исходные данные предыдущего примера (табл. 2.3) и построим экспоненциальный тренд.
Определим параметры a и b для экспоненциального тренда yt= a ebt .
Необходимо сделать замену переменных:
lnyt=lna+bt;
lnyt=yt’;
lna =a’;
Составим систему нормальных уравнений:
yt’=n a’ + bt,
yt’t = a’t + bt2
Результаты промежуточных вычислений запишем в таблице 2.5:
Таблица 2.5
Условный год |
Объем выпуска продукции, млн долл. |
lnyt |
lnyt t |
t2 |
Экспоненциальный тренд |
1 |
14150 |
9,56 |
9,56 |
1 |
11581,15 |
2 |
14004 |
9,55 |
19,09 |
4 |
12408,46 |
3 |
13088 |
9,48 |
28,44 |
9 |
13294,88 |
4 |
12518 |
9,43 |
37,74 |
16 |
14244,61 |
5 |
13471 |
9,51 |
47,54 |
25 |
15262,19 |
6 |
13617 |
9,52 |
57,11 |
36 |
16352,47 |
7 |
16356 |
9,70 |
67,92 |
49 |
17520,63 |
8 |
20037 |
9,91 |
79,24 |
64 |
18772,23 |
9 |
21748 |
9,99 |
89,89 |
81 |
20113,25 |
10 |
23298 |
10,06 |
100,56 |
100 |
21550,07 |
11 |
26570 |
10,19 |
112,06 |
121 |
23089,52 |
12 |
23080 |
10,05 |
120,56 |
144 |
24738,95 |
13 |
23981 |
10,09 |
131,11 |
169 |
26506,21 |
14 |
23446 |
10,06 |
140,87 |
196 |
28399,71 |
15 |
29658 |
10,30 |
154,46 |
225 |
30428,48 |
16 |
39573 |
10,59 |
169,37 |
256 |
32602,17 |
17 |
38435 |
10,56 |
179,46 |
289 |
34931,15 |
Итого |
367030 |
168,52 |
1545,00 |
1785 |
361796,21 |
Для определения Оп
Определив все суммы и подставив их в систему нормальных уравнений
168,52= 17 a’ + b ·153
1545,00= a’ ·153 + b ·1785
найдем параметр a’ =9,288 и параметр b = 0,069. Но так как делали замену переменных a=exp(a’), поэтому необходимо вычислить a:
a=exp(9,288) =10809.
Таким образом, прогнозная модель имеет вид
ўt= 10809 e0,069t
График исходного ряда и экспоненциального тренда показан на рис.2.3.
Рис. 2.3. Динамика выпуска продукции
Пример 2.5. Для примера 2.4 (изменение объема выпуска продукции) можно найти параметры линейной регрессии на персональном компьютере (ПК) с помощью электронной таблицы (любой ПК совместимый с IBM PC, программа Excel в составе MS Office).
Надо использовать встроенную статистическую функцию ЛИНЕЙН. Порядок вычислений следующий:
ввести исходные данные или открыть существующий (в формате Excel) файл, содержащий анализируемые данные (рис.4);
выделить область пустых ячеек 5х2 (5 строк, 2 столбца) для вывода результатов регрессионной статистики;
необходимо активизировать Мастер функций;
в окне Категория выберите Статистические, в окне Функция – ЛИНЕЙН. Щелкнуть по кнопке ОК (рис.2.4);
заполнить аргументы функции:
Рис.2.4. Диалоговое окно «Мастер функций»
Известные значения y – диапазон, содержащий данные результативного признака;
Известные значения x – диапазон, содержащий данные факторов независимого признака;
Константа – логическое значение, которое указывает на наличие или на отсутствие свободного члена в уравнении; если Константа = 0, то свободный член равен 0;
Статистика - логическое значение, которое указывает, выводить дополнительную информацию по регрессионному анализу или нет. Если
Статистика = 1, то дополнительная информация выводится, если Статистика =0, то выводятся только оценки параметров уравнения.
Щелкнуть по кнопке ОК (рис. 2.5);
Рис.2.5. Диалоговое окно ввода функции ЛИНЕЙН
В левой верхней ячейке выделенной области появится первый элемент итоговой таблицы. Чтобы раскрыть всю таблицу, нажмите на клавишу F2, а затем – на комбинацию клавиш CTRL + SHIFT+ENTER.
Дополнительная регрессионная статистика будет выводиться в порядке, указанном в следующей схеме:
Таблица 2.6
-
Значение коэффициента b
Значение коэффициента a
Среднеквадратическое отклонение b
Среднеквадратическое отклонение a
Коэффициент детерминации R2
Среднеквадратическое отклонение y
F-статистика
Число степеней свободы
Регрессионная сумма квадратов
Остаточная сумма квадратов
Для данных из таблицы 2.5 результат вычисления представлен на рис.2.6.
-
Годы (в условных ед.)
Выпуск продукции, млн. долл.
Линейная
1
14150
1523,13
7881,74265
2
14004
176,93
1813,06683
3
13088
0,8316
3573,95635
4
12518
74,10
15
5
13471
946541462
191597460
6
13617
7
16356
8
20037
9
21748
10
23298
11
26570
12
23080
13
23981
14
23446
15
29658
16
39573
17
38435
Рис.2.6. Результат вычисления функции ЛИНЕЙН
Для вычисления параметров экспоненциальной кривой yt= a ebt в Excel применяется встроенная статистическая функция ЛГРФПРИБЛ. Порядок вычисления аналогичен применению функции ЛИНЕЙН. Результат вычисления параметров экспоненциального тренда представлен на рис 2.7.
-
Функция ЛГРФПРИБЛ
1,071884135
10809,00465
0,006521709
0,066827632
0,883084403
0,131732066
113,2976818
15
1,966092882
0,260300059
Рис.2.7. Результат вычисления функции ЛГРФПРИБЛ.
Построение графика исходного ряда и различных трендов можно осуществлять с помощью Мастера диаграмм.
Порядок построения следующий:
введите исходные данные или откройте существующий файл, содержащий анализируемые данные;
активизируйте Мастер диаграмм;
в окне Тип выберите График; вид графика выберите в поле рядом со списком типов. Щелкните по кнопке Далее;
заполните диапазон данных в столбцах. Щелкните по кнопке Далее;
заполните параметры диаграммы, названия диаграммы и осей, параметры легенды и подписи данных. Щелкните по кнопке Далее;
укажите место размещения диаграммы. Щелкните по кнопке Далее. Появится график исходного ряда.
Теперь в область диаграммы можно добавить линии тренда:
выделите область построения диаграммы; в главном меню выберите Диаграмма/ Добавить линию тренда;
в появившемся диалоговом окне выберите вид линии тренда и задайте соответствующие параметры. В качестве дополнительной информации на диаграмме можно отобразить уравнение регрессии и значение среднеквадратического отклонения, установив соответствующие флажки на закладке Параметры. Щелкните по кнопке ОК.
На рис.2.8 представлен исходный ряд и тренды с параметрами.
Рис.2.8. График выпуска продукции и трендов
Сравним значения R2 для линейного и экспоненциального тренда:
линейный тренд - R2 = 0,8317;
экспоненциальный тренд - R2 = 0,8831.
Таким образом, исходные данные лучше описываются экспоненциальным трендом. Следовательно, в данном примере для расчета прогнозных значений лучше использовать экспоненциальный тренд.