Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
мет стат лаб 2011.doc
Скачиваний:
8
Добавлен:
14.11.2019
Размер:
242.18 Кб
Скачать

Лабораторная работа №4 Статистические методы анализа взаимосвязей социально-экономических явлений

(Работа должна быть выполнена в 2-х вариантах: в ППП MS Excel и Statistica).

Подготовка к выполнению лабораторной работы.

1.По учебнику изучить темы:

«Статистические методы анализа связи»,

«Анализ динамики процессов и явлений»,

«Прогнозирование с использованием рядов динамики».

2.Уметь рассчитывать параметры уравнения регрессии и линейного уравнения тренда, находить табличные значения t-статистики и F-критерия, делать декомпозицию ряда динамики.

3.Подготовить выборку по 5 признакам, объемом не менее 50 единиц (например, информация о деятельности по 50 предприятий по 5 показателям: объем производства, численность занятых, стоимость основных средств, кредиторская задолженность и балансовая прибыль). Такую информацию можно найти в статистических сборниках, internet, экономической периодике. Можно использовать данные из лабораторной работы 1.

4.Подготовить данные, меняющиеся во времени. Это должен быть ряд уровней за 24 периода (например, объем производства предприятия за 24 квартала/месяца).

Задание 1.

  1. Построить уравнение парной линейной регрессии.

  2. Измерить тесноту связи.

  3. Проверить на значимость коэффициенты регрессии и регрессионную модель.

Задание 2.

  1. Построить уравнение множественной регрессии.

  2. Измерить тесноту связи.

  3. Проверить на значимость коэффициенты множественной регрессии и регрессионную модель.

  4. Улучшить регрессионную модель путем удаления из модели факторов, не имеющих значимого влияния на результат.

Задание 3.

  1. Построить уравнение парной регрессии нелинейной формы.

Выполнение задания 1 в ППП MS Excel.

Ход работы:

Определите фактор, оказывающий влияние (x) и результативный признак (y). Для построения уравнения регрессии воспользуемся Пакетом анализа: Данные – Анализ данных – Регрессия. Если строки Анализ данных в Данных нет, то надо предварительно выполнить следующие действия: Данные – Надстройки – Пакет анализа (отметить флажком).

В окне Регрессия:

Входной интервал Х – это столбец данных, определенных вами как фактор (причина); Входной интервал Y – это столбец данных, определенных вами как результат. Выходной интервал – несколько чистых ячеек на том же листе, где находятся исходные данные, или на отдельном листе. В результате получаем таблицу расчетов (см. пример в таблице 2).

Таблица 2. «Вывод итогов»

Регрессионная статистика

Множественный R

0,502621

R-квадрат

0,252628

Нормированный R-квадрат

0,159206

Стандартная ошибка

25,16016

Наблюдения

50

Дисперсионный анализ

df

SS

MS

F

Значимость F

Регрессия

1

1711,83

1711,83

2,704169

0,138707

Остаток

48

5064,27

633,0337

Итого

49

6776,1

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Y-пересечение

18,37277

19,30663

0,95163

0,369146

Переменная x1

0,533713

0,324557

1,644436

0,138707

1.Из таблицы берем значения коэффициентов регрессии и получаем уравнение: у = 18,37277 + 0,533713х1 (коэффициенты при y – пересечении и переменной x1).

2.Проверка на значимость заключается в проверке гипотезы Н0:а0=0,т.е. проверке гипотезы о статистической незначимости проверяемого параметра а0, другими словами, проверки вывода о том, что проверяемый параметр сформировался под влиянием случайных причин, а не в результате достаточно сильного влияния, т.е. закономерности. В таблице уровень значимости (Р-значение t-статистики при Y-пересечении) равен 0,369146, что значительно превышает уровень 0,05 или 5%. Делаем вывод о том, что гипотезу о незначимости коэффициента регрессии а0 принимаем. Аналогично проверяем гипотезу о незначимости параметра b1 (при переменной x1) и гипотезу о незначимости всей регрессионной модели (по уровню значимости F).

Проверку значимости коэффициентов уравнения можно сделать по значению t-статистики, которое сравнивается с пороговым значением, зафиксированным в таблице t-статистики. Для коэффициента а0 значение t-статистики равно 0,951653, для коэффициента b1 значение t-статистики равно 1,644436. Сравниваем каждое из этих значений с пороговым значением. Если пороговое значение t-статистики меньше, чем в данной модели, проверяемый коэффициент уравнения значим и наоборот. Пороговое значение найдете в таблице значений t-статистики. Пороговое значение находим в таблице в зависимости от выбранного уровня значимости и числа степеней свободы, рассчитанного по формуле:

k = n 3

k - число степеней свободы:

n - число наблюдений.

Выбранный уровень значимости указывает вероятность ошибки, т.е. при уровне значимости 0,05 проверяемый коэффициент уравнения регрессии считается значимым с вероятностью (1 – 0,05) или 95%; при уровне значимости 0,01 проверяемый коэффициент уравнения регрессии считается значимым с вероятностью (1 – 0,01) или 99%.

Возможен и другой способ проверки. В таблице 2, кроме значений t-статистики, дан уровень значимости t-статистики ( графа «Р – Значение»). Если уровень значимости, приведенный в таблице, не превышает 0,05 (5%), делаем вывод, то проверяемый коэффициент значим и наоборот. Кроме того, уровень значимости может быть указан более точно, чем больше или меньше 0,05. Так, «Р – Значение» равное 0,369146 говорит о том, уровень ошибки при проверке гипотезы о незначимости коэффициента а0 уравнения регрессии равен 0,369146 (36,92%), а для коэффициента b1 – 0,138707 (13,87%). Поскольку оба значения ошибки гораздо больше 5%, гипотеза о незначимости коэффициентов уравнения, следовательно и самого уравнения регрессии, принимается. Коэффициент a0 может быть принят лишь с вероятностью (1–0,369146) или 63%, коэффициент b1 – с вероятностью (1-0,138707) или 88%. 3.Оценку тесноты связи делаем по R – квадрат.

R – квадрат измеряет тесноту связи через отношение дисперсий результативного признака. Чем ближе R –квадрат к 0, тем слабее связь между x и y, чем ближе R –квадрат с 1, тем сильнее связь.

4.Проверка на значимость всей регрессионной модели, т.е. уравнения регрессии и коэффициента тесноты связи, проводим по F-критерию. Берем F-критерию из таблицы 2 и сравниваем с пороговым значением из таблицы “Значения F-критерия». Если пороговое значение F-критерия меньше, чем в данном примере (2,704169), проверяемая регрессионная модель значима и наоборот. Пороговое значение определяется в зависимости от выбранного уровня значимости и числа степеней свободы (k1 и k2), рассчитанных по формулам:

k1 = n– 3

k2 = n-m

где k1 и k2- число степеней свободы;

n - число наблюдений;

m – число параметров уравнения регрессии, для парной регрессии равно 2.

Второй вариант проверки – это определение вероятности принятия гипотезы о незначимости регрессионной модели по уровню “Значимость F”, равное в этом примере 0,138707 или 13,87%. Данное значение, говорит о том, что модель незначима.

Выполнение задания 2.

Определите факторы, оказывающие влияние и обозначьте их (x1,x2,…..xk). Определите результативный признак (y). Для построения уравнения регрессии воспользуемся Пакетом анализа ППП Ехсеl: Сервис – Анализ данных – Регрессия. Если строки Анализ данных в Сервисе нет, то надо предварительно выполнить следующие действия: Сервис – Надстройки – Пакет анализа (поставить метку).

В окне Регрессия:

Входной интервал Х – это столбцы данных, определенных вами как факторы (выделяются единым массивом); Входной интервал Y – это столбец данных, определенных вами как результат. Выходной интервал – несколько чистых ячеек на том же листе, где находятся исходные данные, или на отдельном листе. В результате получаем таблицу расчетов (см. пример в таблице 3).

Таблица 3. «Вывод итогов»

Регрессионная статистика

Множественный R

0,502621

R-квадрат

0,252628

Нормированный R-квадрат

0,159206

Стандартная ошибка

25,16016

Наблюдения

50

Дисперсионный анализ

df

SS

MS

F

Значимость F

Регрессия

1

1711,83

1711,83

0,455188

0,769029

Остаток

48

5064,27

633,0337

Итого

49

6776,1

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Y-пересечение

22,80765

19,30663

0,351022

0,739878

Переменная x1

0,469454

0,324557

0,812186

0,453601

Переменная x2

0,119464

36,14581

0,226852

0,829522

Переменная x3

19,47716

0,023568

2,692154

0,017188

Переменная x4

10,17820

0,014578

2,811450

0,005123

1.Из таблицы берем значения коэффициентов регрессии и получаем уравнение:

y=22,80765+0,469454x1+0,119464x2+19,47716x3-10,1782x4 (коэффициенты при y – пересечении и переменных x1, x2, x3, x4.

2.Проверка на значимость заключается в проверке гипотезы о статистической незначимости проверяемых параметров, или проверки вывода о том, что проверяемый параметр сформировался под влиянием случайных причин, а не в результате достаточно сильного влияния, т.е. закономерности. При этом уровень значимости представляет собой вероятность ошибки отклонения правильной гипотезы. Договоримся, что допустимый уровень значимости при выполнении лабораторной работы примем равным 0,05 или 5%.

Проверку значимости коэффициентов уравнения можно сделать по значению t-статистики, которое сравнивается с табличным значением. Для коэффициента a0 значение t-статистики равно 0,351022; для коэффициента b1 значение t-статистики равно 0,812186; для b2 – 0,226852 и т.д. Сравниваем каждое из этих значений с пороговым. Если пороговое значение t-статистики меньше, чем в данной модели, проверяемый коэффициент уравнения значим и наоборот. Пороговое значение найдете в таблице t-статистики. Пороговое значение определяется в зависимости от выбранного уровня значимости и числа степеней свободы, рассчитанного по формуле:

k = n – m –1

k - число степеней свободы:

n - число наблюдений.

m - число факторов.

Выбранный уровень значимости указывает вероятность ошибки, т.е. при уровне значимости 0,05 проверяемый коэффициент уравнения регрессии считается значимым с вероятностью (1 – 0,05) или 95%; при уровне значимости 0,01 проверяемый коэффициент уравнения регрессии считается значимым с вероятностью (1 – 0,01) или 99%.

Возможен и другой способ проверки. В таблице 1, кроме значений t-статистики, дан уровень значимости t-статистики ( графа «Р – Значение»). Если уровень значимости, приведенный в таблице 2, не превышает 0,05 (5%), делаем вывод, что проверяемый коэффициент значим и наоборот. Кроме того, уровень значимости может быть указан более точно, чем просто больше или меньше 0,05. Так, «Р – Значение» равное 0,739878 говорит о том, коэффициент a0 уравнения регрессии можно считать значимым с вероятностью 0,739878 (73,99%), а коэффициент b1 – 0,453601 (45,36%), коэффициент b2 – 0,829522 (82,95%) и т.д. Поскольку все значения вероятности гораздо меньше 95%, гипотеза о незначимости коэффициентов уравнения принимается, а уравнение регрессии признается незначимым. Коэффициент a0 может быть принят лишь с вероятностью (1–0,739878) или 26%, коэффициент b1 – с вероятностью (1-0,453601) или 55% и т.д. Следовательно, перечисленные коэффициенты незначимы.

3.Оценку тесноты связи делаем по R – квадрат.

R – квадрат измеряет тесноту связи через отношение дисперсий результативного признака. Чем ближе R –квадрат к 0, тем слабее связь между Х и Y, чем ближе R –квадрат с 1, тем сильнее связь. Нормированный R -квадрат дает скорректированную оценку коэффициента детерминации, т.е. долю вариации результата за счет включенных в уравнение регресии факторов в общей вариации результата с учетом степеней свободы общей и остаточной дисперсии. R – квадрат представляет собой нескорректированную оценку тесноты связи (без учета числа степеней свободы). Различия между скорректированной и нескорректированной оценкой становятся важными, если мы должны сравнивать между собой модели с различным числом факторов. Сопоставлять уравнения регрессии с различным числом факторных признаков можно только по скорректированным значениям (Нормированный R - квадрат).

4.Проверка на значимость всей регрессионной модели, т.е. уравнения регрессии и коэффициента тесноты связи, проводим по F-критерию. Берем F-критерию из таблицы 2 и сравниваем с пороговым значением из таблицы “Значения F-критерия» Приложения 2. Если пороговое значение F-критерия меньше, чем в данном примере (0,4552188), проверяемая регрессионная модель значима и наоборот. Пороговое значение определяется в зависимости от выбранного уровня значимости и числа степеней свободы (k1 и k2), рассчитанных по формулам:

k1 = n – 3

k2 = nm

где k1 и k2 - число степеней свободы;

n - число наблюдений;

m - число параметров уравнения регрессии, для парной регрессии равно 2.

Второй вариант проверки – это определение вероятности принятия гипотезы о незначимости регрессионной модели по значению ”Значимость F”, равное в этом примере 0,769029 или 76,9%. Данное значение ошибки при принятии гипотезы означает, что F-критерий незначим.

5.Для того, что улучшить создаваемую модель, надо сравнить между собой несколько вариантов регрессионной модели с различным числом факторов. Вспомним, что предпочтительнее та модель, которая при том же значении коэффициента детерминации имеет меньшее количество факторов, включенных в нее. Например, сравним 2-факторную модель с факторами х1 и х2 (таблица 4) с 3-факторной моделью, включающей факторы х1, х2, х3 (таблица 5) и с 4-факторной моделью, содержащей факторы х1, х2, х3, х4 (таблица 6).

Таблица 4. Вывод итогов

Регрессионная статистика

Множественный R

0,990069

R-квадрат

0,980237

Нормированный R-квадрат

0,974591

Стандартная ошибка

0,482617

Наблюдения

50

Дисперсионный анализ

df

SS

MS

F

Значимость F

Регрессия

2

1711,83

1711,83

173,6

0,00000109

Остаток

47

5064,27

633,0337

Итого

49

6776,1

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Y-пересечение

23,76087

1,46212

16,25098

8,13Е-07

Переменная x1

-1,43478

0,311799

-4,60163

0,002479

Переменная x2

-0,86957

0,450043

-1,93218

0,094618

Таблица 5.Вывод итогов

Регрессионная статистика

Множественный R

0,994937

R-квадрат

0,989899

Нормированный R-квадрат

0,984848

Стандартная ошибка

0,372678

Наблюдения

50

Дисперсионный анализ

df

SS

MS

F

Значимость F

Регрессия

3

1711,83

1711,83

196

2,25Е-06

Остаток

46

5064,27

633,0337

Итого

49

6776,1

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Y-пересечение

16,5

3,234325

5,101528

0,002218

Переменная x1

-0,83333

0,347853

-2,39565

0,053612

Переменная x2

-0,83333

0,347853

-2,39565

0,053612

Переменная x3

0,83333

0,347853

2,39548

0,053612

Таблица 6. Вывод итогов

Регрессионная статистика

Множественный R

0,998085

R-квадрат

0,996173

Нормированный R-квадрат

0,993112

Стандартная ошибка

0,251271

Наблюдения

50

Дисперсионный анализ

df

SS

MS

F

Значимость F

Регрессия

4

1711,83

1711,83

325,4193

3,16Е-06

Остаток

45

5064,27

633,0337

Итого

49

6776,1

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Y-пересечение

10,38235

3,052896

3,400821

0,019234

Переменная x1

-0,49216

0,263065

-1,87085

0,120281

Переменная x2

-0,65686

0,242496

-2,70876

0,042339

Переменная x3

0,75098

0,236290

3,17821

0,024588

Переменная x4

0,517647

0,180784

2,863347

0,035268

Сравним модели но нормированным R-квадрат. Самое большое значение у 3-факторной модели. Видно, что по мере увеличения факторов в уравнение регрессии увеличивается значение нормированного R-квадрат. Такое возможно только в том случае, когда в уравнение добавляются значимые факторы, оказывающие значительное влияние на результат. Именно поэтому их включение в регрессионную модель в той последовательности, в которой они включены в модель, целесообразно.

Улучшить регрессионную модель можно, оценив целесообразность включения каждого фактора отдельно, по коэффициентам парной корреляции: Данные – Анализ данных – Корреляция. Входной интервал: выделяем весь массив данных; Группирование - по столбцам (ставим метку); Выходной интервал – выделяем несколько свободных ячеек. Пример расчетов представлен в таблице 7.

Таблица 7. Пример корреляционной матрицы

Y

x1

x2

x3

x4

x1

0,98473

x2

0,9594

0,8094

x3

0,969223

-0,9525

0,6921

x4

0,971908

-0,9513

0,71997

0,7199

В таблице 7 перечислены коэффициенты, показывающие тесноту связи между признаками попарно. Сравним их друг с другом по абсолютной величине. Особое внимание обратим на межфакторные связи, т.е. на связи между различными xk. Если межфакторная связь сильнее, чем связь фактора с результативным признаком, такой фактор следует исключить из уравнения регрессии. Наличие сильной межфакторной связи свидетельствует о сильной коллинеарности (взаимосвязи) факторов. Для качественной регрессионной модели недопустим уровень коллинеарности, превышающий 0,8.

В рассматриваемом примере самой сильной является связь y с x1 (0,98473), затем по мере убывания y с x4 (0,97908), y с x3 (0,969223), y с x2 (0,9594), x1 с x3 (0,9525), x1 с Х4 (0,9513), x1 с x2 (0,8094), x2 с x4 (0,71997), x3 с x4 (0,7199), x2 с x3 (0,6921). Поскольку межфакторные связи слабее связи факторного и результативного признаков, следует оставить в уравнении все факторные признаки, но требованию неколлинеарности факторов уравнения регрессии отвечает лишь связь x2 с x4; x3 с x4 и x2 с x3. Однако для окончательного вывода о целесообразности присутствия в уравнении каждого из факторных признаков, следует проверить уровни значимости коэффициентов уравнения по таблицам 3,4 и 5.

Поскольку 4-х факторная модель имеет самый высокий уровень коэффициента детерминации, начнем с нее. По Р-Значениям t-критерия видим, что коэффициент b1 имеет Р-Значениям t-критерия больше 5% (t-критерий равен 0,120281), следовательно x1 надо исключить из уравнения. (Это объясняется тем, что несмотря на сильную связь y и x1 мы исключаем x1 из уравнения регрессии из-за наличия сильной коллинеарности x1 с x2, x3, x4).

Аналогичную проверку сделаем для других значений хk и для других моделей. По Р-Значениям t-критерия видно, что в 3-х факторной модели все факторы находятся в одинаковом положении, т.к. уровень Р-Значениям t-критерия почти равен 5%. Для 2-х факторной модели удаленным из уравнения должен быть фактор x2 (Р-Значениям t-критерия для b2 = 0,094618, что больше 0,05). С учетом уровня Р-Значениям всей модели (Р-Значения F-критерия) можно сделать вывод о высокой надежности всех трех моделей (0,00000109; 0,00000225; 0,00000316 соответственно).

Выполнение задания 3.

В ППП «Excel» регрессионная модель нелинейной формы может быть выполнена только в форме экспоненциального приближения: Вставка – Функция – Статистические - ЛГРФПРИБЛ. Между тем нелинейную форму уравнения можно привести к линейной, осуществив процедуру линеаризации. Например, показательная функция

приводится к линейной форме логарифмированием обеих частей уравнения:

l =lna+x lnb

получаем Y=A + Bх,

где Y=lny; A=lna; B=lnb.

Теперь пересчитываем исходные данные х и у в lnx и lny: Вставка – Функция –Математические – LN.

Таблица 8. Пример расчета для показательной функции

x

y

Ln x

Ln y

2

3

1,079181

1,361728

5

4

1,653213

1,146128

8

5

1,892095

1,39794

9

6

1,94939

1,556303

6

7

1,748188

1,672098

3

8

1,361728

1,763428

2

9

1,50515

1,838849

5

1

1,812913

1,612784

8

2

1,991226

1,716003

7

3

1,939519

1,799341

Относительно новых переменных, lnx и lny выводим таблицу регрессии: Данные – Анализ данных – Регрессия. В окне Регрессия в качестве входного интервала х выделяем столбец lnx; в качестве входного интервала у выделяем столбец lny.

Таблица 9.Вывод итогов

Регрессионная статистика

Множественный R

0,850621

R-квадрат

0,352628

Нормированный R-квадрат

0,1905926

Стандартная ошибка

2,16016

Дисперсионный анализ

df

SS

MS

F

Значимость F

Регрессия

1

1711,83

1711,83

29,704177

0,0138707

Остаток

8

5064,27

633,0337

Итого

9

6776,1

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Y-пересечение

1,366991

9,30663

0,95163

0,369146

Переменная x1

0,129613

0,324557

1,644436

0,138707

У равнение регрессии выглядит следующим образом: У=1,366991+0,129613Х. Вернемся к исходным переменным, т.е. перейдем от lnx и lny к х и у. Получим уравнение:

Проверка на значимость полученного уравнения и измерение тесноты связи проводится аналогично примерам, рассмотренным выше. Методом линеаризации можно достаточно быстро получить уравнения регрессии различной формы. Выбор лучшей формы уравнения регрессии зависит от величины остатков. Остатки – это расхождения эмпирических и теоретических (регрессионных) значений результативного признака. Чем больше сумма расхождений, тем хуже уравнение регрессии описывает связь фактора и результата.

Остатки рассчитываются как сумма квадратов отклонений исходных значений от регрессионных значений результативного признака (см. Таблица 6: Дисперсионный анализ – Остаток – SS или MS). SS – это сумма квадратов; MS – это сумма квадратов в расчете на 1 единицу числа степеней свободы (df). Сравнивать уравнения регрессии надо по MS. Чем меньше MS, тем лучше форма уравнения регрессии.

Выполнение задания в пакете Statistica.

1.Откройте файл данных. Удалите ненужные столбцы: Var-Delete.

Дайте имена переменным:Y – зависимая переменная (dependent), Х – независимая переменная(Independent). В ячейки таблицы введите данные.

2. Построим график исходных данных: Graphs- графики – Stats 2D Graphs-Scatterplots. В диалоговом окне при помощи Variables выберите необходимые переменные Х и Y. Получаем график рассеивания и прямой регрессии Y.

Для множественной регрессии выбираем несколько независимых переменных x1,x2,x3 и т.д. Затем в модуле Multiple Regression – введите данные-AnalysisStartup Panel:Variables:dependent var-Y, independent varx1,x2,x3OK - Regression Summary. Из полученной таблицы берем коэффициенты уравнения множественной регрессии (графа «b»), бетта-коэффициенты, t-статистику для коэффициентов уравнения, уровень значимости для каждого коэффициента уравнения регрессии (уровень значимости для бетта-коэффициентов в графе «p-level»).

Для проверки гипотезы о незначимости регрессионной модели используем опцию Analysis of Variance. В полученной таблице приводится статистика критерия Фишера и уровень значимости критерия. Если значение p-level критерия меньше 0,05, гипотезу о незначимости критерия отклоняем.

Проверку гипотезы о незначимости коэффициентов регрессионной модели делаем на основании t-статистики и соответствующих коэффициентов p-level.

Задание 4.

  1. Определить тренд. Рассчитать не менее 4-х уравнений тренда различного вида (линейный, полиномиальный, степенной и другие).

  2. Построить графики тренда и эмпирических данных.

  3. Выбрать лучший тренд.

  4. Выполнить прогноз на 5 периодов вперед.

Задание 5.

  1. Выполнить декомпозицию динамического ряда по аддитивной (y=Т+S)и мультипликативной модели (у=T*S*E), где Т-тренд, S-сезонная составляющая, Е-случайная остаточная составляющая..

Выполнение задания 4 в ППП MS Excel.

1.В ППП MS Excel линия тренда рассчитывается к графику, поэтому надо начать с построения графиков: Введите исходные данные или откройте файл, где они были подготовлены ранее – Вставка – Диаграмма – График – Далее - Диапазон (выделяем столбцы данных и выбираем Ряды в столбцах)-Далее. Заполняем строки Название диаграммы, Названия осей, Значения осей и т.д. - Готово.

Теперь рассчитываем тренд: Выделяем область диаграммы – в главном меню выбираем Диаграмма – Добавить линию тренда –Выбираем тип линии тренда (поочередно это будут линейная, логарифмическая, полиномиальная, степенная, экспоненциальная на разных графиках. Можно также рассчитать несколько полиномиальных трендов с различной степенью полинома). Теперь задаем Параметры-ставим метку в строки Показывать уравнение на диаграмме и Поместить на диаграмму величину достоверности аппроксимации.

Построение графика, выбор тренда и добавление уравнения тренда надо повторить несколько раз, для каждой формы тренда отдельно.

Нахождение лучшего тренда проводится по коэффициенту достоверности аппроксимации, который показывает, насколько значения тренда приближены к эмпирическим значениям признака: чем ближе коэффициент к 1, тем ближе трендовые значения к эмпирическим; чем ближе коэффициент к 0, тем больше отклонения трендовых значений от эмпирических данных.

2.Среди Параметров линии тренда, (см. предыдущее задание) выбираем Прогноз–Вперед на - выбираем 5. Полученное значение является прогнозом по тренду и представляет собой точечный прогноз.

Выполнение задания 5 в ППП MS Statistica.

  1. В переключателе модулей выбираем модуль Time series/Forecasting.

В этом модуле расположены несколько методов анализа динамического ряда:

  • Модель авторегрессии (АRIMA-АРПСС)

  • Анализ прерванного временного ряда

  • Экспоненциальное сглаживание и прогнозирование

  • Сезонная декомпозиция

  • Анализ распределенных лагов

  • Спектральный (Фурье) анализ.

Сначала вводим данные. Для запуска процедуры анализа данных необходимо вызвать стартовую панель модуля: AnalysisStartup PanelVariablesSelect the Variables for the time series analysis (выбираем переменную) - OK.

Строим график исходных данных: Plot Variables after each transformation- Review highlighter variablesPlot (на экран будет выводиться значения выделенной переменной и ее график) ОК.

Для расчета тренда на стартовой панели модуля: Analysis выбираем Exponential Smoothing @ Forecasting – Экспоненциальное сглаживание и прогнозирование. В следующем окне можно выбрать сезонную компоненту, аддитивную или мультипликативную модель динамического ряда, тренд: линейный, экспоненциальный, демпфированный (затухающий). Оценка сезонных индексов по данным проводится опцией Get seasonal factor from variables. Отмечаем также опции графиков:Make suumary plot for each smooth (сделать график для каждого сглаживания) и Add pred/errors to work area (добавить сглаженный ряд / остатки в рабочую область. Поскольку для модели экспоненциального сглаживания должны быть заданы параметры Alfa Delta Gamma, то включаем автоматический поиск оптимальных значений этих параметров: (Automatic Search).

Сезонная декомпозиция позволяет выделить сезонную компоненту, тренд-циклическую компоненту и случайную составояющую. Декомпозицию можно выполнить в виде мультипликативной или аддитивной модели.

На стартовой панели модуля выбираем Seasonal decomposition (Сезонная декомпозиция) и задаем вид модели: Additive / Multiplicative. В опции Сезонный лаг затем число сезонных индексов по количеству периодов (месяцев, кварталов) в году.

Результаты расчетов выводятся в виде таблицы, и чтобы она была полной, определим опции:

  • скользящие средние

  • отношения/разности (для мультипликативной / аддитив

ной моделей)

  • сезонные индексы (Seasonal factors)

  • тренд-циклическая компонента (smoothed trend cycle)

  • случайная компонента (irregular components)

  • OK.

Декомпозицию динамического ряда сделать отдельно для аддитивной и мультипликативной модели.