Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Статистический анализ временных рядов

..pdf
Скачиваний:
2
Добавлен:
19.11.2023
Размер:
47.02 Mб
Скачать

Гл. 1.

ВВЕДЕНИЕ

13

дут себя достаточно устойчивым образом, т. е. имеют тенденцию оставаться в определенных границах или по крайней мере ме­ няются медленно, без резких, взрывных изменений. Так, мы рас­ сматривали бы многие метеорологические переменные, но при этом исключили бы ударные волны.

Пусть наблюдаемым временным рядом является уь #2, ..., Ут. Мы будем понимать эту запись следующим образом. Имеется Г чисел, представляющих собой наблюдение некоторой перемен­ ной в Т равностоящих моментов времени. Эти моменты для удобства перенумерованы целыми числами 1, 2, ..., Т. Достаточно общей математической (статистической, или вероятностной) мо­ делью служит модель вида

(1) yt № + щ, 1,2....... т .

В этой модели наблюдаемый ряд рассматривается как сумма не­ которой полностью детерминированной последовательности {/(ОК которую можно назвать систематической составляющей, и случай­ ной последовательности {ut}, подчиняющейся некоторому вероят­ ностному закону. (Иногда для этих двух составляющих использу­ ются соответственно термины сигнал и шум). Эти компоненты наблюдаемого ряда ненаблюдаемы; они являются теоретическими величинами. Например, если производится измерение количества ежедневно выпадаемых осадков, то f (t) может представлять со­ бой климатическую норму, получающуюся долговременным ус­ реднением за большой период, а щ те капризы и нерегулярности в погоде, которые характеризуют отклонения от климатической нормы. Точный смысл указанного разложения зависит не только от самих данных, но частично и от того, что понимается под пов­ торением эксперимента, результатом которого являются эти дан­ ные. Мы используем здесь так называемую «частотную» интерпре­ тацию. Мы полагаем, что по крайней мере принципиально можно повторять всю ситуацию целиком, получая новые совокупности наблюдений. При таком повторении эксперимента функция f (<) должна была бы оставаться одной и той же, а случайные состав­ ляющие оказывались бы различными как различные реализации случайного процесса. Случайные составляющие, кроме всего про­ чего, могут включать в себя и ошибки наблюдений. (При этом fit) = ш

Мы все имеем определенные интуитивные представления о том, что следовало бы понимать под временным параметром в подобных моделях или процессах. Одно из таких представлений состоит в том, что время течет в одном направлении. Другое — что события, близ­ кие по времени, должны быть сравнительно сильно связаны, а со­ бытия, разделенные большими промежутками времени, не должны

') Символом в этой книге всюду обозначается математическое ожида­ ние случайной величины X .— Прим, перев.

14

ВВЕДЕНИЕ

Гл. 1.

иметь сильной связи.

Можно рассматривать различные

варианты

математической модели (1), в которых влияние времени может сказываться либо только на функции или последовательности f (t), либо только на вероятностном процессе, определяющем случайную со­ ставляющую ut, либо, наконец, на обеих этих компонентах. Первая часть книги посвящена анализу временных рядов, соответству­ ющих так называемым моделям ошибок, в которых наблюдения рас­ сматриваются как результат независимых случайных отклонений от некоторой функции, представляющей тренд. Во второй части кни­ ги мы будем иметь дело уже с последовательностями зависимых слу­ чайных величин, обычно со стационарными случайными процесса­ ми, выделяя при этом процессы авторегрессии. В конце книги будут рассмотрены модели, в которых на тренд накладывается случай­ ная составляющая, образующая стационарный случайный процесс. Необходимые сведения о стационарных случайных процессах при­ водятся в гл. 7.

Во многих случаях модель можно определить с точностью до конечного числа параметров. Задачи статистических выводов будут связаны тогда именно с этими параметрами. В других ситуациях мо­ дель оказывается более неопределенной и приходится использо­ вать непараметрические методы. Разумеется, модель должна доста­ точно хорошо представлять механизм образования соответствую­ щего ряда. Однако, будучи математической абстракцией, она явля­ ется лишь только приближением к реальному явлению. Сколь же точно можно определить модель, зависит от уровня знаний об ис­ следуемом процессе и соответственно от той информации, которую мы можем получить с использованием статистического анализа, зависящего от характера этих знаний. В данной книге будет описа­ но много методов и их свойств. Делается это для того, чтобы иметь возможность выбрать приемлемый метод, приводящий к полезным результатам. При этом внимание уделяется как самому статистиче­ скому выводу, так и его математическому обоснованию.

Первоначально анализ временных рядов базировался на моде­ лях, в которых влияние временного параметра проявлялось толь­ ко в систематической составляющей. Эту ситуацию можно было бы назвать классической, поскольку в известной степени она восходит к тем временам, когда Гаусс и другие развивали теорию и метод наименьших квадратов с целью применения их в астрономии и фи­ зике. В таких моделях мы предполагаем, что течение времени ни­ как не отражается на случайной составляющей. Точнее говоря, мы предполагаем, что математическое ожидание (т. е. среднее значение) случайной составляющей тождественно равно нулю, дисперсия рав­ на некоторой постоянной и что значения ut в различные моменты времени некоррелированы. Такое определение приводит к тому, что всякую зависимость от времени приходится включать в система­ тическую составляющую f (t). Последовательность f (t) может

Гл. 1.

ВВЕДЕНИЕ

15

зависеть от некоторых неизвестных коэффициентов и от известных величин, меняющихся со временем. В этом случае ее называют «функцией регрессии». Методы статистических выводов для коэф­ фициентов функции регрессии оказываются полезными во многих областях статистики. Своеобразие же методов, относящихся именно

квременным рядам, состоит в том, что здесь исследуются те модели,

вкоторых упомянутые выше величины, меняющиеся со временем, являются известными функциями t.

Врамках сделанных ограничений можно выделить два типа временных последовательностей / (/), часто называемых трендом. Один тип представляют медленно меняющиеся функции времени, примером которых могут служить полиномы достаточно низкой степени. К другому типу принадлежат циклические последователь­ ности, например, конечные отрезки ряда Фурье, представляющие собой конечные суммы пар синусоидальных и косинусоидальных

составляющих. Такой парой может являться a cos Xt + Р sin Xt (О < X < я). Ее можно записать и с использованием одной только функции косинус, именно р cos (Xt — 0). Период этой функции вре­ мени равен 2п/Х, т. е. она повторяет свои значения всякий раз по прошествии времени 2п!Х. Соответствующая частота, т. е. величина,

обратная периоду, равна АУ(2я). Коэффициент р = V а 2 + Р2 явля­ ется амплитудой, а 0 — фазой указанной функции. Считается, что наблюдаемый ряд представляет собой сумму подобного отрезка ряда Фурье f (t) и случайной составляющей. На рис. 1.1 представ­ лены значения функции у, = 5 + 2 cos 2я//6 + sin 2я//6 + uv где составляющая щ нормально распределена е нулевым средним и еди­ ничной дисперсией. [Функция f {fj представлена здесь в виде функ-

16 ВВЕДЕНИЕ Гл. 1.

ции от непрерывного аргумента /.] Последовательные значения yt разбросаны случайным образом по обе стороны от кривой у = f (f). Если даже эта кривая известна и если известен закон распределе­ ния ошибки, то информация о значениях уг, ..., yt-i не оказывает в данной модели никакой помощи в предсказании значения yt. Поведение графика функции f (s) для s > i 1 не зависит от значе­ ний уг.......yt- 1.

Подобная модель может оказаться приемлемой в ряде физиче­ ских и экономических задач. В астрономии, например, f (t) может описывать пространственное положение (по одной из координат) планеты в моменты времени t. Так как телескоп — прибор не иде­ альный, а состояние атмосферы постоянно изменяется, определение соответствующей координаты планеты производится с некоторой, хотя и достаточно малой, ошибкой. Эта ошибка наблюдения никак не влияет ни на последующие положения планеты, ни на реальные наблюдения этих положений. В случае свободно колеблющегося маятника его смещение (измеренное от нижнего положения) явля­ ется тригонометрической функцией р cos (kt — 0). i

Одной из общих моделей, в которой влияние временного пара­ метра проявляется в случайной составляющей, является стационар­ ный случайный процесс. Проиллюстрируем это примером процесса авторегрессии. Предположим, что ух имеет некоторое распределение с нулевым средним. Пусть ух и у2 имеют совместное распределение,

совпадающее с совместным распределением

случайных величин

ух и рух + «г» гДе м2 не зависит от ух и имеет

нулевое математиче­

ское ожидание. Совместное распределение ylt уг, ..., y t-1, yt Для t — = 3, 4, ... будем полагать в свою очередь таким же, как совместное

распределение ylt у2, ..., y t-и pyt-i + Щ, причем

предполагается,

что случайная величина щ не зависит от ylt .... yt- 1

и имеет нулевое

математическое ожидание. Если маргинальные распределения и2, н8, ... совпадают, а распределение ух выбрано надлежащим образом,

то последовательность

{yt} образует

стационарный случайный про­

цесс, именно процесс авторегрессии,

и

(2)

yt = pyt-i + Щ

является стохастическим разностным уравнением первого поряд­ ка. Такое построение для р = 1/2 иллюстрирует рис. 1.2. В этой модели «возмущение» щ оказывает влияние и на уь и на все последу­ ющие уг. Из указанного построения вытекает, что условное матема­ тическое ожидание yt при заданных значениях ух, ..., уил удовлет­ воряет равенству

(3) ^ (yt I Уг..........yt-i) = pyt-\-

(В действительности для процесса первого порядка значения yt и yt-г, .... Ух условно независимы при заданном значении yt- (.) Если

Гл. 1.

ВВЕДЕНИЕ

17

Рис. 1.2.

Построение ряда в модели авторегрессии.

мы хотим предсказать значение yt по значениям уъ ..., yt- 1 и пара­ метру р, то наилучшим прогнозом (в смысле минимума средне­ квадратичной ошибки) будет pyt-i- Таким образом, в этой модели знание предшествующих наблюдений оказывает помощь в предска­ зывании У{.

Процесс авторегрессии второго порядка получается, если взять совместное распределение уъ .... y t-1, yt таким же, как совместное распределение уъ у2, .... yt-\, pyyt-i + р2* //-2 + Щ, гдеи, не зависит от Уъ Уъ •••. yt- ь t — 3, 4, ..., а распределения ух и у2 выбираются надлежащим образом. Графики подобных рядов представлены в приложении А.2. Графики других рядов, порожденных случайным моделированием, имеются у Кендалла и Стьюарта (1966, гл. 45) и у Вольда (1965, гл. 1). Переменная у( может представлять собой смещение колеблющегося маятника, который подвержен некоторым случайным ударным воздействиям щ. Тогда ряд yt близок к триго­

нометрической функции р cos (kt — 0) с переменной

амплитудой,

переменной

частотой

и переменной фазой. Процесс авторегрессии

 

 

4

 

четвертого

порядка,

порожденный моделью yt = 2

Р$У‘- ‘ + ut>

 

 

»—1

будет походить уже на сумму двух тригонометрических функций с изменяющимися амплитудами, частотами и фазами.

Стационарный случайный процесс общего вида можно аппрок­ симировать процессом авторегрессии достаточно высокого порядка или процессом

(4)

2

И / cos Xji +

Bj sin k,t),

 

P\

 

где Alt Blt

..., A„, B„ — независимые случайные величины с 8А/ =

%Bj = 0

и %А) =

§5/ = <р (к,).

Последний является суммой

18

ВВЕДЕНИЕ

Гл. 1

q тригонометрических функций со случайными амплитудами и фа­ зами. Вклад тригонометрической функции с частотой Х//(2п) в сред­ нем пропорционален математическому ожиданию квадрата ее амп­ литуды, т. е. 2<р (Xj). Исходя из этого, стационарный случайный про­

цесс (определенного класса) можно характеризовать спектральной

ь

плотностью f(Я), т. е. такой функцией, для которой j f (A,) dk аппрок-

симируется

суммой <р (А,/)

по всем Xh а

а

Характерное

Xj <; b.

свойство стационарных случайных процессов состоит

в

том, что

ковариация

S (yt — Syt)

(ys — % s) зависит

только

от

разности

|/ — s |, так что ее можно обозначить через о (t — s). Ковариацион­ ная последовательность и спектральная плотность (если она суще­ ствует) суть две альтернативные формы описания структуры момен­ тов второго порядка стационарного случайного процесса. Ковари­ ационная последовательность более удобна и информативна, когда большее значение имеет временной характер последовательности, как это, например, бывает во многих экономических рядах. Спект­ ральная же плотность может оказаться более подходящей для дру­ гих типов анализа. В частности, она весьма важна в физических науках, поскольку существо многих физических явлений может быть описано с помощью гармоник или тригонометрических функций времени. Так, поскольку изменение давления воздуха при наличии чистого тона выражается косинус-функцией, то для целей анализа звука естественно использовать анализ Фурье. В частности, по­ добным образом определяет высоту тона человеческое ухо.

Влияние времени может быть представлено в обеих составляющих модели так, что систематическая составляющая f (t) является трен­ дом во времени, а случайная составляющая щ образует стационар­ ный случайный процесс. К примеру экономический временной ряд может складываться из долговременного и сезонного изменений, которые вместе составляют f (t)> и из колебательной компоненты и других нерегулярностей, которые вместе образуют щ и могут быть описаны процессом авторегрессии.

В тех случаях, когда тренд f (t) имеет вполне определенную структуру и определяется конечным числом параметров, мы рас­ сматриваем задачи статистических выводов о значениях этих пара­ метров. Например, можно оценивать коэффициенты при степенях t в полиномиальных и коэффициенты при синусах и косинусах в тригонометрических трендах. В первом случае может возникнуть вопрос о том, какую наивысшую степень t следует включить в рас­ смотрение, а во втором случае — вопрос о том, какие из нескольких слагаемых должны быть включены. Если же тренд не описывается столь точно, то для его оценивания можно использовать непарамет­ рические методы, такие, как сглаживание.

Если случайный процесс описывается с помощью конечного

Гл. 1.

ВВЕДЕНИЕ

19

числа парахметров, скажем, как процесс авторегрессии, го здесь также возникают задачи оценки коэффициентов, проверки гипотез относительно их значений или решения вопроса о том, какого по­ рядка процесс следует использовать. Особый интерес представляет здесь задача проверки нулевой гипотезы о независимости случай­ ных составляющих. Для этой цели может быть использован тот или иной сериальный коэффициент корреляции. Если процесс ста­ ционарный, но не описывается конечным числом параметров, то в этом случае можно оценивать ковариации {сг (А)} или спектральную плотность. Соответствующие процедуры являются в основном не­ параметрическими.

Методы, представленные в настоящей книге, предназначены глав­ ным образом для полученйя выводов относительно структуры меха­ низма, порождающего процесс. Указаны также методы предсказа­ ния последующих значений процесса для случая, когда структура известна. Если же структура случайного механизма оказывается неизвестной, ее можно оценить по имеющимся данным и затем уже для целей предсказания использовать найденные оценки.

ЛИТЕРАТУРА

Вольд (1965), Кендалл и Стьюарт (1966).

Глава 2

ИСПОЛЬЗОВАНИЕ

РЕГРЕССИОННОГО АНАЛИЗА

2.1. ВВЕДЕНИЕ

Значительную часть статистических методов, используемых при анализе временных рядов, представляют методы регрессион­ ного анализа (классической теории наименьших квадратов) или их видоизменения и аналоги. Независимые переменные могут быть заданными функциями времени, например степенями пере­ менной t или тригонометрическими функциями от t. Сначала мы кратко опишем статистические процедуры в предположении не­ коррелированности случайных составляющих (§ 2.2 и 2.3). Со­ ответствующие результаты будут использоваться при анализе тренда (гл. 3 и 4). Затем мы видоизменим эти процедуры приме­ нительно к произвольно коррелированным случайным составляю­ щим, ковариационная матрица которых известна с точностью до постоянного множителя (§ 2.4).

В гл. 10 изучаются статистические процедуры, используемые при анализе тренда в предположении, что случайные составляю­ щие образуют стационарный случайный процесс. При изложении регрессионного анализа определенное место уделяется асимпто­ тической теории, которую можно использовать и при нарушении предположения о нормальном распределении случайных состав­ ляющих (§ 2.6).

Обобщения этих результатов полезны при оценивании коэф­ фициентов стохастических разностных уравнений (гл. 5), по­ скольку в этом случае точные распределения использовать не удается. Обобщения указанных результатов необходимы также, когда случайные составляющие образуют стационарный процесс более общего типа (§ 10.2).

2 .2 . ОБЩАЯ ТЕОРИЯ НАИМЕНЬШИХ КВАДРАТОВ 21

2.2. ОБЩАЯ ТЕОРИЯ НАИМЕНЬШИХ КВАДРАТОВ

Рассмотрим некоррелированные случайные в е л и ч и н ы у2>•••

.... Ут, средние и дисперсии которых выражаются соотношениями

(1)

h t =

2

* =

1,

2, . . . .

7,

(2)

& (У(—

=

а2. < =

1,

2, . . . .

7,

с заданными числовыми значениями

 

При этом, zit называются

независимыми переменными,

a yt зависимыми переменными. Ис­

пользуя векторные обозначения

 

 

 

(3)

Hi\

.QQ

»

*7

1~

Г 1Л

t=

1

Т

z2t

 

*

1 > • • •

» л >

:

,

 

 

Cpt'

выражение (1) можно записать в виде

(4) &/,= P'z„ t =

(Транспонирование вектора или матрицы а будет отмечаться штри­ хом: а'.)

Будем обозначать через b оценку вектора р, представляющую собой решение нормального уравнения

(5)

 

АЬ =

с,

в котором

т

,

т

(6)

А = ^

z,z,,

с = 2 ’ У?»

 

t=i

 

<=i

и матрица А предполагается невырожденной (так что 7 > р). Век-

т

тор b = А-1с минимизирует сумму 2 (yt — V zt)2 на множестве

~<=1

всех р-мерных векторов b и называется оценкой наименьших квад­ ратов вектора (5. Несмещенная оценка s2 для а2 может быть получе­ на (при 7 > р) из соотношения

(7)

(7 - р) s2 = 2 & ~ bV

= 2 0?~ Ь'АЬ.

 

<=i

<-i

Оценка наименьших квадратов b является несмещенной оценкой вектора р,

(8)

8Ь = р,

и имеет ковариационную матрицу

(9)

8 (Ь — Р) (Ь — Р)' = а2А~'.

22

ИСПОЛЬЗОВАНИЕ РЕГРЕССИОННОГО АНАЛИЗА

Гл. 2.

Теорема

Гаусса — Маркова утверждает, что компоненты

вектора

b являются наилучшими линейными несмещенными оценками соот­ ветствующих компонент вектора р в следующем смысле. Каждый элемент вектора Ь имеет дисперсию, наименьшую среди дисперсий всех несмещенных оценок соответствующего элемента вектора р, ли­ нейных по переменным уъ ..., ут.

Если случайные величины уъ ..., ут независимы и нормально распределены, то b является оценкой максимального правдоподобия вектора р. Оценкой максимального правдоподобия для а2 служит в этом случае величина р) Ф1Т. При этом оценка b распределе­ на по многомерному нормальному закону N (Р, а2А-1) со средним Р и ковариационной матрицей а2А-1, а оценка р) sVa2 имеет Х2-распределение с числом степеней свободы, не зависящим от b и равным Т р. Вектор b и оценка s2 образуют достаточное множе­ ство статистик для р и а2.

В предположении нормальности случайных величин уъ ..., ут можно построить критерии для проверки гипотез относительно зна­

чений р,

и доверительные интервалы для р*, i = 1, ..., р. Пусть

(Ю)

Р =

где

 

.................................... " - Q

Аналогичным образом разобьем zt и Ь. Блочные векторы и матрицы рассмотрены у Т. Андерсона (1958, приложение 1, § 3). Тогда для

проверки гипотезы Н о том, что р(2>= р(2>, где р(2>— некоторый вектор, можно использовать F-статистику

(Ь<2>- р<2>ПА»г)~‘ (Ь(2>-р(2>)

( U )

(р — г) s*

(Ь(2)- Р(2>)' (А82 - а21ап'а12) (Ь(2>- Р(2>)

г) S2

Здесь А и А-1 разбиты на блоки с г и р — г строками и столбцами:

1По поводу равенства А22 = (Аи — А21Ап'А12)-1 см. упр. 8.1 Если выполнено предположение о нормальности и справедлива нулевая гипотеза, то статистика (12) имеет F-распределение с р г и Т р степенями свободы. В общем случае в предположении нормальности