книги / Статистический анализ временных рядов
..pdfГл. 1. |
ВВЕДЕНИЕ |
13 |
дут себя достаточно устойчивым образом, т. е. имеют тенденцию оставаться в определенных границах или по крайней мере ме няются медленно, без резких, взрывных изменений. Так, мы рас сматривали бы многие метеорологические переменные, но при этом исключили бы ударные волны.
Пусть наблюдаемым временным рядом является уь #2, ..., Ут. Мы будем понимать эту запись следующим образом. Имеется Г чисел, представляющих собой наблюдение некоторой перемен ной в Т равностоящих моментов времени. Эти моменты для удобства перенумерованы целыми числами 1, 2, ..., Т. Достаточно общей математической (статистической, или вероятностной) мо делью служит модель вида
(1) yt № + щ, 1,2....... т .
В этой модели наблюдаемый ряд рассматривается как сумма не которой полностью детерминированной последовательности {/(ОК которую можно назвать систематической составляющей, и случай ной последовательности {ut}, подчиняющейся некоторому вероят ностному закону. (Иногда для этих двух составляющих использу ются соответственно термины сигнал и шум). Эти компоненты наблюдаемого ряда ненаблюдаемы; они являются теоретическими величинами. Например, если производится измерение количества ежедневно выпадаемых осадков, то f (t) может представлять со бой климатическую норму, получающуюся долговременным ус реднением за большой период, а щ те капризы и нерегулярности в погоде, которые характеризуют отклонения от климатической нормы. Точный смысл указанного разложения зависит не только от самих данных, но частично и от того, что понимается под пов торением эксперимента, результатом которого являются эти дан ные. Мы используем здесь так называемую «частотную» интерпре тацию. Мы полагаем, что по крайней мере принципиально можно повторять всю ситуацию целиком, получая новые совокупности наблюдений. При таком повторении эксперимента функция f (<) должна была бы оставаться одной и той же, а случайные состав ляющие оказывались бы различными как различные реализации случайного процесса. Случайные составляющие, кроме всего про чего, могут включать в себя и ошибки наблюдений. (При этом fit) = ш
Мы все имеем определенные интуитивные представления о том, что следовало бы понимать под временным параметром в подобных моделях или процессах. Одно из таких представлений состоит в том, что время течет в одном направлении. Другое — что события, близ кие по времени, должны быть сравнительно сильно связаны, а со бытия, разделенные большими промежутками времени, не должны
') Символом %Х в этой книге всюду обозначается математическое ожида ние случайной величины X .— Прим, перев.
14 |
ВВЕДЕНИЕ |
Гл. 1. |
иметь сильной связи. |
Можно рассматривать различные |
варианты |
математической модели (1), в которых влияние времени может сказываться либо только на функции или последовательности f (t), либо только на вероятностном процессе, определяющем случайную со ставляющую ut, либо, наконец, на обеих этих компонентах. Первая часть книги посвящена анализу временных рядов, соответству ющих так называемым моделям ошибок, в которых наблюдения рас сматриваются как результат независимых случайных отклонений от некоторой функции, представляющей тренд. Во второй части кни ги мы будем иметь дело уже с последовательностями зависимых слу чайных величин, обычно со стационарными случайными процесса ми, выделяя при этом процессы авторегрессии. В конце книги будут рассмотрены модели, в которых на тренд накладывается случай ная составляющая, образующая стационарный случайный процесс. Необходимые сведения о стационарных случайных процессах при водятся в гл. 7.
Во многих случаях модель можно определить с точностью до конечного числа параметров. Задачи статистических выводов будут связаны тогда именно с этими параметрами. В других ситуациях мо дель оказывается более неопределенной и приходится использо вать непараметрические методы. Разумеется, модель должна доста точно хорошо представлять механизм образования соответствую щего ряда. Однако, будучи математической абстракцией, она явля ется лишь только приближением к реальному явлению. Сколь же точно можно определить модель, зависит от уровня знаний об ис следуемом процессе и соответственно от той информации, которую мы можем получить с использованием статистического анализа, зависящего от характера этих знаний. В данной книге будет описа но много методов и их свойств. Делается это для того, чтобы иметь возможность выбрать приемлемый метод, приводящий к полезным результатам. При этом внимание уделяется как самому статистиче скому выводу, так и его математическому обоснованию.
Первоначально анализ временных рядов базировался на моде лях, в которых влияние временного параметра проявлялось толь ко в систематической составляющей. Эту ситуацию можно было бы назвать классической, поскольку в известной степени она восходит к тем временам, когда Гаусс и другие развивали теорию и метод наименьших квадратов с целью применения их в астрономии и фи зике. В таких моделях мы предполагаем, что течение времени ни как не отражается на случайной составляющей. Точнее говоря, мы предполагаем, что математическое ожидание (т. е. среднее значение) случайной составляющей тождественно равно нулю, дисперсия рав на некоторой постоянной и что значения ut в различные моменты времени некоррелированы. Такое определение приводит к тому, что всякую зависимость от времени приходится включать в система тическую составляющую f (t). Последовательность f (t) может
Гл. 1. |
ВВЕДЕНИЕ |
15 |
зависеть от некоторых неизвестных коэффициентов и от известных величин, меняющихся со временем. В этом случае ее называют «функцией регрессии». Методы статистических выводов для коэф фициентов функции регрессии оказываются полезными во многих областях статистики. Своеобразие же методов, относящихся именно
квременным рядам, состоит в том, что здесь исследуются те модели,
вкоторых упомянутые выше величины, меняющиеся со временем, являются известными функциями t.
Врамках сделанных ограничений можно выделить два типа временных последовательностей / (/), часто называемых трендом. Один тип представляют медленно меняющиеся функции времени, примером которых могут служить полиномы достаточно низкой степени. К другому типу принадлежат циклические последователь ности, например, конечные отрезки ряда Фурье, представляющие собой конечные суммы пар синусоидальных и косинусоидальных
составляющих. Такой парой может являться a cos Xt + Р sin Xt (О < X < я). Ее можно записать и с использованием одной только функции косинус, именно р cos (Xt — 0). Период этой функции вре мени равен 2п/Х, т. е. она повторяет свои значения всякий раз по прошествии времени 2п!Х. Соответствующая частота, т. е. величина,
обратная периоду, равна АУ(2я). Коэффициент р = V а 2 + Р2 явля ется амплитудой, а 0 — фазой указанной функции. Считается, что наблюдаемый ряд представляет собой сумму подобного отрезка ряда Фурье f (t) и случайной составляющей. На рис. 1.1 представ лены значения функции у, = 5 + 2 cos 2я//6 + sin 2я//6 + uv где составляющая щ нормально распределена е нулевым средним и еди ничной дисперсией. [Функция f {fj представлена здесь в виде функ-
16 ВВЕДЕНИЕ Гл. 1.
ции от непрерывного аргумента /.] Последовательные значения yt разбросаны случайным образом по обе стороны от кривой у = f (f). Если даже эта кривая известна и если известен закон распределе ния ошибки, то информация о значениях уг, ..., yt-i не оказывает в данной модели никакой помощи в предсказании значения yt. Поведение графика функции f (s) для s > i — 1 не зависит от значе ний уг.......yt- 1.
Подобная модель может оказаться приемлемой в ряде физиче ских и экономических задач. В астрономии, например, f (t) может описывать пространственное положение (по одной из координат) планеты в моменты времени t. Так как телескоп — прибор не иде альный, а состояние атмосферы постоянно изменяется, определение соответствующей координаты планеты производится с некоторой, хотя и достаточно малой, ошибкой. Эта ошибка наблюдения никак не влияет ни на последующие положения планеты, ни на реальные наблюдения этих положений. В случае свободно колеблющегося маятника его смещение (измеренное от нижнего положения) явля ется тригонометрической функцией р cos (kt — 0). i
Одной из общих моделей, в которой влияние временного пара метра проявляется в случайной составляющей, является стационар ный случайный процесс. Проиллюстрируем это примером процесса авторегрессии. Предположим, что ух имеет некоторое распределение с нулевым средним. Пусть ух и у2 имеют совместное распределение,
совпадающее с совместным распределением |
случайных величин |
ух и рух + «г» гДе м2 не зависит от ух и имеет |
нулевое математиче |
ское ожидание. Совместное распределение ylt уг, ..., y t-1, yt Для t — = 3, 4, ... будем полагать в свою очередь таким же, как совместное
распределение ylt у2, ..., y t-и pyt-i + Щ, причем |
предполагается, |
что случайная величина щ не зависит от ylt .... yt- 1 |
и имеет нулевое |
математическое ожидание. Если маргинальные распределения и2, н8, ... совпадают, а распределение ух выбрано надлежащим образом,
то последовательность |
{yt} образует |
стационарный случайный про |
цесс, именно процесс авторегрессии, |
и |
|
(2) |
yt = pyt-i + Щ |
является стохастическим разностным уравнением первого поряд ка. Такое построение для р = 1/2 иллюстрирует рис. 1.2. В этой модели «возмущение» щ оказывает влияние и на уь и на все последу ющие уг. Из указанного построения вытекает, что условное матема тическое ожидание yt при заданных значениях ух, ..., уил удовлет воряет равенству
(3) ^ (yt I Уг..........yt-i) = pyt-\-
(В действительности для процесса первого порядка значения yt и yt-г, .... Ух условно независимы при заданном значении yt- (.) Если
Гл. 1. |
ВВЕДЕНИЕ |
17 |
Рис. 1.2.
Построение ряда в модели авторегрессии.
мы хотим предсказать значение yt по значениям уъ ..., yt- 1 и пара метру р, то наилучшим прогнозом (в смысле минимума средне квадратичной ошибки) будет pyt-i- Таким образом, в этой модели знание предшествующих наблюдений оказывает помощь в предска зывании У{.
Процесс авторегрессии второго порядка получается, если взять совместное распределение уъ .... y t-1, yt таким же, как совместное распределение уъ у2, .... yt-\, pyyt-i + р2* //-2 + Щ, гдеи, не зависит от Уъ Уъ •••. yt- ь t — 3, 4, ..., а распределения ух и у2 выбираются надлежащим образом. Графики подобных рядов представлены в приложении А.2. Графики других рядов, порожденных случайным моделированием, имеются у Кендалла и Стьюарта (1966, гл. 45) и у Вольда (1965, гл. 1). Переменная у( может представлять собой смещение колеблющегося маятника, который подвержен некоторым случайным ударным воздействиям щ. Тогда ряд yt близок к триго
нометрической функции р cos (kt — 0) с переменной |
амплитудой, |
||
переменной |
частотой |
и переменной фазой. Процесс авторегрессии |
|
|
|
4 |
|
четвертого |
порядка, |
порожденный моделью yt = 2 |
Р$У‘- ‘ + ut> |
|
|
»—1 |
будет походить уже на сумму двух тригонометрических функций с изменяющимися амплитудами, частотами и фазами.
Стационарный случайный процесс общего вида можно аппрок симировать процессом авторегрессии достаточно высокого порядка или процессом
(4) |
2 |
И / cos Xji + |
Bj sin k,t), |
|
P\ |
|
|
где Alt Blt |
..., A„, B„ — независимые случайные величины с 8А/ = |
||
— %Bj = 0 |
и %А) = |
§5/ = <р (к,). |
Последний является суммой |
18 |
ВВЕДЕНИЕ |
Гл. 1 |
q тригонометрических функций со случайными амплитудами и фа зами. Вклад тригонометрической функции с частотой Х//(2п) в сред нем пропорционален математическому ожиданию квадрата ее амп литуды, т. е. 2<р (Xj). Исходя из этого, стационарный случайный про
цесс (определенного класса) можно характеризовать спектральной
ь
плотностью f(Я), т. е. такой функцией, для которой j f (A,) dk аппрок-
симируется |
суммой <р (А,/) |
по всем Xh а |
а |
Характерное |
|
Xj <; b. |
|||||
свойство стационарных случайных процессов состоит |
в |
том, что |
|||
ковариация |
S (yt — Syt) |
(ys — % s) зависит |
только |
от |
разности |
|/ — s |, так что ее можно обозначить через о (t — s). Ковариацион ная последовательность и спектральная плотность (если она суще ствует) суть две альтернативные формы описания структуры момен тов второго порядка стационарного случайного процесса. Ковари ационная последовательность более удобна и информативна, когда большее значение имеет временной характер последовательности, как это, например, бывает во многих экономических рядах. Спект ральная же плотность может оказаться более подходящей для дру гих типов анализа. В частности, она весьма важна в физических науках, поскольку существо многих физических явлений может быть описано с помощью гармоник или тригонометрических функций времени. Так, поскольку изменение давления воздуха при наличии чистого тона выражается косинус-функцией, то для целей анализа звука естественно использовать анализ Фурье. В частности, по добным образом определяет высоту тона человеческое ухо.
Влияние времени может быть представлено в обеих составляющих модели так, что систематическая составляющая f (t) является трен дом во времени, а случайная составляющая щ образует стационар ный случайный процесс. К примеру экономический временной ряд может складываться из долговременного и сезонного изменений, которые вместе составляют f (t)> и из колебательной компоненты и других нерегулярностей, которые вместе образуют щ и могут быть описаны процессом авторегрессии.
В тех случаях, когда тренд f (t) имеет вполне определенную структуру и определяется конечным числом параметров, мы рас сматриваем задачи статистических выводов о значениях этих пара метров. Например, можно оценивать коэффициенты при степенях t в полиномиальных и коэффициенты при синусах и косинусах в тригонометрических трендах. В первом случае может возникнуть вопрос о том, какую наивысшую степень t следует включить в рас смотрение, а во втором случае — вопрос о том, какие из нескольких слагаемых должны быть включены. Если же тренд не описывается столь точно, то для его оценивания можно использовать непарамет рические методы, такие, как сглаживание.
Если случайный процесс описывается с помощью конечного
Гл. 1. |
ВВЕДЕНИЕ |
19 |
числа парахметров, скажем, как процесс авторегрессии, го здесь также возникают задачи оценки коэффициентов, проверки гипотез относительно их значений или решения вопроса о том, какого по рядка процесс следует использовать. Особый интерес представляет здесь задача проверки нулевой гипотезы о независимости случай ных составляющих. Для этой цели может быть использован тот или иной сериальный коэффициент корреляции. Если процесс ста ционарный, но не описывается конечным числом параметров, то в этом случае можно оценивать ковариации {сг (А)} или спектральную плотность. Соответствующие процедуры являются в основном не параметрическими.
Методы, представленные в настоящей книге, предназначены глав ным образом для полученйя выводов относительно структуры меха низма, порождающего процесс. Указаны также методы предсказа ния последующих значений процесса для случая, когда структура известна. Если же структура случайного механизма оказывается неизвестной, ее можно оценить по имеющимся данным и затем уже для целей предсказания использовать найденные оценки.
ЛИТЕРАТУРА
Вольд (1965), Кендалл и Стьюарт (1966).
Глава 2
ИСПОЛЬЗОВАНИЕ
РЕГРЕССИОННОГО АНАЛИЗА
2.1. ВВЕДЕНИЕ
Значительную часть статистических методов, используемых при анализе временных рядов, представляют методы регрессион ного анализа (классической теории наименьших квадратов) или их видоизменения и аналоги. Независимые переменные могут быть заданными функциями времени, например степенями пере менной t или тригонометрическими функциями от t. Сначала мы кратко опишем статистические процедуры в предположении не коррелированности случайных составляющих (§ 2.2 и 2.3). Со ответствующие результаты будут использоваться при анализе тренда (гл. 3 и 4). Затем мы видоизменим эти процедуры приме нительно к произвольно коррелированным случайным составляю щим, ковариационная матрица которых известна с точностью до постоянного множителя (§ 2.4).
В гл. 10 изучаются статистические процедуры, используемые при анализе тренда в предположении, что случайные составляю щие образуют стационарный случайный процесс. При изложении регрессионного анализа определенное место уделяется асимпто тической теории, которую можно использовать и при нарушении предположения о нормальном распределении случайных состав ляющих (§ 2.6).
Обобщения этих результатов полезны при оценивании коэф фициентов стохастических разностных уравнений (гл. 5), по скольку в этом случае точные распределения использовать не удается. Обобщения указанных результатов необходимы также, когда случайные составляющие образуют стационарный процесс более общего типа (§ 10.2).
2 .2 . ОБЩАЯ ТЕОРИЯ НАИМЕНЬШИХ КВАДРАТОВ 21
2.2. ОБЩАЯ ТЕОРИЯ НАИМЕНЬШИХ КВАДРАТОВ
Рассмотрим некоррелированные случайные в е л и ч и н ы у2>•••
.... Ут, средние и дисперсии которых выражаются соотношениями
(1) |
h t = |
2 |
* = |
1, |
2, . . . . |
7, |
(2) |
& (У(— |
= |
а2. < = |
1, |
2, . . . . |
7, |
с заданными числовыми значениями |
|
При этом, zit называются |
||||
независимыми переменными, |
a yt — зависимыми переменными. Ис |
|||||
пользуя векторные обозначения |
|
|
|
(3)
Hi\
»
*7
1~
Г 1Л |
t= |
1 |
Т |
z2t |
|||
|
* |
1 > • • • |
» л > |
: |
, |
|
|
Cpt'
выражение (1) можно записать в виде
(4) &/,= P'z„ t =
(Транспонирование вектора или матрицы а будет отмечаться штри хом: а'.)
Будем обозначать через b оценку вектора р, представляющую собой решение нормального уравнения
(5) |
|
АЬ = |
с, |
|
в котором |
т |
, |
т |
|
(6) |
||||
А = ^ |
z,z,, |
с = 2 ’ У?» |
||
|
t=i |
|
<=i |
и матрица А предполагается невырожденной (так что 7 > р). Век-
т
тор b = А-1с минимизирует сумму 2 (yt — V zt)2 на множестве
~<=1
всех р-мерных векторов b и называется оценкой наименьших квад ратов вектора (5. Несмещенная оценка s2 для а2 может быть получе на (при 7 > р) из соотношения
(7) |
(7 - р) s2 = 2 & ~ bV |
= 2 0?~ Ь'АЬ. |
|
<=i |
<-i |
Оценка наименьших квадратов b является несмещенной оценкой вектора р,
(8) |
8Ь = р, |
и имеет ковариационную матрицу |
|
(9) |
8 (Ь — Р) (Ь — Р)' = а2А~'. |
22 |
ИСПОЛЬЗОВАНИЕ РЕГРЕССИОННОГО АНАЛИЗА |
Гл. 2. |
Теорема |
Гаусса — Маркова утверждает, что компоненты |
вектора |
b являются наилучшими линейными несмещенными оценками соот ветствующих компонент вектора р в следующем смысле. Каждый элемент вектора Ь имеет дисперсию, наименьшую среди дисперсий всех несмещенных оценок соответствующего элемента вектора р, ли нейных по переменным уъ ..., ут.
Если случайные величины уъ ..., ут независимы и нормально распределены, то b является оценкой максимального правдоподобия вектора р. Оценкой максимального правдоподобия для а2 служит в этом случае величина (Т — р) Ф1Т. При этом оценка b распределе на по многомерному нормальному закону N (Р, а2А-1) со средним Р и ковариационной матрицей а2А-1, а оценка (Т — р) sVa2 имеет Х2-распределение с числом степеней свободы, не зависящим от b и равным Т — р. Вектор b и оценка s2 образуют достаточное множе ство статистик для р и а2.
В предположении нормальности случайных величин уъ ..., ут можно построить критерии для проверки гипотез относительно зна
чений р, |
и доверительные интервалы для р*, i = 1, ..., р. Пусть |
(Ю) |
Р = |
где |
|
.................................... " - Q
Аналогичным образом разобьем zt и Ь. Блочные векторы и матрицы рассмотрены у Т. Андерсона (1958, приложение 1, § 3). Тогда для
проверки гипотезы Н о том, что р(2>= р(2>, где р(2>— некоторый вектор, можно использовать F-статистику
(Ь<2>- р<2>ПА»г)~‘ (Ь(2>-р(2>)
( U ) |
(р — г) s* |
(Ь(2)- Р(2>)' (А82 - а21ап'а12) (Ь(2>- Р(2>)
(р — г) S2
Здесь А и А-1 разбиты на блоки с г и р — г строками и столбцами:
1По поводу равенства А22 = (Аи — А21Ап'А12)-1 см. упр. 8.1 Если выполнено предположение о нормальности и справедлива нулевая гипотеза, то статистика (12) имеет F-распределение с р — г и Т — р степенями свободы. В общем случае в предположении нормальности