Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Цифровая обработка сигналов (сборник книг) / Дронов С.В. Многомерный статистическийц анализ, 2003

.pdf
Скачиваний:
112
Добавлен:
05.03.2016
Размер:
958.12 Кб
Скачать

14.4. Индивидуальные различия

 

191

При этом оценки весов важности на p-й итерации имеют вид

wt(s)(p)

 

q

 

:

=

Wt;s2 (p)

Ê øàãó 3.

Øàã 3. Построим здесь вновь две матрицы. Сначала матрицу C(p),

содержащую K строк и MK столбцов. Каждая ее строка соответствует какому-то эксперту, а каждый столбец паре (эксперт, объект). Элемент в i-й строке в столбце, соответствующем паре (s; j), имеет вид i;j(s),

i; j = 1; :::; K; s = 1; :::; M. Матрица D(p) имеет q строк и MK столбцов. Каждая строка соответствует координате, а каждый столбец паре

(эксперт, объект). Элемент в строке k в столбце, соответствующему s-му эксперту и j-му объекту равен Wk;s2 (p)xj;k(p) (произведению соответству-

ющих элементов матриц W 2(p) è X(p)).

По этим матрицам вычисляем новое приближение "объективной"матрицы координат

X(p + 1) = C(p)Dt(p)(D(p)Dt(p)) 1:

Вычислим также исправленные скалярные произведения

q

i;j(s; p) = X wk;s2 xi;kxj;k; i; j = 1; :::; K;

k=1

сформируем из них новые матрицы (s); s = 1; :::; M и пусть

K K M

f = X X X i;j(s) i;j(s; p) 2 :

i=1 j=1 s=1

Ê øàãó 4.

Øàã 4. Åñëè f < ", то конец алгоритма. Иначе p = p + 1 è ê øàãó 1.

192

Глава 14. Многомерное шкалирование

Глава 15

Понятие о временном ряде

15.1Общие положения

Мы, как всегда, будем иметь дело с некоторым количеством n наблюдений. Только если раньше мы наблюдали случайную величину (или вектор), как правило, в неизменных условиях, то теперь в наши наблюдения вмешивается независимо от нас изменяющийся параметр, который мы будем называть временем. При изменении этого параметра распределение наблюдаемой величины может изменяться. В той теории, которую мы будем строить, предполагается, что состояние некоторой величины измеряется через равные промежутки времени, в результате чего полу-

чаем набор значений (выборку) объема

n

 

u1

; :::; un, при этом время при-

нимало значения

 

t1; :::; tn с одним и тем же шагом h = ti ti 1; i = 2; :::; n:

Обычно принято считать и мы также для упрощения формул примем эту точку зрения что ti = i, т.е. измерения происходят в моменты

1; 2; :::; n. Эту цепочку наблюдений и условимся называть временным рядом.

Каждый может легко представить себе примеры временных рядов: урожайность зерновой культуры на единицу площади, измеряемую год за годом, среднемесячные температуры июля и января, также определяемые ежегодно, количества единиц продукции, производимой цехом за смену, количество населения в стране (периодичность измерения примерно раз в 10 лет). Нетрудно также придумать примеры, в которых в роли "времени"выступает совсем иной параметр. Так бывает, например, если мы возьмемся измерять засоренность единицы площади поля сор-

193

Глава 15. Временные ряды

194

няками по мере удаленности от края поля, или будем выяснять процент людей, которым известно, кто такой С.Зубакин по мере удаления места их проживания от Республики Алтай. Заранее договоримся, что во всех этих ситуациях параметр, через равные промежутки изменения которого

производятся замеры величины u, мы будем называть временем.

Еще раз подчеркнем, что промежутки времени между соседними моментами измерений заранее задаются и в процессе эксперимента не меняются. Дело в том, что есть много похожих задач, в формулировке которых участвует понятие "время", но, в силу случайного характера его значений в этих задачах, они решаются совсем другими методамиметодами, имеющими дело со случайными процессами (процессы восстановления или обслуживания) или методами, относящимися к компетенции теории катастроф. Такими являются, например, задачи изучения периодичности возникновения эпидемий, прогноз наступления того или иного события по изменению неких близких параметров, задачи определения числа появлений какого-то события а течение данного промежутка времени и т.п.

После изучения некоторого количества практических примеров временных рядов становится понятно, что имеет смысл (возможно, достаточно условно, о чем речь несколько ниже) выделить следующие соста-

вляющие, определяющие значения наблюдаемой величины u:

1. тренд, или систематическое изменение вместе с изменением времени;

2. случайные колебания относительно небольшой амплитуды вокруг тренда, величина которых в принципе может быть связана со зна- чением тренда;

3. эффект сезонности;

4. чисто случайная или нерегулярная составляющая.

Эффект сезонности понять из перечисленных, пожалуй, проще всего. Название это произошло от того, что вся наша жизнь протекает на фоне сезонных изменений в природе, и говорить о том, что в течение одного и того же срока летом или зимой некий процесс протекает с одинаковой интенсивностью, как правило, нельзя.

Понятие тренда можно представить себе как некое детерминированное изменение, например, среднего значения какой-либо величины со

15.2. Критерии случайности

195

временем. Так, средняя урожайность пшеницы с гектара с годами увели- чивается из-за изобретения новых удобрений и внедрения новых прогрессивных способов хозяйствования и технологий обработки земли. То же самое можно сказать о населении, а вот число гужевых повозок в хозяйствах имеет обратную тенденцию (отрицательный тренд). Иногда тренд может иметь достаточно сложную структуру, например, периодическую. Особенно это касается длительных процессов, в частности, природных. Бывает и так, что то, что мы принимаем за тренд, при "смене масштаба"оказывается лишь проявлением сезонности. Так, сегодня мы говорим об общем потеплении климата и склонны рассматривать это как тренд в изменении среднегодовой температуры, но при переходе к изучению изменения климата в течение геологических эпох мы увидим, что потепления и похолодания на Земле сменяют друг друга довольно регулярно, и с этой точки зрения мы наблюдаем лишь сезонное явление.

Из последнего (довольно длинного) рассуждения должно стать ясно, что некое сходство и взаимное перетекание содержания имеется между всеми перечисленными составляющими временного ряда, и отнесение изменения наблюдаемого значения к одной из этих составляющих довольно условно. Что ж, в задачах статистики явления, сходные этому, встреча- ются довольно часто, и, как мы знаем, обычно получают разрешение в рамках конкретной задачи, причем весьма субъективным образом. Поэтому, обозначив эти проблемы, больше не будем к ним возвращаться.

15.2Критерии случайности

В этом разделе мы рассмотрим критерии, позволяющие определить наблюдаемый временной ряд, как имеющий только чисто случайную, нерегулярную составляющую. Естественно, необходимо задаться вопросом об альтернативе высказываемой гипотезе. При ясном понимании, какая именно альтернатива подразумевается наличие тренда и какого именно вида, наличие сезонности, или то и другое, можно выбрать наиболее подходящий к ситуации критерий, которых имеется огромное количе- ство.

Здесь мы рассмотрим только критерии, которые

никак не используют вид альтернативы;

196

Глава 15. Временные ряды

никак не зависят от распределения случайной составляющей временного ряда;

требуют относительно небольшого числа вычислений и имеют просто описываемый алгоритм.

Еще раз подчеркнем, что, употребляя слова "случайный временной

ряд", мы в этом разделе будем понимать, что наши числа u ; :::; u ставляют собой результаты независимых наблюдений над одной1 è òîén предже-

случайной величиной выборку в традиционном значении этого слова. Отсутствие изменения распределения наблюдаемой величины с течением времени, т.е. при переходе от наблюдения к наблюдению, как раз и гарантирует отсутствие любого тренда и сезонности.

15.2.1Подсчет экстремальных точек

Мы условимся говорить, что в точке k временной ряд uj; j = 1; :::; n

имеет пик, если одновременно

uk 1 < uk; uk+1 < uk и имеет яму, если

значение

uk меньше обеих соседних. Будем говорить, что k экстремальная точка ряда, если в этой точке пик или яма.

Как видно из данных определений, в число экстремальных точек не

могут попасть начальная и конечная точки (1 и n). Если в ряду попадается несколько равных значений, причем все они больше (или, соответственно, меньше) их окружающих, то все эти точки мы будем воспринимать как одну экстремальную точку. Интервал между двумя экстремальными точками называют фазой. При этом под словами "длина фазы"условимся понимать количество членов ряда между экстремальными точками. Так, например, если соседние экстремальные значения

временного ряда

u2

è

u5, то длина фазы, заключенной между ними,

равна 2.

 

Целью нашего исследования будет изучать распределение пиков в (чисто) случайном временном ряде. Распределение ям будет, очевидно, таким же. Действительно, если ряд случаен и получен наблюдением над

случайной величиной , то при замене ее на любой пик перейдет в яму и наоборот. Но, по сделанным выше допущениям, мы ищем критерии, не

зависящие от распределения !

Наличие экстремального значения определяется сравнением между собой трех последовательных значений временного ряда. Но три раз-

15.2. Критерии случайности

197

личных фиксированных значения, например, a; b; c всего могут расположиться 6 способами, из которых 2 образуют монотонную цепочку (возрастающую и убывающую), поэтому вероятность того, что в цепочке трех подряд взятых значениях случайного временного ряда будет иметься экстремальная точка, рана 4/6 или 2/3.

Для трех последовательных значений ui; ui+1; ui+2; i = 1; :::; (n 2) определим

1, если среди них есть экстремальная точка,

 

Xi = 0 иначе.

 

 

 

 

 

 

 

 

Тогда число экстремальных точек

 

 

 

 

 

 

 

 

 

n 2

 

 

 

 

 

 

 

Xi

 

 

 

 

 

 

e =

Xi:

 

 

 

 

 

 

 

=1

 

 

 

 

 

 

Нетрудно вычислить,

 

 

 

 

 

 

 

 

Me = n 2 MXi =

2(n 2)

:

 

 

 

 

Xi

3

 

 

 

 

 

 

=1

 

 

 

 

 

 

 

Кроме того,

0n 2 Xi2

 

 

 

 

1

 

 

Me2 = M

+ 2 n 3 n 2

XiXj

:

(15.1)

 

@Xi

X X

 

 

A

 

 

 

=1

i=1 j=i+1

 

 

 

 

 

Заметим, что Xi2 = Xi, а также отметим, что Xi è Xj независимы, когда j > i + 2, поэтому

MXiXj = MXi MXj =

4

; j > i + 2:

9

Пусть a < b < c < d. Рассмотрим четыре последовательных члена

временного ряда

ui; ui+1; ui+2; ui+3

 

 

держатся в

 

. Будем считать, что их величины со-

 

множестве

 

чения 0 или 1, причемfa; b; c; dg

. Величина

XiXi+1

 

 

равна 1 только если экстремальныепринимаетточкилишьбудутзна-

находиться на втором и третьем местах. Нетрудно убедиться (например, полным перебором всех 24 вариантов), что только при 10 перестановках

значений a; b; c è d это будет так. Вот эти перестановки:

acbd badc cadb dacb adbc bcad cbda dbca bdac cdab

198 Отсюда следует, что

Глава 15. Временные ряды

5 MXiXi+1 = P(XiXi+1 = 1) = 12:

Аналогично, для расчета MX X

становок пяти последовательныхi i+2членовмыдолжнынашего перебратьвременноговсеряда120иперевы--

яснить, в скольких из них экстремальные точки находятся на втором и четвертом месте одновременно (только в этом случае наше произведение

XiXi+2 отлично от нуля). Таких перестановок оказывается 54. Отсюда

 

 

MXiXi+2 =

54

 

=

9

:

 

 

 

 

 

 

 

 

 

 

 

 

 

120

 

20

 

Перепишем (15.1) с учетом сделанных замечаний в виде

Me2

=

n 2 MXi + 2

 

 

 

n 3 MXiXi+1+

 

+ 2 i=1P

i

 

i+2

 

 

 

Pi=1 j=i+3 M iM j

 

P

 

i=1

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

n 4 MX X + 2

 

 

 

n 5

 

 

n 2

 

 

X X =

 

=

2(n

2)

+

5(nP

 

 

 

P

 

 

+

 

 

 

 

 

 

 

3)

 

+

 

 

 

4)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

9(n

 

 

 

 

 

3

 

 

6

 

 

 

 

 

10

 

 

 

 

 

+

4(n 4)(n 5)

 

= 40n2 144n+131 :

 

 

 

 

9

 

 

 

 

 

 

 

 

 

 

90

 

 

 

При этом, конечно же, предполагалось, что n > 5, и был учтен тот факт,

что в двойной сумме осталось C2

и рассчитанного ранее среднего значенияn 4 слагаемых. Из последней формулы e выводим

De = 16n 29: 90

Из этого соотношения с привлечением обычной центральной предельной теоремы следует

Теорема 22 Распределение

e Me

=

3e 2n + 4p

 

10

p

 

 

 

p

 

 

 

 

De

 

16n 29

сходится к стандартному нормальному при n ! 1.

Из приведенной теоремы следует такой алгоритм проверки гипотезы о случайном характере временного ряда: определим число e экстремаль-

ных точек временного ряда по n имеющимся в нашем распоряжении значениям. После этого вычислим

3e 2n + 4p

t = p 10 (15.2)

16n 29

15.2. Критерии случайности

199

и сравним его с двусторонней критической точкой стандартного нормального распределения уровня (это то же самое, что его квантиль

t1 =2 уровня 1 =2). Åñëè

jtj < t1 =2;

то гипотезу о чисто случайном характере временного ряда можно принять с вероятностью 1 .

15.2.2Распределение длины фазы

Чтобы обнаружить фазу длины d, необходимо обнаружить цепочку длины d + 3, имеющую вид

ui < ui+1 > ui+2 > ::: > ui+d+1 < ui+d+2

(фаза убывания) или такую, в которой все неравенства заменены на противоположные (фаза возрастания). Рассмотрим произвольные фиксиро-

ванные d + 3 значения, расположенные в порядке возрастания. Если мы возьмем любые два из этих значений кроме первого и последнего и поставим их на первое и последнее места, то получим фазу возрастания

длины d. Очевидно, фаза возрастания требуемой длины, если мы не трогаем крайние элементы, может по заданным значениям быть построена только описанным образом. Следовательно, имеется столько же способов образования фазы возрастания, сколько способов выбора произвольных

двух элементов из d + 1. При этом каждый из двух выбранных элементов может располагаться как в начале,так и в конце строящейся цепочки. Таким образом, всего вариантов получилось A2 = d(d + 1).

Теперь перейдем к подсчету вариантов, разрешающихd+1 перестановки крайних членов цепочки. Мы можем переставить первый элемент на последнее место, а любой элемент, кроме второго, на первое. При этом

получается еще d + 1 вариант фазы возрастания длины d. Можно также последний поставить на первое место, а любой, за исключением предпо-

следнего, на последнее, что дает еще d+1 вариант. Но при этом вариант, когда первый становится последним, а последний первым, посчитан два-

жды, а значит, его нужно вычесть. Таким образом, при заданных d + 3 значениях мы получили

d(d + 1) + 2(d + 1) 1 = d2 + 3d + 1

200

Глава 15. Временные ряды

фаз возрастания длины d. Конечно же, можно построить точно такое же количество цепочек, в которых мы обнаружим фазу убывания длины

d. Итак, вероятность обнаружить требуемую фазу в цепочке из d + 3 последовательных значений равна

pd+3(d) = 2(d2 + 3d + 1): (d + 3)!

Аналогично проведенным выше рассуждениям, введем для произвольных d+3 последовательных значений индикатор наличия в них фазы

длины d:

Ii

=

8

1, если среди d

значений, начиная с i-ãî åñòü

фаза длины+d3,

 

 

 

<

 

 

:0 иначе.

Тогда, в силу того, что индикатор принимает только значения 0 или 1, для произвольного i

MIi = P(Ii = 1) = pd+3(d):

Отсюда, т.к. общее число фаз требуемой длины равно сумме всех Ii; i =

1; :::; (n d 2), получаем, что среднее количество фаз длины d для чисто случайного временного ряда равно

N(d) =

n d 2 MIi =

2(n d 2)(d2 + 3d + 1)

:

(15.3)

(d + 3)!

X

i=1

Исходя из (15.3), а также учитывая тот факт, что если данный уча-

сток временного ряда "занят"в формировании фазы длины d, то он не может принимать участие в формировании фаз других длин, можно вы-

вести формулу среднего количества N фаз всех возможных длин:

n 3

X

N = N(d):

d=1

Достаточно заметить, что

(n d 2)(d2 + 3d + 1) = nd(d + 3) + n d(d + 2)(d + 3) d(d + 2)

и расписать формулу для N â âèäå

n 3

1

 

X

 

 

N = 2n

(d + 3)!

+

d=1

 

 

n 3 1

n 3 1

!

 

d=1 (d + 1)!

2 d=1 (d + 2)!

X

X