Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Назаметдинов Анализ данных 2012

.pdf
Скачиваний:
10
Добавлен:
12.11.2022
Размер:
5.66 Mб
Скачать

6.3. Планирование эксперимента с качественными переменными

Пусть исследуется некоторый показатель, определяемый n качественными переменными (факторами), имеющими по pi. (i=1,2,…, n) уровней. Если каждому из р1 р2 … рn различных сочетаний уровней соответствует хотя бы одно наблюдение, то соответствующий план эксперимента называют полным факторным планом. В противном случае говорят о неполном факторном плане. В задачах, где требуется сравнить эффекты части факторов (назовем их основными), эксперименты стараются спланировать так, чтобы нивелировать влияние остальных факторов, в том числе неучтенных и случайных. Это достигается либо случайным размещением уровней этих остальных факторов среди основных (так называемые рандомизированные планы), либо формированием групп однородных экспериментов (блочные планы).

Рассмотрим хрестоматийный пример планирования эксперимента по испытанию автомобильных покрышек. Четыре различных марки шин (фактор с четырьмя уровнями, которые будем обозначать A,B,D,C) испытываются на четырех автомобилях. Количественной переменной является износ в миллиметрах.

Рассмотрим возможные планы размещения экземпляров покрышек по автомобилям. Первый из них (П1) – каждый автомобиль «обут» покрышками одного типа. Недостаток П1 очевиден – износ покрышек будет определяться не только свойствами самой марки, но и особенностями того или иного автомобиля, стилем вождения и др. Чтобы нивелировать влияние автомобилей, распределим 16 покрышек по 16 колесам случайным образом (рандомизированный план П2). План П2 и результаты приведены в табл. 6.3.

 

 

 

 

Таблица 6.3

 

 

Автомобили

 

1-й

2-й

 

3-й

4-й

С(12)

A(14)

 

D(10)

A(13)

A(17)

A(13)

 

C(11)

D(9)

D(13)

B(14)

 

B(14)

B(8)

D(11)

C(12)

 

B(13)

C(9)

131

Для обработки результатов эксперимента применим однофакторный ДА. Данные и результаты представлены в табл. 6.4 и 6.5.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 6.4

 

 

Экземпляры покры-

 

Сумма

 

Среднее по строке

Уровни фактора

 

 

 

 

шек

 

 

по строке

~

 

 

 

 

 

 

 

 

 

yi

 

 

 

1

 

2

 

3

 

4

 

 

 

 

 

 

 

 

A

17

 

14

 

13

 

13

 

57

14,25

 

 

B

14

 

14

 

13

 

8

 

49

12,25

 

 

C

12

 

12

 

11

 

9

 

44

11

 

 

 

D

13

 

11

 

10

 

9

 

43

10,75

 

Сумма и среднее по таблице

 

 

 

 

 

193

12,06

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 6.5

 

Источник изменчиво-

 

Сумма квадратов

 

ЧСС

 

Среднее

 

Fp

 

сти

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Марки покрышек

 

 

 

 

30,6

 

 

3

 

10,2

 

Fр=2,4

 

Внутри марок

 

 

 

 

50,3

 

 

12

 

4,2

 

 

 

 

 

 

 

 

 

 

80,9

 

 

15

 

 

 

 

Поскольку F p < F Т [ 0 , 9 5 ; 3 ; 1 2 ] = 3,49, гипотеза Н0 не отвергается. Иными словами, испытания по плану П2 не выявили значимых различий в марках покрышек.

Более внимательный анализ плана П2 показывает, что избежать влияния неоднородности, связанной с автомобилями, удалось не полностью. Так, на первом автомобиле установлены две покрышки марки D, тогда как на втором – они отсутствуют. Сходная ситуация и с покрышками А и В.

Рассмотрим блочный план П3, в котором в качестве блока выступает автомобиль (табл.6.6).

 

 

 

 

Таблица 6.6

 

 

Автомобили

 

1-й

2-й

 

3-й

4-й

B(14)

D(11)

 

A(13)

C(9)

C(12)

C(12)

 

B(13)

D(9)

A(17)

B(14)

 

D(11)

B(8)

D(13)

A(14)

 

C(10)

A(13)

132

Теперь мы вправе применить двухфакторный ДА (см.п.5.2). В качестве второго фактора выступает автомобиль. Исходные данные и результаты ДА представлены в табл. 6.7 и 6.8. Для большей наглядности вычислений из исходных данных вычтем одно и то же число 10, что не скажется на результатах дисперсионного анализа.

 

 

 

 

 

Таблица 6.7

Уровни

Уровни фактора 2

Среднее

фактора 1

1

2

3

4

по строкам

А

7

4

3

3

17/4

B

4

4

3

-2

9/4

C

2

2

0

-1

3/4

D

3

1

1

-1

4/4

Среднее

16/4 11/4 7/4 -1/4

33/16

по столбцам

 

 

 

 

 

Найдем остаточную сумму квадратов для средних по строкам:

S 4[(

17

 

 

33

)2

(

9

 

 

33

)2

(

3

 

 

33

)2

(

4

 

 

33

)2

] 30,6 .

4

16

4

16

4

16

4

16

1

 

 

 

 

 

 

 

 

 

 

 

 

Аналогично, S0=80,9; S2=38,6. Остаточную сумму квадратов ошибки находят из соотношения (5.5): S R = S 0 - S 1 - S 2 = 11, 7 .

 

 

 

 

Таблица 6.8

Источник

Сумма

 

Среднее

 

 

измен-

ЧСС

Fр

 

квадратов

квадратов

 

чивости

 

 

 

 

 

 

 

 

Покрышки

30,6

3

10,2

7,8

 

Автомобили

38,6

3

12,9

10

 

Ошибка

11,7

9

1,3

 

 

 

80,9

15

 

 

 

Поскольку оба расчетных F-отношения превышают FТ[0,95;3;9]=3,86, обе Н0 гипотезы должны быть отвергнуты. Иными словами, план П3 показал значимые различия между покрышками.

Ошибку эксперимента удалось уменьшить за счет исключения влияния автомобилей. Строго говоря, план П3 не безупречен: износ покрышки зависит от ее местоположения на автомобиле. Здесь можно было применить план латинского квадрата, что уменьшило бы ошибку за счет исключения влияния позиции колеса.

133

Вопросы и упражнения

1.Чем различаются активный и пассивный эксперименты?

2.Укажите преимущества и недостатки ПФЭ.

3.Как выбирается порядок дробности в ДФЭ?

4.Распишите формулу для вычисления aˆ0 в ПФЭ и укажите ка-

кому статистическому понятию она соответствует.

5.Можно ли утверждать, что абсолютная погрешность оценок у всех коэффициентов регрессии ПФЭ одинакова?

6.Почему факторный эксперимент не используется в моделях, содержащих квадратичные члены?

7.Всегда ли объем эллипсоида рассеяния является индикатором точности оценок коэффициентов регрессии?

8.Что является мерой эффективности в методах экспериментальной оптимизации?

9.Какие факторы следует учитывать при выборе значения пара-

метра в методе деления отрезка пополам?

10.Как выбирается число экспериментов при поиске с использованием чисел Фибоначчи?

11.Почему в методе Бокса-Уилсона можно использовать линейное приближение? В каких случаях оно не оправдывается?

12.С какой целью вводится блочность в экспериментах с качественными переменными?

13.Найдите минимум функции (х-7)2 на отрезке [0-9] методом золотого сечения.

134

7.ИЗОЛИРОВАННЫЕ ВРЕМЕННЫЕ РЯДЫ

Вданной главе рассматриваются задачи описания упорядоченных данных, полученных последовательно (во времени). Вообще говоря, упорядоченность может иметь место не только во времени, но и в пространстве, например, диаметр нити как функция её длины (одномерный случай), значение температуры воздуха как функция пространственных координат (трёхмерный случай).

Вотличие от регрессионного анализа, где порядок строк в матрице наблюдений может быть произвольным, во временных рядах важна упорядоченность, а следовательно, интерес представляет взаимосвязь значений, относящихся к разным моментам времени.

Если значения ряда известны в отдельные моменты времени, то такой ряд называют дискретным, в отличие от непрерывного, значения которого известны в любой момент времени. Интервал меж-

ду двумя последовательными моментами времени назовём тактом (шагом). Здесь будут рассматриваться в основном дискретные временные ряды с фиксированной протяжённостью такта, принимаемой за единицу счёта. Заметим, что временные ряды экономических показателей, как правило, дискретны.

Значения ряда могут быть измеряемыми непосредственно на

данный момент (цена, остаток вклада, температура), либо агрегированными (кумулятивными), например, объём выпуска либо расстояние, пройдённое грузоперевозчиками за временной такт. Ряды первого вида иногда называют моментными, тогда как второго –

интервальными.

Если значения ряда определяются детерминированной математической функцией, то ряд называют детерминированным. Если эти значения могут быть описаны лишь с привлечением вероятностных моделей, то временной ряд называют случайным.

Явление, протекающее во времени, называют процессом, поэтому можно говорить о детерминированном или случайном процессах. В последнем случае используют часто термин “стохастический процесс”. Анализируемый отрезок временного ряда может рассматриваться как частная реализация (выборка) изучаемого сто-

135

хастического процесса, генерируемого скрытым вероятностным механизмом.

Временные ряды возникают во многих предметных областях и имеют различную природу. Для их изучения предложены различные методы, что делает теорию временных рядов весьма разветвленной дисциплиной. Так, в зависимости от вида временных рядов можно выделить такие разделы теории анализа временных рядов:

стационарные случайные процессы, представляющие собой последовательности случайных величин, распределения которых не изменяются во времени. Подобные процессы широко распространены в радиотехнике, метеорологии, сейсмологии;

точечные процессы, описывающие последовательности событий, таких как поступление заявок на обслуживание. Подобные процессы изучаются в теории массового обслуживания.

Мы ограничимся рассмотрением прикладных аспектов анализа временных рядов, которые полезны при решении практических задач. Основной упор будет сделан на методы подбора математической модели для описания временного ряда и прогнозирования его поведения.

7.1. Цели, методы и этапы анализа временных рядов

Практическое изучение временного ряда предполагает выявление свойств ряда и получение выводов о механизме, порождающем

этот ряд. Основные цели при изучении временного ряда следую-

щие [13]:

описание характерных особенностей ряда в сжатой форме; построение модели временного ряда; предсказание будущих значений на основе прошлых наблюде-

ний.

Перечисленные цели диктуют в значительной мере последовательность этапов анализа временных рядов:

1)графическое представление ряда;

2)выделение и исключение закономерных составляющих ряда, зависящих от времени: тренда, сезонной и циклической составляющих;

136

3)выявление структуры случайной составляющей временного

ряда;

4)построение (подбор) математической модели для описания случайной составляющей;

5)прогнозирование будущих значений ряда.

При анализе временных рядов используются различные методы, наиболее распространенными из которых являются:

1)корреляционный анализ, используемый для выявления характерных особенностей ряда (периодичностей, тенденций и т. д.);

2)спектральный анализ, позволяющий находить периодические составляющие временного ряда;

3)методы сглаживания и фильтрации, предназначенные для преобразования временных рядов с целью удаления высокочастотных и сезонных колебаний;

4)модели авторегрессии и скользящего среднего для исследования случайной составляющей временного ряда;

5)методы прогнозирования.

7.2. Структурные компоненты временного ряда

Как уже отмечалось, в модели временного ряда принято выделять две основные составляющие: детерминированную и случай-

ную (рис.7.1). Под детерминированной составляющей временно-

го ряда y1, y2 , yN понимают числовую последовательность d1, d2 , dN , элементы которой вычисляются по определенному

правилу как функция времени t. Исключив детерминированную составляющую из данных, мы получим колеблющийся вокруг нуля ряд, который может в одном предельном случае представлять чисто случайные скачки, а в другом – плавное колебательное движение. В большинстве случаев будет нечто среднее: некоторая иррегулярность и определенный систематический эффект, обусловленный зависимостью последовательных членов ряда.

137

Временной ряд

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Детерминированная

 

 

 

 

 

Случайная

 

 

составляющая

 

 

 

 

составляющая

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Тренд

 

 

 

 

 

 

 

 

Белый шум

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Сезонный эффект

 

 

 

 

 

 

 

Авторегрессия

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Циклическая компонента

 

 

 

 

 

 

Скользящее среднее

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Интервенция

 

 

 

 

 

 

 

 

Смешанная

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рис.7.1. Структурные компоненты временного ряда

В свою очередь, детерминированная составляющая может содержать следующие структурные компоненты [26]:

Тренд g, представляющий собой плавное изменение процесса во времени и обусловленный действием долговременных факторов. В качестве примера таких факторов в экономике можно назвать : а) изменение демографических характеристик популяции (численности, возрастной структуры); б) технологическое и экономическое развитие; в) рост потребления.

Сезонный эффект s, связанный с наличием факторов, действующих циклически с заранее известной периодичностью. Ряд в этом случае имеет иерархическую шкалу времени (например, внутри года есть сезоны, связанные с временами года, кварталы, месяцы) и в одноименных точках ряда имеют место сходные эффекты.

Типичные примеры сезонного эффекта: изменение загруженности автотрассы в течение суток, по дням недели, временам года; пик продаж товаров для школьников в конце августа − начале сентября.

Циклическая компонента c, описывающая длительные периоды относительного подъема и спада и состоящая из циклов пере-

138

менной длительности и амплитуды. Подобная компонента весьма характерна для рядов макроэкономических показателей. Циклические изменения обусловлены здесь взаимодействием спроса и предложения, а также наложением таких факторов, как истощение ресурсов, погодные условия, изменения в налоговой политике и т. п. Отметим, что циклическую компоненту крайне трудно идентифицировать формальными методами, исходя только из данных изучаемого ряда.

«Взрывная» компонента i, иначе интервенция, под которой понимают существенное кратковременное воздействие на временной ряд. Примером интервенции могут служить события «черного вторника» 1994г., когда курс доллара за день вырос на несколько десятков процентов.

Случайная составляющая ряда отражает воздействие многочисленных факторов случайного характера и может иметь разнообразную структуру, начиная от простейшей в виде «белого шума» до весьма сложных, описываемых моделями авторегрессии − скользящего среднего.

Заметим, что приведенная спецификация компонент ряда не является единственной. Так, возможно [18] выделение компонент по характеру воздействия на значения последующих членов ряда: одна компонента (случайная) влияет лишь на текущее значение ряда, тогда как другая (трендовая) определяется «историей» ряда и влияет на его будущие значения. Причем трендовая составляющая мо-

жет носить случайный характер (классический пример – процесс «случайных блужданий» –см. п. 7.10.4).

После выделения структурных компонент необходимо специфицировать форму их вхождения во временной ряд. На верхнем уровне представления с выделением лишь детерминированной и случайной составляющих обычно используют аддитивную либо мультипликативную модели.

Аддитивная модель имеет вид

yt dt xt ,

t 1,2,...,N ;

мультипликативная –

 

yt dt xt ,

t 1,2,...,N ,

139

где yt – значение ряда в момент t; dt – значение детерминированной составляющей; xt – значение случайной составляющей.

В свою очередь, детерминированная составляющая может быть представлена как аддитивная комбинация детерминированных компонент: dt=gt+st+ct+it; как мультипликативная комбинация: dt=gtstctit; либо как смешанная комбинация, например, dt=gtst+ct+it. Заметим, что мультипликативную модель часто сводят к линейной логарифмированием.

7.3. Модели компонент детерминированной составляющей временного ряда

7.3.1. Модели тренда

Тренд отражает действие постоянных долговременных факторов и носит плавный характер, так что для описания тренда широко используют полиномиальные функции времени, линейные по параметрам

g(t) a0 a1t a2t2 ... aktk ,

где значения степени k полинома редко превышает 5.

Наряду с полиномиальными моделями данные, описывающие процессы роста, часто аппроксимируются следующими моделями:

 

экспоненциальной

g(t) e x p(a0

a1t)

(процесс с постоянным

темпом прироста, т.е.

dg / dt

a1 );

 

 

g

 

 

 

 

 

 

 

 

 

 

 

 

 

 

логистической

g(t) a0

(1 a1e a2t ) (темп прироста изучаемой

характеристики

линейно

падает

с

увеличением y, т.е.

 

dg / dt

 

k(a0 g)

);

 

 

 

 

 

 

 

 

 

 

 

 

g

 

a0

 

 

 

 

 

 

 

 

Гомперца

y a0 exp ( a1e a2t ) (темп прироста исследуемой ха-

рактеристики пропорционален ее логарифму, т.е.

 

dg / dt

 

a

 

 

 

 

 

 

 

 

k ln

0

k ln a0 ln g ).

 

 

 

 

 

 

 

 

g

 

 

g

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

140