Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

terver_23-60

.pdf
Скачиваний:
7
Добавлен:
14.05.2015
Размер:
242.34 Кб
Скачать

[a,b] - xi, которые подставляются в f(xi). Если f(xi) > fmax, то fmax = f(xi). Алгоритм продолжается до тех пор, пока fmax не изменяется на заданном числе шагов. В упрощенной версии этого алгоритма просто генерируется выборка x1; x2; : : : ; xn из достаточно большого количества элементов, и ищется max f(xi) среди всех элементов выборки.

8.4.2Вычисление определенных интегралов по методу Монте-Карло

Далее будем рассматривать одномерные случаи, то есть интегралы от одной переменной. В многомерных случаях выкладки и результаты будут аналогичными.

8.4.3Собственный интеграл

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

b

 

 

 

 

 

 

 

Предположим, что необходимо посчитать

f(x)dx. Возьмем случайную величину

 

 

[a; b]

 

f( )

 

 

 

 

 

 

 

 

a

 

 

 

 

 

 

 

 

 

.

b

 

- функция от случайной величины - тоже случайная величина. Тогда

M[f( )] =

f(x)p(x)dx

 

 

 

плотность функции . p(x) =

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

a

 

b

 

, где p(x) -

1

 

b

 

 

b

 

b − a

 

 

Тогда M[f( )] = a

f(x)

1

dx b=

 

 

a

f(x)dx. Получается a

f(x)dx = (b−a)M[f( )].

b − a

b − a

 

 

 

 

 

 

 

 

 

 

f(x)dx необходимо сгенерировать достаточное коли-

То есть для поиска интеграла a

 

 

 

 

[a; b]

в виде набора

(x1; x2

; : : : ; xn)

, по-

чество значений случайной величины

 

 

 

 

 

считать для всех этих значений (f(x1); f(x2); : : : ; f(xn)). Найдя выборочное среднее от получившейся выборки M, можно принять значение искомого интеграла равным

M(b − a):

8.4.4Несобственный интеграл с одной бесконечной границей

Все интегралы такого вида с помощью замены переменной, очевидно, можно приве-

сти к виду f(x)dx. Так что далее будем полагать, что необходимо посчитать именно

0

такой интеграл. Возьмем случайную величину Exp( ). f( ) - функция от случайной величины - тоже случайная величина. Возьмем случайную величину = h( ) =

f( )

 

 

 

p(x) = e

 

x

 

M[h( )] =

f(x)p(x)dx =

f(x)dx

 

 

. p(x) - плотность

 

.

 

 

. Тогда

 

0

 

 

0

.

p( )

 

 

 

p(x)

То есть для поиска интеграла f(x)dx необходимо сгенерировать достаточное коли-

0

чество значений случайной величины Exp( ) в виде набора (x1; x2; : : : ; xn), по-

считать для всех этих значений (

f(x1)

;

f(x2)

; : : : ;

f(xn)

). Выборочное среднее этой

 

 

 

 

p(x1) p(x2)

 

p(xn)

выборки можно принять за значение интеграла 0

f(x)dx.

41

8.4.5Несобственный интеграл с обеими бесконечными границами

 

 

 

 

 

 

 

 

 

 

 

 

Нам необходимо вычислить интеграл

f(x)dx. Возьмем случайную величину

 

 

 

 

 

−∞

- тоже случайная величина. Возьмем

N(a; ). f( ) - функция от случайной величины

 

 

 

 

f( )

 

1

 

 

(x − a)2

 

 

 

 

 

 

 

 

2 2

 

 

 

 

 

 

 

 

 

 

 

 

 

случайную величину = h( ) =

p( ) . p(x) - плотность . p(x) =

 

e

.

2

 

 

 

 

 

 

 

 

 

 

 

Тогда M[h( )] =

f(x)

p(x)dx =

f(x)dx.

 

 

 

 

 

 

 

−∞

p(x)

 

−∞

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

То есть для поиска интеграла

f(x)dx необходимо сгенерировать достаточное ко-

 

−∞

личество значений случайной величины N(a; ) в виде набора (x1; x2; : : : ; xn), по-

считать для всех этих значений (

f(x1)

;

f(x2)

; : : : ;

f(xn)

). Выборочное среднее этой

 

 

 

 

p(x1) p(x2)

 

 

p(xn)

 

 

 

 

 

 

 

 

 

 

выборки можно принять за значение интеграла

 

f(x)dx.

−∞

42

9Дисперсионный анализ

9.1Постановка задачи

По постановке задачи дисперсионный анализ похож на регрессионный, в нем также выявляется зависимость между случайными величинами (факторами). Принципиальная разница в том, что в регрессионном анализе рассматриваются регрессоры X, изменяющиеся количественно на непрерывной шкале. В дисперсионном анализе рассматривается влияние качественных (дискретных) признаков (факторов) на количественный. То есть у нас есть несколько параметров A, B, C,... Например: A - цвет (красный, синий, зеленый), B - уровень (1, 2, 3, ...) и т.д. И мы анализируем влияние этих факторов на какой то количественный, например на рост.

Немножко теории: каждый качественный фактор задается уровнем. Каждый уровень нумеруется. Уровни для каждого фактора образуют полную группу несовместных событий. При измерении Y ему соответствует только один уровень каждого качественного фактора. Для любого уровня каждого фактора определена его вероятность (или частота), причем их сумма для каждого фактора равна 1.

9.2Однофакторная модель

9.2.1Описание однофакторной модели

Далее будем рассматривать самую простую модель дисперсионного анализа, в которой есть только один качественный фактор.

График

На графике приведена зависимость количественного фактора - уровня зарплаты, от качественного фактора - стаж работы. Стаж может измеряться по некоторым уровням, в данном случае мы за стаж берем полное количество лет работы. Суть дисперсионного анализа в следующем: мы сравниваем насколько велик разброс между групповыми средними и общим средним, с поправкой на частоту того или иного уровня качественного фактора. В итоге проверяется гипотеза H0: средние равны. То есть равны групповые средние, ну и они соответственно равны общему среднему. В таком случае можно сделать вывод о несущественности качественного фактора. Если гипотеза нарушается, и межгрупповые средние не равны, общегрупповая дисперсия ощутимо больше внутригрупповых.

9.2.2Формулы разложения некоторых параметров непрерывного распределения по уровням качественного фактора

Вспомним из тервера, как можно формулы функции распределения, плотности, математического ожидания и прочие раскладывать по полной группе несовместных событий - аналог формул полной вероятности. Есть случайная величина Y (в нашем случае это анализируемый количественный фактор), и у нее определена плотность

43

pY (y), функция распределения FY (y) и матожидание MY . Есть качественный фак-

тор A, имеющий m значений (H1; H2; : : : ; Hm), представимых в виде полной группы

несовместных событий. То есть i

Hi = Ω, Hi ∩ Hj = i ̸= j. Тогда

pY (y) =

FY (y) =

M[Y ] =

m

pY |Hk (y)P(Hk)

k=1

m

FY |Hk (y)P(Hk)

k=1

m

M[Y |Hk]P(Hk)

k=1

Эти формулы называются формулами разложения по уровням. Для дисперсии формула разложения по уровням не так очевидна, поэтому имеет смысл ее вывести.

m m

Теорема 4 Требуется доказать, что Y2 = k=1 k2P(Hk) + k=1( k )2P(Hk), где k2

- дисперсия внутри k-ой группы,

 

k = M[Y

|

k],

 

=

[

]

 

 

 

 

 

 

 

 

H

 

M y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Доказательство.

(y − k)2pY |Hk (y)dy

 

 

 

 

 

k2 =

 

 

 

 

 

m

 

−∞

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

m

 

 

 

 

 

 

 

 

Y2 =

(y − )2pY (y)dy =

(y − )2 k=1 pY |Hk (y)P(Hk)dy =

 

−∞

 

−∞

 

 

 

 

 

 

 

 

 

 

 

k=1 P(Hk)

((y − k) ( k

))2pY |Hk (y)dy =

 

 

 

 

 

 

 

−∞

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

m

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k=1 P(Hk)

((y − k)2 + 2(y − k)( k ) + ( k )2)pY |Hk (y)dy

 

 

 

−∞

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(y − k)pY |Hk (y)dy =

Рассмотрим

2(y − k)( k )pY |Hk (y)dy = 2( k )

 

 

 

−∞

 

 

 

 

 

 

 

−∞

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2( k )(

ypY |Hk (y)dy − k

 

pY

|Hk (y)dy) = 2( k )( k k) = 0

 

 

 

−∞

−∞

 

 

 

 

 

 

 

 

 

Рассмотрим

 

 

 

 

 

 

 

 

 

m

( k )2pY |Hk (y)dy = ( k )2

 

pY |Hk (y)dy = ( k )2

m

 

 

−∞

 

 

 

 

−∞

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Тогда Y2

 

m

 

 

 

 

 

 

m

 

 

 

 

 

=

k=1 P(Hk)

(y − k)2pY |Hk (y)dy + k=1 P(Hk)( k )2 =

k=1 P(Hk) k2 +

k

 

 

 

−∞

 

 

 

 

 

 

 

 

 

 

 

P(Hk)( k )2

 

 

 

 

 

 

 

 

 

 

 

 

=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Первое слагаемое этой формулы называют остаточной дисперсией, второе - факторной. Видно, что первое слагаемое содержит в себе внутригрупповые дисперсии, а второе - суммарное отклонение средних групп от общего среднего.

9.2.3Статистическое оценивание параметров дисперсионного анализа

Выше мы вывели, что дисперсию можно разложить по уровням: 2

= 2

+ 2

,

общ

факт

ост

 

k

 

 

 

m

m

 

 

 

где факт2 = P(Hk)( k )2, ост2 =

P(Hk) k2

 

 

 

k=1

=1

 

 

 

44

Опишем последующую задачу оценивания для однофакторной модели:

У нас есть двумерная выборка (x1; y1); (x2; y2); : : : ; (xn; yn), причем x - значения некоторого качественного фактора A. A может иметь значения, представленные в виде уровней от 1 до m. Значит, xi (1; : : : ; m) i. Учитывая это, выборку можно переписать в другом виде, в виде одномерной выборки Y , разбитой на несколько групп, в зависимости от значения соответствующего качественно фактора x из двумерной выборки. Таким образом у нас получится выборка элементов ykj, где k - уровень качественного фактора (или значение x в исходной двумерной выборке), а j - номер элемента y для фиксированного k. Иными словами элементы y разбиваются на m групп (по количеству уровней качественного фактора). Тогда индекс k элемента ykj

- номер группы, а индекс j - номер элемента внутри группы. За nk будем обозна-

m

чать общее количество элементов внутри группы с номером k. N =

nk - общее

 

k=1

количество элементов выборки (сумма количеств элементов по всем группам).

Введем несколько оценок:

 

 

 

 

 

 

 

 

 

 

 

 

 

j

 

 

 

 

 

 

 

 

 

 

=

1

 

nk

ykj - групповое среднее k-ой группы

 

 

 

 

 

 

 

yk

 

nk

 

 

 

 

 

 

 

 

 

 

=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

pk =

nk

- частота встречаемости k-го уровня (или оценка вероятности k-го уровня)

 

 

 

e=

 

 

∑ ∑

 

ke

 

 

 

 

 

 

 

 

 

 

1Nm nk

ykj =

m

pk

 

- общее среднее по всем группам (оценка общего мат.ожидания

y

 

 

yk

 

 

 

 

 

 

N k=1 j=1

 

 

 

 

 

=1

 

 

 

 

 

выборки)

Перепишем формулу разложения дисперсии по уровням через оценки.

Проводя для оценок аналогичные выкладки, как и в случае теоретических моментов, получим аналогичный результат:

∑ ∑

k∑ ∑

 

 

 

 

 

m

nk

m nk

 

 

 

 

 

m

mY2 =

(ykj

y

)2 =

(ykj

yk

)2 + nk(

y

yk

)2

k=1 j=1

=1 j=1

 

 

 

 

 

k=1

Таким образом запишем оценки дисперсий:

 

 

 

 

 

m

nk

 

 

 

 

 

k

 

 

 

 

Qобщ2

=

 

 

(ykj

y

)2

 

 

 

 

 

=1 j=1

 

 

 

 

 

k

 

 

 

 

 

m

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Qфакт2 =

nk(

y

yk

)2

 

 

 

 

 

=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

m

nk

 

 

 

 

 

k

 

 

 

 

Qост2

=

 

 

(ykj

yk

)2

=1 j=1

9.2.4Теорема Фишера

Эта теорема дает теоретическую основу для проведения дисперсионного анализа однофакторной модели. Так как в теореме используется критерий Фишера, напомним критерии его применимости:

45

1.Выборочные значения ykj получаются в результате независимых серий независимых испытаний

2.Случайная величина Y и случайные величины Ykj, которые сопоставляются

выборочным значениям ykj распределены нормально с параметрами M[Y ] =

M[Ykj] = M, D[Y ] = D[Ykj] = 2.

Тогда мы переходим от выборочных значениях к абстрактным случайным величинам и в рамках теоремы работаем с ними. Тогда Q2общ, Q2факт, Q2ост можно тоже считать случайными величинами, заданными через суперпозицию случайных величин Y и

Ykj.

Теорема 5 (о распределении отношения суммы квадратов отклонений)

Величины Q2

 

, Q2

, Q2

 

, при указанных выше условиях обладают следующими

 

 

 

общ

 

факт

ост

 

 

 

 

свойствами:

 

 

 

 

 

 

 

 

 

 

1.

Q2

 

= Q2

 

+ Q2

 

 

 

 

 

 

общ

 

факт

 

ост

 

 

 

 

 

 

 

Qобщ2

 

 

 

 

 

Qфакт2

Qост2

2.

M[

 

] = N − 1, M[

 

] = m − 1, M[

 

] = N − m

2

2

2

3.Случайные величины Q2факт и Q2ост независимы

4.F = Q2факт имеет F-распределение Фишера с m-1 и N-m степенями свободы

Q2ост

Доказательство. Без доказательства. Отметим только, что 1 пункт мы доказали выше, а 2 и 3 пункт необходимы для доказательства 4, который и является основным результатом теоремы.

9.2.5Проверка гипотезы о несущественности влияния качественного фактора A на количественный фактор Y при помощи критерия Фишера

Основная цель дисперсионного анализа (для однофакторной модели) в оценке влияния качественного фактора A на количественный фактор Y. Этим мы сейчас и займемся. Необходимо проверить гипотезу H0: влияние A на Y несущественно. Вы-

числяется статистика: F = Q2факт . По теореме Фишера эта величина должна иметь

Q2ост

распределение Фишера. Значит, если F имеет распределение Фишера со степенями свободы (m-1,N-m) то гипотезу H0 принимается и влияние количественного фактора на качественный можно принять несущественным. Алгоритм дисперсионного анализа:

1.На входе есть двумерная выборка (x1; y1); (x2; y2); : : : ; (xn; yn), причем x - значения некоторого качественного фактора A. Первым делом ее надо преобразовать в выборку ykj, где k - значения фактора A (то есть x), а индекс j - номер элемента внутри k-ой группы.

46

2.Вычисляем y, yk, Q2факт и Q2ост по формулам, приведенным выше.

3.Находим статистику F и сравниваем ее с квантилем распределения Фишера со степенями свободы m-1 и N-m. Если F меньше квантиля, влияние фактора A на Y можно принять несущественным, иначе - существенным.

9.3Прочие модели дисперсионного анализа

Выше мы рассматривали однофакторную модель Y = YA + z Перечислим несколько двухфакторных моделей:

Неаддитивная двухфакторная модель: Y = YAB + z

Аддитивная двухфакторная модель без учета совместного влияния признаков:

Y = YA + YB + z

Аддитивная двухфакторная модель с учета совместного влияния признаков:

Y = YA + YB + YAB + z

Основная идея при анализе неаддитивной двухфакторной модели состоит в том, что двухфакторная модель можно свести к однофакторной. Если у нас есть фактор

A со значениями A1; A2; : : : ; Am1 и фактор B со значениями B1; B2; : : : ; Bm1 , то их можно объединить в фактор C со значениями Cij = AiBj. То есть рассматривать все

пересечения значений факторов A и B и эти пересечения брать как уровни факторов однофакторной модели.

47

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]