Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
СМОД – Статистические методы обработки данных / СМОД_Часть3 Муха ВС, БГУИР 2007 (Мет пособие).pdf
Скачиваний:
114
Добавлен:
15.06.2014
Размер:
475.68 Кб
Скачать

Министерство образования Республики Беларусь

Учреждение образования БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

ИНФОРМАТИКИ И РАДИОЭЛЕКТРОНИКИ

_______________________________________________________________

Кафедра информационных технологий

автоматизированных систем

В. С. Муха

Статистические методы обработки данных

Часть 3

Учебно-методическое пособия для студентов специальности "Автоматизированные системы обработки информации"

Минск 2007

11 РОБАСТНОСТЬ СТАТИСТИЧЕСКИХ ПРОЦЕДУР

11.1 Понятие робастности статистических процедур

Статистические выводы (оценки) лишь отчасти основываются на наблюдениях. Важную основу этих выводов составляют исходные предположения о математической модели изучаемого явления (модельные предположения). Например, в задаче точечного оценивания параметров распределений мы предполагали, что известна плотность вероятности генеральной совокупности с точностью до оцениваемого параметра. В задаче байесовского точечного оценивания мы предполагали известной также плотность вероятности оцениваемого параметра. Обычно от такого рода предположений не требуется абсолютной точности. При формулировке таких предположений обычно исходят из принципа, что малая ошибка в математической модели не должна приводить к существенной ошибке окончательного статистического вывода. Вместе с тем в последние десятилетия обнаружено, что некоторые статистические процедуры весьма чувствительны к довольно малым отклонениям от модельных предположений. В связи с этим появились новые статистические процедуры – робастные процедуры (от английского слова robust – крепкий, дюжий). Под робастностью статической процедуры понимается нечувствительность к малым отклонениям от модельных предположений, то есть нечувствительность к искажениям постулируемых моделей.

11.2 Искажения Тьюки-Хьюбера

Наиболее часто рассматриваются отклонения от модельных предположений типа Тьюки-Хьюбера [23]. Считается, что искаженная модель (генеральная совокупность) описывается плотностью вероятности вида

fξ (x) = (1 ε) fη (x) + εfω (x) ,

(11.1)

2

где fξ (x) – плотность вероятности искаженной модели, fη (x) – плотность

вероятности основного (гипотетического, предполагаемого) распределения, fω (x) – плотность вероятности искажений (засорений, загрязнений), ε > 0 –

малая величина, такая, что 0 ε ε+ . Обычно ε+ = 0,5 .

Смысл модели искажений типа Тьюки-Хьюбера состоит в том, что выборочные значения из распределения fξ (x) состоят из "хороших" и "плохих"

наблюдений. "Хорошие" наблюдения появляются с вероятностью 1 ε , а "плохие" – с вероятностью ε . Обычно предполагается, что распределение fη (x) и распределение искажений fω (x) имеют одно и то же среднее значение,

т.е.

 

E(η ) = aη = E( ω ) = aω ,

(11.2)

а дисперсия распределения искажений в q раз больше дисперсии основного распределения, т.е.

σω2 = qση2 , ση2 = D(η) , σω2 = D( ω ) .

(11.3)

В соответствии со сказанным "плохие" наблюдения имеют гораздо большую дисперсию по сравнению с "хорошими" и поэтому называются выбросами, а модель Тьюки-Хьюбера (11.1) – (11.3) – моделью искажений типа выбросов.

11.3 Числовые характеристики модели Тьюки-Хьюбера

Пусть имеется искаженная модель (11.1). Найдем числовые характеристики распределения fξ (x) . Для математического ожидания получим

aξ = E(ξ) = xfξ (x)dx =

−∞

=(1 ε ) xfη ( x )dx + ε xfω ( x )dx =(1 ε )aη + ε aω ,

−∞ −∞

где aη = E(η) , aω = E(ω). Таким образом,

aξ = (1 ε)aη + ε aω .

3

Для начального момента k -го порядка νξ(k ) получим

νξ(k ) = E(ξ k ) = x k fξ (x)dx = (1 ε) x k fη (x)dx + ε x k fω (x)dx ,

−∞

−∞

−∞

 

νξ(k ) = (1 ε)νη(k ) + ενω(k ) ,

 

где νη(k ) = E(ηk ) , νω(k )

= E(ωk ) . Данные формулы

справедливы для любых

распределений fη (x) , fω (x) .

Если выполняется условие (11.2), то искаженная модель будет иметь то же математическое ожидание, что и основная модель: aξ = aη . Кроме того, в этом случае получается простая формула для центральных моментов искаженной модели:

 

 

 

μξ(k ) = E((ξ E(ξ))k ) = (x E(ξ))k fξ (x)dx =

 

 

−∞

 

 

(x E(ξ))k fω (x)dx =

= (1 ε)

(x E(ξ))k fη (x)dx +ε

−∞

−∞

= (1 ε)(x E(η))k fη (x)dx + ε (x E(ω))k fω (x)dx =

−∞

 

−∞

 

= (1 ε)μ(k ) + ε μ(k ) .

 

 

η

ω

Таким образом, при aξ

= aη

 

 

 

μξ(k ) = (1 ε)μη(k ) + ε μω(k ) .

В частности, обозначая μξ(2) =σξ2 ,

μη(2) =ση2 ,

μω(2) =σω2 , будем иметь

 

σξ2 = (1 ε)ση2 + ε σω2 .

Если выполняется

также и

условие (11.3), то мы получим

σξ2 = (1 ε)ση2 + qεση2 , или

 

 

 

σξ2 = (1 ε + qε)ση2 .

Итак, мы получили числовые характеристики модели Тьюки-Хьюбера с произвольными распределениями, обладающими свойствами (11.2), (11.3).

4

11.4 Гауссовская модель Тьюки-Хьюбера

Если в модели Тьюки-Хьюбера распределения fη (x) и fω (x) гауссовские,

то можно получить выражение для центрального момента 4-го порядка μξ(4) .

Действительно, для нормального распределения μη(4) = 3ση4 ,

μω(4) = 3σω4 = 3q 2ση4 , и

μξ( 4 ) = (1 ε)3ση4 + ε3q 2ση4 = 3(1 ε + q 2ε )ση4 .

Витоге для гауссовской модели Тьюки-Хьюбера с условиями (11.2), (11.3) мы имеем соотношения

aξ = aη ,

σξ2 = (1 ε + qε)ση2 ,

μξ(4) = 3(1 ε + q 2ε)ση4 .

11.5Равномерная модель Тьюки-Хьюбера

Рассмотрим модель Тьюки-Хьюбера (11.1) – (11.3) в предположении, что распределения fη (x) и fω (x) равномерны в промежутках (a1 , b1 ) , (a2 , b2 )

соответственно, т.е.

fξ (x) = (1 ε)U (a1 , b1 ) + εU (a2 , b2 ) .

Найдём такие a2 и b2 , чтобы выполнялись условия (11.2), (11.3). Для этого необходимо решить систему уравнений

 

 

 

b1 + a1

=

b2 + a2

,

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

2

 

 

 

(b

2

a

2

) 2

 

 

(b a

) 2

 

 

 

 

 

= q

1

1

.

 

 

12

 

 

12

 

 

 

 

 

 

 

 

 

 

Отсюда получаем систему уравнений

5

b1 + a1 = b2 + a2 ,

 

b2 a2 = q (b1 a1 ) ,

 

из которой находим

 

 

 

b2

=

(1 + q )b1 + (1 q )a1

,

 

 

2

 

a2

=

(1 q )b1 + (1 + q )a1 .

 

 

2

 

С целью упрощения выкладок рассмотрим распределение, симметричное относительно нуля, т. е. рассмотрим случай a1 = −b1 , b1 =1. В этом случае

 

 

a2 = − q , b2 = q .

 

 

 

Итак, будем рассматривать модель

 

 

 

 

 

fξ (x) = (1 ε)U (1,1) + ε U (

 

q, q ) .

Плотность вероятности этой модели имеет вид

 

 

 

 

 

1

 

1

,

x ( q , q ),.

fξ ( x ) =(1 ε )

2 , x ( 1,1),

+ ε

2 q

 

 

 

 

0,

 

x ( q , q ).

 

0, x ( 1,1),

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рис. 11.1. Плотность вероятности равномерной модели Тьюки-Хьюбера При q >1 эта функция представлена на рисунке 11.1. Перепишем выражение для fξ( x ) в виде

6

 

 

 

ε

,

 

 

x (

 

q ,1),

 

 

 

 

 

 

 

q

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ε

+

 

ε

, x ( 1,1),

 

 

 

 

 

 

 

1

 

 

 

 

 

 

fξ ( x ) =

2

 

2

q

 

 

 

 

 

 

 

 

 

 

 

ε

,

 

 

x (1,

q ),

 

 

 

 

 

 

 

q

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x ( −∞,q ) U( q ,+∞),

 

 

0,

 

 

 

или

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ε

 

,

 

x ( q ,1),

 

 

 

 

f1( x ) =

 

q

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

2 ( x ) = q + ε(1 q ) , x ( 1,1),

 

 

 

 

f

 

 

 

fξ ( x ) =

 

 

 

 

2

q

 

 

 

 

 

 

 

 

 

 

 

ε

 

 

 

 

 

 

 

 

 

 

 

f

3 ( x ) =

q

,

 

 

x (1, q ),

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x ( −∞,q ) U( q ,+∞).

 

0,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Найдем также функцию распределения данной

модели.

Для

x (−∞,q )

Fξ (x) = 0 . Для x (

q,1) получаем

 

 

 

 

 

 

 

 

 

x

 

 

 

ε

 

 

 

 

 

ε (1 q ) .

Fξ (x) = F1 (x) = f1 (x)dx =

(x + q ) ,

F1 (1) =

 

q

 

 

 

2

q

 

 

 

 

 

2

q

Для x (1,1)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

ε(1 +

q)

+ [

q + ε(1

q)](x +1) ,

Fξ (x) = F2 (x) = F1 (1) + f 2 (z)dz =

 

 

1

 

 

 

2

q

 

 

2

q

 

F (1) = ε(

q 1)

+ 2

q + 2ε(1

q ) = 2 q + ε(1

q ) .

2

2

q

 

 

 

2

q

 

 

 

2 q

 

 

 

 

 

 

 

 

 

 

 

Для x (1, q )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

f3 (z)dz = 2

 

q + ε(1

q )

+ ε(x 1) .

Fξ (x) = F3 (x) = F2 (1) +

 

 

 

 

 

1

 

 

 

 

2

q

 

 

2

q

Для x ( q,+∞)

7