Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Mashkovsky_Lesnaya_biometria

.pdf
Скачиваний:
42
Добавлен:
26.03.2015
Размер:
1.95 Mб
Скачать

 

(α+β)(m+n+1)

 

 

(x )m (x −β)n ,

P(x) = Β(m n 1,n +1)

x , m 1 > 0, (или m < −1), n > −1,

0, x β,

Тип 7

D > 0, λ = 0, b0 + 2 b1 x + b2 x2 = (α2 + x2) b2.

Функция плотности вероятности:

P(x) =

α

(α2

+ x2 )m , x (−∞,), m 1/ 2.

 

Β(m 1/ 2,1/ 2)

 

 

 

Распределением Пирсона типа 7 является распределение Стьюдента.

Тип 8

D < 0, λ < 0, b0 + 2 b1 x + b2 x2 = x (α + x) b2.

Функция плотности вероятности:

m +1

P(x) = αm+1 (x )m , x [−α, 0], 1< m < 0,

0, x [−α, 0].

Тип 9

D < 0, λ < 0, b0 + 2 b1 x + b2 x2 = x (α + x) b2.

Функция плотности вероятности:

m +1

P(x) = αm+1 (x )m , x [−α, 0], m < −1,

0, x [−α, 0].

Тип 10

D = 0, λ = 0, b0 + 2 b1 x + b2 x2 = b0, a1 = 0.

Функция плотности вероятности:

P(x) = ν e−ν x , x > 0, ν > 0,

0, x 0.

Распределением Пирсона типа 10 является показательное распределение.

Тип 11

D = 0, λ неопределенно, b0 + 2 b1 x + b2 x2 = b0, a1 0.

112

Функция плотности вероятности:

 

1

 

x2

 

P(x) =

 

2

, x (−∞,).

σ 2

π

e 2σ

 

 

 

 

Распределением Пирсона типа 11 является нормальное распределение.

Тип 12

D < 0, λ < 0, b0 + 2 b1 x + b2 x2=(α + x) (–β + x) b2, (α, β > 0).

Функция плотности вероятности:

 

α2 n β2 n

 

n

n

 

 

(α+ x)

 

(β− x) , x [−α, β],

 

 

P(x) = (α +β) Β(1n,n +1)

 

0, x [−α, β].

 

 

 

 

 

 

 

 

113

4. СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ

Как известно, выборка x1, x2,..., xn является реализацией случайного вектора (X1, X2,..., Xn). Это значит, что каждая числовая характеристика выборки есть реализация случайной величины, которая от выборки к выборке может принимать различные значения и, следовательно, сама является случайной. Такую случайную величину называют выборочной функцией, или статистикой, и обозначают a~ = a~(X1, X2 ,K, Xn ). Например, выборочными функциями

являются среднее арифметическое x , статистическая дисперсия Sx2, мода Mo, медиана Me и т. д.

Одна из главных задач анализа массовых данных заключается в том, чтобы на основании выборки сделать некоторые выводы о генеральной совокупности. Пусть требуется подобрать распределение для исследуемой случайной величины X по выборке x1, x2, ..., xn, извлеченной из генеральной совокупности с неизвестной функцией распределения F(x). Выбрав распределение (биномиальное, нормальное, показательное или др.) исходя из анализа выборки (например, по виду гистограммы или по виду полигона относительных частот), мы по данным выборки должны оценить параметры соответствующего распределения. Например, для нормального распределения нужно оценить параметры m и σ; для

распределения Пуассона – параметры λ и т. д.

Существуют два основных метода получения оценок параметров генеральной совокупности по материалам выборки:

точечное оценивание;

интервальное оценивание. Рассмотрим эти методы.

4.1.Точечное оценивание

Выборочная числовая характеристика, применяемая для получения оценки неизвестного параметра генеральной совокупности,

называется точечной оценкой.

Например, X – среднее арифметическое – может служить оценкой математического ожидания M(X) генеральной совокупности. В принципе для неизвестного параметра a может существовать много числовых характеристик выборки, которые являются вполне подходящими для того, чтобы служить оценками. Например, среднее

114

арифметическое, медиана, мода могут показаться вполне приемлемыми для оценивания математического ожидания M(X) генеральной совокупности. Чтобы решить, какая из статистик в данном множестве наилучшая, необходимо определить некоторые желаемые свойства таких оценок, т. е. указать условия, которым должны удовлетворять оценки. Такими условиями являются несмещенность, эффективность и состоятельность.

Несмещенность. Если M (a~)= a , то a~ называется несмещенной оценкой a.

В других случаях говорят, что оценка смещена. Несмещенность оценки означает, что при ее использовании в

одних случаях может получиться завышение искомого параметра совокупности, в других – занижение. Однако в среднем мы будем «попадать в цель».

Так, например, несмещенной оценкой для математического ожидания M (X ) = a случайной величины X является средняя

арифметическая X = a~ . Действительно,

~

 

 

 

1

 

1

 

 

 

1

M (xi )=

 

 

 

 

M (a ) = M ( X ) = M

xi

 

 

= M

 

xi

=

 

 

 

n

 

 

 

i

n

n

i

 

 

i

=1 M (x)= M (x)= a, n i

так как результаты выборки x1, x2, ..., xn рассматривают как n независимых случайных величин X1, X2, ..., Xn, каждая из которых распределена по тому же закону, что и случайная величина X.

Если существует более одной несмещенной оценки, то выбирают более эффективную, т. е. ту, для которой величина второго

момента

 

~

a)

2

меньше.

 

 

 

 

 

 

 

 

 

 

 

M (a

 

 

 

~

 

 

 

 

 

 

 

 

 

Эффективность.

Оценка

называется более

эффективной,

 

a1

 

 

 

~

 

 

 

 

 

~

2

 

 

~

2

.

 

 

 

 

 

чем оценка a2

, если M (a1 a)

 

< M (a2 a)

 

 

 

 

 

 

 

Если обозначить

через

 

b = M (a) a смещение оценки,

то

~

a)

2

 

~

 

 

2

,

так

как

~

 

~

M (b

2

) = b

2

и,

M (a

 

= D(a) +b

 

M (a M (a)) = 0 ,

 

 

следовательно,

115

~

~

~

 

 

2

 

 

~

 

 

~

~

2

=

M (a M (a) + M (a) a)

 

= M ((a

M (a)) +(M (a) a))

 

~

 

~

2

 

 

~

 

~

2

+

 

 

 

 

= M ((a

M (a)) +b)

 

= M (a

M (a))

 

 

 

 

 

 

~

~

 

 

 

2

 

 

~

 

2

.

 

 

 

+ 2 b M (a

M (a))

+ M (b

) = D(a) +b

 

 

 

Поэтому более эффективной оценкой будем считать ту несмещенную оценку, которая имеет меньшую дисперсию.

В частности, средняя арифметическая X = a~ является наиболее эффективной оценкой математического ожидания M (x) = a , так как

 

 

 

 

1

 

1

 

 

 

 

 

 

 

 

D(X ) = D

xi

 

 

= D

 

xi

=

 

 

 

 

 

i

n

n

i

 

 

=

1

D(xi ) =

1

 

n D(xi ) =

1

D(xi ).

n2

 

n2

n

 

i

 

 

 

Все другие оценки M(X) будут обладать большими дисперсиями.

Например, D(

 

)= π

 

1

 

D(X ) .

 

 

Me

 

 

n

 

 

 

 

2

 

 

 

 

 

При использовании той или иной оценки желательно, чтобы точность оценивания увеличилась с возрастанием объема производимой выборки. Предельная точность будет достигнута в том случае, когда численное значение оценки совпадает со значением параметра при неограниченном увеличении объема выборки. Такие оценки будем называть состоятельными.

 

Состоятельность. Оценка a называется состоятельной оценкой

 

 

 

~

 

 

 

 

 

 

a,

если при

n → ∞ она

сходится по вероятности к

a,

т. е.

если

~

p

 

 

 

 

 

 

 

 

a n → ∞a .

 

 

 

 

 

~

 

 

 

Например, средняя арифметическая

 

 

 

является

 

 

 

 

 

X = a

состоятельной

оценкой

математического ожидания

M(X)

= a

p

совокупности, так как согласно закону больших чисел X n → ∞M (X )

.

Кроме указанных свойств оценок, существуют и другие, с которыми можно познакомиться в учебнике [13] .

Наконец, при построении оценки a~ должна использоваться вся информация, содержащаяся в выборке, о неизвестном параметре a, т. е. оценка должна быть достаточной. Если a~ – достаточная оценка, то никакая другая оценка не может дать о неизвестном параметре a

116

дополнительных сведений.

При выборе оценок следует принимать во внимание перечисленные свойства и учитывать относительную простоту вычислений. Нередко выбирается неэффективная оценка только потому, что ее вычисление намного проще, чем вычисление эффективной оценки. Например, при контроле качества продукции мерой разброса совокупности часто служит выборочный размах, используемый вместо более сложной и более эффективной оценки выборочного стандартного отклонения. Отметим, что при оценивании на основе малого числа наблюдений различие в эффективности оценок невелико.

4.1.1.Статистические ошибки

Выборочные статистики, используемые в качестве точечных оценок каких-либо параметров, как правило, не совпадают с их истинными значениями. Величину отклонения выборочных статистик от истинных значений оцениваемых с их помощью параметров называют статистической ошибкой. Такие отклонения являются случайными величинами, и они изменяются от выборки к выборке. Для измерения статистической ошибки некоторого статистического показателя используют его среднеквадратическое отклонение. Эта величина показывает, насколько сильно варьируют отдельные оценки вокруг параметра генеральной совокупности.

В том случае, если распределение случайной величины X не слишком сильно отличается от нормального распределения, а объем выборки не слишком мал ( n 30 ), то среднеквадратическое отклонение для средней арифметической величины может быть найдено по формуле

mx = Sx = Snx .

Ниже приведены формулы для вычисления стандартных ошибок некоторых статистических показателей.

Ошибка дисперсии:

m 2

= S

 

 

=

S

2

.

 

2

2

x

S

 

S

 

 

n

 

 

 

 

 

 

 

Ошибка среднеквадратического отклонения:

117

m = S

S

=

Sx .

 

 

 

 

 

 

 

 

 

S

 

2 n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Ошибка коэффициента вариации:

 

 

 

 

 

mV = SV =

V

 

1

V

2

V

.

 

 

 

n 1

2

+

2 n

 

 

 

 

 

 

 

100

 

 

 

 

 

Ошибка коэффициента асимметрии:

 

 

 

 

mA = SA =

 

6 n (n 1)

 

6

 

 

 

 

(n 2) (n +1) (n +3)

n .

 

 

 

Ошибка коэффициента эксцесса:

 

 

 

 

 

mE = SE =

 

 

24 n (n 1)2

 

 

24

 

6

(n 3) (n 2) (n +3) (n +5)

n

= 2

n .

Ошибка медианы:

mMe = SMe = Sx π2 .

Чтобы сравнивать ошибки оценки среднего для объектов, имеющих разную размерность, часто используют показатель точности, который представляет собой стандартную ошибку оценки среднего, выраженную в процентах от самой средней величины. Эту статистику можно вычислить по формуле

P = mxx 100% .

Рассмотрим пример вычисления стандартных ошибок основных статистических показателей, характеризующих диаметры и высоты деревьев в чистом одновозрастном сосновом древостое (табл. 12 и 13). Необходимые значения статистических показателей возьмем из примеров, приведенных в главе 2.

Ряд диаметров:

mx

= Sx =

Sx

=

7,455

= 0,527 ;

 

 

 

 

 

 

n

 

200

 

 

m

 

 

= S

 

 

=

S 2

=

55,58

= 3,93;

S

2

S

2

x

 

 

 

 

 

 

 

2 n

 

200

 

 

 

 

 

 

 

 

 

 

mS

 

= SS

=

Sx

=

7,455

= 0,373;

 

 

 

 

 

 

2 n

 

2

200

 

118

m

 

 

= S

V

 

=

V

 

=

23,59

 

=1,18;

 

V

 

 

 

 

 

 

 

2 n

 

 

2 200

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

mA

=

 

 

6

=

6

 

= 0,173 ;

 

 

 

 

 

 

 

 

 

 

 

n

 

200

 

 

 

 

 

 

 

 

mE

= 2

 

6

= 2

 

6

= 0,346 ;

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

200

 

 

 

 

 

 

mMe = SMe = Sx

 

π

= 0,527

3,14

= 0,660 ;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

2

 

P =

mx

 

 

100% =

 

0,527

100% =1,67% .

 

 

 

 

 

31,60

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

Ряд высот:

 

 

 

 

 

 

 

 

 

 

mx

 

= Sx

 

= Sx = 2,299

= 0,163 ;

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

200

 

 

 

 

 

 

m

 

 

 

= S

 

 

2 =

S 2

 

=

5,284

= 0,374;

 

S

2

 

S

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2 n

 

200

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

mS

 

= SS

=

Sx

=

2,299

 

= 0,115;

 

 

 

 

 

 

 

 

 

 

 

 

2 n

 

 

2 200

 

 

 

 

m

 

 

= S

V

 

=

V

 

=

9,270

 

= 0,464 ;

V

 

 

 

 

 

 

 

2 n

 

 

2 200

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

mA

=

 

 

6

=

6

 

= 0,173 ;

 

 

 

 

 

 

 

 

 

 

 

n

 

200

 

 

 

 

 

 

 

 

mE

= 2

 

6

= 2

 

6

= 0,346 ;

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

200

 

 

 

 

 

 

mMe = SMe = Sx

 

π

= 0,163

3,14

= 0,204 ;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

2

 

P = mxx 100% = 240,163,80 100% = 0,657%.

4.1.2.Метод максимального правдоподобия

Один из важнейших методов нахождения оценок параметров по данным выборки (метод максимального правдоподобия) был

119

предложен Р. Фишером. Этот метод состоит в том, что для получения оценки неизвестного параметра a нужно найти такое значение a~ , при котором вероятность реализации случайного вектора (X1, X2, ..., Xn) (выборки) была бы максимальной. С этой целью «строится» функция, определяющая вероятность получения выборки x1, x2, ..., xn, и находится точки максимума этой функции, которая и является оценкой неизвестного параметра.

Пусть случайный эксперимент описывается непрерывной случайной величиной X, плотность распределения вероятностей P(x, a) которой содержит неизвестный параметр a. Тогда вероятность получения при n независимых наблюдениях величины X выборки x1, x2, ..., xn, всегда равна нулю, так как случайный вектор (X1, X2, ..., Xn) с

независимыми составляющими

X i , i =

1,n

, имеет плотность

распределения вероятностей вида

 

 

 

L(x1, x2 ,K, xn ;a) = p(x1;a) p(x2 ;a) K p(xn ;a) =

n

(98)

= p(xi ;a).

 

i=1

 

Вероятность отдельного значения непрерывной случайной величины равна нулю. Поэтому рассматривается вероятность попадания выборки в n-мерный параллелепипед с центром (x1, x2, ...,

xn) и ребрами x1, x2 ,K,

xn :

 

L(x1, x2 Kxn ; a) x1

x2 K xn =

(99)

= p(x1; a) p(x2 ; a) K p(xn ; a) x1 x2 K

xn

и находится максимальное значение этой вероятности. Точка максимума вероятности (99) является точкой максимума функции

(98).

Функция L(x1, x2 Kxn ; a) называется функцией правдоподобия, а

величина a, являющаяся точкой максимума этой функции, – оценкой, полученной методом наибольшего правдоподобия.

Таким образом, функция правдоподобия для непрерывной случайной величины X определяется плотностями вероятностей

наблюдаемой выборки p(xi ; a),i =1, n , где p(xi ; a) – плотность

распределения вероятностей определенного вида (плотность вероятностей нормального, показательного распределений и т. д.) при

x = xi.

Пусть X – дискретная случайная величина, заданная частотным

120

L(x1, x2 Kxn ; a)

рядом распределения (табл. 30) с неизвестным параметром – вероятностью появления события {X = xi },i =1, k ; p( X = xi ) = pi (a) при фиксированном значении параметра a.

Таблица 30. Ряд распределения дискретной случайной величины

xi

x1

x2

...

xk

mi

m1

m2

...

mk

k

Причем mi = n .

i=1

Тогда вероятность того, что составляющие X i ,i =1, k

случайного вектора (X1, X2, ..., Xk) примут значения x1, x2, ..., xk, причем значение xi встречалось mi раз, вычисляется по формуле

L(x , x

2

Kx

n

;a) = pm1

(a) pm2

(a) K pmk (a) .

(100)

1

 

1

2

k

 

Функция, определяемая соотношением (100), называется функцией правдоподобия дискретной случайной величины X. Величина a~ , являющаяся точкой максимума этой функции, называется оценкой неизвестного параметра a, полученной по методу наибольшего правдоподобия. Пусть функция правдоподобия L(x1, x2 Kxn ; a) дифференцируема по a и при любых возможных

значениях xi ,i =1, n достигает максимума по a в интервале возможных

значений a. Тогда, согласно известным правилам дифференциального исчисления, оценку a~ неизвестного параметра a распределения случайной величины X находят, решая уравнение

L(x1, x2 ,K, xn ; a) = 0

a

или систему уравнений

L(x1, x2 ,K, xn ; a1, a2 ,Kar ) = 0, j =1, r ,

a j

если требуется оценить r неизвестных параметров. Так как точки максимума функций

(101)

(102)

и

ln(L(x1, x2 Kxn ; a)) совпадают, иногда удобнее вместо уравнений (101)

и(102) решать уравнение

ln(L(x1, x2 ,K, xn ; a))= 1 L(x1, x2 ,K, xn ; a) = 0

a L a

121