Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Lektsii (1) / Lecture 14

.pdf
Скачиваний:
13
Добавлен:
02.06.2015
Размер:
260.42 Кб
Скачать

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ICEF, 2012/2013

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

STATISTICS

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1 year

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

LECTURES

Lecture 14

 

 

 

 

 

 

 

 

 

 

 

 

 

 

11.12.12

CONCLUDING REMARKS ON NORMAL RANDOM VARIABLES AND CENTRAL LIMIT

 

 

 

 

 

 

THEOREM

 

 

 

 

 

1. Let X and Y be two normal random variables,

X N (µX ,σX ), Y N (µY ,σY ) and let a, b be

constants. Then random variable U = aX +bY is normally distributed/

 

 

E(U ) = aµ

X

+bµ , V (U ) = a2σ2

+b2σ2

+2abCov(X ,Y )

 

 

 

 

Y

X

 

Y

 

 

 

 

 

 

 

 

 

 

 

 

 

Sn

= µ

+

Sn nµ

 

σ

µ +Z

σ

then for large n

2. Back to sample means. Since X

(n)

=

 

 

 

n

 

 

 

 

 

 

n

 

σ n

n

 

 

 

 

(n) has approximately normal distribution N µ,

σ

whatever is the

the sample mean X

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

distribution of X1, X2 ,... .

3. Continuity correction.

Example. The proportion of defective items is 15%. 50 items are randomly selected/ What is the probability that the number of defective items is at most 5?

Solution. Let X be the number of defective items in the sample, X is binomial r.v. with n =50, π = 0.15. We have to find the probability Pr(X 5) .

1)Exact probability (using Excel): Pr(X 5) = 0.219 .

2)Using normal approximation for binomial distribution : QUESTION: why we can use it?

Pr(X 5)

 

X nπ

 

5 50 0.15

 

(CLT ) = Pr(Z ≤ −0.990) = 0.161.

= Pr

 

 

 

 

 

 

 

nπ(1π)

 

50 0.15 0.85

 

 

 

 

 

 

 

3) Using Continuity Correction:

 

 

 

 

 

 

 

Pr(X 5)

= Pr(X <5.5)

 

X nπ

 

5.5

50

0.15

 

 

= Pr

 

 

 

 

 

 

 

 

 

 

 

 

nπ(1π)

 

50

0.15

0.85

 

 

 

 

 

 

 

 

(CLT ) = Pr(Z ≤ −0.792) = 0.214 .

Generally: let X be a binomial (!!!) random variable and m be a positive integer number.

X m X < m +0.5

X < m X < m 0.5 X > m X > m +0.5

X m X > m 0.5

INFERENCE FOR MEANS AND PROPORTIONS

(WW, Chapter 6)

Ввиду сложности материала текст, в основном, на русском языке.

В статистике есть два базовых понятия: генеральная совокупность (population) и выборка

(sample).

Неформально генеральная совокупность представляет множество всех возможных наблюдений в рамках изучаемого явления. Например, если исследуется доход в некотором

регионе, то генеральная совокупность это все доходы работающих жителей этого региона. Если изучается распределение веса взрослых людей в Красноярском крае, то генеральная совокупность это все возможные веса жителей Красноярского края. Подчеркнём, что генеральные совокупности в этих примерах не жители региона, а их изучаемые характеристики. Интересующая исследователя характеристика имеет какое-то

распределение в генеральной совокупности. Поэтому в теоретической модели генеральная совокупность отождествляется с некоторой случайной величиной Х.

Содержательно реализация этой случайной величины получается, когда случайным образом, наугад выбирается субъект из генеральной совокупности и фиксируется значение изучаемого признака. Распределение этой случайной величины называется

распределением генеральной совокупности (population probability distribution).

Соответствующая цитата из базового учебника WW:

Each individual observation in random sample has the population probability distribution p(x)

Выборка объёма п из заданной генеральной совокупности получается при выборе п субъектов из генеральной совокупности по схеме простого случайного выбора (SRS) и фиксации значений исследуемого признака, т.е. выборка это набор X1,..., Xn

наблюдений значений изучаемой характеристики. Однако с теоретической точки зрения на выборку X1,..., Xn следует смотреть не только как на числа. Статистика разрабатывает

и изучает методы получения выводов о генеральной совокупности на основании выборок X1,..., Xn . Например, мы хотим получить представление о математическом ожидании

(теоретическом среднем значении, expectation) µ = E(X ) рассматриваемой генеральной совокупности на основании выборки X1,..., Xn . Довольно естественным представляется взять в качестве оценки этой, как правило, неизвестной величины выборочное среднее

X= 1 n Xi . Фактически мы сформулировали правило: чтобы получить оценку среднего n i=1

значения µ = E(X ) по выборке надо вычислить арифметическое среднее выборки. Предполагается, что это правило будет применяться многократно. Но тогда понятно, что выборочные значения X1,..., Xn будут меняться от выборки к выборке. Иными словами, на

значения X1,..., Xn следует смотреть как на случайные величины. Причём поскольку

выборочные значения извлекаются случайным образом из генеральной совокупности Х, каждый член Xi выборки имеет то же самое распределение, что и генеральная

совокупность Х. А поскольку выборка осуществляется по схеме SRS, то величины X1,..., Xn являются независимыми.

Вывод: в теоретической статистике генеральная совокупность (population) отождествляется с некоторой случайной величиной Х, случайная выборка X1,..., Xn

рассматривается как совокупность независимых одинаково распределённых случайны величин, имеющих то же распределение, что и Х. В частности,

E(Xi ) = E(X ) = µ, V (Xi ) =V (X ) =σ2 при каждом i.

Цитата из WW:

A very simple random sample (VSRS) is a sample whose n observations X1,..., Xn are

independent. The distribution of each X is the population distribution p(x). Then each observation has the mean µ and standard deviation σ of the population.

POINT ESTIMATION

Одна из основных задач статистики оценка параметров генеральной совокупности на основании выборки. В дальнейшем все величины, которые можно вычислять по выборке X1,..., Xn будем называть статистиками. Таким образом, возникает пара Параметр

Статистика. Пример: выборочное и теоретическое среднее; выборочная и популяционная пропорция.

Пусть θ какой-то параметр генеральной совокупности и пусть X1,..., Xn выборка из

этой генеральной совокупности.

Определение. Любая функция g(X1,..., Xn ) называется точечной оценкой параметра θ . Обычно оценку принято обозначать символом θˆ =θˆ(X1,..., Xn ) . Следует различать функцию θˆ(x1,..., xn ) , с помощью которой строится оценка и которую можно назвать методом оценивания, и конкретное значение этой функции θˆ(X1,..., X n ) для конкретной выборки X1,..., Xn . В английском языке метод оценивания называется estimator, а

конкретное значение estimate.

Естественно пытаться выбрать из всего огромного множества методов оценивания параметра такие методы, которые обладают «хорошими» свойствами.

Опишем эти свойства, которые традиционно используются в статистике. Определение. Оценка θˆ называется несмещённой оценкой параметра θ , если E(θˆ) =θ .

Неформально отсутствие смещения означает, что метод не имеет систематической ошибки. Для любой оценки θˆ параметра θ будем обозначать bias = E(θˆ) θ .

 

 

 

 

 

 

 

 

1

n

Xi несмещённая оценка

Пример несмещённой оценки. Выборочное среднее X

=

 

 

среднего значения µ генеральной совокупности.

 

n i=1

 

 

 

 

 

Пример смещённой оценки. Оценка σ2 = 1 n

(Xi

 

)2

дисперсии σ2 генеральной

X

 

 

 

n i=1

 

 

 

 

 

 

 

 

 

совокупности является смещённой. Можно показать (домашнее задание 11), что

E(σ2 ) =

n 1

σ2 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

EFFICIENCY OF THE ESTIMATORS

 

 

 

 

 

 

 

 

 

How to compare two estimators θˆ

and θˆ of a parameter θ ?

 

 

 

 

1

2

 

 

 

 

 

 

 

 

 

a) Let’s suppose that both estimators are unbiased: E(θˆ ) = E(θˆ

) =θ . Then the natural measure

 

 

 

 

1

 

2

 

 

of the accuracy of an estimator is its variance: if V (θˆ )

<V (θˆ

)

then θˆ

is “better” than θˆ .

1

 

2

 

 

1

2

 

Efficiency of θˆ1 compared to θˆ2 eff =

V (θˆ2 )

.

 

 

 

 

 

 

V (θˆ1)

 

 

 

 

 

 

 

 

 

 

 

 

 

Example. For symmetric distributions one possible estimator of the center might be median. Let X N (µ,σ) and let x1,..., xn be a sample from population X. Let mˆ = median(x1,..., xn ) . It can be

proved that E(mˆ ) = µ, V (mˆ ) π σ 2 . Then efficiency x compared to mˆ = π/2 = 1.57.

2 n

b) Now consider the general situation when the estimators may be biased. In this case the

measure of accuracy of an estimator θˆ is its Mean Square Error (MSE): MSE(θˆ) = E(θˆ θ)2 .

Let\s denote E(θˆ) =t (recall that generally t θ because an estimator θˆ may be biased). We

have

MSE(θˆ) = E(θˆ θ)2 = E(θˆ t +t θ)2 = E(θˆ t)2 +(t θ)2 +2(t θ)E(θˆ t) .

The last term is equal to 0, and by definition E(θˆ t)2 =V (θˆ), t θ =bias(θˆ) . Finally we get MSE(θˆ) = E(θˆ θ)2 =V (θˆ) +bias2 (θˆ) .

The MSE is now the measure of efficiency of estimators:

Efficiency of θˆ1 compared to θˆ2

eff =

MSE(θˆ2 )

.

MSE(θˆ1)

 

 

 

Соседние файлы в папке Lektsii (1)