Скачиваний:
114
Добавлен:
08.04.2015
Размер:
3.32 Mб
Скачать

1

 

 

 

 

0,8

P(F<1,73) = 0,8

 

 

 

 

 

 

0,6

 

 

 

 

0,4

 

 

P(F>1,73) = 0,2

 

 

 

 

 

0,2

 

 

 

 

0

 

 

 

 

0

1

 

2

3

 

 

F0,2;10;10=1,73

 

 

Рис. П2.12.

 

 

ОСНОВНЫЕ ТЕРМИНЫ (ГЛОССАРИЙ)

 

Статистика – любая функция θN = f (x1 , x2 , K, xN ) выборочных наблюдений x1 , x2 , K, xN .

Оценка – статистика θN , используемая в качестве приближенного значения неизвестного параметра генеральной совокупно-

сти θ , (θN θ ).

Точечная оценка – статистика θN , используемая в качестве приближенного значения неизвестного параметра генеральной совокупности θ , (θN θ ), характеризующая параметр генеральной совокупности одним числом.

Выборочная средняя – оценка x среднего значения μ гене-

ральной совокупности, полученная на основе выборочных данных x μ .

Выборочная дисперсия – оценка S 2 дисперсии D генеральной совокупности – S 2D , полученная на основе выборочных данных.

241

Выборочное стандартное отклонение – оценка S стандарт-

ного отклонения σ генеральной совокупности – S σ , полученная на основе выборочных данных.

Распределение хи-квадратраспределением хи-квадрат с n степенями свободы называется распределение суммы квадратов n независимых, нормально распределенных случайных величин, с математическими ожиданиями, равными нулю и одинаковыми дисперсиями, равными единице.

Квантиль уровня γ такое значение случайной величины xγ , для которого выполняется условие P(x < xγ ) = γ .

Доверительная вероятность – вероятность Pдов. = γ, с кото-

рой числовой интервал (θN1 , θN 2 ) «накрывает» истинное значение параметра θ .

Уровень значимости – величина α =1 γ , тесно связанная с понятием доверительной вероятности. Если доверительная вероятность Pдов. = γ, то уровень значимости α =1 γ . Уровень значимо-

сти – это вероятность, того, что статистика попадет в критическую область – область «неправдоподобно» больших (или малых) значений. Как правило, α задается достаточно малым, таким, чтобы попадание статистики в критическую область можно было считать маловероятным (практически невозможным) событием.

Распределение Стьюдента – (t-распределение) распределе-

ние случайной величины t =

 

Z

, где Z ~ N (0;1) – нормально

 

1

χ2

 

 

n

 

 

 

 

 

распределенная случайная величина с математическим ожиданием, равным нулю и дисперсией, равной единице, χ2 – не зависящая от Z случайная величина, имеющая хи-квадрат распределение с n степенями свободы.

Число степеней свободы n – определяется как общее число наблюдений N минус число уравнений m, связывающих эти наблюдения: n = N-m-1

242

Распределение Фишера – Снедекора (F-распределение)

 

 

 

 

1

χ2

(k

)

 

 

 

 

 

 

 

F =

 

 

k1

1

 

 

распределение случайной величины

 

 

 

 

, где χ2 (k1 ) и

 

 

 

 

 

 

 

 

 

1

χ2

(k2 )

 

 

 

 

 

 

 

 

k2

 

 

 

χ2 (k2 ) – независимые случайные величины, имеющие распределение хи-квадрат с k1 и k2 степенями свободы соответственно.

243

Приложение 3.

ЭЛЕМЕНТЫ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

П3.1. ПОНЯТИЕ О ВЫБОРОЧНОМ МЕТОДЕ

Математическая статистика – это раздел прикладной математики, который, основываясь на методах теории вероятностей, занимается систематизацией и обработкой статистической информации (статистических данных) для получения обоснованных выводов об изучаемых объектах.

Различают два вида статистических исследований – сплошное, когда изучаются все объекты совокупности – ее называют генеральной совокупностью и выборочное, когда изучается часть объектов из этой генеральной совокупности – выборка.

Суть выборочного метода заключается в том, чтобы на основе выборки получить выводы, заключения и суждения обо всей генеральной совокупности.

Основное требование к выборке – репрезентативность (представительность). Она должна «как в капле воды» отражать особенности и характерные черты генеральной совокупности. Для того чтобы выборка была репрезентативной, необходимо организовать отбор элементов случайным образом, т.е. так, чтобы все объекты генеральной совокупности имели одинаковую вероятность попадания в выборку. Для этого разработаны специальные методы и про-

цедуры – [6, 10].

Обычно задачи математической статистики разделяют на два типа – параметрические и непараметрические.

Параметрическими называют задачи, в которых требуется на основании выборочных наблюдений получить приближенное значение (оценку) для истинного значения искомого параметра (параметра генеральной совокупности). В практических задачах бизнеса

244

чаще всего исследуют такие параметры случайных величин, как

средняя, дисперсия (стандартное отклонение), доля элементов (наблюдений) с определенными признаками.

Непараметрические задачи статистики в основном связаны с нахождением вида законов распределения для исследуемых случайных величин.

П3.2. ТОЧЕЧНАЯ ОЦЕНКА ПАРАМЕТРОВ

Одной из важнейших задач выборочного метода является оценка параметров (характеристик) генеральной совокупности по данным выборки.

Для решения задачи используются выборочные данные x1, x2 , K, xN , на основе которых вычисляется оценка того или иного параметра θN = f (x1, x2 , K, xN ) . Всякая оценка является функцией от выборочных наблюдений. В математической статистике любую функцию θN = f (x1, x2 , K, xN ) выборочных наблюдений x1, x2 , K, xN называют статистикой.

Статистика θN , используемая в качестве приближенного значения истинного значения неизвестного параметра генеральной со-

вокупности θ , называется оценкой (точечной оценкой): θN θ .

Для того, чтобы статистические оценки давали наилучшее приближение оцениваемых параметров они должны удовлетворять определенным требованиям – быть состоятельными (стремиться к θ с ростом объема выборки N) , несмещенными (в среднем совпадать с θ ) и эффективными (обладать наименьшей степенью случайных отклонений от θ ). При построении оценок на основе выборочных данных в математической статистике применяют метод моментов, метод максимального правдоподобия и метод наименьших квадратов – [6, 10, 12]. В практических задачах бизнеса чаще всего используют следующие точечные оценки.

Выборочная средняя

Если x1, x2 , K, xN – данные выборки, N – объем выборки, то выборочная средняя

 

1

N

 

x =

xi

(П3.1)

 

 

N i=1

 

245

является оценкой для среднего значения (математического ожидания) – μ генеральной совокупности: x μ .

Выборочная дисперсия

Если x1, x2 , K, xN – данные выборки, N – объем выборки, то выборочная дисперсия

 

1

 

N

 

 

S 2 =

 

(xi

x)2

(П3.2)

N 1

 

i=1

 

 

является оценкой для дисперсии D генеральной совокупности:

S 2D

Выборочное стандартное отклонение

Если x1, x2 , K, xN – данные выборки, N – объем выборки, то выборочное стандартное отклонение

 

1

 

N

 

 

S =

 

(xi

x)2

(П3.3)

N 1

 

i=1

 

 

является оценкой для стандартного отклонения σ генеральной совокупности: S σ .

Выборочная доля

Если x1, x2 , K, xN – данные выборки, N – объем выборки, mk – количество выборочных данных, принадлежащих интервалу ( xk1 , xk ) , то выборочная доля

wk

=

mk

.

(П3.4)

 

 

 

N

 

является оценкой вероятности того, что случайная величина примет значение из k-го интервала ( xk1 , xk ) : wk P ( xk1 <x < xk ) .

Выборочный коэффициент парной корреляции

Если x1, x2 , K, xN , y1, y2 , K, yN – данные выборки, x, y – оценки средних значений, Sx , Sy – оценки стандартных отклонений,

246

N – объем выборки, то выборочный коэффициент парной корреляции

 

N

 

 

 

 

rxy =

(xi

x)

( yi

y)

i=1

 

 

 

(П3.5)

N Sx

Sy

 

 

 

 

является оценкой коэффициента корреляции ρxy , характеризующе-

го тесноту линейной связи между двумя случайными величинами

X и Y : rxy ρxy .

П3.3. ИНТЕРВАЛЬНАЯ ОЦЕНКА ПАРАМЕТРОВ

Оценки (П3.1) – (П3.5) характеризуют параметры генеральной совокупности одним числом, поэтому их называют точечными оценками.

Любая точечная оценка строится (вычисляется) на основе случайной выборки. Если, например, взять другую (случайно сформированную) выборку из той же генеральной совокупности, то новая точечная оценка, скорее всего, будет отличаться от первой. Поэтому всякая оценка θN , во-первых, случайная величина, принимаю-

щая различные значения в некотором интервале, а во-вторых, она является лишь приближенным значением истинного параметра θ . Поэтому, для получения представления о точности и надежности выборочных оценок θN , в статистике широко используют понятие

«интервальное оценивание».

Интервальной оценкой параметра θ называется числовой промежуток – интервал (θN1 , θN 2 ) , который с заданной вероятностью Pдов. = γ «накрывает» истинное значение параметра θ – рис. П3.1.

θ

θN1

θN2

Рис. П3.1.

247

Pдов. = γ
Pдов. = γ

Интервал (θN1 , θN 2 ) называют доверительным интервалом,

а вероятность Pдов. = γ, с которой числовой интервал (θN1 , θN 2 )

«накрывает» истинное значение параметра θ доверительной ве-

роятностью.

Ширина доверительного интервала зависит от объема выборки N (с увеличением N она уменьшается) и от уровня доверительной вероятности (чем больше уровень доверительной ве-

роятности, тем шире доверительный интервал).

Интервальное оценивание основано на следующих принципах. 1. Предполагается, что выборочные данные x1, x2 , K, xN это

независимые нормально распределенные случайные величины xi ~ N(μ; σ 2 ) с одинаковыми математическими ожиданиями (сред-

ними) – μ и одинаковыми дисперсиями σ 2 , как правило, неизвестными.

2. Оценки (П3.1) – (П3.5), являющиеся функциями от нормально распределенных случайных величин xi ~ N(μ; σ 2 ) , также

случайные величины, законы распределения которых, хорошо изучены и известны – Приложение 2.

3. Для того, чтобы получить доверительный интервал, который с заданной вероятностью «накрывает» истинное зна-

чение параметра θ , «искусственно» конструируют или подбирают статистику – новую случайную величину, в которую включают разность между θ и его оценкой θN .

Например, для получения доверительных интервалов генеральной средней конструируют статистику, используя оценки вы-

борочной средней и дисперсии – (П3.1), (П3.2):

 

t =

(x μ)

N ,

(П3.6)

S

 

 

 

где x, S – оценки для среднего и стандартного отклонения – случай-

ные величины, законы распределения которых известны (см. Приложение 2), N – объем выборки, μ – неизвестный параметр – «истинное» математическое ожидание (генеральная средняя), не являющееся случайной величиной.

4.Зная законы распределения случайных величин, входящих

встатистику, методами теории вероятностей несложно выяснить,

каков закон распределения сконструированной статистики. Напри-

248

мер, доказано, что статистика (П3.6) имеет распределение Стьюдента с n = N 1 степенями свободы.

5. Имея закон распределения статистики, и задав уровень доверительной вероятности Pдов. = γ, вначале находят интервал, куда

данная статистика попадает с заданной вероятностью. Затем, используя алгебраические преобразования, находят доверительный интервал, который покрывает истинное значение искомого параметра с доверительной вероятностью (надежностью) γ – [6, 10, 12].

Замечания

1. При построении доверительных интервалов наряду с заданием доверительной вероятности Pдов. = γ, используют понятие

уровня значимости – величину α =1γ . Эти две величины однозначно определяют друг друга. Если доверительная вероятность Pдов. = γ = 0,95, то уровень значимости α =1γ = 0,05 . Часто задачу формулируют так: «построить доверительный интервал для неизвестного параметра, соответствующий доверительной вероятности P =1α ».

2. Задача построения доверительного интервала связана с нахождением его границ. Если закон распределения случайной величины – статистики известен, то задача отыскания границ промежутка, куда случайная величина попадает с необходимой «надежностью» – с заданной вероятностью Pдов. = γ есть не что иное, как задача оты-

скания квантилей определенного уровня, которые называют крити-

ческими значениями (см. Приложение 1, п.1.3.4.).

3.Обычно рассматривают два случая – доверительный интервал расположен левее критического значения – рис. П3.2. либо доверительный интервал симметричен относительно центра распределения – рис. П3.3. В последнем случае критических значений (границ интервала) будет два.

4.Критическая точка – tα (рис. П3.2) или границы довери-

тельного интервала: tα / 2 лев. , tα / 2 прав. (рис. П3.3) определяют границы, за пределы которых случайная величина выходит достаточно редко (с вероятностью, равной α ). Величину α выбирают достаточно малой, полагая, например, α = 0,05 или α = 0,01. Содержательно это будет означать, что полученный для таких значений доверительный интервал, «накрывает» истинное значение параметра с вероятностью γ =1α = 0,95 или γ =1α = 0,99 .

249

f(t)

 

 

 

P(t < tα ) = γ

P(t>tα ) = α

 

 

γ = 1−α

α

 

 

 

t α

t

 

Рис. П3.2.

 

 

f(t)

P(tα/2 лев. < t < tα/2 прав) = γ

 

α/2

γ = 1−α

α/2

 

t α/2 лев.

t α/2 прав. t

Рис. П3.3.

П3.4. ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ ДЛЯ МАТЕМАТИЧЕСКОГО ОЖИДАНИЯ (ГЕНЕРАЛЬНОЙ СРЕДНЕЙ) СЛУЧАЙНОЙ ВЕЛИЧИНЫ

Постановка задачи. Исследуется случайная величина X, распределенная по нормальному закону X ~ N (μ,σ 2 ) . Математическое

ожидание которой – μ , также как и дисперсия – σ 2 неизвестны. Требуется найти доверительный интервал для неизвестного

математического ожидания, который с заданной вероятностью γ =1α «накрывает» истинное значение μ .

250