
Учебн. пособия-ОНИ / 1. Данько В.М._Алчевск-06
.pdf
гично определяется центральный момент распределения k-го порядка для дискретных случайных величин:
|
1 |
N |
2 |
|
|
(xi − x) |
|||
Mk = |
å |
|||
|
||||
|
N i=1 |
|
Вот почему дисперсия является центральным моментом распределения 2-го порядка. Центральный момент распределения 1-го порядка тождественно равен нулю.
8.3 Проверка нормальности распределения
Асимметрия и эксцесс позволяют произвести приближенную проверку нормальности распределения. Очевидно, что симметричное и не имеющее эксцесса унимодальное распределение будет нормальным. Если распределение имеет асимметрию и эксцесс, то оно отличается от нормального.
Практически любое эмпирическое распределение имеет какое-то отклонение от нормального. Однако это еще не означает, что распределение данной случайной величины в ее генеральной совокупности не является нормальным. Если gs и Е незначительно отличаются от нуля, то это отличие может быть обусловлено случайными ошибками выборок. Чтобы выяснить, насколько значительно должны gs и Е отличаться от нуля для того, чтобы в генеральной совокупности случайная величина была распределена не по нормальному закону, эти параметры сопоставляются по модулю с их средними квадратичными ошибками
|
|
gs |
= A; |
|
E |
|
= B , |
|
|
|
|
|
|||||
|
|
Sgs |
SE |
|||||
|
|
|
|
|
|
|||
где |
Sgs = |
|
|
|||||
6(N − 1)/[(N + 1)(N + 3)] |
||||||||
|
|
|
61 |
|
|
|
|
|

SE = 24N(N − 2)(N − 3)/[(N + 1)2 (N + 3) (N + 5)]
Если А и В по модулю значительно, в 2-3 раза, превышают свои средние квадратичные ошибки, то нормальность распределения сомнительна и следует провести проверку по более точному критерию. Обычно используется критерий χ2 (хи-квадрат), но при этом требуется объем выборки не менее 50 единиц. В противном случае оснований для сомнений нет.
Если проверка показала, что распределение нормально, то можно проводить дальнейшую статистическую обработку данной совокупности методами классической математической статистики. Если даже более точная проверка показала отличие данного распределения от нормального, то тогда следует попытаться привести его к нормальному заменой независимой переменной.
Например, положительно асимметричные распределения часто встречаются при обработке экономической информации. Они легко приводятся к нормальному виду логарифмированием случайной величины (рис.8.4):
р(х) |
|
р(lnх) |
gs > 0 |
→ |
gs= 0 |
|
|
|
|
х |
lnх |
Рисунок 8.4 – Логарифмирование независимой переменной
62

Некоторые случайные величины, имеющие размерность квадрата какой-либо величины (например, площади), могут быть приведены к
нормальному виду преобразованием: x Þ x .
Если никакими преобразованиями распределение не приводится к нормальному виду, то тогда для дальнейшей работы с ним нужно использовать методы непараметрической статистики. Они значительно сложнее и дают меньшую точность оценок (при одинаковом объеме данных). Но в технических науках. где распределения обычно являются нормальными, в использовании этих методов необходимость возникает редко.
63

Лекция № 9 9.1 Основные задачи статистики
Назначение статистических методов состоит в том, чтобы по выборкам ограниченного объема делать обоснованные выводы о свойствах генеральных совокупностей, из которых эти выборки были извле чены. При этом возникает две основные задачи:
1.Оценивание параметров.
2.Проверка статистических гипотез.
Первая задача заключается в получении по выборочным данным оценок параметров генеральных совокупностей посредством какихлибо подходящих функций от элементов выборок. Это т.н. параметризация.
Параметрами (статистическими характеристиками) называются все подлежащие определению величины генеральной совокупности.
Примеры параметров: вероятности событий, математические ожидания, дисперсии.
Оценка – это найденное по выборочным данным значение параметра.
Статистические характеристики (параметры) вообще принято обозначать буквой θ , а их оценки - θ .
Термин «оценка» используется вследствие того, что из-за случайного характера выборочных исследований в принципе невозможно гарантировать не выход ошибки параметризации из любых наперед заданных пределов. Поэтому предпочитают говорить не о приближенном значении параметра, а о получении наилучшей среди возможных оценке его величины.
64

На рисунке 9.1 параметром θ является дисперсия σ2(х), а его оценкой θ - эмпирическая дисперсия s2(х).
ГС
оценка θ
σ2(х)
s2(х)
выборка
параметр θ
Рисунок 9.1 – Параметр и его оценка
Оценив по выборочным (эмпирическим) данным тот или иной параметр, нужно выяснить, насколько согласуется с опытными данны-
ми гипотеза о том, что параметры θi действительно имеют те значе-
ния, которые получены в результате их оценивания. Это – задача проверки статистических гипотез.
9.2 Типы оценок
Оценки бывают двух типов – точечные и интервальные.
Оценка называется точечной, если в результате оценивания получается значение неизвестного параметра в виде числа.
Например, точечной оценкой математического ожидания μ(х) является среднее значение случайной величины x =3,14.
Точечная оценка является функцией от элементов выборки:
θ = g(x1,x2 ... xN ).
Например, то же среднее арифметическое
65

1N
x= N iå=1xi .
Оценка называется интервальной, если в результате оценивания получаются границы интервала, внутри которого с определенной вероятностью находится значение искомого параметра θ :
p(ε1 ≤ θ ≤ ε2 ) = p
На рисунке 9.2 показана графическая интерпретация интервального оценивания.
ε1 |
θ |
|
|
|
|
|||
ε2 |
|
|||||||
θ |
х |
|||||||
|
|
|
|
|
|
|
|
р
9.2 – Интервальное оценивание
Интервал (ε1, ε2 ) называется доверительным интервалом,
его нижняя ε1 и верхняя ε2 границы называются соответственно ниж-
ним и верхним доверительными пределами, а вероятность р – доверительной вероятностью. Т.о. при интервальном оценивании находится интервал, в котором с заданной доверительной вероятностью находится параметр θ , причем центром этого интервала является точечная оце-
нка θ .
Статистическое оценивание будет полным, если найдены как точечная, так и интервальная оценки исследуемого параметра.
Например, точечная и интервальная оценки роста некоторой совокупности людей (рис.7.3):
66

ε1 =170 |
|
|
=174 ε2 |
=178 |
||||||
θ |
||||||||||
|
|
|
|
|
|
|
|
|
|
х |
р=0,99
Рисунок 7.3 – Полная оценка роста
9.3 Статистики
Любая функция от элементов выборки называется статистикой. Следовательно, точечная оценка также является статистикой. Однако не всякая статистика может быть использована для оценивания параметров генеральной совокупности.
Из определения статистики следует, что произвольная статистика как функция от элементов случайной выборки сама является случайной величиной. Поэтому, как и любая другая случайная величина, она может быть описана с вероятностной точки зрения распределением и параметрами.
Конкретное значение статистики g, найденное по каждой выборке, является значением этой случайной величины. На рисунке 9.4 показаны различные выборки из генеральной совокупности и рассчитанные по ним статистики gi.
g1(x1,x2...xN) g2(x1,x2...xN)
ГС
g5(x1,x2...xN) g3(x1,x2...xN)
g4(x1,x2...xN)
Рисунок 9.4 − Статистика как случайная величина
67

Поэтому любая оценка θ параметра θ является величиной слу-
чайной, тогда как оцениваемый параметр θ не случаен. Поскольку оценки являются случайными величинами, то их статистические свойства описываются т.н. выборочными распределениями.
9.4 Свойства оценок
Для оценивания одного и того же параметра можно использовать разные статистики. Например, для оценивания μ(х) можно приме-
нять простое среднее x , среднее взвешенное xc , среднее геометриче-
ское xg и среднее гармоническое xh . Однако для того, чтобы оцени-
вание было произведено наилучшим образом, оценки должны обладать следующими свойствами:
1. Состоятельности – при неограниченном увеличении объема вы-
борки N оценка θ стремится к параметру θ с достоверностью.
Это означает, что с ростом N выборочные распределения все в большей степени концентрируются вокруг θ и точность оценки не ограниченно возрастает. В частности, для состоятельной оценки справедливо
lims2 [ q (x1 , x2 KxN )]= 0 .
N→∞
2. Несмещенности – если для любого объема выборки математиче-
ское ожидание оценки θ равно оцениваемому параметру: m(q)= q .
Для несмещенной оценки характерно отсутствие систематической погрешности; при любом объеме выборки функция плотности ве-
роятности p[ q (xi )] имеет своим центром истинное значение пара-
метра θ . Если m( |
|
)¹ q , но lim m( |
|
)= q , то такая оценка |
|
называется |
q |
q |
θ |
||||
|
|
N→ |
|
|
||
68 |
|
|

асимптотически несмещенной.
3. Эффективности – если несмещенная оценка θ среди всех других оценок параметра θ обладает наименьшей дисперсией
s2 (qэф )= méêë(q - q)2 ùúû = min .
|
s2 |
( |
|
|
|
|
) |
|
|
|
q |
|
|||||||
Если e = |
|
|
|
эф |
|
|
< 1 для любого конечного N, но: lim e = 1 , |
||
|
2 ( |
|
|
) |
|
|
|||
|
s |
q |
|
|
N→∞ |
то такая оценка называется асимптотически несмещенной.
4. Достаточности – если знание любых других оценок не дает никакой дополнительной информации о θ сверх той, которая имеется
в θ .
В настоящее время разработаны общие методы, позволяющие находить во многих случаях «хорошие» оценки для разных статистических параметров. Одним из них является метод максимального правдоподобия.
9.5 Метод максимального правдоподобия
Разработан Р.Фишером. Пусть х1,х2...хN - выборка из генеральной совокупности случайной величины х с функцией плотности вероятности р(х,θ), зависящей от постоянного параметра θ. Выборочная плотность вероятности при объеме выборки N будет равна
p(x1, x2 ...xN;q) = p(x1;q)p(x2;q)Kp(xN;q) , |
(9.1) |
т.к. по условию все элементы выборки статистически независимы. Значения выборки известны – это некоторые числа, а параметр θ – не известен. Зависящая от θ функция, которая получается при подстановке выборочных значений хi в (9.1), называется функцией правдоподобия L( θ ) для параметра θ
69

L(θ) = p(x1;θ)p(x2;θ)Kp(xN;θ) . |
(9.2) |
Метод максимального правдоподобия состоит в том, что в каче-
стве оценки θ неизвестного параметра θ выбирается то его значение, которое максимизирует функцию (9.2). Для этого выполняется исследование (9.2) на экстремум.
Достоинством метода максимального правдоподобия является то, что с его помощью можно сравнительно легко находить оценки, обладающие хорошими свойствами. Доказано, что:
1.Если существует эффективная оценка, то метод максимального правдоподобия дает именно такую оценку и более точную найти нельзя.
2.Оценка, найденная методом максимального правдоподобия, при довольно слабых ограничениях состоятельна, по крайней мере асимптотически эффективна и асимптотически нормальна с математическим ожиданием, равным θ .
Вчастности показано, что если случайная величина распределена по нормальному закону с известной дисперсией, то оценкой ее математического ожидания будет среднее значение x . Если случайная величина х распределена по нормальному закону с известным μ(х), то
еенесмещенной оценкой дисперсии будет статистика
σ2 (x) = |
1 |
N |
(xi − x)2 . |
|
å |
||||
|
||||
|
N − 1 i=1 |
|
70