Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Лекция № 4

.pdf
Скачиваний:
15
Добавлен:
21.05.2015
Размер:
616.91 Кб
Скачать

Законы распределения

В теории вероятностей различают два основных класса случайных величин:

a) дискретные, множество значений которых представляет собой конечную, или счетную, последовательность;

б) непрерывные, значения которых принадлежат к некоторому диапазону и могут отличаться друг от друга на сколь угодно малую величину.

Непрерывные распределения

Следующие распределения относятся к непрерывным случайным величинам.

Нормальное, или Гауссово, распределение является наиболее распространенным, поскольку оно пригодно для описания широкого класса явлений, каждое из которых определяется взаимодействием большого числа разнородных факторов. Нормальное распределение определяется двумя параметрами: средним и дисперсией.

Логнормальное распределение характеризуется двумя параметрами:

средним значением a и масштабом k, определено для положительных Х и

связано с нормальным распределением преобразованием ln(X).

Экспоненциальное распределение (называемое также обратным экспоненциальным или показательным) имеет случайная величина,

представляющая интервалы между событиями, когда сами события имеют пуассоново распределение с интенсивностью L>0.

Гамма-распределения носят более академичный характер, но часто используются в качестве аргументов различных математических и статистических вычислений, определены для положительных Х.

Нормальное распределение

В любом более или менее симметричном вариационном ряду заметна одна характерная особенность – накапливание вариант в центральных классах и постепенное убывание их численности по мере удаления от центра ряда. Эта особенность варьирования количественных признаков встречается довольно часто. Так, например, люди среднего роста среди взрослого населения встречаются довольно часто, а высокорослые или низкорослые индивиды – значительно реже. Однако в массе одновозрастных индивидов людей выше и ниже среднего роста оказывается примерно одинаковое количество.

Впервые на эту закономерность варьирования обратил внимание Кетле

(1835), исследовавших распределение нескольких тысяч американских солдат по росту.

Описанная закономерность относится не только к человеку. Особенно примечательно, что не только распределение живых существ и продуктов их жизнедеятельности, но и случайные ошибки измерений подчиняются этой закономерности.

Таким образом, прослеживается широко распространенная в природе закономерность: в массе относительно однородных единиц, составляющих статистическую совокупность, большинство членов оказываются среднего или близкого к нему размера, и чем дальше они отстоят от среднего уровня варьирующего признака, тем реже встречаются в данной совокупности. И это независимо от формы распределения, что указывает на определенную связь между числовыми значениями варьирующих признаков и частотой их встречаемости в данной совокупности. Наглядным выражением этой связи служит вариационный ряд и его линейный график – вариационная кривая.

Эту закономерность можно воссоздать априори в виде математической модели, не опасаясь впасть в противоречие с фактами.

Нормальное, или Гауссово, распределение является наиболее распространенным, поскольку оно пригодно для описания широкого класса

явлений, каждое из которых определяется взаимодействием большого числа разнородных факторов. Эта универсальность объясняется так называемой

центральной предельной теоремой:

если изменение некоторой переменной определено действием множества факторов, то распределение ее значений приближается к нормальному закону с увеличением числа воздействующих факторов.

Нормальное распределение определяется двумя параметрами: средним и дисперсией. Математическое уравнение, описывающее кривую нормального распределения, имеет вид:

P( X )

 

1

 

 

( xi )2

 

 

 

 

e

 

2 2

dx

(42),

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где - среднее значение; - среднее квадратичное отклонение,

служащее мерой рассеяния полученных данных относительно среднего значения; хi – значение варианты; dx – малая величина, определяющая ширину интервала.

В показатель степени числа е входит нормированное отклонение t (xi ) / - величина, играющая важную роль в исследовании свойств нормального распределения.

Как видно из этой формулы, закон нормального распределения

(нормальный закон) выражает функциональную зависимость между вероятностью Р(Х) и нормированным отклонением t. Он утверждает, что вероятность отклонения любой варианты xi от центра распределения , где xi- =0, определяется функцией нормального отклонения t. Графически эта функция выражается в виде кривой вероятности, называемой нормальной кривой (рис. 27).

Рис. 27. Кривая плотности нормального распределения.

Форма и положение этой кривой определяются только двумя параметрами: и . При изменении величины форма нормальной кривой не меняется, лишь ее график смещается вправо или влево (рис. 28).

Рис. 28. Кривая нормального распределения (изменение ).

Изменение же величины влечет за собой изменение только ширины кривой: при уменьшении кривая делается более узкой за счет меньшего рассеяния вариант вокруг средней, а при увеличении кривая расширяется

(рис. 29). Во всех случаях, однако, она остается строго симметричной относительно центра распределения, сохраняя правильную колоколообразную форму.

Рис. 29. Кривая нормального распределения (изменение ).

Нормальная кривая с параметрами =1 и =0 называется

стандартизованной кривой. Она описывается формулой

 

1

 

 

 

t2

 

f (t)

 

 

 

 

 

 

 

e

2

(43).

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

Любую нормальную кривую можно привести к стандартной

(вычитанием из xi и делением на ). Стандартная кривая имеет площадь,

равную единице. Ее вершина, соответствующая ymax, соответствует началу прямоугольных координат, перенесенному в центр распределения, где xi- =0. Вправо и влево от этого центра случайная величина Х может принимать любые значения, и величина каждого отклонения (xi- ) определяется функцией его нормированного отклонения f(t).

Асимметрия и эксцесс

Показатели асимметрии и эксцесса характеризуют степень несимметричности выборочного распределения относительно среднего значения и степень выраженности его центрального пика.

Для симметричного распределения каждому имеющемуся значению случайной величины слева от x соответствует такое значение случайной величины справа от x , которое дает с ним такую же (но с противоположным знаком) разность и наблюдается такое же число раз. Поэтому сумма разностей

( x —хi), умноженных на Pi, для симметричного распределения равна нулю. Этот результат не меняется, если возвести все разности ( x —хi) в любую нечетную степень. Именно поэтому в качестве показателя асимметрии применяется математическое ожидание куба отклонения случайной величины от среднего значения. Этот показатель делят на куб среднего квадратического отклонения,

чтобы получить безразмерную величину.

Коэффициент асимметрии рассчитывается по формуле:

n

(xi )3 Pi

A i 1

3

(44)

s

При строго симметричных распределениях As=0. При наличии скошенности распределения этот показатель будет иметь положительную

(при правосторонней асимметрии) либо отрицательную (при левосторонней асимметрии) величину.

Графически асимметрия выражается в виде скошенной вариационной кривой, вершина которой может находиться левее или правее центра распределения. В первом случае асимметрия называется правосторонней,

или положительной, а во втором – левосторонней, или отрицательной (по знаку числовой характеристики).

а б

Рис. 30. Асимметричные кривые (а – отрицательная асимметрия; б – положительная асимметрия)

Наряду с асимметричными встречаются островершинные или

плосковершинные распределения. Показатель эксцесса характеризует крутизну спадания распределения в области его математического ожидания.

Островершинность кривой распределения вызывается чрезмерным накоплением частот в центральных классах вариационного ряда, вследствие чего вершина вариационной кривой оказывается сильно поднятой вверх. В

таких случаях говорят о положительном эксцессе распределения. Кроме островершинных встречаются и двух- и многовершинные кривые, а также плосковершинные и двугорбые кривые, что свидетельствует о наличии у такого распределения отрицательного эксцесса.

а

б

Рис. 31. Крутовершинная кривая (а)– положительный эксцесс и плосковершинная кривая (б)– отрицательный эксцесс в сравнении с

нормальной кривой.

Показатель эксцесса выражается формулой:

n

(xi )4 Pi

E

 

 

i 1

 

(45).

x

 

4

 

 

 

 

 

 

 

При отсутствии эксцесса Ex=0. В случае положительного эксцесса показатель приобретает положительный знак и может иметь самую разнообразную величину. При плосковершинности и двугорбости вариационной кривой коэффициент эксцесса имеет отрицательный знак;

предельная величина отрицательного эксцесса равна минус двум.

Величина асимметрии и эксцесса может быть различной, поэтому ее важно не только обнаружить, но и измерить. Для одного из важнейших законов распределения — закона Гаусса - плотность распределения которого изображается кривой колоколообразной формы, Ех=3. Все остальные симметричные распределения, таким образом, как бы сравниваются с распределением Гаусса: для более островершинных Ех>3, для более плосковершинных Еx<3. Величина асимметрии для нормального распределения равна 0.

Основные свойства нормального распределения

Для нормального распределения характерно совпадение по абсолютной величине средней арифметической, моды и медианы. Равенство между этими показателями указывает на нормальность данного распределения.

Вероятность отклонений любой варианты в ту или другую сторону от средней на t, 2t, 3t следующая:

P{-t<|x- |<+t}=0,6827; P{-2t<|x- |<+2t}=0,9545;

P{-3t<|x-|<+3t}=0,9973.

Это обозначает, что при распределении совокупности по нормальному закону из 10000 вариант в интервале от - t до + t окажется 68,3% от общего числа вариант, составляющих данную совокупность. В интервале от

- 2t до + 2t будет находиться 95,4% от числа всех вариант совокупности.

И в интервале от - 3t до + 3t окажется 99, 7% от всех вариант от общего объема совокупности.

Следовательно, с вероятностью Р=0,6827 можно утверждать, что наугад отобранная из нормально распределяющейся совокупности варианта не выйдет за пределы t. Вероятность того, что случайно отобранная варианта отклонится от средней не более, чем на 3t равна Р=0,9973.

Этот важный вывод известен в биометрии как правило плюс – минус трех сигм.

Дискретные распределения

Рассмотрев простейший случай переменных, которые удобнее всего считать непрерывными, обратимся теперь к переменным, которые являются существенно дискретными.

В классе дискретных распределений наиболее употребительны биномиальное, отрицательное биномиальное, геометрическое,

гипергеометрическое и пуассоново.

Наиболее употребительные (биномиальное и пуассоново)

распределения проистекают от схемы испытаний Бернулли с двумя исходами

«успех – неуспех», в которых вероятность успеха P не зависит от предшествующих испытаний.

Биномиальное распределение имеет случайная величина X,

представляющая число успехов в последовательности из n испытаний.

Если n велико, а P мало, то Х приближается к распределению Пуассона.

Геометрическое распределение имеет случайная величина,

представляющая число испытаний до первого успеха.

Отрицательное биномиальное распределение имеет случайная величина X, представляющая число испытаний до k успехов. Этому распределению хорошо соответствуют данные о числе объектов, с которыми за фиксированный промежуток времени случилось 0,1,2,3,... инцидента

(аварии, несчастные случаи и т.п.).

Гипергеометрическое распределение имеет случайная величина,

представляющая число успехов в случайной выборке размера n из совокупности размера N (N>n), в которой содержится S успехов (или оценка вероятности успеха равна P=S/N). Примером такой задачи может служить контроль качества продукции, когда производится контрольная выборка изделий из очередной партии, причем возврат изделий в партию перед выбором каждого следующего экземпляра не производится. Контролеру необходимо по числу бракованных изделий в выборке оценить объем брака во всей партии.

Биномиальное распределение

Биномиальное распределение имеет случайная величина X,

представляющая число успехов в последовательности из n испытаний. Если вероятность события равна p, то вероятность того, что это событие произойдет r раз в последовательности n испытаний, равна

P( X r)

n!

 

pr 1 p n r

(46).

r! n r !

 

 

 

Биномиальное распределение оказывается справедливым независимо от типа двух альтернативных признаков, которыми может обладать каждый индивидуум. Полученный вывод можно обобщить на случай нескольких признаков; их частота будет описываться полиномиальными распределениями. Биномиальным распределением часто пользуются в генетике при рассмотрении сложных случаев сцепленной наследственности.

Кроме того, часто приходится сравнивать такие относительные величины,

как заболеваемость вакцинированных и невакцинированных групп людей