Учебн. пособия-ОНИ / 1. Данько В.М._Алчевск-06
.pdf
Лекция № 7 7.1 Нормальное распределение
В классической математической статистике чаще всего используется т.н. нормальное распределение или распределение ГауссаЛапласа. В естествознании и технике это распределение имеет особое значение, т.к. в этих областях деятельности оно встречается очень часто. Такое положение имеет место потому, что здесь обычно выполняются те условия, при которых распределения случайных величин становятся нормальными:
1.Случайные помехи разных знаков встречаются одинаково часто.
2.Большие по абсолютной величине помехи встречаются реже, чем малые.
Если эти условия выполняются то в соответствии с центральной предельной теоремой теории вероятностей (П.-С.Лаплас, А.Ляпунов) рассеивание откликов как результат воздействия на объект исследования контролируемых факторов и случайных помех будет тем ближе к нормальному закону, чем больше число опытов.
Функция плотности нормального распределения имеет вид
1 |
|
|
|
− |
[x−μ(x)]2 |
|
|||
|
|
|
2σ |
2 |
(x) . |
||||
|
|
|
|
||||||
p(x) = |
|
|
|
× e |
|
|
|||
s(x) |
|
|
|
|
|||||
2p |
|
|
|||||||
Т.о. данное распределение зависит только от двух параметров: математического ожидания μ(х) и дисперсии σ2(х).
Типичный график нормального распределения показан на рисунке 7.1. Кривая (колокол) нормального распределения симметрична относительно прямой μ(х). Левая и правая ветви графика асимптотически приближаются к оси абсцисс в -∞ и +∞.
51
р(x)
68,27
95,45
99,73
x
−∞ |
σ σ |
+∞ |
2σ 2σ
3σ 3σ
Рисунок 7.1 – Нормальное распределение
Точки перегиба кривой лежат на расстоянии ±σ(х) от центра распределения. Площадь, отсекаемая прямыми ±σ(х) составляет 68,27% распределения, а прямыми ±2σ(х) и ±3σ(х) соответственно 95,45% и 99,73%. Отсюда известное из теории ошибок «правило 3-х сигм»:
Случайные ошибки измерения ограничены по абсолютной величине значением 3-х средних квадратичных отклонений.
Это значит, что если отклонение измеряемой величины от среднего значения превышает величину 3-х среднеквадратичных отклонений, то эта ошибка не случайна и нужно искать ее причины.
Большинство положений классической математической статистики основаны на предположении, что изучаемая случайная величина подчиняется нормальному распределению. Поэтому нужно всегда проверять нормальность изучаемой случайной величины, поскольку в про-
52
тивном случае корректное применение статистических процедур приведет к неверным результатам.
7.2 Генеральная совокупность и выборка
Распределение случайной величины содержит всю информацию о ее статистических свойствах. Много ли нужно знать значений случайной величины, чтобы построить ее распределение? Для этого нужно исследовать ее генеральную совокупность.
Генеральная совокупность – множество всех значений, которые может принимать данная случайная величина.
Число единиц в генеральной совокупности называется ее объемом N. Эта величина может быть конечной и бесконечной. Например, если исследуется рост жителей некоторого города, то объем генеральной совокупности будет равен числу жителей города. Если выполняется любой физический эксперимент, то объем генеральной совокупности будет бесконечным, т.к. число всех возможных значений любого физического параметра равно бесконечности.
Исследование генеральной совокупности не всегда возможно и целесообразно. Оно невозможно, если объем генеральной совокупности бесконечен. Но и при конечных объемах полное исследование не всегда оправдано, поскольку требует больших затрат времени и труда, а абсолютная точность результатов обычно не требуется. Менее точные результаты, но со значительно меньшими затратами сил и средств можно получить при исследовании только части генеральной совокупности. Такие исследования называются выборочными.
Статистические исследования, проводимые только на части генеральной совокупности, называются выборочными, а исследуемая часть генеральной совокупности называется выборкой.
53
На рисунке 7.2 символически показаны генеральная совокупность и выборка в виде множества и его подмножества.
Генеральная совокупность
Выборка
Рисунок 7.2 – Генеральная совокупность и выборка
Работая с некоторым подмножеством данной генеральной совокупности, часто составляющим незначительную ее часть, мы получаем результаты, по точности вполне удовлетворительные для практических целей. Исследование большей части генеральной совокупности только увеличивает точность, но не изменяет сути результатов, если выборка взята правильно со статистической точки зрения.
Для того, чтобы выборка отражала свойства генеральной совокупности и результаты были достоверными, она должна быть репрезентативной (представительной).
У некоторых генеральных совокупностей любая их часть является репрезентативной в силу их природы. Однако в большинстве случаев необходимо принимать специальные меры для обеспечения репрезентативности выборок.
Одним из главных достижений современной математической статистики считается разработка теории и практики метода случай
54
ных выборок, обеспечивающих репрезентативность отбора данных. Выборочные исследования всегда проигрывают в точности по
сравнению с исследованием всей генеральной совокупности. Однако с этим можно примириться, если величина погрешности будет известной. Очевидно, что чем больше объем выборки будет приближаться к объему генеральной совокупности, тем погрешность будет меньшей. Отсюда ясно, что проблемы статистического вывода становятся особенно актуальными при работе с малыми выборками (N ≈ 10-50).
7.3 Методы отбора выборок
Известны три метода отборок выборок: случайный, систематический и комбинированный.
В результате случайного отбора получается случайная выборка.
Выборка называется случайной, если все ее элементы имеют одинаковую вероятность попадания в нее
p(a) = p(b) = p(c) = ... = p(z)
Для этого необходим отбор с возвратом, когда любой элемент генеральной совокупности может попасть в выборку более одного раза. В противном случае отбор является безвозвратным.
Если число элементов в генеральной совокупности велико, то разница между возвратным и безвозвратным отборами практически исчезает.
Для проведения случайного отбора нужно все элементы генеральной совокупности, если это возможно, занумеровать. Затем осуществить процедуру случайного отбора элементов по номерам – методом «шапки» или при помощи таблицы случайных чисел.
Случайный отбор обладает такими свойствами:
1. Вероятность получения нерепрезентативной выборки невелика.
55
2.Она уменьшается по мере увеличения объема выборки.
3.Ее всегда можно определить.
Систематический отбор осуществляется по некоторому плану. Например, с конвейера отбирается каждая 5-я деталь. Его преимущество в меньших расходах на сбор данных. Однако систематический отбор приводит к хорошим результатам только при однородных статистических совокупностях. Если генеральная совокупность сильно неоднородна, то систематического отбора следует избегать. Классический пример такой ошибки - опрос общественного мнения в 20-х годах ХХ века по телефону.
Разновидностью систематического отбора является экспертный отбор, когда эксперт определяет, какой из элементов генеральной совокупности должен попасть в выборку. Этот метод применяется при небольших объемах генеральной совокупности и выборки (при покупке и продаже различных товаров и т.п.). Экспертный метод требует знаний и опыта, но позволяет получать очень хорошие результаты по малым выборкам (лучшие, чем при случайном отборе).
Комбинированный метод состоит в одновременном применении случайного и систематического отборов. Вся генеральная совокупность разбивается на ряд подмножеств. Систематическим методом отбирается ряд таких подмножеств для исследования, а в них элементы отбираются в выборку случайным методом. Например, при опросе общественного мнения в масштабах страны, в каждой области выбирается каждый n-ый город, а в нем «респонденты» выбираются случайным образом.
56
Лекция № 8 8.1 Параметры эмпирических распределений
По опытным (эмпирическим) данным строятся распределения исследуемых случайных величин. Функции плотности р(х) таких распределений могут иметь один (рис.8.1а), два (рис.8.1б) или больше максимумов (рис.8.1в). Соответственно такие распределения называ-
ются унимодальными, бимодальными и полимодальными.
р(х) |
р(х) |
р(х) |
х
х
х
а) |
б) |
в) |
Рисунок 8.1 – Различные виды эмпирических распределений
Подобно теоретическим распределениям, эмпирические характеризуются параметрами. Но если для описания нормального распределения достаточно двух параметров – μ(х) и σ2(х), то для эмпирических, как правило, этого недостаточно. Используются также меры фор-
мы – асимметрия и эксцесс и меры положения – мода и медиана.
Эмпирическим аналогом математического ожидания, как известно, является среднее случайной величины x или среднее взвешен-
ное xc . Аналогом дисперсии является выборочная дисперсия, несмеще-
нная оценка которой вычисляется по выражению
57
s2 (x) = |
1 |
N |
(xi - x)2 |
|
|
å |
(8.1) |
||||
|
|||||
|
N - 1 i=1 |
|
|
||
В математической статистике принято эмпирические аналоги теоретических параметров обозначать латинскими буквами, обозначающими те же звуки, что и греческие. Например:
s2 (x)Þ s2 (x); g(x)Þ g(x) ; r(x)Þ r(x) и т.д.
Распределения часто бывают асимметричными, т.е. такими, что их большая часть располагается по одну сторону от среднего значения случайной величины (рис.8.2).
р(х)
50% |
50% |
х
x~
x
Рисунок 8.2 – Асимметричное распределение
Для описания таких распределений, помимо среднего и эмпирической дисперсии, используют моду и медиану, асимметрию и эксцесс.
Мода – это наиболее вероятное значение случайной величи-
ны.
Мода соответствует максимуму кривой функции плотности распределения. На рисунке 6.2 мода – это значение случайной величины у осно-
58
вания пунктирной линии.
Медиана – это значение случайной величины, делящее распределение на две равные части так (так, чтобы каждая часть со-
держала 50% распределения). |
|
~ |
~ |
Медиана обозначается x (икс с «тильдой»). Если x < x , то рас-
пределение называется положительно асимметричным (рис.8.2). Такое унимодальное распределение имеет значительную крутизну левой ветви и явно выраженную вытянутость вправо. Если x > ~x , то распределение называется отрицательно асимметричным.
Для унимодального непрерывного симметричного распределения значения моды, медианы и среднего совпадают. Примером может служить нормальное распределение (рис.7.1).
8.2 Асимметрия и эксцесс
Количественно степень несимметричности распределения оценивается при помощи одной из мер этого параметра – асимметрией
gs = M33 ,
S
где М3 – центральный момент распределения 3-го порядка; S – эмпирический стандарт ошибки
S = S2 (x)− k2 ,
12
где k – размер класса по Штюргесу. Поправка k2 (поправка Шепарда)
12
учитывает главную часть смещения этой оценки.
Другим возможным отклонением формы эмпирического распределения от нормального является расположение максимума кривой выше или ниже нормального. Это явление называется эксцессом.
59
Если максимум выше и кривая острее, чем колокол нормального распределения, то эксцесс Е считается положительным. Если ниже и кривая имеет более пологую форму, то тогда эксцесс отрицателен. На рисунке 8.3 показаны оба эти варианта.
р(х) |
р(х) |
Е > 0 |
Е < 0 |
х |
х |
Рисунок 8.3 – Распределения с эксцессом
Мерой эксцесса является отношение центрального момента распределения 4-го порядка к 4-й степени эмпирического стандарта ошибки
E = M4 − 3 ,
S4
где число 3 устраняет главную часть смещения этой оценки.
Вообще центральный момент распределения k-го порядка равен:
Mk = μ[x − μ(x)] k = åN [xi − μ(x)]kp(x)
i=1
Следовательно, центральный момент распределения k-го порядка – это математическое ожидание k-ой степени относительно отклонения случайной величины от ее математического ожидания. Анало-
60
