
- •Теорема сложения вероятностей.
- •Теорема умножения вероятностей для независимых событий.
- •Теорема умножения вероятностей для зависимых событий.
- •Теорема полной вероятности.
- •Отрицательное биноминальное и геометрическое распределения случайной величины.
- •Распределение случайных величин Пуассона.
- •Нормальное распределение непрерывной случайной величины.
- •Логнормальное распределение непрерывной случайной величины.
- •Гамма-распределение непрерывной случайной величины и его разновидность - распределение Пуассона непрерывной случайной величины.
- •Показательные и экспоненциальные распределения непрерывной случайной величины .
Показательные и экспоненциальные распределения непрерывной случайной величины .
Существует еще ряд важных распределений, модели которых не используются для оценки истинных параметров изучаемой совокупности, но могут использоваться, например, для оценки жизнедеятельности механизмов и для экономического анализа горнорудных проектов, для оценок демографической ситуации. Одно из таких распределений – показательное распределение Вейбула, которое описывается следующим соотношением -
F(t) = P{ξ<t}, где ξ – время жизнедеятельности объекта.
Многочисленные экспериментальные данные в области демографии и жизнедеятельности механизмов показывают, что в большинстве случаев кривая распределения позволяет выделить три периода – приработок, нормальную эксплуатацию и износ, каждому периоду соответствует свое показательное экспоненциальное распределение. Кроме распределения Вейбулла можно отметить двухстороннее экспоненциальное распределение Лапласа, экспоненциальное усеченное распределение Парето, которое позволяет анализировать распределение признака, превышающего некоторый допустимый порог (например, налоговые органы часто интересуются распределением годовых доходов физических лиц, среднегодовой доход которых превышает некоторую величину), распределение Коши и другие распределения. Более подробно про эти распределения можно прочитать в специализируемой литературе.
Формальные процедуры проверки гипотез.
В 1912 году А.Пуанкаре написал “Каждый уверен в справедливости нормального закона, экспериментаторы – потому что они думают, что это математическая теорема, а математики – потому, что они думают, что это экспериментальный факт”. К этим словам можно добавить, что нормальный закон распределения всего лишь один из многих законов распределения случайной непрерывной величины, но он имеет очень большой удельный вес практической применимости. Перед нами стоит задача определить к какому типу может относиться наше экспериментальное распределение, так как это важно при оценке истинных параметров изучаемой совокупности, например истинного среднего содержания разведуемой залежи полезного компонента, ее истинной дисперсии и других параметров. Однако прежде чем решать эту задачу нужно установить формальные процедуры статистической проверки наших гипотез, в конкретном случае гипотезы о нормальном распределении наших выборочных данных, полученных в результате геологоразведочных работ. Первый шаг в статистической проверке гипотез – формулировка подходящей гипотезы об исследуемой переменной. Обычно первая гипотеза называется нулевой и является гипотезой, что наши экспериментальные данные подчиняются нормальному распределению, а среднеарифметическое значение выборки равно истинному среднему значению совокупности.
H0 : χ =μ
Здесь уместно отметить, что это общее название нулевой гипотезы, она может формулироваться, например, как гипотеза об отсутствии различий между выборками и совокупностями, как гипотеза о равномерности точек наблюдения и возможны другие варианты названий.
Сформулировав нулевую гипотезу нужно указать и альтернативную гипотезу. Альтернативная гипотеза соответственно будет гипотезой, о том, что наши экспериментальные данные не подчиняются нормальному распределению, и среднеарифметическое значение выборки не равно истинному среднему значению совокупности.
H1 : χ ≠μ
Как только гипотеза сформулирована, можно на основании какого-либо статистического критерия, принять ее или отвергнуть, также гипотеза может быть истинной или ложной. Из этого следует, что мы имеем четыре комбинации возможных решений и оценок правильности наших решений, два решения из четырех правильные, а два решения - неправильные. Эти комбинации возможных решений и оценок правильности наших действий отражены в таблице .
Возможные решения |
Гипотеза верна |
Гипотеза неверна |
Гипотеза принимается |
Правильное решение |
Ошибка второго рода (β) |
Гипотеза отклоняется |
Ошибка первого рода (L) |
Правильное решение. |
Из этой таблицы видно, что только отклонение неверной гипотезы и принятие верной гипотезы являются правильным выбором. Если нулевая гипотеза отклоняется, а на самом деле она верна, то возникает ошибка или вероятность ошибки первого рода (L), которая известна заранее и задается до принятия решения и наоборот, если нулевая гипотеза принимается, а она неверна, то возникает ошибка второго рода (β) которая неизвестна заранее. Ошиблись мы или не ошиблись, мы узнаем только после принятия решения и выполнения какого-либо действия, следующего из нашего решения. Если мы отвергаем нулевую гипотезу – это не означает, что мы приняли правильное решение, просто мы отвергаем эту гипотезу на основании предшествующего негативного опыта. Например, из предыдущего опыта известно, что когда кто-то принимал нулевую гипотезу на основании конкретного критерия, то ошибался в 95 из 100 случаев, то есть в 5 случаях нулевая гипотеза была верна. Поэтому у нас есть основание отвергнуть эту гипотезу. Здесь мы определили степень или уровень риска, из-за чего мы принимаем отрицательное решение - в 95 % (L=95%). Но при принятии такого решения мы допускаем и уровень риска принятия отрицательного решения в 5% (L=5%). Каждый специалист может сам выбирать себе уровень значимости риска. Однако нужно согласиться, что, выбирая себе, маленький уровень риска при принятии отрицательного решения, мы редко будем принимать положительные решения, мы будем более осторожными, но когда будем принимать положительные решения (то есть когда статистические данные о предыдущем опыте будут показывать более высокий уровень значимости риска), то будем редко ошибаться. Такой стиль поведения приведет нас к тому, что мы будем пропускать много интересных для нас предложений. И напротив, когда мы выберем более высокий уровень значимости риска, мы будем более часто, принимать положительные решения, будем больше ошибаться, но меньше пропустим выгодных для нас предложений. В горнопромышленной практике эти стили поведений часто наблюдаются. Так, например многие крупные корпорации, нередко являющиеся мировыми лидерами производства какого-либо металла, при выборе объектов для инвестиционной деятельности выбирают, только крупные объекты, при эксплуатации которых специалисты корпорации почти на 100% (очень высокий уровень риска при принятии отрицательного решения) уверены, что получат прибыль. В этом случае много средних и мелких месторождений отвергается. Другие корпорации наоборот вовлекают в промышленный оборот много средних и мелких объектов, причем часто их надежды на получение прибыли не оправдываются, но часто и они, в конце концов, тоже претендуют на первые места в производстве металлов. В геологоразведочной практике первый стиль поведения заключается, что компания редко реализует буровые программы, редко ошибается, но не проверяет большое количество аномалий, в противоположном случае геологоразведочная компания много разбуривает аномалий, много ее прогнозов не подтверждается, но и не пропускается не один потенциально интересный объект.
Критерий Пирсона (χ2 критерий), распределение Пирсона.
Общеизвестная задача статистического анализа заключается в сравнении выборочного распределения с некоторым заранее заданным стандартным распределением и определение, к какому типу принадлежит наше экспериментальное распределение. Одно из таких решений было предложено Пирсоном. Он предложил рассмотреть некоторое теоретическое распределение тесно связанное с нормальным распределением. Если выборка объема n взята из известной совокупности, имеющей нормальное распределение, то ее среднее значение равно μ, а стандартное отклонение равно σ. Каждое наблюдение в выборке можно преобразовать по формуле –
Z=(xi – μ)/ σ.
После стандартизации все величины Zi будут иметь нормальное распределение с математическим ожиданием равным 0 и стандартным отклонением равным 1. Если все значения Zi возвести в квадрат и сложить, то мы получим новую статистику –
∑Zi2 = ∑[(xi – μ)/ σ]2.
Эта новая статистика - ∑Zi2 строится по выборочным данным и соответственно изменяется от выборки к выборке. Если взять всевозможные выборки объема n из нормальной совокупности рассчитать статистику ∑Zi2 и нанести соответствующие значения на график, то эти значения будут подчиняться некоторому распределению. Характер кривых этого распределения тесно связан с объемом выборки - n или точнее с числом степеней свободы и определяется только им.
Это распределение имеет очень большое значение на практике, так как оно используется для проверки гипотезы о нормальном распределении данных, измеренных в разных шкалах измерения.
Указанный статистический критерий χ2 вычисляется из сравнения распределения ∑Zi2 с нормальным распределением по формуле -
χ2 = ∑[(O –U)2/U]
где O – наблюдаемые частоты исследуемого распределения по интервалам, U – ожидаемые частоты теоретического нормального распределения по тем же интервалам.
Значения χ2 рассчитаны для различных степеней свободы и опубликованы. Практически статистический критерий вычисляется следующим образом. Область наблюдаемых значений разбивается на некоторое количество интервалов, таким образом, что бы им соответствовали равные площади под кривой распределения. Затем если наши данные стандартизированы, то подсчитывается число проб, попадающих в намеченные интервалы, находится по формуле разность между ними и теоретическими частотами, значения суммируются. Теоретические частоты берутся из таблицы нормального распределения, в тех же границах интервалов, на которые мы разбивали наше выборочное распределение. Если сумма превышает критическое значение, то нулевая гипотеза отклоняется и делается вывод, что наше распределение не согласуется с нормальным распределением. В процедуре сравнения число степеней свободы определяется как количество интервалов, на которые разбивалось изучаемое распределение минус 3. В данном случае мы теряем две степени свободы, потому что не знаем истинных параметров исследуемой совокупности μ и σ и третью степень свободы теряем потому что сумма частот по интервалам изучаемого распределения не равна 1.
Одной из самых распространенных задач в геологии является изучение равномерности распределения точек наблюдения на некоторой территории. Достоверность геологических карт находится в прямой зависимости от плотности и равномерности расположения точек наблюдения. Сеть точек наблюдения может быть регулярной, если точки наблюдения располагаются по какой-либо сети, и не регулярной. Для большинства случаев пункты отбора проб располагаются так, что трудно сказать к какому типу сети они относятся. Для решения этой задачи хорошо подходит критерий χ2 . Всю карту можно разделить на определенное количество подобластей, так чтобы каждая подобласть содержала некоторое количество точек наблюдения. Если точки наблюдения на карте расположены равномерно, то следует ожидать, что каждая подобласть будет содержать равное количество этих точек. Использование критерия Пирсона будет наиболее эффективно, если число подобластей сделать большим (это приведет к увеличению числа степеней свободы), при условии, что все подобласти содержат не менее 5 точек наблюдения. В данном случае количество точек наблюдения ожидаемое для каждого квадрата равно –
E = (общее число точек наблюдения)/число квадратов.
Тогда критерий будет рассчитывать по той же формуле –
χ2 = ∑[(O –U)2/U]
только O – наблюдаемое число точек в квадрате, Е – ожидаемое число точек (среднее). Сравниваемое число критерия находится для числа степеней свободы n -2 (n –количество квадратов).
Критерий Колмогорова-Смирнова.
Критерий Колмогорова-Смирнова используется для проверки выборочного распределения, является ли оно нормальным распределением и может служить альтернативой χ2 критерию. Этот критерий так же используется для проверки гипотезы о нормальном распределении данных, измеренных в разных шкалах измерения. Самое большое преимущество критерия Колмогорова-Смирнова, что данные не нужно группировать в произвольные группы, как в случае с χ2 критерием. Выборочная и нормальная модель распределения наносится на один график в кумулятивной форме или сравнивается в одной частотной таблице как в данном примере.
Содержание Cu % |
Частоты выборочного распределения |
Частоты нормального распределения |
Накопленные частоты выборочного распределения |
Накопленные частоты нормального распределения |
Разница частот |
56-58 |
5 |
6 |
5 |
6 |
1 |
58-60 |
29 |
24 |
34 |
30 |
4 |
60-62 |
63 |
64 |
97 |
94 |
3 |
62-64 |
116 |
112 |
213 |
206 |
7 |
64-66 |
117 |
128 |
330 |
334 |
4 |
66-68 |
102 |
97 |
432 |
431 |
1 |
68-70 |
48 |
48 |
480 |
479 |
1 |
70-72 |
14 |
16 |
494 |
495 |
1 |
72-74 |
6 |
4 |
500 |
499 |
1 |
Обычно критерий Колмогорова-Смирнова используется в тех случаях, когда сравниваются распределения с известными истинными параметрами. Расчет этого критерия был усовершенствован Лиллиефорсом, что позволило применять метод, используя оценки среднего и дисперсии в выборочном распределении и рассчитывать критерий примерно по той же схеме, как мы рассчитывали критерий Пирсона (χ2 критерий). Предварительно все выборочные данные, полученные в результате нашего эксперимента (или опробования), стандартизируются, и записываются в частотную таблицу в обычном и накопленном виде. Для тех же границ интервалов, что и в нашем экспериментальном распределении, в таблице нормального распределения находятся частоты и так же записываются в обычном и накопленном виде. Затем находится наибольшая разница D и критерий Колмогорова-Смирнова рассчитывается по следующей формуле –
λ = D/√n.
где D – максимальное значение разности между накопленными эмпирическими и теоретическими частотами, n – количество данных в выборке или общее количество всех частот в выборочном (эмпирическом) распределении.
Величина критерия в данном случае будет равна λ = 0.129. Обычно полученную таким образом величину сравнивают с опубликованными рассчитанными величинами критерия для разных степеней свободы и уровня риска. Если рассчитанная исследователем величина не превышает значение в таблице, то нет оснований отвергать нулевую гипотезу. Однако у этого метода есть ограничение – наибольшую разницу между частотами нужно искать в середине кумулятивного графика или частотной таблицы, определение наибольшего расхождения в начале и конце графика может привести к ошибочному выводу.
Рис. Сравнение выборочного распределения
и нормального теоретического распределения
для расчета критерия Колмогорова-Смирнова.
Центральная предельная теорема.
Обычно мы не знаем, какой вид имеет распределение совокупности, часто по характеру кривой распределения выборки мы предполагаем, что распределение совокупности может значительно отличаться от нормального распределения. Как же тогда производить оценки параметров в случае, если мы имеем данные, отнесенные по классификации Пирсона к данным третьего типа. Эти данные после любых математических преобразованиях все равно не будут иметь нормальное распределение. Для решения этой задачи необходимо познакомиться с центральной предельной теоремой. Наиболее полно эта теорема раскрыта в работах П.Л.Чебышева и А.М.Ляпунова. А.М.Ляпунов доказал, что если выборки извлечены случайно из любой совокупности, то средние, вычисленные для этих данных, а именно выборочные средние являются случайными величинами, распределение, которых стремится к нормальному распределению при увеличении объема выборки при условии, что совокупность обладает конечной средней и ограниченной дисперсией. Можно сказать, что это главный тезис этой теоремы. В справедливости этого утверждения мы убедились в главе “Стандартизация переменных и таблицы плотности вероятности нормального распределения”, когда рассматривали пример анализа данных опробования эксплуатационного блока полиметаллического месторождения. Хотя распределение первичных данных опробования носило явно асимметричный характер, распределение средних значений этих выборок из наших данных – выборочных средних явно нормальное. Моделирование, которое проводилось для подтверждения этой теоремы, показало, что выборочные средние, даже если исходные данные имели любое из всех возможных распределений, при увеличении объема выборки будут стремиться иметь нормальное распределение. Предположим, что мы делаем выборку из U-образного распределения. Большая часть наблюдений может быть получена из двух краев распределения, в этом случае при расчете среднеарифметического значения, большие значения погашаются низкими значениями и среднеарифметическое значение находится близко к центру распределения. Если этот эксперимент повторить тысячу раз, то окажется, что выборочные средние будут располагаться всегда ближе к центру U-образного распределения и их распределение будет нормальным. Так как распределение выборочных средних значений стремится к нормальному распределению, то его можно описать двумя статистиками – средним и дисперсией. Из центральной предельной теоремы следуют четыре важных для нас определяющих вывода.
1. Как теоретические, так и эмпирические исследования показали, что среднее значение выборочных средних при увеличении количества данных в выборке будет стремиться к истинному среднему, то есть χχ = μ.
Здесь необходимо более подробно объяснить такое понятие как ошибка выборочного наблюдения или предельная ошибка, в геологической практике это понятие получило название погрешности наблюдения. Ошибкой выборочного наблюдения называется разность между оценкой параметра и истинным его значением.
Δχ = |χ - μ|.
П.Л.Чебышев первый вывод теоремы формулирует таким образом, что при достаточно большом числе независимых наблюдений можно с вероятностью близкой к 1 утверждать, что отклонение средней выборочных средних от истинного среднего будет сколь угодно малой.
2. Дисперсия выборочных средних при увеличении количества данных в выборке стремится к дисперсии совокупности, деленной на объем выборки. Стандартное отклонение выборочных средних значений как корень квадратный из дисперсии выборочных средних в мировой практике принято называть стандартной ошибкой среднего или просто стандартной ошибкой. Она описывает изменчивость, которую можно ожидать при повторных случайных отборах из той же совокупности. В статистической литературе она имеет разные названия, такие как средняя ошибка выборки [], относительная ошибка, величина погрешности. П.Л.Чебышев доказал, что величина ошибки выборочного наблюдения или погрешности не должна превышать стандартную ошибку среднего, определяемую по формуле -
SE = σ/√n,
где SE – стандартная ошибка, а σ – истинное стандартное отклонение (стандартное отклонение генеральной совокупности).
Величина стандартной ошибки прямо пропорционально зависит от истинной дисперсии и обратно пропорционально зависит от количества данных в выборке, то есть, увеличивая количество данных наблюдения в выборке, мы можем уменьшить погрешность определения такого параметра как среднее.
3. Зная среднюю величину выборочных средних и стандартную ошибку можно определить границы, внутри которых с большой вероятностью, может быть истинное среднее значение генеральной совокупности. Расстояние между этими границами называется интервалом доверия, или доверительным интервалом. Доверительный интервал определяется по следующей формуле -
1/2 SE - χχ +1/2SE или
1/2 σ/√n - χχ + 1/2 σ/√n.
Однако по этой формуле мы не когда не сможем определить величину не погрешность определения среднего не доверительные границы, так как мы не когда не знаем при проведении геологоразведочных работ истинного стандартного отклонения изучаемой совокупности а пользуемся только оценкой стандартного отклонения, определяемого по выборочным данныма пользуемся только оценкой ности.работ него не доверительные границы, так как мы не когда не знаем истинного стандартногоостид.