Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Статистика и анализ геологических данных

..pdf
Скачиваний:
20
Добавлен:
15.11.2022
Размер:
21.12 Mб
Скачать

и их стандартное отклонение, равное 4,7 мм. Какова вероятность появления при случайном выборе образца, меньшего 3 мм? Для получения ответа на этот вопрос приведем 3 мм к единицам стандартного отклонения и затем обратимся к табл. 3.8:

Z

3.0 -

14.2

- 2 ,4 .

4.7

 

 

Вероятность получения представителя совокупности рода- Composita, длина которого меньше —2,4 стандартных отклоне­ ний, есть кумулятивная вероятность в этой точке: из нашей таб­ лицы мы находим значение 0,0082, которое в действительности очень мало. Теперь вычислим вероятность появления предста­ вителя, длина которого превышает 20 мм.

Снова требуемую величину преобразуем в стандартную нор­ мальную форму:

7 _ 20.0 -14 .2

_

л 0

L

~

1,Z.

Так как суммарная площадь под кривой нормального распреде­ ления равна 1,00, то вероятность получения величины х, равной или большей 1,2 стандартных отклонений, т. е. больше, чем сред­ нее, равна разности 1,00 и кумулятивной вероятности получения значений, не превосходящих 1,2. Иначе говоря,

Рг (х > 1,2) = 1,0 -

Рг (х < 1,2).

Табл. 3.8 дает нам кумулятивные

вероятности вплоть до 1,2,

и вычитаемая вероятность равна 0,8849. Поэтому вероятность извлечения Composita длиннее 20 мм равна 1,0000 — 0,8849= =0,1151, или немногим больше чем одна десятая. Теперь вы­ числим вероятность случайного выбора Composita, длина кото­ рой попадает в интервал от 15 до 20 мм:

для 15 мм

Z

15.0 -14 .2

0,2,

4.7

 

 

для 20 мм

20.0 -14,2

Р г (х < 1,2) = 0,8849,

Р г ( х < 0,2) = 0,5793,

Р г ( 0 ,2 < х < 1,2) = 0,3056,

т. е. примерно одна треть образцов попадает в заданный ин­ тервал.

Свойства стандартного нормального распределения позво­ ляют нам проверять гипотезы о происхождении изучаемых вы­ борок. Проверка статистических гипотез составляет большой раздел прикладной математической статистики, в котором уже разработаны более или менее формализованные процедуры. Приведем пример, иллюстрирующий необходимость такой про­ верки. Предположим, что в лабораторию палеонтолога, исследо­ вавшего все уже упомянутые образцы Composita, поступила большая плита породы, покрытая брахиоподами. Эти ископае­ мые остатки по виду напоминают Composita, но очень велики,

так что средняя длина для десяти

особей примерно равна

30,0 мм. Можно ли считать, что эти

экземпляры принадлежат

к уже исследованному палеонтологом виду?

Для того чтобы ответить на этот' вопрос, можно воспользо­ ваться статистическим критерием, основанным на известных ха­ рактеристиках нормального распределения. Первый шаг в ста­ тистической проверке гипотез — формулировка подходящей ги­ потезы об исследуемой переменной. Обычно такая гипотеза называется нулевой, обозначается Но и в сущности является гипотезой об отсутствии различия. Мы, например, можем пред­ положить, что данная выборка взята из совокупности, имеющей

заданное среднее значение. Нулевая гипотеза

выражается

в форме

 

Н0 : р-1 = ь*-0,

(3.19)

которая означает, что среднее значение pi изучаемой совокупно­ сти, из которой была взята выборка, равно заданному среднему значению ро.

В нашем примере мы должны будем предположить, что сред­ нее значение совокупности, из которой были взяты брахиоподы, находящиеся на плите, совпадает со средним значением сово­ купности рода Composita.

Сформулировав нулевую гипотезу, мы должны указать и аль­ тернативу к ней. Подходящая альтернатива в этой ситуации мо­

жет быть следующей:

 

H i: Pi ф Ро>

(3.20)

т. е. что среднее значение совокупности, из которой была взята выборка, не равно заданному значению ро. Теперь мы рассмот­ рим процедуры проверки гипотез при заданном уровне значи­ мости. Если две изучаемые совокупности окажутся различными, мы должны сделать вывод, что ископаемые остатки были взяты не из совокупности рода Composita, а из совокупности некото­ рого другого рода.

Как только гипотеза сформулирована, мы можем на осно­ вании нашего статистического критерия принять ее или отверг-

нуть. Гипотеза также может быть истинной или ложной. Это приводит к тому, что возникает четыре комбинации возможных исходов, две из которых приводят к правильному, а две — к не­ правильному выводу. Это можно проиллюстрировать следующим образом:

 

 

Гипотеза верна

Гипотеза неверна

Гипотеза

принимается

Правильное решение

Ошибка второго рода Р

Гипотеза

отвергается

Ошибка первого рода а

Правильное решение

Только принятие правильной или отклонение неправильной гипотезы можно считать верным решением. Если нулевая гипо­ теза отвергается, в то время как на самом деле она верна, то возникает ошибка, называемая ошибкой первого рода. Наобо­ рот, если ошибочная гипотеза принимается, то совершается ошибка второго рода. Возвращаясь к нашему примеру, проил­ люстрируем введенные понятия. Здесь «р плиты» относится, ко­ нечно, к среднему значению совокупности, к которой принадле­ жат особи, собранные с плиты.

 

В действительности

Гипотеза

Особи с плиты принадлежат

Особи с плиты не принадле­

 

совокупности

жат совокупности

р, плиты = р, Composita

Правильное решение

Ошибка типа р

 

 

р, плиты ф \1 Composita

Ошибка типа а

Правильное решение

 

В распространенных статистических процедурах вероятность появления ошибки первого рода обозначается через а и назы­ вается уровнем значимости; эту вероятность можно задать до применения критерия. Для того чтобы минимизировать вероят­ ность появления ошибки второго рода, мы запишем нулевую ги­ потезу при условии, что она будет отклонена. Если гипотеза от­ клоняется, то вероятность появления ошибки второго рода равна нулю, тогда как вероятность появления ошибки первого рода из­ вестна, так как она задается заранее. Если, однако, критерий не приводит к отклонению нулевой гипотезы (т. е. нулевая гипо­ теза принимается), то появляется некоторая вероятность сделать ошибку второго рода. Эта вероятность р, вообще говоря, неиз­ вестна. Таким образом, если гипотеза о равенстве средних отвер­ гается, мы делаем вывод о том, что две изучаемые совокупности имеют различные средние значения, и вероятность того, что при­ нято ошибочное решение, равна а. С другой стороны, если Н0 не

отвергается, утверждение о том, что средние двух совокупностей совпадают, может оказаться ложным с неизвестной вероят­ ностью р.

Все статистические критерии основаны на предположении, что нулевая гипотеза и альтернатива к ней взаимно исключают друг друга и вместе образуют полное множество событий. Так как нулевая гипотеза записывается в явном виде, то альтерна­ тива должна быть довольно общей. Если Но отвергается, то мы считаем, что заданное соотношение, описываемое нулевой гипо­ тезой, не выполняется. Более того, истинное соотношение в этом случае содержится в обширном множестве альтернатив, заклю­ ченных в общей альтернативе. Мы не можем определить, какое из соотношений истинно; мы можем только установить, какое из соотношений не выполняется. Иногда в математической стати­ стике применение статистических критериев позволяет говорить об «опровержении нулевой гипотезы» против альтернативы о неуспехе опровержения. Неуспех опровержения, которому со­ ответствует неизвестная вероятность принятия ошибочного реше­ ния, не является эквивалентом принятия гипотезы. Статистиче­ ские критерии в некотором смысле не могут сказать нам, что именно имеет место, а только могут сказать, чего нет.

Возвращаясь к нулевой гипотезе и альтернативе, определен­ ной формулами (3.19) и (3.20), предположим, что мы сочли уро­ вень значимости (т. е. вероятность ошибки первого рода) а= 0 ,0 5 подходящим для наших целей. Иными словами, мы допускаем возможность приблизительно 5 раз на 100 испытаний ошибочно отвергнуть проверяемую гипотезу в случае, когда она верна.

Предположим, что дисперсия совокупности, по отношению к которой ведется проверка, нам известна. Палеонтолог опреде­ лил, что дисперсия значений длины для совокупности особей рода Composita равна 22,1 (напомним, что стандартное откло­ нение было 4,7). Теперь мы можем формально записать стати­ стический критерий следующим образом:

1. Пусть проверяемая гипотеза и альтернатива имеют сле­ дующий вид: H0 : HI = HO ,

H i: 14 ф р.0.

2.Принимаем уровень значимости

а= 0,05.

3.Вычисляем статистический критерий:

Если выборка взята

наудачу из нормальной совокупности

с известной дисперсией,

то статистический критерий Z будет

распределен нормально со средним значением, равным нулю, и дисперсией, равной единице. Мы приняли соглашение о том, что приблизительно один раз на 20 испытаний мы допускаем оши­ бочное отклонение гипотезы о равенстве средних, в то время как она верна. Иными словами, мы принимаем пятипроцентный уро­ вень риска или вероятность ошибки первого рода равную 0,05. Определим для стандартизованного нормального распределения область, заключающую 5% площади под кривой нормального распределения. Эта область называемая критической. Если вы­ численное значение статистического критерия попадает в эту об­ ласть, мы вынуждены отклонить нулевую гипотезу.

Так как альтернатива — просто одно из неравенств, то гипо­ теза будет отклонена, если значение критерия слишком велико или слишком мало. Это значит, что существует три возможных ситуации: р1= р 0, |ii>|io или pi<|io. В данном случае нас не ин­ тересует различие между двумя последними неравенствами. По­ этому критическая область охватывает крайние значения оси абсцисс, причем каждая подобласть занимает 2,5% площади, ограниченной кривой нормального распределения.

Сказанное можно резюмировать следующим образом: мы знаем характеристики нормальной кривой, которые получены из теоретических соображений и поэтому их эмпирическое использо­ вание вполне оправданно. Если мы з>раем дисперсию нормально распределенной совокупности, тоЧмы знаем также процентное содержание индивидуумов, размеры которых заключены в раз­ личных пределах (например,' мы знаем, что две трети индиви­ дуумов приходится на интервал с центром в среднем значении, имеющий длину, равную двум стандартным отклонениям). Если индивидуумы извлечены из этой совокупности случайным образом, вероятность получения выборки в заданном интервале кривой распределения равна площади, заключенной под соответ­ ствующей частью этой кривой. Если выборка извлечена из об­ ласти, соответствующей очень малой вероятности, то мы заклю­ чаем, что наша выборка не является выборкой из совокупности, указываемой гипотезой, и мы отвергаем нулевую гипотезу. Од­ нако имеется некоторая вполне определенная вероятность из­ влечь выборку из критической области совокупности, равная площади этой критической области.

Возвращаясь к примеру Composita, напишем:

1.

Но:н- плиты = 14,2

мм

 

H i : (х плиты Ф 14,2

мм

2.

а-уровень = 0,05

 

3.

Z = 3 0 ,0 - 1 4 ,2

8,2

4.7/У'б

числа наблюдений над числом оцениваемых параметров рас­ пределения. Число степеней свободы можно определить и как

Т а б л и ц а 3.9

Критические значения t-критерия при v степенях свободы и заданном уровне значимости [10]

Число степеней свободы

Уровень значимости ос,%

 

1 0

5

2 ,5

1

1

3 0 7 8

6 3 1 4

12 706

31821

2

1888

2 9 2 0

4 3 0 3

6 9 6 5

3

1638

23 5 3

3182

4541

4

1533

21 3 2

2 7 7 6

3747

5

1476

2 0 1 5

2571

3 3 6 5

6

1440

1943

2447

3143

7

1415

1895

236 5

2 9 9 8

8

1397

1860

2 3 0 6

289 6

9

1383

1833

22 6 2

2821

10

1372

1812

222 8

2 7 6 4

11

1 363

1 796

2201

2 7 1 8

12

1356

1 782

217 9

2681

13

1350

1 771

2 1 6 0

2 650

14

1345

1 761

2 1 4 5

* 6 2 4

15

1 341

1 753

2131

280 2

16

1337

1 7 4 6

2 1 2 0

2 5 8 3

17

1333

17 4 0

211 0

258 7

18

133 0

1 7 3 4

2101

2*552

19

1328

172 9

209 3

2 5 3 9

20

1325

1 725

2 0 8 6

252 8

21

1323

1 721

208 0

251 8

22

1321

1717

2 0 7 4

2508

23

1 319

1 714

20 6 9

250 0

24

1318

1711

2 0 6 4

2492

25

1316

1708

2 0 6 0

2 4 8 5

26

1315

1 706

2 0 5 6

2 4 7 9

27

1 314

1703

20 5 2

2 4 7 3

28

1313

1701

2 0 4 8

2467

29

1311

1699

2045

*4 6 2

30

1310

1697

204 2

2457

40

1303

1684

2021

2423

во ^ 1296

1671

2 0 0 0

* 3 9 0

120

1 289

1658

1980

2 3 5 8

00

1282

1645

1980

2 326

0 ,5

63657

9*925

5841

4 6 0 4

4 0 3 2

3707

3 499

3 3 5 5

3*250

3 1 6 9

3 1 0 6

3 0 5 5

301 2

2*977 *9 4 7

2921

2898

*8 7 8

*8 8 1

2 8 4 5

*8 3 1

*8 1 9

*8 0 7

*7 9 7

*7 8 7

*7 7 9

*7 7 1

*7 6 3

2 7 5 6

*7 5 0

*7 0 4

*6 8 0

*8 1 7

2 5 7 8

0 ,1

316310

2 *3 2 7

10*215

7 1 7 3

5 8 9 3

5 2 0 8

4 7 8 5

4501

4 2 9 7

4 1 4 4

4 0 2 5

3*930

3*852

3*787

3 7 3 3

3*886

3*646

*6 1 0

*5 7 9

*5 5 2

*5 2 7

*5 0 5

3 4 8 5

*4 6 7

3 4 5 0

3 4 3 5

*4 2 1

3 4 0 8

*3 9 6

*3 8 5

*3 0 7

*2 3 2

*1 6 0

*0 9 0

число независимых связей в оце- !

 

Т а б л и ц а ЗЛО

ниваемой

выборке.

В большин­

Результаты измерения пористости

стве

элементарных

задач

это

десяти образцов песчаников

число

на

единицу

меньше

числа

Тенслип пенсильванского возраста,

наблюдений. Рассмотрим три на­

впадина Бигхорн, Вайоминг

блюдения

А,

 

В,

С.

Сравнения,

Номер образца

Пористость (%)

которые можно провести в этом

 

 

 

случае,

сводятся

к

следующему:

 

 

13

А с В,

А с С и С с В .

Однако

01

 

если связи А с В и А с С опреде­

02

 

17

лены,

то

автоматически

опреде­

03

 

15

ляется

и связь

С с В. Таким об­

04

 

23

разом,

 

для

определения

числа

 

 

05

 

27

степеней

свободы

системы

трех

 

наблюдений необходимо провести

06

 

29

только два сравнения.

 

 

07

 

18

Число

степеней свободы

всег­

08

 

27

да является

целым

положитель­

09

 

20

ным числом и обычно обозна­

 

ч10

 

24

чается греческой буквой v. Таб­

 

лицы t-распределения (и

других

 

 

 

выборочных

распределений) ис­

 

Сумма

213

пользуются точно таким же обра­

 

Среднее 21,3

зом, как

и таблицы

кумулятив­

 

 

S2 =

30.46

ного

стандартного

нормального

 

распределения;

отличие

состоит

 

s =

5.52

лишь в том, что для нахождения

 

 

 

требуемой

вероятности

в

таб­

 

 

 

лице t-распределения надо знать два числа: а — заданный уро­ вень значимости (вероятность ошибки первого рода) и число степеней свободы v. Табл. 3.9 является сокращенным вариантом таблицы значений t-распределения; более подробные таблицы можно найти во многих руководствах по математической ста­ тистике.

Так называемые t-критерии, которые основаны на распреде­ лении Стьюдента, полезны для проверки гипотезы о том, что данная выборка извлечена из совокупности с заданными харак­ теристиками или же для проверки гипотезы 66 однородности двух выборок. Проблемы такого типа рассматриваются во ввод­ ных курсах в математическую статистику и являются основными в экспериментальных науках и в области контроля качества про­ дукции.

Пусть, например, нам нужно проверить гипотезу, заключаю­ щуюся в том, что ряд образцов песчаника Тенслип, результаты анализов которых приведены в табл. 3.10, взят из одной сово­ купности, имеющей среднюю пористость более 18%. Допустив,