Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Статистический анализ данных в геологии. Кн. 1

.pdf
Скачиваний:
6
Добавлен:
12.11.2023
Размер:
14.63 Mб
Скачать

однако вероятность отрицательного исхода будет значительно выше. Полагаясь на это правило принятия решения, компания будет часто бурить, часто ошибаться, но и намного меньше неф ти останется неоткрытой.

В нефтяной промышленности рассматриваются последствия получения отрицательного результата при бурении, если нефть существует (ошибка второго рода), значительно чаще, чем по­ следствия получения положительного результата при бурении пустых скважин (ошибка первого рода). Причина этого состо­ ит в том, что финансовый успех одного большого открытия ча­ сто может покрыть стоимость десятков или даже сотен пустых скважин. Оценка вероятности успеха в нефтяной промышлен­ ности США при бурении методом «дикой кошки» равна при­ мерно 10%. Если бы эти скважины были пробурены на основе применения статистических критериев, то эта оценка соответст­ вовала бы уровню значимости примерно « = 0,90.

Это, вероятно, крайний случай, но он показывает, что уро­ вень значимости следует выбирать в соответствии с конкретны­ ми обстоятельствами, при которых используется критерий. Зна­ чения уровня а основываются на оценке последствий, которые возникнут, если сделать ошибку первого рода. Эти последствия могут быть осязаемыми и привести к потере денег, времени и даже жизней, или они могут быть неосязаемыми и приводить к ущербу профессиональной репутации или личной гордости. Для того чтобы сохранить интеллектуальную честность, иссле­ дователь должен принимать решения на границе области рис­ ка и соответствующим образом выбирать уровень значимости. Выбор уровня значимости после проведения проверки критерия, когда результаты уже известны, — это бесстыдное искажение фактов. Полученные таким образом значения уровней могут отражать лишь желание исследователя принять или отклонить гипотезу, а не дать беспристрастную оценку имеющегося риска.

7-КРИТЕРИЙ

Для того чтобы применить описанный выше критерий, нуж­ но выполнить ряд условий, которые редко осуществимы на практике. Мы обычно не знаем истинных значений параметров изучаемого распределения, так как не можем изучить всей со­ вокупности рода Composila, и ясно, что это нельзя сделать.

Так как р п а неизвестны, то лучшее, что можно сделать,— это оценить их по выборке. Однако такие оценки допускают некоторую степень неопределенности, поэтому решения, прини­ маемые на их основе, нельзя считать точными.

Неопределенность, возникающую как следствие применения оценок, построенных по выборке, можно учесть, если использо­ вать распределение с более широкой областью значений, чем у

72

нормального распределения. Одно из распределений такого типа называется /-распределением Стьюдеита. Оно похоже на нормальное, но зависит от объема взятой выборки. Типичная кривая этого распределения изображена на рис. 2.28. Форма кривой меняется в зависимости от числа наблюдений. Когда число наблюдений в выборке бесконечно, то /-распределение совпадает с нормальным.

Степени свободы

Для того чтобы подсчитать значения статистического крите­ рия, нужно по выборочным данным оценить параметры изучае­ мой совокупности. Интуитивно кажется невозможным решить сразу две задачи: оценить параметры совокупности и приме­ нить критерий, используя одну и ту же выборку без какой-либо компенсации, связанной с двукратным обращением к имеюще­ муся набору наблюдений. В связи с этим вводится величина, называемая числом степеней свободы, которую можно опреде­ лить как разность между числом наблюдений в выборке и чис­ лом параметров, которые требуется оценить по выборочным данным. Иными словами, число степеней свободы — превыше­ ние числа наблюдений над числом оцениваемых параметров распределения. Числа степеней свободы обозначаются грече­ ской буквой v, это всегда целые положительные числа.

В качестве примера рассмотрим рис. 2.29, на котором пред­ ставлено вычисление среднего и дисперсии выборки. Среднее

Рис. 2.29. Представление в виде диа­ граммы метода вычисления среднего и дисперсии по пяти наблюдениям.

Среднее X вычисляется по всем наблюде­ ниям; дисперсия — по разности между на­ блюдениями и средним. Когда четыре раз­ ности найдены, пятая разность известна

73

оценивается но пяти независимым наблюдениям и поэтому име ется пять степеней свободы. Дисперсия оценивается по mm квадратам разностей (X—X,)2. Однако заметим, что если мь определили четыре из этих разностей, то автоматически можне вычислить пятую, так как

X Х$ = БХ — (У\ + Х2 + Хз + ^ 4).

Поэтому имеется только четыре независимых источника инфор­ мации, по которым вычисляется дисперсия.

Ксожалению, понятие степеней свободы редко объясняется

вначальных курсах статистики, скорее оно представляется как очевидное произвольное число, например я—1. Отличное общее изложение этого вопроса как в физическом, так и в статистиче­

ском контексте содержится в книге Уолкера [32]. Мы вкрат­ це будем дальше рассматривать причины различия чисел сте­ пеней свободы, ассоциированных с различными статистическими критериями по мере их появления в тексте.

Таблицы /-распределения (и других выборочных распреде­ лений) используются точно таким же образом, как и таблицы, кумулятивного стандартного нормального распределения; отли­ чие состоит лишь в том, что для нахождения требуемой веро­ ятности в таблице /-распределения надо знать два числа: а — заданный уровень значимости (вероятность ошибки первого рода; н число степеней свободы v. Табл. 2.11 является сокра­ щенным вариантом таблицы значений /-распределения; более подробные таблицы можно найти во многих руководствах ;.о математической статистике.

Так называемые /-критерии, которые основаны на распреде­ лении Стьюдента, полезны для проверки гипотезы о том, что данная выборка взята из совокупности с заданными характе­ ристиками или же для проверки гипотезы об однородности двух выборок. Проблемы такого типа рассматриваются во вводных курсах в математическую статистику и являются основными в экспериментальных науках и в области контроля качества про­ дукции.

Пусть, например, нужно проверить гипотезу, заключающую­ ся в том, что ряд образцов песчаника Тенслип, результаты ана­ лизов которых приведены в табл. 2.12, взят из совокупности, имеющей среднюю пористость более 18%. Допустив, что образ­

цы были взяты наудачу из

нормальной совокупности, вычис­

лим /-критерий:

 

 

 

У-Цо _

У — йо

(2.32)

st

~~

A

 

где X — среднее арифметическое,

вычисленное

по данным вы­

борки; (т0— гипотетическое

среднее, равное

18%; п — число

74

 

 

 

 

 

 

 

 

Т а б л и ц а 2.11

 

Критические

значения /-критерия при v степенях свободы

 

 

и заданном уровне значимости

[17]

 

 

 

 

 

 

Урог.спь значимости, а. %

 

 

10

 

 

5

2 , 5

I

0,5

0,1

 

3,073

6,314

12,700

31,821

63,657

318,310

 

! ,886

2.920

4.303

6,965

9,925

22,327

 

1,638

2,353

3,182

4,541

5.811

10,215

 

1,476

2,132

2,776

3,747

4,604

7,173

 

2,015

2,571

3.365

4,032

5,893

И

1,440

1.943

2,447

3,143

3,707

5,208

7

1,415

1,895

2,365

2,998

3,499

4,785

о

1,397

1,860

2,306

2,896

3,355

4,501

1,383

1,833

2,262

2,821

3,250

4,297

10

1,372

1,812

2,228

2,764

3,169

4,144

11

1,363

1,796

2,201

2,718

3,105

4,025

12

1.356

1,782

2,179

2.681

3,055

3,930

13

1,350

1,771

2,160

2,650

3,012

3,852

U

1,345

1,761

2,145

2,624

2,977

3,787

15

1,34 1

1,753

2,131

о (;|,9

2,947

3,733

16

1.337

1,746

2,120

2,583

2,921

3,686

17

1,333

1

 

740

2,110

2,567

2,898

3,646

18

1,330

1,734

2,101

2,552

2,878

3,610

Ш

1,328

1,729

2,093

2,539

2,861

3,579

2 0

1

1

 

то;.

2 086

2,528

2,845

3,552

•1 t

1,323

1,721

2,('80

2,518

2,831

3,527

22

1,32!

1,717

2,074

2,508

2.819

3,505

23

1,319

1,714

2,069

2,500

2,807

3,485

2.1

1,318

1,711

2,064

2,492

2,797

3,467

26

1.316

1,708

2,060

2,485

2,787

3,450

1,315

1,706

2,056

2,479

2,779

3,435

1,314

1,

03

2,052

2,473

2,771

3,421

28

1,313

1,701

2,048

2,467

2,763

3,408

2\)

1,311

1,699

2,045

2,462

2.756

3,396

1"

1,310

1,697

2,042

2,457

2,750

3,385

1,303

1,6?4

2,021

2,423

2,704

3,307

6 0

1,296

1,671

2,000

2,390

2,660

2,232

1 20

1, 2 8 9

1,658

1,980

2,358

2,617

3,160

''

1.282

1,645

1,960

2,326

2,576

3,090

блкосниП. ч - оценка стандартного отклонения; sc— сшиепшя ошибка определения среднего значения. Заметим, что «pinepHii совпадает с критерием (2.31), исключая то, что

I'.iio оцепить стандартную ошибку по формуле sL.= s']/lfn, а не

формуле сЛ/1 /я, так как истинная дисперсия совокупности не­ лестна.

«нормально мы проверяем гипотезу Но : pi с [х0

iiмножестве альтернатив

НI : рч > [Хо.

75

Таблица 2.12

Результаты измерения пористости десяти образцов песчаников Теислип пенсильванского возраста, впадина Бигхори, Вайоминг

Номер образца

Пористость, %

01

13

02

17

03

15

04

23

05

о?

06

29

07

18

08

27

09

20

10

21

Сумма 213 Среднее 21,3

s2 = 30,46, s=5,52, s„=0,57

Проверяемая гипотеза заключается в том, что среднее зна­ чение пористости совокупности, из которой была взята выбор­ ка, меньше или равно заданному значению 18%• Множество альтернатив заключается в том, что изучаемая совокупность имеет среднюю пористость, превосходящую 18%-

Для определения критического значения t по табл. 2.11 тре­ буется задать два числа: уровень значимости и число степеней свободы. В данном примере предполагается, что один пара­ метр (р) извесген, а другой требуется оценить (оценкой для а является величина s, т. е. выборочное стандартное отклонение). Поэтому выборке, содержащей десять измерении пористости, соответствуют девять степеней свободы.

Нулевая гипотеза отвергается только в том случае, когда средняя пористость существенно превышает 18%, и поэтому по­ падающими в критическую область можно считать только очень большие значения критерия, как это показано на рпс. 2.30. Та­ кой критерий называется односторонним, так как его критиче­ ская область расположена только с одной стороны области

Рис. 2.30. Распределение Стьюдеита с девятью степенями свободы

значений распределения. Если же нам нужно проверить эту гипотезу при уровне значимости а = 0,05, то вычисленное значе­ ние статистики t для одностороннего критерия должно превы­ шать значение 1,83. Статистический критерий имеет тот же вид, что и в предыдущем случае:

1)Н0 : щ < 18%, Н\ : pi > 18%;

2)а = 0,05;

о, t _ 2 1 ,3 — 18,0

1,89.

5 ,5 2 1/Т/То

 

Вычисленное значение 1,89 превышает табличное, соответ­ ствующее девяти степеням свободы и 5%-ному уровню значимо­ сти, т. е. попадает в критическую область. Это значит, что мы должны отклонить нулевую гипотезу и принять альтернативу, заключающуюся в том, что пористость совокупности, из кото­ рой были извлечены образцы песчаников Тенслип, больше 18%. Если бы вычисленная величина t оказалась меньше чем 1,83, то не было бы никаких оснований предполагать, что выборочное среднее больше 18%. Заметим, что мы при этом не утвержда­ ем, что среднее меньше 18%, а только говорим, что нет основа­ ний считать, что оно больше. Ранее было установлено, что эта неопределенность лежит в основе статистических критериев. Они могут показать с некоторой вероятностью, чего нет, но не позволяют установить, что же имеет место.

С другой площади в Вайоминге были получены десять до­ полнительных измерений значении пористости в песчаниках Тенслип, которые приведены в табл. 2.13. Можно ли средние двух выборок считать равными? В отличие от предыдущей за­ дачи, где мы сравнивали выборочное среднее с заданным выбо­ рочным средним значением совокупности, в данном случае про­ веряемся гипотеза, имеющая следующий вид:

Н0 : ц, = щ>-

Проверяемая гипотеза заключается в том, что среднее зна­ чение совокупности, из которой взята первая выборка, равно среднему значению совокупности, из которой взята вторая вы­ борка, Множество альтернатив для гипотезы

Н) : HI ¥= Ц2

утверждает, что средние значения двух совокупностей не рав­ ны. Снова мы должны задать уровень значимости, и пусть он будет равен 10% (а = 0,10). Теперь статистический критерий имеет следующий вид:

/ = (Xi — X)lse,

(2.33)

77

Таблица 2,13

Результаты измерения пористости десяти образцов песчаников Тенслип пенсильванского возраста, бассейн реки Уиид, Вайоминг

Номер образца

Пористость, %

11

15

12

10

13

15

14

23

15

18

16

26

17

24

18

18

19

19

20

21

Сумма

189

Среднее

18,9

s2 = 28,21,

s=4,82

где se-—оценка стандартного отклонения разности между Х» п Х.% полученная по двум объединенным выборкам. Эту опен­ ку se можно вычислить по формуле

Sе

_ 1_

 

«а

 

 

 

Здесь s, — объединенная оценка

стандартного отклонения,

най­

денная комбинацией двух выборочных дисперсий:

 

- 2 __ ^ ~

К — О -У

(2 .34)

П 1 +Л 2 - 2

 

где индексы соответствуют выборкам из бассейнов Бигхорн п Уинд Ривер. Процесс объединения двух выборок приводит к до­ полнительным степеням свободы, так как требуется оценить два параметра щ2 и а22. Число степеней свободы поэтому для /-кри­

терия

эквивалентности, заданного

формулой

(2.32), есть

v---

= «i + «2—2. Является ли различие между двумя средними

:

чимым

г,ри десятипроцентном уровне значимости?

 

 

s 2 =

9(30,46) + 9 (2 3 ,2 1 )

483,03 =

26,84;

 

 

р

1 0 + 1 0 — 2

18

 

 

 

 

 

sp — 5,18;

 

 

 

 

 

f

2 1 ,3 — 18,9________ 2,4

=

1,03.

 

 

_

5 , 1 8 1 / 1 0 + 1 /ТО

2,32

 

 

 

 

 

78

Так как табличные значения двустороннего критерия с 18 сте­ пенями свободы, соответствующие 10 %-ному уровню значимо­ сти (5% на каждом конце распределения), равны —2,10 и 2,10, то вычисленное значение не попадает в критическую об­ ласть и нулевую гипотезу нельзя отклонить. (Напомним, что критическая область охватывает 10% площади под кривой /-распределения). Отсюда следует, что нет основании предпо­ лагать, что две изучаемые выборки взяты из совокупностей, имеющих разные средние значения.

Для того чтобы применять этот критерий, необходимо выпол­ нить следующие условия. Во-первых, обе выборки должны быть получены на основании процедуры случайного выбора. Во-вто­ рых, значения случайных величин в совокупностях, из которых были извлечены выборки, должны описываться нормальным распределением. В-третьих, дисперсии этих совокупностей долж­ ны быть равны. Выполнение первого условия в большинстве геологических задач проверить трудно. Однако его невыполне­ ние в случае, если выборки имеют сильное и систематическое смещение (как в том случае, когда измерения пористости про­ водятся только в образцах, взятых из продуктивных зон или нефтяных полей), может явиться серьезным источником оши­ бок. Конечно, проверку гипотезы о нормальности ра..,::ределе- ш;н значений признака изучаемой совокупности можно прове­ сти, однако одно только отклонение от нормальности редко при­ водит к изменению результатов, в особенности если выбороч­ ная совокупность достаточно велика. Третье условие — равенст­ во дисперсий двух совокупностей — очень важно, так как почти все статистические критерии основаны на предположении о ра­ венстве дисперсий сравниваемых совокупностей. К счастью, это предположение легко проверяется. Приближенные критерии применимы, если при сравнении двух выборок окажется, что они значимо различаются. Они приводятся в большинстве вводных курсов, включая те, которые перечислены в списке литера­ туры.

Корреляционный критерий

Выше мы ввели коэффициент корреляции как стандартизо­ ванную меру линейной связи между двумя переменными, но не рассмотрели вопрос о статистической значимости этого коэффи­ циента. Коэффициент выборочной корреляции г является оцен­ кой параметра р, который отражает связь между двумя пере­ менными совокупности. Предполагая, что обе переменные нор­ мально распределены и наблюдения случайно выбраны из не­ которой совокупности, мы можем осуществить проверку значи­ мости г.

79

Проверяемая гипотеза и альтернатива таковы:

Н0 : р = О,

Н{ : р ф О ,

т.е. мы можем определить, значимо ли отличается от нуля вы­ борочный коэффициент корреляции. Нулевая гипотеза устанав­ ливает, что две переменные независимы и что любое ненулевое

значение г возникло просто из-за случайных флюктуаций при случайном выборе, /критерий значимости г задается по фор­ муле

I

<2.35)

\/\ - г 2

иимеет (п2 ) степеней свободы.

Вкачестве примера можно проверить значимость вычислен­ ных выше на основе данных табл. 2 .8. коэффициентов корреля­ ции, которые мы измерили между экземплярами гальки с га­

лечного пляжа. Первый коэффициент корреляции между ося­ ми а и Ь (/-,„ = 0,597) вычислен по десяти парам измерений. Проверяемая статистика вычисляется по формуле (2.35):

t — 0-5971/10 — 2 _ 1,CS8 ^ )((

1/Т — 0,597® — 0,802

Критическое значение t с 8 степенями свободы и 10 %-ным уров­ нем значимости равно 1,860. Напомним, что критерий двусто­ ронний и г может быть значительно больше или меньше нуля, так что наша область отклонения гипотезы распадается на верхнюю и нижнюю части. Так как проверяемая статистика по­ падает в верхнюю критическую область, мы должны заклю­ чить, что на самом деле существует корреляция между длина­ ми наибольшей и средней осей пляжной гальки.

Для двух других корреляций множества данных, приведен­ ных в табл. 2.8, Гас= 0,499 и г„с = 0,467. Соответственно

, _

0,499 У 10 — 2

_

1,411

.

 

l / l — 0,4992

_

0,866

’ ~ ’

t =

° '467 V Ю — 2

_

1,321 _

, дрд

 

1/1 — 0,4'бТ2

 

0,884

 

Критическое значение остается тем же самым, и мы видим, что ни одна из этих двух корреляций не отличается значимо от нуля. Другими словами, если переменные были полностью не­ зависимы друг от друга, то наблюдаемые коэффициенты корре­ ляции возникли случайно при случайном выборе десяти образ­ цов гальки.

«0

Д-КРИТЕРИЙ

Критерии для проверки гипотезы о равенстве дисперсий ос­ нованы на так называемом ^-распределении Фишера. Это тео­ ретическое распределение отношения F = SI2/S22 двух выборочных дисперсий для выборок, взятых из нормальных совокупностей при условии, что истинные дисперсии равны.

Вполне естественно, что выборочные дисперсии в случае, когда число наблюдений, используемое для их вычисления, мало, изменяются от испытания к испытанию в довольно широ­ ком диапазоне. Поэтому вид ^-распределения изменяется с из­ менением объема выборки. Это снова заставляет учитывать степени свободы, но в данном случае ^-распределение зависит от двух значений v, каждое из которых соответствует одной из двух оценок дисперсий ^-отношения. Так как /-’-статистика яв­ ляется отношением двух положительных чисел, то ясно, что слу­ чайная величина F не может принимать отрицательных значе­ нии. Если выборка велика, то при условии равенства истинных значений дисперсии среднее значение отношения будет близ­ ко к 1,0.

Так как ^-распределение описывает поведение отношений выборочных дисперсий, полученных по выборкам из одной и той яте совокупности, то его можно использовать для проверки ги­ потезы о равенстве дисперсий.

Можно предположить, что две выборки взяты из совокупно­ стей. характеризующихся равными дисперсиям!;. После вычис­ ления Е-отношения можно определить вероятность получения значения, большего или равного вычисленному для двух слу­ чайных выборок из одной нормальной совокупности. Если это значение будет неправдоподобным, то мы вынуждены считать, что выборки извлечены из различных совокупностей, имеющих неравные дисперсии.

Для любой пары оценок дисперсии можно вычислить два от­ ношения S|/s2 и Дг/д,, если принять, что большая оценка всегда будет располагаться в числителе, это отношение всегда будет больше 1,0 и статистические критерии принимают более про­ стой вид. В этом случае достаточно использовать только одно­ сторонние критерии, и альтернативные гипотезы на самом деле являются утверждением о том, что абсолютное различие между двумя выборочными дисперсиями больше, чем можно было бы ожидать в случае, если бы истинные значения дисперсий срав­ ниваемых совокупностей были равны. Типичный график кривой Е-распределения с заштрихованной критической областью, или областью отклонения проверяемой гипотезы, изображен на рис. 2.31.

В качестве элементарного примера применения Е-распреде- ления рассмотрим две выборки результатов измерений пористо-

6— 201

81

Соседние файлы в папке книги