Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Статистические методы анализа и обработки наблюдений

..pdf
Скачиваний:
11
Добавлен:
15.11.2022
Размер:
10.29 Mб
Скачать

5.3. ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ

111

верительной вероятностью. В зависимости от конкретных обстоятельств в качестве доверительной вероятности берут 0,95; 0,98; 0,99; реже 0,90 или 0,999.

Соответствующие доверительной вероятности квантильные границы (только такие границы и будут рассматри­ ваться в дальнейшем) называются доверительными грани­ цами, образуемый ими интервал — доверительным интер­ валом (или доверительной оценкой).

Найдем, например, доверительную оценку генерального среднего а по одному наблюдению х0=3, если известно, что генеральная совокупность имеет нормальное распре­

деление со стандартом а=0,9.

В качестве доверительной

вероятности возьмем 0,95.

 

Как показано в начале пункта, соответствующая оцен­

ка имеет вид х0—е ^ а ^ х 0+ е,

где е есть оценка абсолют­

ного отклонения. Иными словами, в качестве доверитель­ ных границ можно взять симметричные квантили а0)025 и о0,97б нормального распределения со средним х0=3 и стан­ дартом а=0,9. Используя формулу (5.1) предыдущего пунк­ та, найдем, что

,025 = 3 + 0,9 (—1,96) = 1,236, уо,975 = з + 0,9 • 1,96 = 4,764

(здесь число и0,97Ь= 1,96 найдено из таблицы II Приложе­ ния). Окончательно получим, что

1,236 < а < 4,764.

Возможно, полученный

доверительный интервал нас

не устроит. Однако любое

его сужение повлечет снижение

доверительной вероятности, что нежелательно. Поэтому единственный путь улучшения оценок — снижение соответ­ ствующей дисперсии (путем улучшения методики, уточне­ ния действующих факторов и т. д.).

5.3.

Проверка статистических гипотез. Из принципа прак­

тической достоверности, изложенного в предыдущем

пунк­

те, немедленно вытекает принцип практической невозмож­

ности:

события

с очень

малыми вероятностями

можно

в практических

приложениях

считать невозможными.

В качестве примера использования этого принципа на­

помним

сформулированное

в

п. 3.2 правило трех

сигм.

112 § 5 ОСНОВНЫЕ ЗАДАЧИ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

Вероятность того, что абсолютное отклонение нормально распределенной случайной величины превзойдет ее стан­ дарт о не более, чем в три раза, равна 0,9973. Значит, вероятность отклонения, большего За, равна 0,0027. С прак­ тической точки зрения столь малой вероятностью можно пренебречь, что и приводит к правилу трех сигм.

Принципы практической достоверности и практической невозможности представляют собой, в сущности, одно и то же утверждение, примененное к- противоположным событиям. Поэтому, вместо того чтобы говорить о практи­ ческой достоверности некоторой доверительной оценки, можно говорить о практической невозможности отклонений, превышающих эту оценку Если для нормально распределен­ ной случайной величины в качестве доверительной вероят­ ности взять 95% , то соответствующей доверительной оценкой абсолютного отклонения будет неравенство

Д£ ^ 1,96а.

Отклонения, большие чем 1,96а, нужно теперь считать прак­ тически невозможными. Разумеется, такая оценка более «рискована», чем правило трех сигм, поэтому ею можно поль­ зоваться лишь при малом числе предстоящих испытаний (чаще всего при одном испытании).

Допустим теперь, что отклонения Д£, большие, чем не­ которое доверительное число, признаны нами практически невозможными. Этот вывод был, очевидно, сделан на осно­ вании некоторого теоретического распределения, которое, по тем или иным соображениям, мы считаем распределением величины £. Производя наблюдение, мы получим реальное значение отклонения ДЕ. И может оказаться, что это реаль­ ное значение превосходит доверительную оценку. Какой вывод нужно из этого сделать?

Первое, что может прийти на ум — это влияние случая. Ведь доверительная оценка не является абсолютно досто­ верной; возможно, здесь в первом же испытании сыграла роль та ничтожно малая (но существующая!) вероятность, которой мы пренебрегли в доверительной оценке. Однако при таком допущении пришлось бы отказаться от принци­

па

практической достоверности,

который

уже в тече­

ние

многих столетий надежно

проверен

человеческой

практикой.

 

 

5.3. ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ

113

Поэтому более естественным будет второе предположе­ ние: несоответствие принятого нами теоретического распре­ деления реальному распределению величины Это несоот­ ветствие может быть коренным (не тот тип распределения) или может быть связано с неправильным определением па­ раметров распределения. Таким образом, принцип практи­ ческой невозможности удается использовать в этом примере как один из критериев проверки гипотезы о распределении величины

Принцип практической невозможности может быть ис­ пользован в самых различных задачах, где возникает необхо­ димость проверять, случайно или неслучайно появилось то или иное событие. При этом всякий раз практическая не­ возможность события полностью отвергает случайность его появления, заставляя пересмотреть исходные предпосылки вычисления вероятности.

Эти рассуждения ясно вырисовывают разницу исполь­ зования теории вероятностей для изучения предстоящих или уже осуществившихся событий. По отношению к пред­ стоящим событиям главное —это надежное предвидение, поэ­ тому здесь мы интересуемся лишь событиями с большими вероятностями. Из осуществившихся же событий нас инте­ ресуют в первую очередь события с малой вероятностью. Чем меньше расчетная вероятность уже осуществившегося события, тем больше его «неслучайность» и тем важнее эту «неслучайность» раскрыть. Событие как бы сильнее прико­ вывает к себе внимание наблюдателя, становится для него более значимым.

Использование принципа практической невозможности для доказательства неслучайного появления события с ма­ лой вероятностью называется принципом значимости. Наи­ большее значение вероятности, несовместимой со случай­ ностью события, называется уровнем значимости. Иными словами, уровень значимости есть максимум таких вероят­ ностей, при которых события можно считать практически невозможными. Но событие, противоположное практически невозможному, является практически достоверным. Поэ­ тому принятые нами уровень значимости и уровень досто­ верности должны в сумме давать единицу.

Теперь можно дать более строгое определение значимсоти событий. Событие А называется значимым, если его

114 § 5. ОСН ОВНЫЕ ЗАДАЧИ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

вероятность Р(А) меньше, чем принятый уровень значимо­ сти. Чем выше уровень значимости, тем он «жестче», ибо тем большее число событий нельзя рассматривать как случай­ ные. Уровень значимости—это как бы величина ячеек «сита», сквозь которое отсеиваются неслучайные события. Наи­ более употребительны уровни значимости 0,05; 0,02; 0,01; реже 0,10 или 0,001. Чтобы лучше «почувствовать» уровень

Рис. 20.

значимости, можно пользоваться аналогией между вероят­ ностью и частотой, считая, что уровень значимости, выра­ женный в процентах, показывает, сколько раз в ста испы­ таниях мы рискуем ошибиться, объявив изучаемое событие неслучайным. Так, наиболее употребительный в данной книге 5%-ный уровень значимости допускает ошибку в пяти случаях из ста. Поскольку каждую проверку гипотезы мож­ но считать одним испытанием, то такой уровень вполне до­ пустим при единичных проверках.

Чаще всего принцип значимости применяется для про­ верки так называемых статистических гипотез. Эти гипо­ тезы имеют самые различные формулировки, но, в конеч­ ном счете, являются гипотезами о распределении той или иной случайной величины. Проверка каждой такой гипо­ тезы осуществляется следующим образом.

Выбирается уровень значимости р, ему соответствует доверительная вероятность 1—р. По этой вероятности, используя гипотезу о распределении величины £, находят квантильные доверительные границы, как правило симмет­ ричные,т. е. \р/2и £t_p/2. Числа £р/2и £I_ p/2 называются кри­ тическими значениями гипотезы; значения х, меньшие, чем |р/2, и большие, чем £,I- p/2, образуют критическую область гипотезы (рис. 20). Для многих широко используемых на практике распределений составлены таблицы критических значений при различных уровнях значимости.

Следующим этапом находят реальное значение £0 изу­ чаемой случайной величины (обычно его вычисляют по вы­

5.3. Пр о в е р к а с т а т и с т и ч е с к и х г и п о тез

115

борке). Если найденное значение £0 попадает в критическую область, то, по нашей гипотезе оно является практически невозможным. Но так как оно все-таки появилось, то долж­ на быть отвергнута гипотеза. Если же £0 попадает между \ р/2 и £,1 —р/2 , т о гипотеза вполне допускает такое значение в качестве случайного (на данном уровне значимости); поэтому нет никаких оснований ее отвергать.

Мы видим, что первое суждение (гипотеза неверна) гораздо более категорично, чем второе (гипотеза не отвер­ гается, но и не утверждается, что она верна). И это не уди­

вительно — в

обоих случаях для проверки

гипотезы

используется

лишь одно значение £0- Но если для

опровер­

жения гипотезы достаточно одного противоречащего при­ мера, то доказать правильность гипотезы нельзя даже с помощью тысячи подтверждающих примеров — опровер­ гающим может оказаться еще не найденный нами тысяча первый. Конечно, и подтверждающие примеры не беспо­ лезны для научного познания, ибо каждый такой пример есть испытание, увеличивающее вероятность того, что гипотеза правильна*).

Принимая решение по результатам проверки, мы можем допустить ошибку. Возможные ошибки различаются по своему характеру. Ошибка первого рода состоит в том, что отвергается гипотеза, которая на самом деле верна. Вероят­ ность такой ошибки не выше уровня значимости, следова­ тельно, достаточно мала. Ошибка второго рода состоит в том, что гипотеза принимается, а на самом делеона не вер­ на. Вероятность ошибки второго рода зависит от характера проверяемой гипотезы, от способа проверки и от многих других причин, что сильно усложняет ее оценку. Ясно только, что эта вероятность тем меньше, чем «жестче» при­ нятый уровень значимости, ибо при этом увеличивается число отвергаемых гипотез.

Одну и ту же статистическую гипотезу можно исследо­ вать с помощью различных случайных величин. Каж­ дый такой способ исследования называется критерием значимости. Для проверки гипотезы стараются из всех

*) Понятие «вероятность» употреблено здесь не совсем точно — это, скорее, житейская уверенность (ибо правильность гипотезы не есть случайное событие).

116 $ 5. ОСНОВНЫЕ ЗАДАЧИ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

возможных критериев выбрать тот, у которого при заданном уровне значимости меньше вероятность ошибки второго рода. Теория такого выбора в общем виде слишком сложна и вы­ ходит за рамки настоящей книги; отдельные сведения о конт­ роле за ошибками второго рода имеются в следующем пунк­ те и п. 10.2.

5.4. Односторонние и двусторонние критерии. Наиболее часто встречаются статистические гипотезы, связанные со сравнением различных выборок.

Рассмотрим следующий пример. Изучаются два типа резцов, применяемых при обработке деталей на токарном станке. С помощью резцов получают некоторое число дета­ лей. Диаметры этих деталей образуют две выборки, соот­ ветствующие каждому типу резца; дисперсии этих выборок несколько различаются. Такое различие может, конечно, оказаться результатом случайных причин, а может быть и следствием разницы резцов. Зная, что распределения ре­ зультатов по каждому резцу являются нормальными, мы должны фактически проверить гипотезу, одинаковы ли генеральные дисперсии этих распределений Если такая ги­ потеза будет отвергнута, то одному из резцов нужно будет отдать предпочтение.

Другим примером может служить сравнительное испы­ тание на всхожесть двух сортов пшеницы. Вычисляя коли­ чество проросших семян каждого сорта на нескольких уча­ стках, мы, как и выше, получим две выборки, у которых теперь нужно сравнивать средние. Если генеральные сред­ ние обоих соответствующих распределений окажутся оди­ наковыми, то различие между сортами пшеницы будет толь­ ко случайным; если же они окажутся разными, то различны по всхожести и сами сорта.

Сравнение двух или нескольких выборок приходится проводить, сравнивая различные методики анализа, раз­ личные условия производства; с такой же задачей прихо­ дится сталкиваться при обработке «текущих измерений» (см п. 4.4). Весьма важно следить за неизменностью основ­ ных параметров при исследованиях, требующих длительного времени.

Приведенным примерам соответствует следующая об­ щая схема. Найдены два значения аг и а 2 некоторого выбо­

S.4. ОДНОСТОРОННИЕ И ДВУСТОРОННИЕ КРИТЕРИИ

117

рочного параметра. Эти значения можно рассматривать как оценки генеральных параметров А х и А 2. Высказывает­ ся гипотеза, что различие между а х и а2 чисто случайное и что на самом деле АХ^=Л2, т. е. между генеральными пара­ метрами нет различий. Такая гипотеза называется нуле­ вой. Для проверки этой гипотезы нужно выяснить, значимо ли расхождение между а х и а2 в условиях нулевой гипоте­ зы. С этой целью обычно исследуют случайную величину Д а=ах—а2 и проверяют, значимо ли ее отличие от нуля.

Иногда удобнее рассматривать величину —, сравнивая а2

ее с единицей. Конкретные методы таких исследований при­ водятся в следующем параграфе.

Гипотеза А \ф А 2 называется альтернативной. Отвер­ гая нулевую гипотезу, мы тем самым принимаем альтерна­ тивную гипотезу Альтернативная гипотеза в свою очередь распадается на две: А {> А 2 и Ax<o42. Если одно из этих неравенств заведомо невозможно, то альтернативная ги­ потеза называется односторонней и для ее проверки приме­ няются односторонние критерии значимости (в отличие от обычных, двусторонних).

Как будет показано ниже, односторонний критерий зна­ чимости имеет намного меньшую вероятность ошибки вто­ рого рода, чем соответствующий двусторонний. Уже из этого видно, насколько полезно предварительно выяснить, какой из сравниваемых параметров и А2 не может быть меньше другого. Односторонний характер альтернативной гипотезы зачастую вытекает из самой постановки задачи. Например, изучая эффективность некоторого усовершен­ ствования производственного процесса, мы заранее можем считать, что это усовершенствование способно лишь умень­ шить дисперсию процесса. Точно так же при исследовании удобрения можно считать, что его применение увеличивает среднюю урожайность (т. е. генеральное среднее).

Односторонний критерий значимости легко

получать

из двустороннего. Обратимся к рис. 20. Мы видим,

что кри­

тическая область гипотезы (заштрихованная на рис. 20) состоит из двух частей. Каждая часть соответствует своему неравенству: А{> А2 или А г<.А2. Если мы заранее знаем, что возможно лишь одно из этих неравенств, то и рассмат­ ривать мы должны лишь одну из половин критической

118 § 5 . ОСНОВНЫЕ ЗАДАЧИ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

области. Вероятность попадания в критическую область

Р

уменьшится, тем самым, ровно вдвое и станет равна —■.

Таким образом, при одностороннем критерии значимо­ сти можно использовать те же критические значения, что и при двустороннем, однако этим значениям будет соответ­ ствовать вдвое меньший уровень значимости. Например, уровню значимости 0,05 при двустороннем критерии соот­ ветствуют критические значения £0)025 и £0,975»т- е- значи­ мыми (неслучайными) считаются значения £0, удовлетво­

ряющие неравенствам £0<£о,о25 и £о>£о,975Если же перей­ ти к одностороннему критерию, то одно из этих неравенств (например, £о<£о,о2ь) заведомо невозможно и значимыми будут лишь значения Н0> удовлетворяющие другому нера­ венству (£о> £ о,97б)- Вероятность последнего неравенства равна 0,025, таков и будет уровень значимости односторон­ него критерия.

Обычно для одностороннего критерия берут тот же уро­ вень значимости, что и для двустороннего, так как ошибка первого рода в обоих случаях нежелательна совершенно одинаково. Для этого нужно выводить односторонний кри­ терий из двустороннего, соответствующего вдвое большему уровню значимости, чем тот, что нами принят. Так, в пре­ дыдущем примере, желая сохранить уровень значимости 0,05 для одностороннего критерия, мы для двустороннего должны были бы взять уровень 0, 10, что дало бы критиче­ ские значения £0i05 и ,95- Из этих значений для односторон­ него критерия сохраняется одно (скажем, £0,95)» которое и бу­ дет окончательным критическим значением, соответствую­ щим одностороннему критерию при уровне значимости 0,05.

Итак, при одном и том же уровне значимости 0,05 од­ ному и тому же неравенству А{^>А2 в случае двустороннего критерия соответствует критическое значение t 0i975, а од­

ностороннего — g0,95Но £0,95< £ о,975>значит, при одностороннем критерии большее число значений £0 придется считать не случайными (значимыми), большее число ги­ потез будет отвергнуто. Тем самым уменьшится вероят­ ность принять неверную гипотезу, допустить ошибку вто­ рого рода. А вероятность ошибки первого рода как для одностороннего, так и для двустороннего критерия остается одинаковой, ибо она равна уровню значимости.

5.4. ОДНОСТОРОННИЕ И ДВУСТОРОННИЕ КРИТЕРИИ

119

Чтобы нагляднее подчеркнуть преимущества односто­ роннего критерия значимости перед двусторонним, приве­ дем следующий пример. Сталеплавильный завод изготов­ ляет специальную сталь, которая должна содержать 40% ванадия. Контроль ведется на уровне значимости 0,05; методика контроля дает нормальное распределение резуль­ татов со стандартом а=2% . Контрольный анализ партии стали дал для содержания ванадия значение 36,4%. Доста­ точно ли этого результата, чтобы забраковать партию?

Обозначим через £ результат произвольного анализа над доброкачественной сталью. Согласно условиям задачи ве­ личина £ имеет нормальное распределение с параметрами а = 40 и сг=2. Правило вычисления квантилей такого рас­ пределения было указано в п. 5.1. Используя таблицы II Приложения, найдем

ио,о25 = 40 -Ь2ио1025 = 4 0 -2 -1 ,9 6 = 36,08, vo,975 = 40 + 2ц0)в75 = 40 + 2 • 1,96 = 43,92.

В качестве нулевой гипотезы здесь нужно взять гипо­ тезу о том, что исследуемая сталь доброкачественна и, сле­ довательно, значение £„=36,4 появилось в результате слу­ чайностей анализа. Критическими значениями такой ги­ потезы при двустороннем критерии будут числа у0<025=36,08 и ^0,975=43,92; критическая область образуется неравенст­ вами £<36,08 и £>43,92. Значение £„=36,4 не попадает в эту критическую область, следовательно, двусторонний критерий не позволяет отвергнуть нулевую гипотезу и счи­ тать сталь недоброкачественной.

Условия задачи позволяют применить односторонний критерий значимости. Действительно, найденное значение £„=36,4 меньше медианы цО)5О=40, поэтому его можно сравнивать только с теми критическими значениями, кото­ рые меньше 40. Критическим значением проверяемой нуле­ вой гипотезы при одностороннем критерии является кван­ тиль yOiO5=40+2wOiO5=40—2 -1,64=36,72.

Мы видим, что £„<36,72, т. е. £„ попадает в критическую область. Таким образом, односторонний критерий, как бо­ лее точный, сумел при тех же исходных данных выявить недоброкачественность стали-

§ 6. ОЦЕНКА РЕЗУЛЬТАТОВ НАБЛЮДЕНИЙ НАД НОРМАЛЬНО РАСПРЕДЕЛЕННОЙ СЛУЧАЙНОЙ ВЕЛИЧИНОЙ

6.1. Оценка генерального среднего. В настоящем пара­ графе рассматриваются некоторые методы статистических оценок. При этом постоянно предполагается, что наблюдае­ мая случайная величина (или, как мы условились говорить, генеральная совокупность) имеет нормальное распределе­ ние. Чере? р все время обозначается принятый уровень зна­ чимости; доверительная вероятность соответственно будет равна 1—р.

Основным оцениваемым параметром является генераль­ ное среднее. Особенно важную роль играет среднее в обра­ ботке наблюдений — ведь здесь оно совпадает с истинным результатом наблюдений (см. п. 4.2).

Легче всего дать оценку для генерального среднего в тех случаях, когда с достаточно высокой степенью точности известна генеральная дисперсия а2. Генеральную диспер­ сию можно найти только приближенно по выборочной дисперсии; погрешность такого приближения в зависимо­ сти от объема выборки п изучается в следующем пункте. На практике эту погрешность обычно не учитывают уже при 50. Разумеется, такое большое количество наблю­ дений над одним объектом проводится редко. Однако здесь можно пользоваться сериями наблюдений и над другими объектами, если только у этих серий та же самая генераль­ ная дисперсия (сравнение двух или нескольких дисперсий также возможно методами математической статистики, оно изучается ниже, в п. 6.3). Дисперсия будет тогда вычис­ ляться по «текущим измерениям», как указывалось в конце п. 4.4. Используя наблюдения над большим количеством объектов, мы сможем сделать общее число наблюдений до­

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]