Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Статистические методы анализа и обработки наблюдений

..pdf
Скачиваний:
11
Добавлен:
15.11.2022
Размер:
10.29 Mб
Скачать

t.5. Ис п о л ь з о в а н и е о ц е н о к в е р о я т н о с т и

181

Значение р = у не попадает в этот доверительный интер­

вал, следовательно, гипотезу о равенстве генеральных сред­ них нужно отбросить.

Точно так же можно сравнивать дисперсии выборок. Для этого нужно вместо х,- выписать квадраты (х,-—х)2 отклонений х,- от среднего х и то же самое сделать для yL. После этого квадраты (х,-—х)2 и (у(у)2сравниваются между собой так же, как раньше х,- и у-г

Применение описанного метода сравнения допустимо только в том случае, если обе выборки расположены совер­ шенно случайно (например, в порядке естественного полу­ чения). Малейшая упорядоченность сразу же исказит результат.

Проведенное выше сравнение выборок учитывает только знак разности х,-—yh но не ее величину. Поэтому оно может быть полезно лишь там, где один из знаков подавляюще преобладает над другим, а это бывает редко. Но зато при наличии такого преобладания указанное сравнение выявляет любые различия, как бы малы они ни были, почему и может оказаться чувствительнее, чем сравнение средних по кри­ терию Стьюдента.

Нередко при обработке наблюдений приходится поль­ зоваться случайностью заданной последовательности эле­ ментов (например, в разбиравшемся выше сравнении вы­ борок). Если эта последовательность возникла естественным путем как результат действия случайных факторов, то ее случайность редко вызывает сомнения. Однако, в процессе наблюдений могут появиться некоторые доминирующие факторы, вызывающие неслучайное смещение результатов, и это уже требует специальной проверки. Встречается и такая ситуация, когда последовательность создается искус­ ственно, например, смешивается из нескольких различных последовательностей. В этом случае обязательно нужно выяснить, осталась ли она случайной.

В зависимости от конкретных обстоятельств применя­ ются различные критерии случайности. Мы рассмотрим только случай, когда заданная последовательность содер­ жит одинаковое количество элементов двух видов и прове­ ряется гипотеза о том, что взаимное расположение элементов

182

$ 7. АНАЛИЗ Р А С П Р Е Д Е Л Е Н И Я Н А Б Л ЮД ЕН И Й

различных видов обязано своим происхождением чисто случайным причинам. Разумеется, это лишь весьма частный случай поставленной выше задачи, но к нему сводится не­ сколько важных проблем обработки наблюдений, часть из которых мы рассмотрим ниже.

Итак, пусть последовательность из п элементов содержит

~ элементов типа А и столько же элементов типа В. Если

вместо каждого элемента отмечать только его тип, то за­ данная последовательность даст некоторую комбинацию букв А и В, например,

А А А В А В В А В А А В В В .

В предположении случайности все такие комбинации должны быть абсолютно равновозможны. Число этих комби-

п'

, следовательно, вероятность каж-

наций равно Сл2 = -—

дой комбинации равна V2^

) • Для того чтобы выяснить, мог­

ла ли та или иная комбинация возникнуть случайно, нужно, согласно общему правилу проверки статистических гипотез, связать с этими комбинациями некоторую случайную вели­ чину, которая позволяла бы выделять маловероятные ком­ бинации.

В качестве такой случайной величины обычно рассмат­ ривают число серий R. Серией называется любая последо­ вательность элементов одинакового типа, граничащая с элементами другого типа. В приведенной выше комбина­ ции вначале идет серия А А А , затем серия из одного элемен­

та В, затем А, ВВ

и т. д. Всего серий в указанном приме­

ре R=8.

при каждом фиксированном п является

Число серий R

конечнозначной случайной величиной и точный расчет всех

ее вероятностей довольно громоздок.

Если

же п достаточ­

но велико (по крайней мере больше 10),

то распределе­

ние величины R становится близким к нормальному с пара­

метрами

П+ 1

п — 1

 

0-R

 

2

° R

4 •

 

7.5. ИСПОЛЬЗОВАНИЕ ОЦЕНОК ВЕРОЯТНОСТИ

183

Поэтому для R можно написать доверительную оценку

ая — U i - PiiOR < R

+ u1. p/iaRt

 

где tti_p/2 — квантиль стандартного нормального

распре­

деления, соответствующий уровню значимости р. После

подстановки значений

aR и

oR

получается

оценка

y ^ + l ^ i —P/2V ^ О

~2

( к “И

+ wi —p/г

п U

Поскольку Я может быть только целым, полученные довери­ тельные границы округляют до целых, уменьшая нижнюю и увеличивая верхнюю. Например, при п=50 и уровне значи­ мости р=0,05 находим

1 (5 0 + 1 —1,961/49) < Я

(50+1 +1,961/49)

или, после вычислений и округления, 18^Я ^ЗЗ .

Число серий в заданной комбинации можно теперь использовать в качестве критерия ее случайности. Если это число лежит в заранее вычисленных доверительных преде­ лах, то комбинацию можно считать случайной. Если же найденное по комбинации Я выходит за доверительные пре­ делы (попадает в критическую область гипотезы), то случай­ ность комбинации нужно признать практически невозмож­ ной. В рассматривавшейся выше комбинации число всех элементов п= 14, поэтому при уровне значимости р=0,05 число серий R должно лежать в пределах от 3 до 12. По­ скольку фактическое число серий Я = 8 лежит в этих преде­ лах, комбинацию нужно признать случайной.

Укажем некоторые применения метода серий. Допустим, сравниваются две выборки численностью т= у .Объединим

обе выборки в одну (объема п) и расположим все элементы объединенной выборки в возрастающем порядке. Если прежние выборки различались лишь случайно, то в полу­ ченной последовательности чередование элементов, взятых из первой выборки (тип А) и из второй (тип В) должно быть чисто случайным. Последнее обстоятельство и проверяется с помощью серий.

Другое применение находит метод серий в тех случаях, 1(огда нужно проверить, является ли наблюдаемое изменение

184

§ 7. АНАЛИЗ Р А СПР ЕДЕ ЛЕНИ Я НА Б ЛЮ ДЕ Н ИЙ

(флуктуации) результатов чисто случайным. Рассмотрим такой пример. При обработке валиков заданного диаметра на токарном станке получились следующие 20 значений ди­ аметров (в мм):

22,6 22,8 22,8 22,7 23,0 22,8 23,0 23,0 23,1 23,2

23,4 23,2 23,3 23,4 23,4 23,1 22,9 23,6 23,4 23,6.

Требуется проверить, нет ли в диаметрах неслучайного изменения, связанного с каким-либо постоянным фактором (например, затуплением резца).

Найдем вначале выборочную медиану (см. п. 5.1). Для этого заданную выборку нужно расположить в возраста­ ющем порядке и в получившейся последовательности взять средний (по номеру) элемент. Так как у нас число элементов

четное

(п= 20), то

средних

элементов будет два —10-й и

11-й,

и в качестве

медианы

нужно брать их полусумму.

Внашем примере оба эти элемента оказываются одинако­ выми, в силу чего медианой выборки будет их общее значе­ ние 23,1.

Вернемся теперь к первоначальной выборке. Будем элемент обозначать буквой А, если он меньше медианы, и буквой В в противном случае (элементы, равные медиане, вообще исключим из рассмотрения). Мы получим комбина­ цию букв

АА А А А А А А В В В В В В А В В В .

Вэтой комбинации четыре серии. В то же время для /г=18 элементов (столько их у нас сейчас осталось) доверительные пределы числа серий R при уровне значимости р=0,05 равны 5 и 14. Мы видим, что получившуюся комбинацию нельзя считать случайной. А это заставляет признать, что

вдиаметрах изготовленных валиков наблюдается неслу­ чайное изменение.

Подведем некоторые общие итоги параграфа. Обработка наблюдений всегда должна начинаться с анализа наблюда­ емого распределения (статистического или непосредственно по условиям испытаний с применением теоремы Ляпунова). Если распределение оказывается отличным от нормального, то нужно попытаться найти его плотность, определяя все нужные параметры по принципу максимума правдоподобия,

7.5. ИСПОЛЬЗОВАНИЕ ОЦЕНОК ВЕРОЯТНОСТИ

185

Вместе с тем, многие оценки можно получать, не прибегая к детальному изучению распределения — методами пп. 7.2 и 7.5. Подобные методы носят название непараметрической статистики. Хотя непараметрическая статистика и обла­ дает высокой универсальностью, но применять ее нужно осторожно, так как достаточно надежные результаты полу­ чаются лишь при очень больших п.

И последнее. При обработке небольшого цифрового материала (микростатистика) можно, как правило, всегда пользоваться критериями нормального распределения, из­ ложенными в § 6, так как отклонения различных распреде­ лений друг от друга практически не заметны на малых вы­ борках.

v

§8. ДИСПЕРСИОННЫЙ АНАЛИЗ

8.1.Постановка задачи. В предыдущем изложении, как правило, предполагалось, что наблюдаемый разброс резуль­ татов связан лишь со случайными причинами (факторами). Именно это предположение лежало в основе всех проверяв­ шихся нулевых гипотез. Все подконтрольные испытателю факторы поддерживались на одном и том же уровне. Об­ работка материала сводилась фактически к тому, чтобы определить точность применяемого метода исследования, его ошибку воспроизводимости. В качестве меры такой точ­ ности рассматривалась дисперсия.

Перейдем теперь к рассмотрению второй (по счету, но не по важности) задачи математической обработки наблю­ дений. Задача эта состоит в том, что один" или несколько основных факторов начинают заданным образом изменять­ ся. Эти изменения могут повлиять на результаты наблю­ дений. Степень такого влияния, его качественные и коли­ чественные характеристики и будут объектами наших рас­ смотрений в этом и следующем параграфах.

Настоящий параграф будет посвящен вопросу общей оценки действующего переменного фактора, его сравнения с другими факторами. Важность подобных общих оце­ нок можно подчеркнуть хотя бы следующими двумя при­ мерами.

--Земной шар, помимо суточного вращения вокруг своей оси и годового вращения вокруг Солнца, подвержен еще некоторым слабым колебаниям и перемещениям. Эти пере­ мещения удается выявить, наблюдая за звездами. Однако

перемещения так малы, что могут быть приняты просто за ошибки наблюдений, связанные с неточной работой астро­ номических инструментов (последнее, кстати, и явилось причиной того, что перемещения, о которых идет речь, были

8.1 ПОСТАНОВКА ЗАДАЧИ

187

обнаружены лишь сравнительно недавно). Прежде чем про­ водить детальное изучение перемещений, выяснять их причины и т. д., необходимо проверить в целом, действи­ тельно ли эти перемещения существенны на фоне случайных погрешностей приборов.

Второй пример возьмем из проблемы контроля за произ­ водством. От завода обычно требуется выпуск однородной по своим качествам продукции. Процесс производства за­ ключает в себе несколько стадий, каждая из которых вносит свою «лепту» в фактическую неоднородность конечного продукта. Одновременное усовершенствование всех стадий, как правило, слишком трудоемко и дорого. Поэтому вна­ чале нужно выяснить, какая из стадий дает наибольшую неоднородность, и усовершенствование начинать с нее. При исследовании может даже оказаться, что некоторые стадии дают лишь незначительную неоднородность, так что затраты на их усовершенствование вообще были бы неоправ­ данными.

В дальнейшем мы все время будем считать, что случайные ошибки наблюдений имеют нормальное распределение. Влияние изучаемых факторов может быть двояким: они могут изменять как истинный результат (среднее) наблюде­ ний а, так и дисперсию этих наблюдений а2. Мы, однако, все время будем предполагать, что дисперсия наблюдений о2 остается неизменной. Это предположение обычно оправ­ дывается, если для наблюдений используется одна и та же методика, одни и те же приборы. Если же стабильность дисперсии вызывает сомнение, нужно провести специальное исследование с помощью критериев Бартлета или Кохрана. В случае значимого изменения дисперсии в процессе наблю­ дений нужно попытаться ее стабилизировать, подобрав соответствующую преобразующую функцию (п. 7.3).

Таким образом, в настоящем параграфе будет изучаться лишь влияние переменных факторов на генеральное среднее наблюдаемого распределения. Для того чтобы сравнивать, влияние различных факторов, нужно найти какой-нибудь достаточно надежный и универсальный показатель этого влияния. Допустим, изучаемый фактор Л на различныхуровнях привел к серии истинных результатов:

Я ц ^ 2'

ак

188§8 ДИСПЕРСИОННЫЙ АНАЛИЗ

Вкачестве показателя влияния фактора А мы будем тогда брать числ-"

k

а1 = т И (а ,—а)*. (=1

где а — среднее арифметическое чисел а,-:

- _ Qi + a2 + • • • + Qfe

Число аа называется дисперсией фактора А. Это название дано по аналогии с обычной дисперсией, но нужно помнить, что числа аг, а2, ak не являются случайными, поэтому

о2а не связана ни с какой случайной величиной.

Выбор о а удобен по двум причинам. Во-первых, диспер­ сия является простейшей мерой рассеивания (п. 2.3). Вовторых, показатель влияния фактора А определен теперь аналогично показателю влияния случайного фактора (т. е. обычной дисперсии о2), что позволит непосредственно срав­ нивать фактор А с эффектом случайности. Изучение пере­ менных факторов по их дисперсиям называется дисперсион­ ным анализом *).

Рассмотрим самый простой случай, когда дисперсия наблюдений а2 известна заранее и исследуется один пере­ менный фактор А-. Пусть при изменении фактора А полу­

чились результаты наблюдений х1г х2,

xk. Найдем вы­

борочную дисперсию

 

 

 

s 2

1

V

(Xi— x)2

1

V

(S*,-)al

k—1

 

k—1

k

Сравним эту дисперсию, имеющую f = k —1степеней свободы, с генеральной дисперсией о2 (метод такого сравнения см. в п. 6.3). Если s2 от о2 отличается незначимо, то и влияние

*) Дисперсионный анализ был впервые разработан в двадцатых го­ дах нашего столетия английским статистиком Р. Фишером; дальнейшее существенное развитие метод получил в трудах Иэйтса. Предназначав­ шийся вначале для нужд сельскохозяйственной статистики дисперсион­ ный анализ в настоящее время превратился в мощное орудие обработки самых различных наблюдений. Он охватывает большое число детально разработанных приемов планирования и обработки экспериментов, ко­ торых мы лишь слегка коснемся в настоящей книге.

8.2. ОДНОФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ

189

фактора А нужно признать незначимым, так как он не сумел существенно увеличить случайный разброс наблюдений.

Если же s2 отличается значимо от а2, то это может быть вызвано только влиянием фактора А, которое теперь нужно

признать значимым. Для того чтобы оценить оа, восполь­ зуемся тем, что дисперсия суммы двух независимых случай­ ных величин равна сумме их дисперсий (см. п. 2.3). В нашем случае складываются эффект случайности (с дисперсией а2)

и эффект воздействия фактора А (с дисперсией а\), кото­ рые очевидным образом независимы. Поэтому общая дис­

персия наблюдений должна быть равна о2+ о2л. А величина s2 является оценкой этой общей дисперсией. Следовательно,

« s2 —а2.

Расчеты по указанной схеме весьма несложны. Пусть, например, изучается сопротивление электролита в зависи­ мости от его температуры в пределах 10°—60° С. Делая замеры через каждые 10°, получаем данные (в ом): 0,16; 0,19; 0,18; 0,20; 0,21; 0,23. Ошибка воспроизводимости из­ вестна из предыдущих опытов и равна сг=0,02.

Находим выборочную дисперсию s2=0,0006. Отсюда

F = Q’соо4 = ^ П о таблице VII Приложения находим

/7о)95(5,оо)= 2,2. Найденное нами выше /7=1,5<С2,2, следо­ вательно, влияние изучаемого фактора (температуры) нужно считать незначимым. Иными словами, слишком высокий стандарт а = 0,02 не позволяет считать существенным рост наблюдаемого сопротивления — он вполне может оказаться случайным.

Подчеркнем в заключение, что мы оцениваем лишь вли­ яние фактора в целом и не выясняем количественных соот­ ношений. Поэтому замеры сопротивления можно было де­ лать и не через равные промежутки температуры; можно вообще не отмечать температуру, лишь бы она менялась

внужных пределах.

8.2.Однофакторный дисперсионный анализ. Перейдем к анализу данных в случае, когда значение генеральной ди­ сперсии а2 заранее неизвестно. Нужно найти такую схему анализа, которая позволила бы одновременно дать оценку и дисперсий изучаемых факторов, и дисперсии о2.

190 <58. ДИСПЕРСИОННЫЙ АНАЛИЗ

Начнем с анализа одного фактора А, изучаемого на уров­ нях А ъ А2, ..., A k. Для того чтобы дать оценку неизвестной дисперсии воспроизводимости а2, нужно обязательно иметь дублирующие наблюдения при каждом уровне фактора А. Здесь можно поступать по-разному: можно на первом же уровне Аг провести достаточно много наблюдений, чтобы сразу же определить дисперсию о2 и использовать найденное значение -для изучения остальных уровней (как это было сделано в предыдущем пункте). Лучше, однако, равномерно повторять наблюдения на всех уровнях, ибо при этом появ­ ляется дополнительная возможность контроля за неизмен­ ностью дисперсии а2.

Наиболее простые расчеты получаются в случае, когда на каждом уровне фактора А проделывается одинаковое число наблюдений. Будем обозначать серию наблюдений на уровне А { через xtl, xi2, ..., xin (п — число повторных

наблюдений на каждом уровне). Через х( будем обозначать среднее значений наблюдений на t'-м уровне:

„ __ x i i + х 1 2 + • • • + x in

х !

Кроме того, нам понадобится среднее всех наблюдений по всем уровням:

k

k

(легко видеть, что общее число всех наблюдений равно kri). Определим общую выборочную дисперсию всех наблю­

дений:

k П

Эта дисперсия обязана своим появлением всем действующим факторам — как фактору А, так и фактору случайности на каждом уровне. Основная задача, которую решает диспер­

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]