Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Гришин В.К. Статистические методы анализа результатов измерений учеб. пособие

.pdf
Скачиваний:
53
Добавлен:
23.10.2023
Размер:
4.93 Mб
Скачать

- п о -

где ^ » л. - / .

Иногда в серии наблюдений имеется несколько сомнитель­

ных точек. Тогда их анализ проводится путем последователь­

ного отбора.

Сначала оотавляют наименьший из "подозрительных" выб­

росов и рассматривают усеченную выборку, в которую включа­ ются точки, не вызывающие сомнения, и наименьшее из резких

отклонений.

Если проверка,базирующаяся на этой ограниченной ииоо|>-

ке,позволяет забраковать сомнительный результат,то, «отестион-

но, отбраоываютоя и другие большие отклонения. Напротив,в случав благоприятного исхода, анализ продолжается; в вы­

борку включается следующий по величине, выброс, и т . д .

З А Д А Ч А

При измерении температуры плазмы дугового разряда получены значения: (1,0; 1,2; 1,4; 1,0; 0,8; 2,3 ) • Ю3 К. Можно ли отбросить последний результат как ошибочный?

 

 

 

ГЛАВА ІУ

 

 

 

 

 

 

 

РЕГРЕССИОННЫЙ АНАЛИЗ

 

 

 

 

 

§ 19.

Стохастическая

зависимость •

 

 

 

 

До сих

пор мы рассматривали задачи,

прототипом которых

являлись эксперименты, проводимые при неизменных условиях

 

наблюдения. Однако существует

также более широкий класс

ис­

следований,

в которых изучаемое

явление

наблюдается при

раз­

личных внешних

условиях.

 

 

 

 

 

 

В общих чертах такой эксперимент можно рассматривать

как

попытку

установления

зависимости некоторой

величины

у

от

независимой

переменной

X .

 

 

 

 

 

Нетрудно

видеть, что

здесь

мы встречаемся

о новым типом

зависимости, которую нельзя интерпретировать как функциональ­ ную зависимость.

Действительно, для каждой оовокупнооти опытных условий

неизбежно

следует

ожидать

рассеяния результатов измерений.

Поэтому,

переходя

от

одной

 

"точки" независимой

переменной

 

к другой,

мы будем

наблюдать не

строго

детермкнизо-

ванные

значения исследуемой

величины

у

, а лишь набор

данных,

в той или иной степени

характеризующих генеральные

совокупности значений

у

 

,

соответствующих конкретным

условиям опыта. Но, хонечно, параметры генеральных совокупностей могут изменяться в зависимости от условий наблюдение, как показано, например,на рио. 13.

У»:

У,пЛ

Рио. 13. Уоловия опыта Х,,Х„ . . . , X результаты наблюдений ул> у ,

Такая зависимость, при которой изменение одной перемен­ ной меняет распределение другой, нооит название стохастиче­ ской зависимости.

Изучение стохастической зависимости затрагивает весьма обширный круг проблем. Заметны, например, что не всегда сто­ хастическая зависимость четко указывает на первопричинную связь. Поучительным примером в этом отношении являются опыты

- из -

Беккереля, который обнаружил, что интенсивность рентгеновских лучей теи выше, чей ярче люминесцентное свечение катодной трубки, испускающей эти лучи. Это послужило основанием для

ошибочного предположения, что люминесцентное свечение явля­

ется причиной рентгеновского излучения.

Проблема усложняется вдвойне, еолн значения независи­ мого аргумента определяются не точно, а о некоторой неопре­ деленностью, т . е . независимый аргумент также является случай­

ной величиной.

Мы ограничимся рассмотрением наиболее важного аспекта

анализа стохастической зависимости: установлением функцио­

нальной зависимости между

средним значением генеральных с о ­

вокупностей

^ X t ^

" а Р г У м е н * ° и

x t .

§ 20. Регрессионный анализ. Метод наименьших .

квадратов

Кривая

г) = у(Х)

носит название кривой регрессии.

Различают теоретическую линию регрвсоии, подразумевая под таковой истинную функциональную зависимость, существующую в

природе, и эмпирическую линию регрессии, инея в виду соотно ­

шение, устанавливаемое с помощью конкретного опытного мате­

риала. Последнюю

мы будем обозначать как

р

«

ф(х)-

Проведение

кривых через экспериментальные

точки и их

уравновешивание

относятоя к так называемому

регрессионному

анализу. Такой анализ мы будем развивать,

опираясь на прин­

цип максимального правдоподобия.

 

 

 

- т -

Итак, предположим, что в результате серии иеэаиисимых

 

 

п.

 

 

 

 

 

 

измерений

получено

£21-

эмпиричеоких

точек

,

соответствующих

п. '"'значениям

независимой переменной

Х;

( і S ї ї

N. ) , причем результаты

у.^

при /

s X «;

%i

относятся к каждой из точек

X f

 

 

 

 

 

Мы будем подразумевать,

что

общий характер

гено)>альноИ

совокупности результатов известен, т . е . известно Функциональ­

ное выражение для вероятности наблюдения

измеряемых значе­

ний,

которое мы будем обозначать

кок

 

 

 

Р(У*)*Р(УІАІ

і * J

 

(20.1)

 

Неизвестными остаются

лишь

параметры

этих

распределений,

определение которых и составляет один из

этапов

регрессион­

ного

анализа.

 

 

 

 

Вообще говоря, априорное знание вида распределения ге­

неральных совокупностей значений во многом предопределяет

характер

проведения

измерений.

Дело в том, что помимо знания

средних

значений у.

= y(*L)

крайне желательно такие

иметь представление о достоверности (точности) их определе­ ния. Только таким образом, оценивая достоверность вклада от­ дельных точек, мы и можем с наибольшим правдоподобием пост­ роить итоговую кривую регрессии.

Достоверность определения у.ш^(\.) мы можем оценить,

располагая значением генеральной дисперсии. Для пуассоновского процесса дисперсия совпадает со значением генерального среднего. Поэтому определение среднего уже позволяет оценить достоверность измерений. Напротив, для нормального распреде-

линия дисперсия находитоя с помощью специальных

оценок, от­

личных ит используемых для вычисления генерального

среднего. Следовательно, измерения величин с пуассоновским

и нормальным распределениями носят различный характер.

Поясним сказанное на следующем примере. Допустим, что

мы наблюдаем угловое рассеяние частиц на мииени.

Измерения

для некоторого фиксированного угла мы можем проводить непре­ рывно в течение всего выделенного времени 4. , поскольку

есть все основания ожидать, что процесс рассеяния является

иуиссоновскиы.

Коли в течение

этого времени

£.j

прибор

отметил

Л/.

частиц, то,

используя это число, мы можем

определить интенсивность рассеяния и его дисперсию.

 

Однако, если появились сомнения, что характер распреде­

ления в силу каких-то причин

не является уже

пуассоновоким,

то ми р'КіОии'івн полное время

tL наблюдения на ряд

интерва­

лов

 

и производим

П в

независимых из­

мерений, на основании которых и оцениваем среднюю интенсив­ ность рассеяния и его дисперсию.

Располагая

совокупностью

эмпирических точек,

составляем

функцию правдоподобия

 

 

 

 

 

 

L

=<

P f y d і ? * * * * ) -

-

( 2 0 . 2 )

 

< #i * It

 

 

 

 

 

 

Оптимизируя

функцию

L

по

. р .

, б1 . ,

получаем

для каждого из

параметров

 

п,

уравнений,

о помощью

к о т о р и х иокно наИти оценки значений этих параметров. Од­

нако, если нас

интересует

установление

функциональных со от-

ношений, например

n = tjf(X)

,

то целесообразно

избрать

иной путь. Мы постулируем,

исходя

из каких-то

теоретических

или практических соображений, что зависимость

 

у=у(Х)

опи­

сывается,по крайней мере,в пределах коридора

X, <

X 4

У-п

кривой

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(20.3)

т параметров которой, называемых коэффициентами регрессии,

мы определим с помощью оптимизации

функции правдоподобия.

 

В дальнейшем,

за исключением

особых случаев, мы будем

считать, что распределение

величин

у . д

близко

к нормаль­

ному. Помимо соображений,

высказанных

при обсуждении централь­

ной

предельной теоремы (§ 2),

мы учтем

также

то

обстоятельст­

во,

что, как доказывается

в теории

информации,

нормальное

распределение содержит минимум информации по сравнению

с лю­

бым распределением

с той же дисперсией. Поэтому

замена

неко­

торого распределения на эквивалентное нормальное не может

привести к переоценке точности наблюдений.

 

 

 

 

 

Таким образом,

записываем

 

 

 

 

 

 

 

где /?. <=

и Є*-

генеральные среднее и дисперсия

в каждой из точек.

 

 

 

При исследовании зависимости типа (20.3)

мы будем опе­

рировать с первой

из. сумм в

(20.'і), содержащей

квадраты от-

клонений

эмпирических значений от средних. Потребовав для

установления наиболее

правдоподобного

описания

ушу(х)

максимума

функции

, мы приходим к выводу,

что такое

описание

вытекает из

решения уравнения

 

 

м ' Г . П ^ ^ Ї = т і г

і -

( 2 о - 5 )

Следовательно, принцип максимального правдоподобия приводит к методу наименьших квадратов.

Введем эмпирические средние групп наблюдения для каждой из точек Х- •'

11

 

 

 

 

 

 

 

 

 

 

 

 

(20.6)

 

 

 

 

 

 

A*=V

 

 

 

 

 

которые,

как известно

(

у

совпадают

с выборочными средни­

ми),

являются несмещенными

оценками

генеральных средних ^ .

 

Представляя

( ^

-

у.)

» (у^-

у.)

* (у.

- ?

. )

, мы

разбиваем

 

сумму

М

 

на две

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

7)

 

 

 

 

1 sC< п.

 

 

 

 

 

 

где

Є

=

б £ / п р е д с т а в л я е т

днсперсив

эмпирического

 

Зі

 

 

 

 

 

 

 

 

 

 

среднего

^. .

 

 

 

 

 

 

 

 

 

 

Сумма

М,

включает

рассеяние наблюдения

относитель­

но эмпирических

средних

и не зависит

ох вида

кривой

J?»p(XJ«

Напротив,

 

Мг

представляет хинь сумму квадратов отклоне­

ний

эмпирических

средних от

этой кривой.

 

 

 

 

В этой сумме величины і

играют роль статисти­

ці.

чвских весов. Действительно, достоверность вклада отдель­ ных эмпирических точек тем выше, чем меньшей дисперсией они обладают. Поэтому для удобства описания целесообразно ввести нормированные статистические веса, определив послед,- ыие как

Ч = п

* — •

- (20.8)

Умножив все квадратичные формы (20.7) на постоянно* «мело Є* ,где в соответствии с (20.8)

б'

(20.9)

записываем

Нетрудно видеть, что такое

преобразование

никоим образом

не влияет на окончательные результаты.

 

Величины статистических весов вычисляются по теоретиче-

ским значениям дисперсий

С

. Однако

л практических

расчетах обычно используют их эмпирические оценки, при необ­ ходимости уточняя эти оценки в следующих приближениях.

§ 21. Оценка линии регрессии

Предположим, что кривая регрессии может быть представле-

на как

 

 

 

 

т-1

 

 

 

 

 

 

 

 

?1Х)-1*кЬкМ

 

>

.

( 2 I . I )

 

 

 

 

Km О

 

 

 

 

 

где

BJx),.. . , &к |система

базисных функций, выбираемых на

основании

тех или иных предпосылок. В частности, кривая

 

г> = у(Х)

может

быть разложена

по системе полиномов. Тог­

да

число

т

- {

будет совпадать с максимальной степенью

X

, присутствующей в описании

=

ffx)'

 

 

 

Заметим,

что

вид аргумента,также

как и функции

у

,

выбирается

подчас

из соображения

практического удобства или

в силу УСТАНОВИВШИХСЯ традиций. Так, если известно,

что раз­

ложение ведется по косинусам угла

, полагают

 

 

X = Cos \?

или

X = (1-CosV)/2

. Аналогично поступают

с

функцией

у

. Например,

при изучении констант радиоактив­

ного распада

целесообразно

оперировать

о логарифмами

интен-

сивностей.

 

 

 

 

 

 

 

 

 

Вообще говоря, выбор (21,1) может противоречить исходно­

му предположению о нормальном раопределении наблюдаемых

 

величин. Для приближенных оценок

можно

пойти, на такой компро­

мисс, учитывая, что небольшое отклонение от нормального га-

кона не повлечет за собой больших неточноотей. Однако".там,

где можно провести точный расчет, не следует избегать этой

возможности, стараясь придать функции правдоподобия наибо­ лее корректный вид.

Заменяя в (21.I) коэффициенты регрессии их оценками & к , имеем

Соседние файлы в папке книги из ГПНТБ