Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Математическая обработка результатов эксперимента

..pdf
Скачиваний:
31
Добавлен:
15.11.2022
Размер:
1.31 Mб
Скачать

Отметим, что результат измерения в отсутствие систематических ошибок достаточно точно моделируется нормально распределенной случайной величиной, математическое ожидание которой – точное значение измеряемой величины. Сумма достаточно большого числа независимых случайных величин с приемлемой точностью также описывается нормальным законом распределения, что объясняет частое использование нормального закона распределения при математической обработкеопытных данных ипостроении статистических моделей.

Каждый из известных в теории вероятностей законов распределения определяется совокупностью своих параметров. Как следует из приведенных выше формул, показательный закон распределения определяется одним параметром – интенсивностью λ, а нормальный закон – двумя: математическим ожиданием а = МХ и средним квадра-

тичным отклонением σ= DX случайной величины Х.

Для практического описания поведения случайных величин законы распределения и их параметры необходимо подбирать на основе экспериментальных данных. С этой целью эти данные необходимо, во-первых, правильно собрать (или получить в результате измерений), во-вторых, математически грамотно обработать.

Обработка опытных данных опирается на использование важнейших числовых характеристик случайных величин, к которым относятся математическое ожидание MX и дисперсия DX (или σX – среднее квадратичное отклонение).

1.2.1. Математическое ожидание и дисперсия

Математическое ожидание MX дискретной случайной величины X с конечным числом значений xi вычисляется по следующей формуле:

n

 

MX = pi xi .

(1.5)

i =1

Для непрерывной случайной величины сумма заменяется интегралом, а отдельные значения вероятностей – плотностью f(x) их распределения:

11

MX = +∞x f (x)dx .

(1.6)

Дисперсия DX и среднее квадратичное отклонение σX случайной величины X вычисляются с помощью математического ожидания по следующим формулам:

DX = M[(XMX)2] ≡ M(X 2) − (MX)2, σX = DX .

(1.7)

Отметим, что случайная величина (XMX) называется центрированной. Математическое ожидание центрированной случайной величины равно нулю: M(XMX) = 0.

Равенства a = MX и σ2 = DX, справедливые для параметров нормального распределения, позволяют выполнить статистическую оценку его параметров при построении функции плотности нормального распределения по опытным данным. Аналогично, соотношения MX = λ−1, DX = λ−2, связывающие математическое ожидание MX и дисперсию DX случайной величины, имеющей показательное распределение вероятностей, с параметром λ, дают возможность выполнить эмпирическую оценку параметра λ при подборе показательного закона [1, 10, 11].

При обработке опытных данных часто необходимо совместное исследование двух и более случайных величин, а также функций отних.

Ниже в краткой форме приведены отдельные сведения о характеристиках совместных распределений случайных величин, необходимые для изложения методов регрессионного анализа. Подробное изложение теории случайных величин, в том числе определение функций одной или нескольких случайных величин, а также свойства их числовых характеристик можно найти в учебниках по теории вероятности [1, 10, 11].

1.2.2. Показатели корреляции случайных величин

Случайные величины могут оказаться связанными между собой, но эта связь может иметь различный характер и необязательно описывается функциональной зависимостью.

12

Одна из важнейших числовых характеристик, позволяющая устанавливать наличие зависимости между двумя случайными величинами X и Y, – это их ковариация cov(X,Y). Ковариация cov(X,Y) определяется через математическое ожидание произведения двух центрированных случайных величин (XMX) и (YMY) и может быть вычислена следующим образом:

cov(X,Y) =M [(XMX)( YMY )] ≡ M (XY) − M (X) M(Y). (1.8)

Ковариация случайной величины X с самой собой – это ее дисперсия: cov(X,X) = DX. Для независимых случайных величин

M(XY) = M(X)M(Y) и, следовательно, cov(X,Y) = 0.

Зависимость двух случайных величин X и Y может иметь как линейный, так и нелинейный характер. Коэффициент rxy парной корреляции случайных величин X и Y, вычисляемый через их ковариацию cov(X,Y) по формуле (1.9), служит для оценки степени линейной зависимости двух случайных величин X и Y:

rxy =

cov(X ,Y )

 

cov (X ,Y )

 

 

=

 

.

(1.9)

σX σY

DX DY

Коэффициент корреляции rxy принимает значения в промежутке

от −1 до +1, т.е. −1≤ rxy ≤1.

Кроме коэффициента корреляции, используют его квадрат – коэффициент детерминации Dxy = rxy2. Как и коэффициент корреляции, коэффициент детерминации Dxy характеризует степень линейной зависимости двух случайных величин между собой.

Может оказаться, что случайная величина Y статистически зависима от нескольких случайных величин X1, X2, …, Xk. Тогда ставится вопрос о множественной корреляции между случайными величинами Y, X1, X2, …, Xk. Для описания соответствующей линейной корреляционной зависимости величины Y от величин X1, X2, …, Xk можно ис-

пользовать детерминант матрицы det ri j ik, j=1 , состоящей из соответ-

ствующих коэффициентов rij парной линейной корреляции величин

X1, X2, …, Xk (например, см. [10, 11, 18]).

13

В частном случае, если рассматриваются три случайных величины X, Y и Z, для оценки тесноты линейной связи величины Z с величинами X и Y можно использовать так называемый совокупный коэффициент корреляции

 

r 2

2r r r

+r 2

R =

xz

xy xz yz

yz

,

 

1r 2

 

 

 

 

 

 

 

x y

 

 

где rxy, rxz, ryz – это коэффициенты парной корреляции соответственно между величинами X и Y, X и Z, Y и Z. Коэффициент R принимает значения от нуля до единицы, т.е. 0 ≤ R ≤ 1.

Кроме совокупного коэффициента корреляции используют частные коэффициенты корреляции. Частный коэффициент

rxz (y) =

rxz rxy ryz

(1r 2

)(1r 2 )

 

 

xy

yz

описывает тесноту линейной связи между величинами Z и X (при постоянном значении величины Y).

Частный коэффициент

ryz (x) =

ryz rxy rxz

(1r 2

)(1r 2 )

 

 

xy

xz

описывает тесноту линейной связи между величинами Z и Y (при постоянном значении величины X).

Все три коэффициента R, rxz (y) и ryz (x) , как и обычный коэффициент rxy парной корреляции, используются для оценки тесноты линейной связи между величинами. Но корреляционная связь случайных величин между собой может иметь нелинейный характер.

Нелинейная корреляционная зависимость характеризуется так называемым индексом корреляции [1, 10, 18], который в случае линейной зависимости переходит в коэффициент корреляции.

14

1.3. Некоторые распределения функций нескольких случайных аргументов

Некоторые функции распределения связывают между собой две или более случайные величины. Приведем некоторые из часто используемых при математической обработке распределений.

1.3.1. Распределение Пирсона

Пусть Xi (i = 1,2,…,k) независимые нормально распределенные случайные величины, у каждой из которых математическое ожидание равно нулю (MX = 0), а дисперсия равна единице (DX = 1).

Тогда сумма квадратов этих величин

k

 

χ2 = X i2

(1.10)

i =1

распределена по закону χ2 (хи-квадрат) с k степенями свободы. Наличие линейной связи между величинами уменьшает число степеней

свободы величины χ2

до k1 = k − 1. Критерий χ2

называют также

критерием Пирсона.

 

 

 

 

 

 

 

 

 

 

 

 

Плотность распределения χ2

задается формулой [10]

 

 

0,

если x 0;

 

 

 

 

 

f(x) =

 

 

 

 

1

e

k/2

x

1+k/2

, если x>0,

(1.11)

 

 

2

k/2

Γ(k / 2)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где Γ(x)= t x1 et dt

это гамма-функция. Для натуральных значе-

0

 

 

 

 

 

 

 

 

 

 

 

 

ний аргумента Γ(k) = (k + 1)!, т.е. гамма-функция распространяет понятие факториала на действительные значения аргумента x.

При увеличении числа степеней свободы k распределение χ2 медленно сходится к нормальному.

15

Критерий Пирсона используют, например, при проверке гипотезы о нормальном распределении генеральной совокупности на основании имеющейся выборочной совокупности опытных данных.

Критерии проверки статистических гипотез о предполагаемом законе неизвестного распределения обычно для краткости называют критериями согласия.

1.3.2. Распределение Стьюдента

Пусть Z – это нормальная случайная величина с математическим ожиданием MZ = 0 и дисперсией DX = 1, а V – независимая от Z ве-

личина, распределенная по закону χ2 с k степенями свободы. Тогда говорят, что случайная величина

T = Z

k

(1.12)

V

 

 

имеет распределение Стьюдента, называемое также t-распределени- ем [10]. При возрастании числа k степеней свободы t-распределение быстро сходится к нормальному.

Распределение Стьюдента используется, например, для статистической оценки границ доверительных интервалов, покрывающих искомые параметры с заданной заранее надежностью (доверительной вероятностью γ).

1.3.3. Распределение Фишера – Снедекора

Пусть U и V – две независимые случайные величины, каждая из которых распределена по закону χ2 со степенями свободы k1 и k2 соответственно. Тогда говорят, что случайная величина

F =

U / k1

(1.13)

V / k2

имеет распределение Фишера – Снедекора (F-распределение) со степенями свободы k1 и k2 [10].

16

Критерий Фишера – Снедекора используется, например, для проверки статистических гипотез о равенстве дисперсий двух выборочных совокупностей. Для сравнения нескольких дисперсий используют более общий критерий – критерий Кочрена [10].

Распределения Пирсона, Стьюдента, Фишера– Снедекора и многие другие, используемые при математической обработке статистических данных, хорошо исследованы. Их критические точки позволяют принимать и отвергать статистические гипотезы. Таблицы критических точек этих распределений для различных значений определяющих их параметров при различных значениях уровня значимости α

(обычно при α = 0,01; α = 0,05; α = 0,025; α = 0,001 и других) содержатся в справочниках и учебниках по статистике. Справочники по статистике для специалистов содержат болееполные иподробные сведения.

Контрольные вопросы

1.Что такое функция распределения случайной величины?

2.Назовите важнейшие числовые характеристики случайных величин и приведите формулы для их вычисления.

3.Что такое ковариация двух случайных величин и зачем она нужна?

4.Зачем нужен коэффициент корреляции? Приведите формулу для его вычисления.

5.Что описывает совокупный коэффициент корреляции нескольких случайных величин? Зачем нужны частные коэффициенты множественной корреляции?

6.Для чего служит индекс корреляции? Чем он отличается от коэффициента корреляции?

7.Что описывает и для чего используется распределение Пир-

сона χ2 (хи-квадрат)?

8.Что описывает и для чего используется распределение Стью-

дента?

9.Что описывает и как определяется F-распределение Фишера – Снедекора?

17

2. ПРОЦЕДУРЫ СБОРА ОПЫТНЫХ ДАННЫХ

Различают два подхода к составлению выборочных совокупностей экспериментальных данных: пассивный и активный.

При пассивном подходе изучают известные опытные данные, при этом для исследования отбирают часть элементов из всей генеральной совокупности подлежащих контролю объектов и составляют из них выборочную совокупность. Методы пассивного эксперимента используют, например, при оценке показателей надежности технических объектов на основании данных статистики о сроках службы технических объектов, о моментах наступления их отказов, о сроках восстановления ремонтируемых объектов и т.п.

Активный подход означает применение методов планирования эксперимента. План эксперимента предполагает, что условия его проведения выбирает исследователь, исходя из поставленных им целей и задач. Он же обеспечивает выполнение определенных требований, необходимых для обеспечения корректности получаемых в ходе эксперимента данных. Полученные в ходе эксперимента данные составляют выборочную совокупность. Планирование эксперимента часто применяют в технологических и научных исследованиях в физике, химии и других точных дисциплинах с целью составления математических моделей изучаемых процессов и явлений. В частности, планирование эксперимента применяют в метрологии для проверки точности работы приборов в различных условиях.

В обоих случаях (пассивного и активного эксперимента) элементы выборочной совокупности не могут быть произвольными и должны удовлетворять определенным требованиям, поэтому составление выборочной совокупности должно быть основано на определенных принципах.

Кроме того, в дальнейшем полученную выборочную совокупность необходимо подвергнуть процедурам первичной обработки опытных данных, представленным в третьей главе.

18

2.1. Принципы формирования выборочной совокупности

Одно из важнейших требований к выборочной совокупности экспериментальных данных – ее репрезентативность. Репрезентативность (представительность) выборочной совокупности означает, что собранные данные должны отражать исследуемые свойства генеральной совокупности корректно и с достаточной полнотой, а процедуры сбора данных, предшествующие их статистическому анализу, должны удовлетворять условиям системности.

Требование системности означает, что выборочная совокупность, прежде всего, должна отражать системообразующие свойства генеральной совокупности (см., например, пособие [13]).

Требование полноты означает, что выборочная совокупность должна представлять каждый из исследуемых признаков генеральной совокупности с достаточной полнотой, т.е. в полном соответствии с предъявленными к исследованию требованиями.

Считается, что сбор данных удовлетворяет условию корректности, если при его проведении не нарушаются заранее установленные условия проводимого исследования.

Приведем типичные ошибки отбора экспериментальных данных, приводящие к нарушению требования репрезентативности выборочной совокупности.

Пример 2.1. Собраны усредненные данные (средняя температура по больнице).

Пример 2.2. Собранные данные не сгруппированы по характерным признакам. Например, в данных о нарушении трудовой дисциплины в цехе не отражены возрастные характеристики нарушителей, не учтены данные об их психологических характеристиках в соответствии с требованиями профессионального отбора и т.п.

Пример 2.3. Собранные данные сгруппированы вблизи одной точки и отражают не свойства генеральной совокупности в целом, а всего лишь свойства отдельной ее подгруппы или подсистемы. В этом случае выборочная совокупность не удовлетворяет требованию системности.

19

Пример 2.4. Объем выборочной совокупности недостаточен для оценки всех параметров искомой аналитической модели, т.е. не удовлетворяет требованию полноты.

2.2.Методы сбора статистических данных

вслучае пассивного эксперимента

Кпассивному эксперименту прибегают, например, при изучении надежности технических объектов. При этом из генеральной совокупности подлежащих исследованию объектов составляют выборочную совокупность.

Существует два основных метода составления выборочной совокупности [10]:

1) отбор данных, не требующий расчленения генеральной совокупности на части;

2) отбор, при котором генеральная совокупность разбивается на части.

Сбор данных из генеральной совокупности без ее расчленения на части имеет своей целью охватить все объекты, подлежащие изучению. В отдельных случаях приходится выполнять сплошной анализ объектов генеральной совокупности. Но для сокращения объема работы чаще используют простой случайный бесповторный отбор.

Отбор называют простым, если объекты, подлежащие исследованию, извлекаются из изучаемой генеральной совокупности по одному.

Отбор данных называют случайным, если все объекты извлекаются из генеральной совокупности случайным образом (например,

спомощью таблиц случайных чисел или с помощью компьютерных датчиков псевдослучайных чисел).

Отбор называют бесповторным, если все объекты извлекаются из генеральной совокупности только один раз.

Существует несколько приемов сбора экспериментальных данных, при которых генеральная совокупность разбивается на части:

20

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]