Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Обработка данных / [SHashkov_V.B.]_Obrabotka_yeksperimentalnueh_dannu(BookFi.org)

.pdf
Скачиваний:
79
Добавлен:
13.02.2016
Размер:
991.46 Кб
Скачать

роятностью р, нужно провести не менее определенного количества наблюдений n. Возникает задача: определить необходимое число опытов n, чтобы с фиксированной доверительной вероятностью р получить заданную точность оценивания исследуемой величины. Эта задача решается с использованием интервальной оценки математического ожидания этой величины и ее нормированной формы

u= yM{y} ,

σ/ n

где y - среднее значение случайной величины по выборке.

Интервальная оценка для M{y}представлена неравенством

 

 

 

u pσ

y

< M{y}< y +

u pσн

,

 

 

y

(16)

 

 

 

 

 

 

 

 

n

 

 

 

n

 

 

 

где uр- табличный квантиль стандартной величины, отвечающий вероятности р.

Выборка имеет определенный размах значений от левой границы q1 до правой границы q2; тогда длина интервала значений L=q2-q1. Очевидно, что чем больше размах значений величины, тем менее достоверны и менее точны выборочные оценки. Действительно, "максимум точности" будет достигнут при длине интервала, равной нулю, когда исследуемая величина станет константой.

В качестве оценки точности принимают величину ε

ε =L/ 2σ y .

Здесь знаменатель является константой - чем больше интервал значе-

ний L, тем меньше точность и больше относительное отклонение ε , т.е. значение этой характеристики обратно точности.

Левую и правую части выражения (16) будем рассматривать как границы q1 и q2, тогда

L =2u pσ y ,

n

а относительная погрешность ε будет ε =up / n , откуда следует

 

up 2

 

 

n

 

 

 

,

(17)

ε

 

 

 

 

 

 

 

 

Для технических объектов "рядового" уровня надежности обычно доверительную вероятность принимают равной 0,95, а значение относительной

31

погрешности ε 0,5. Табличный квантиль u0,95 при этом равен 1,96 /4/. Тогда в соответствии с (16) необходимое минимальное количество наблюдений

псоставит 16.

Все вышеизложенное относится к табличному значению отклика yg на данной строке и наглядно демонстрирует проблему достоверности экспериментальных данных. Очевидно, что всегда нужно стремиться провести по режиму данной строки хотя бы несколько наблюдений и вносить в таблицу экспериментальных данных их среднее значение в качестве экспериментального значения отклика yg на данной строке.

32

7 Лекция 7. Особенности связи между случайными величинами

7.1Стохастическая связь между случайными величинами

Вматематике понятие зависимости между величинами выражается понятием функции у=ϕ(х), когда одному значению аргумента х отвечает одно,

итолько одно, значение функции у. Если с изменением величины х величина

уне меняет своего значения, эти величины являются независимыми.

Но бывают и другие ситуации. В работе /5/, например, изучали зависимость между ростом х и весом у студентов-юношей третьего курса. Графический вид этой зависимости приведен на рисунке 3.

Посмотрим на поле черных экспериментальных точек, не обращая пока внимания на расчетную кривую. Есть ли тут какая-либо зависимость между величинами х и у ? Вообще-то априори понятно, что такая зависимость должна существовать. Но интуитивно понятно также, что вес человека определяется не только ростом, но и другими факторами, например, окружностью талии. Поэтому, не смотря на очевидную зависимость «вес-рост», мы не можем признать ее однозначной и , таким образом, функциональной. Очевидно, что это какая-то другая, т.е. нефункциональная зависимость.

По данным любой таблицы экспериментальных данных можно рассчитать уравнение любого вида, другой вопрос – насколько точно оно будет отражать таблицу. Продемонстрируем это на данном примере.

Во-первых, найдем полином регрессии, отражающий экспериментальные данные рисунка 3. Он имеет вид

у= 74,024+0,873х – 1,368х2+0,900x3.

Именно по нему и нанесена расчетная кривая на график. Но это уравнение "не совсем функция". Существуют показатели качества таких формул, отражающих экспериментальные данные. Одним из таких показателей является оценка – насколько близка или далека данная зависимость от "стопроцентной" функции. Если эту "стопроцентную" функцию принять за единицу, то для данной эмпирической формулы этот показатель будет равен 0,513 –т.е.

33

Рисунок 3 Зависимость массы тела студентов от их роста

данная зависимость имеет 51,2% "функциональности."

Особенности таких зависимостей состоят прежде всего в том, что график имеет вид слабо ориентированного облака точек и в том, что одному значению аргумента может отвечать несколько значений функции. Получается, что для данного значения аргумента может выпасть либо одно, либо другое значение функции – т.е. появляется вероятность того или иного значения. Поэтому такой вид связи между величинами носит название вероят-

ностной или стохастической связи.

В данном конкретном примере такой вид связи обусловлен тем, что в математическую модель объекта и в эксперимент мы включили в качестве аргументов-факторов только рост студентов, хотя очевидно то, что существуют и другие факторы, влияющие на функцию, например, размер грудной клетки в сантиметрах. В общем случае стохастическая связь между случайными величинами имеет место тогда, когда они имеют как общие, так и раз-

ные аргументы, например y = f (u,ε) и x =φ(u,γ ). Если влияние общего

аргументов будет нулевым, х и у будут независимы. Если влияние разных аргументов будет нулевым, связь х и у будет функциональной. Это есть два крайних положения, а между ними лежит бесконечное множество различных

34

по силе состояний стохастической связи. При этом изменение величин х и у будет складываться из двух составляющих:

-собственно стохастической под действием общего аргумента u;

-cлучайной составляющей под действием разных аргументов ε и γ.

Соотношение между этими составляющими может быть разным, в соответствии с этим стохастическая связь может быть сильной или слабой, что удобно иллюстрировать на графике. Сильная связь на графике дает плотную дорожку точек, т.е. облако их узкое и имеет выраженную направленность. В пределе эта ситуация сводится к линии, т.е. к функции. Слабая связь иллюстрируется рисунком 3 – облако размытое, ориентированность направления

σ1

Рисунок 4 Зависимость долговечности образцов жаропрочного сплава от напряжения

проявляется слабо. В пределе ситуация сводится к полной хаотичности в расположении точек – тогда зависимость между случайными величинами отсутствует.

Пример сильной стохастической связи иллюстрируется рисунком 4 (данные заимствованы из работы /6/).

Эта графическая зависимость выражается уравнением

35

у=1,158-0,116х+0,001х2.

Показатель функциональности этого уравнения равен 0,909 или 90,9%. Поскольку значение случайной величины при данных аргументах не

постоянно и полная его характеристика требует учета рассеивания относительно генерального среднего – математического ожидания (например, в виде доверительного интервала /4/), постольку стохастическую связь определяют как такую связь, при которой изменение одной величины вызывает из-

менение закона распределения другой.

Приведенные выше примеры показывают, что термины "сильная" и "слабая связь" требуют количественной оценки этой силы или слабости.

7.2 Показатели силы стохастической связи

Известное положение математической статистики гласит, что дисперсия суммы независимых величин равна сумме их дисперсий, т.е.

D{x+y}=Dx+Dy.

Поскольку дисперсия выражается уравнением Dz=M{(z-Mz)2}, можем записать

D{x+y}=M{[(x+y)-M{(x+y)}]2}.

Символ математического ожидания суммы разносится по составляющим этой суммы, поэтому

D{x+y}=M{(x+y –Mx -My)2}=M{[(x-Mx)+(y-My)]2}=-

M{(x-Mx)2+2(x-Mx)(y-My)+(y-My)2}=

M{(x-Mx)2}+2M{(x-Mx)(y-My)}+M{(y-My)2}=

Dx+ 2M{(x-Mx)(y-My)}+Dy.

(18)

По сравнению с исходным уравнением D{x+y}=Dx+Dy мы теперь другой результат - появляется дополнительное слагаемое, содержащее

2M{(x-Mx)(y-My)}. Очевидно, что величина 2M{(x-Mx)(y-My)} равна ну-

лю, если величины x и y независимы. При наличии связи между x и y, она принимает какое-то численное значение которое будет тем больше, чем сильнее связь между переменными.

Величина M{(x-Mx)(y-My)} является вторым смешанным центральным моментом и обозначается как

µ11{x, y}= M{(x Mx)(y My)}.

36

Она и является показателем силы стохастической связи. На практике же используют не сам показатель µ11{x, y} в исходном виде, а в виде его

безразмерной функции – коэффициента корреляции

ρ{x, y}= µ11{x, y}

,

(19)

σ σ

 

 

x y

 

 

где σ - среднеквадратичное отклонение.

Чтобы рассмотреть вопрос о свойствах коэффициента корреляции, необходимо предварительно разобрать вопрос о свойствах нормированных величин.

7.3 Нормирование исходных данных при решении задач регрессии. Свойства нормированных величин

Процедуру регрессионного анализа рекомендуют вести при нормиро- вано-центрированой форме факторов x /1,2/, которую чаще называют просто нормированой или стандартной. С этим понятием мы уже встречались при построении интервальной оценки для Мх (см. уравнения (13) и (14). В свое время нормирование было введено Гауссом, т. к. свойства нормированоцентрированых величин позволяют упростить ручные расчеты. С появлением вычислительной техники это обстоятельство потеряло свое значение. В настоящее время эту форму величин используют тогда, когда она позволяет проконтролировать правильность промежуточных расчетов, что имеет место и при выполнении процедуры регрессионного анализа.

Разность между текущим значением случайной величины z и её средним (генеральным или выборочным), т.е. величину (z-Mz), называют центрированной случайной величиной, поскольку она интерпретирует текущее значение как отрезок от центра (среднего значения), который лежит либо слева от центра (отрицательные значения ), либо справа – в области положительных значений. Для обработки данных важны следующие свойства центрированных величин.

Первое (нулевое) свойство: сумма центрированных величин по их совокупности (выборке) равна нулю. Это свойство очевидно, т.к. центри-

рование делит массив данных на две равные части с противоположными знаками.

Второе (минимальное) свойство : сумма квадратов отклонений те-

кущих значений случайной величины от их среднего меньше, чем сумма квадратов отклонений от любого другого числа, в том числе от моды и медианы.

Докажем это свойство. Пусть сумма квадратов отклонений Sotkl от некоторого числа с

37

n

 

c)2

=min .

 

Sotkl = ∑ (z

i

(20)

i=1

 

 

 

 

 

 

 

Требуется определить значение с, при котором функция Sotkl обращается в минимум. Решением является корень уравнения

Sotkl =0,

c

при условии, что вторая производная имеет положительное значение. Дифференцируя уравнение (20), получаем:

 

n

 

 

 

 

-2 (zi

c)=0 ,

 

 

 

i=1

 

 

 

n

n

 

z

=zsr , где последняя вели-

откуда zi

= ∑c, или z=n c, т.е. c=

n

i=1

i=1

 

 

 

чина означает среднее значение z. Это означает min исследуемой функции именно для условия c=zsr . В то же время

2c

 

[

]

n

c2

=

 

2(zc) =2

1=2 n>0,

c

 

 

i

=

 

 

 

 

1

что доказывает второе свойство.

Условие (20) называют требованием наименьших квадратов, которое и используется в процедуре регрессионного анализа.

Разделим центрированную величину (zi Mz)на среднеквадратичное

отклонение σ исходной величины z. Такая операция называется нормированием, т.к. среднеквадратичное отклонение здесь выступает как мера или

норма измерения величины (zi Mz). Полученная величина Zn называется нормированной:

Zn

=

zi Mz

,

σ

i

 

 

а суммарная операция центрирования и нормирования называется стандартизацией масштаба величины z.

Физический смысл переменной Zn заключается в том, что показывает, на какое число величин σ отклоняется данное значение zi от своего генерального (или выборочного) среднего. Таким образом, для нормированной

38

величины начало отсчёта производится от

среднего значения zsr , а измере-

ние её – в новых единицах «σ ».

 

 

 

 

 

При обработке экспериментальных данных нормирование переменных

производят по формуле

 

 

 

 

 

 

Zn=

 

Zi zsr

,

(21)

 

 

 

 

 

 

 

dz

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

2

 

 

 

 

z zsr

где

dz =

i=1

i

 

.

 

n

 

 

 

 

 

 

 

 

 

Для обработки экспериментальных данных важны два свойства нормированных величин: сумма их по массиву равна нулю в силу первого свойства центрированной величины; сумма квадратов нормированных величин равна их количеству в массиве.

Действительно, обозначая нормировано-центрированые факторы х как xn, для вектора размерности n будем иметь

 

 

2

 

 

(x

g

xsr 2

 

1

 

 

 

2

 

xn

=∑

 

 

 

 

=

(x

g

xsr)

=

 

 

 

 

 

 

 

 

 

 

 

 

dx

 

dx

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

 

 

 

 

1

 

 

(x

g

xsr)2 = n .

 

 

(x

g

xsr)2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

Таким образом, xn равна нулю, а xn2 равна п. Тогда, дисперсия нормировано-центрированой формы случайной величины равна

σ2 = (xnMxn)2 , n

а поскольку Mxn =0, а xn2 равна п, то дисперсия нормированной слу-

чайной величины равна единице

σ2

{ }

=1.

 

xn

(22)

39

8 Лекция 8. Коэффициент корреляции – свойства и область действия

8.1 Корреляция и коэффициент корреляции. Диапазон значений

Наличие зависимости между х и у немедленно вытекает из неравенства

M{(x-Mx)(y-My)}0.

Однако, обратное утверждение несправедливо и из равенства

M{(x-Mx)(y-My)}=0

делать вывод о независимости величин х и у нельзя. Это значит, что на дисперсии суммы слагаемых сказывается не всякая стохастическая связь между этими величинами (ниже мы покажем это на конкретном примере). Может

быть и так, что D{x+y}Dx+Dy, но это неравенство обуславливается только частью связи между х и у. Вот эта часть стохастической связи между х и у, которая вызывает отличие D{x+y} от Dx+Dy, называется корреляцией. Необходимым и достаточным условием корреляции служит неравенство

M{(x-Mx)(y-My)}0 и поэтому величину M{(x-Mx)(y-My)} называют

корреляционным моментом. Однако эта характеристика силы стохастической связи имеет некоторую неопределенность, т.к. ее значение зависит от от

единиц измерения величин х и у. Поэтому-то на практике и используют безразмерную величину – коэффициент корреляции

ρ{x, y}= µ11{x, y} .

σxσ y

Представим выражение (18) в виде

D{x + y}= Dx +Dy + 2M{(xMx)(yMy)}σxσy .

σxσ y

Тогда

D{x + y}= Dx +Dy +2ρσxσy ,

где ρ - коэффициент корреляции.

Из свойств коэффициента корреляции (которые мы опишем ниже) вытекает, что при переходе к нормированной форме величин, значение коэффициента корреляции не изменяется. Поскольку дисперсии нормированных ве - личин равны единице, то при при переходе к нормированной форме величин

получаем

D{xn + yn}=1+1+2ρ .

Можно показать, что

40