Обработка данных / [SHashkov_V.B.]_Obrabotka_yeksperimentalnueh_dannu(BookFi.org)
.pdf
роятностью р, нужно провести не менее определенного количества наблюдений n. Возникает задача: определить необходимое число опытов n, чтобы с фиксированной доверительной вероятностью р получить заданную точность оценивания исследуемой величины. Эта задача решается с использованием интервальной оценки математического ожидания этой величины и ее нормированной формы
u= y−M{y} ,
σ/ 
n
где y - среднее значение случайной величины по выборке.
Интервальная оценка для M{y}представлена неравенством |
|
||||||||||
|
|
− |
u pσ |
y |
< M{y}< y + |
u pσн |
, |
|
|||
|
y |
(16) |
|||||||||
|
|
|
|
||||||||
|
|
|
|
n |
|
|
|
n |
|
|
|
где uр- табличный квантиль стандартной величины, отвечающий вероятности р.
Выборка имеет определенный размах значений от левой границы q1 до правой границы q2; тогда длина интервала значений L=q2-q1. Очевидно, что чем больше размах значений величины, тем менее достоверны и менее точны выборочные оценки. Действительно, "максимум точности" будет достигнут при длине интервала, равной нулю, когда исследуемая величина станет константой.
В качестве оценки точности принимают величину ε
ε =L/ 2σ y .
Здесь знаменатель является константой - чем больше интервал значе-
ний L, тем меньше точность и больше относительное отклонение ε , т.е. значение этой характеристики обратно точности.
Левую и правую части выражения (16) будем рассматривать как границы q1 и q2, тогда
L =2u pσ y ,

n
а относительная погрешность ε будет ε =up / 
n , откуда следует
|
up 2 |
|
|
|||
n ≥ |
|
|
|
, |
(17) |
|
ε |
||||||
|
|
|||||
|
|
|
|
|
|
|
Для технических объектов "рядового" уровня надежности обычно доверительную вероятность принимают равной 0,95, а значение относительной
31
погрешности ε 0,5. Табличный квантиль u0,95 при этом равен 1,96 /4/. Тогда в соответствии с (16) необходимое минимальное количество наблюдений
псоставит 16.
Все вышеизложенное относится к табличному значению отклика yg на данной строке и наглядно демонстрирует проблему достоверности экспериментальных данных. Очевидно, что всегда нужно стремиться провести по режиму данной строки хотя бы несколько наблюдений и вносить в таблицу экспериментальных данных их среднее значение в качестве экспериментального значения отклика yg на данной строке.
32
7 Лекция 7. Особенности связи между случайными величинами
7.1Стохастическая связь между случайными величинами
Вматематике понятие зависимости между величинами выражается понятием функции у=ϕ(х), когда одному значению аргумента х отвечает одно,
итолько одно, значение функции у. Если с изменением величины х величина
уне меняет своего значения, эти величины являются независимыми.
Но бывают и другие ситуации. В работе /5/, например, изучали зависимость между ростом х и весом у студентов-юношей третьего курса. Графический вид этой зависимости приведен на рисунке 3.
Посмотрим на поле черных экспериментальных точек, не обращая пока внимания на расчетную кривую. Есть ли тут какая-либо зависимость между величинами х и у ? Вообще-то априори понятно, что такая зависимость должна существовать. Но интуитивно понятно также, что вес человека определяется не только ростом, но и другими факторами, например, окружностью талии. Поэтому, не смотря на очевидную зависимость «вес-рост», мы не можем признать ее однозначной и , таким образом, функциональной. Очевидно, что это какая-то другая, т.е. нефункциональная зависимость.
По данным любой таблицы экспериментальных данных можно рассчитать уравнение любого вида, другой вопрос – насколько точно оно будет отражать таблицу. Продемонстрируем это на данном примере.
Во-первых, найдем полином регрессии, отражающий экспериментальные данные рисунка 3. Он имеет вид
у= 74,024+0,873х – 1,368х2+0,900x3.
Именно по нему и нанесена расчетная кривая на график. Но это уравнение "не совсем функция". Существуют показатели качества таких формул, отражающих экспериментальные данные. Одним из таких показателей является оценка – насколько близка или далека данная зависимость от "стопроцентной" функции. Если эту "стопроцентную" функцию принять за единицу, то для данной эмпирической формулы этот показатель будет равен 0,513 –т.е.
33
Рисунок 3 – Зависимость массы тела студентов от их роста
данная зависимость имеет 51,2% "функциональности."
Особенности таких зависимостей состоят прежде всего в том, что график имеет вид слабо ориентированного облака точек и в том, что одному значению аргумента может отвечать несколько значений функции. Получается, что для данного значения аргумента может выпасть либо одно, либо другое значение функции – т.е. появляется вероятность того или иного значения. Поэтому такой вид связи между величинами носит название вероят-
ностной или стохастической связи.
В данном конкретном примере такой вид связи обусловлен тем, что в математическую модель объекта и в эксперимент мы включили в качестве аргументов-факторов только рост студентов, хотя очевидно то, что существуют и другие факторы, влияющие на функцию, например, размер грудной клетки в сантиметрах. В общем случае стохастическая связь между случайными величинами имеет место тогда, когда они имеют как общие, так и раз-
ные аргументы, например y = f (u,ε) и x =φ(u,γ ). Если влияние общего
аргументов будет нулевым, х и у будут независимы. Если влияние разных аргументов будет нулевым, связь х и у будет функциональной. Это есть два крайних положения, а между ними лежит бесконечное множество различных
34
по силе состояний стохастической связи. При этом изменение величин х и у будет складываться из двух составляющих:
-собственно стохастической под действием общего аргумента u;
-cлучайной составляющей под действием разных аргументов ε и γ.
Соотношение между этими составляющими может быть разным, в соответствии с этим стохастическая связь может быть сильной или слабой, что удобно иллюстрировать на графике. Сильная связь на графике дает плотную дорожку точек, т.е. облако их узкое и имеет выраженную направленность. В пределе эта ситуация сводится к линии, т.е. к функции. Слабая связь иллюстрируется рисунком 3 – облако размытое, ориентированность направления
σ−1
Рисунок 4 – Зависимость долговечности образцов жаропрочного сплава от напряжения
проявляется слабо. В пределе ситуация сводится к полной хаотичности в расположении точек – тогда зависимость между случайными величинами отсутствует.
Пример сильной стохастической связи иллюстрируется рисунком 4 (данные заимствованы из работы /6/).
Эта графическая зависимость выражается уравнением
35
у=1,158-0,116х+0,001х2.
Показатель функциональности этого уравнения равен 0,909 или 90,9%. Поскольку значение случайной величины при данных аргументах не
постоянно и полная его характеристика требует учета рассеивания относительно генерального среднего – математического ожидания (например, в виде доверительного интервала /4/), постольку стохастическую связь определяют как такую связь, при которой изменение одной величины вызывает из-
менение закона распределения другой.
Приведенные выше примеры показывают, что термины "сильная" и "слабая связь" требуют количественной оценки этой силы или слабости.
7.2 Показатели силы стохастической связи
Известное положение математической статистики гласит, что дисперсия суммы независимых величин равна сумме их дисперсий, т.е.
D{x+y}=Dx+Dy.
Поскольку дисперсия выражается уравнением Dz=M{(z-Mz)2}, можем записать
D{x+y}=M{[(x+y)-M{(x+y)}]2}.
Символ математического ожидания суммы разносится по составляющим этой суммы, поэтому
D{x+y}=M{(x+y –Mx -My)2}=M{[(x-Mx)+(y-My)]2}=-
M{(x-Mx)2+2(x-Mx)(y-My)+(y-My)2}=
M{(x-Mx)2}+2M{(x-Mx)(y-My)}+M{(y-My)2}=
Dx+ 2M{(x-Mx)(y-My)}+Dy. |
(18) |
По сравнению с исходным уравнением D{x+y}=Dx+Dy мы теперь другой результат - появляется дополнительное слагаемое, содержащее
2M{(x-Mx)(y-My)}. Очевидно, что величина 2M{(x-Mx)(y-My)} равна ну-
лю, если величины x и y независимы. При наличии связи между x и y, она принимает какое-то численное значение которое будет тем больше, чем сильнее связь между переменными.
Величина M{(x-Mx)(y-My)} является вторым смешанным центральным моментом и обозначается как
µ11{x, y}= M{(x −Mx)(y −My)}.
36
Она и является показателем силы стохастической связи. На практике же используют не сам показатель µ11{x, y} в исходном виде, а в виде его
безразмерной функции – коэффициента корреляции
ρ{x, y}= µ11{x, y} |
, |
(19) |
σ σ |
|
|
x y |
|
|
где σ - среднеквадратичное отклонение.
Чтобы рассмотреть вопрос о свойствах коэффициента корреляции, необходимо предварительно разобрать вопрос о свойствах нормированных величин.
7.3 Нормирование исходных данных при решении задач регрессии. Свойства нормированных величин
Процедуру регрессионного анализа рекомендуют вести при нормиро- вано-центрированой форме факторов x /1,2/, которую чаще называют просто нормированой или стандартной. С этим понятием мы уже встречались при построении интервальной оценки для Мх (см. уравнения (13) и (14). В свое время нормирование было введено Гауссом, т. к. свойства нормированоцентрированых величин позволяют упростить ручные расчеты. С появлением вычислительной техники это обстоятельство потеряло свое значение. В настоящее время эту форму величин используют тогда, когда она позволяет проконтролировать правильность промежуточных расчетов, что имеет место и при выполнении процедуры регрессионного анализа.
Разность между текущим значением случайной величины z и её средним (генеральным или выборочным), т.е. величину (z-Mz), называют центрированной случайной величиной, поскольку она интерпретирует текущее значение как отрезок от центра (среднего значения), который лежит либо слева от центра (отрицательные значения ), либо справа – в области положительных значений. Для обработки данных важны следующие свойства центрированных величин.
Первое (нулевое) свойство: сумма центрированных величин по их совокупности (выборке) равна нулю. Это свойство очевидно, т.к. центри-
рование делит массив данных на две равные части с противоположными знаками.
Второе (минимальное) свойство : сумма квадратов отклонений те-
кущих значений случайной величины от их среднего меньше, чем сумма квадратов отклонений от любого другого числа, в том числе от моды и медианы.
Докажем это свойство. Пусть сумма квадратов отклонений Sotkl от некоторого числа с
37
n |
|
−c)2 |
=min . |
|
Sotkl = ∑ (z |
i |
(20) |
||
i=1 |
|
|
|
|
|
|
|
|
Требуется определить значение с, при котором функция Sotkl обращается в минимум. Решением является корень уравнения
∂Sotkl =0,
∂c
при условии, что вторая производная имеет положительное значение. Дифференцируя уравнение (20), получаем:
|
n |
|
|
|
|
-2 ∑ (zi |
−c)=0 , |
|
|
|
i=1 |
|
|
|
n |
n |
|
∑z |
=zsr , где последняя вели- |
откуда ∑ zi |
= ∑c, или ∑z=n c, т.е. c= |
n |
||
i=1 |
i=1 |
|
|
|
чина означает среднее значение z. Это означает min исследуемой функции именно для условия c=zsr . В то же время
∂ 2c |
|
∂ [ |
] |
n |
||
∂c2 |
= |
|
−2∑(z−c) =2 |
∑1=2 n>0, |
||
∂c |
||||||
|
|
i |
= |
|||
|
|
|
|
1 |
||
что доказывает второе свойство.
Условие (20) называют требованием наименьших квадратов, которое и используется в процедуре регрессионного анализа.
Разделим центрированную величину (zi −Mz)на среднеквадратичное
отклонение σ исходной величины z. Такая операция называется нормированием, т.к. среднеквадратичное отклонение здесь выступает как мера или
норма измерения величины (zi −Mz). Полученная величина Zn называется нормированной:
Zn |
= |
zi −Mz |
, |
|
σ |
||||
i |
|
|
а суммарная операция центрирования и нормирования называется стандартизацией масштаба величины z.
Физический смысл переменной Zn заключается в том, что показывает, на какое число величин σ отклоняется данное значение zi от своего генерального (или выборочного) среднего. Таким образом, для нормированной
38
величины начало отсчёта производится от |
среднего значения zsr , а измере- |
||||||||
ние её – в новых единицах «σ ». |
|
|
|
|
|
||||
При обработке экспериментальных данных нормирование переменных |
|||||||||
производят по формуле |
|
|
|
|
|
||||
|
Zn= |
|
Zi −zsr |
, |
(21) |
||||
|
|
|
|||||||
|
|
|
|
dz |
|
|
|
||
|
|
|
|
|
|
|
|
||
|
|
|
|
n |
|
2 |
|||
|
|
|
|
∑ |
z −zsr |
||||
где |
dz = |
i=1 |
i |
|
. |
||||
|
n |
|
|||||||
|
|
|
|
|
|
|
|
||
Для обработки экспериментальных данных важны два свойства нормированных величин: сумма их по массиву равна нулю в силу первого свойства центрированной величины; сумма квадратов нормированных величин равна их количеству в массиве.
Действительно, обозначая нормировано-центрированые факторы х как xn, для вектора размерности n будем иметь
|
|
2 |
|
|
(x |
g |
−xsr 2 |
|
1 |
|
|
|
2 |
|
||||
∑xn |
=∑ |
|
|
|
|
= |
∑(x |
g |
−xsr) |
= |
||||||||
|
|
|
|
|
|
|
|
|
|
|||||||||
|
|
dx |
|
dx |
2 |
|
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
= |
|
|
|
|
1 |
|
|
∑(x |
g |
−xsr)2 = n . |
|
|
||||||
∑ |
(x |
g |
−xsr)2 |
|
|
|||||||||||||
|
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n
Таким образом, ∑ xn равна нулю, а ∑ xn2 равна п. Тогда, дисперсия нормировано-центрированой формы случайной величины равна
σ2 = ∑(xn−Mxn)2 , n
а поскольку Mxn =0, а ∑ xn2 равна п, то дисперсия нормированной слу-
чайной величины равна единице
σ2 |
{ } |
=1. |
|
xn |
(22) |
39
8 Лекция 8. Коэффициент корреляции – свойства и область действия
8.1 Корреляция и коэффициент корреляции. Диапазон значений
Наличие зависимости между х и у немедленно вытекает из неравенства
M{(x-Mx)(y-My)}≠0.
Однако, обратное утверждение несправедливо и из равенства
M{(x-Mx)(y-My)}=0
делать вывод о независимости величин х и у нельзя. Это значит, что на дисперсии суммы слагаемых сказывается не всякая стохастическая связь между этими величинами (ниже мы покажем это на конкретном примере). Может
быть и так, что D{x+y}≠Dx+Dy, но это неравенство обуславливается только частью связи между х и у. Вот эта часть стохастической связи между х и у, которая вызывает отличие D{x+y} от Dx+Dy, называется корреляцией. Необходимым и достаточным условием корреляции служит неравенство
M{(x-Mx)(y-My)}≠0 и поэтому величину M{(x-Mx)(y-My)} называют
корреляционным моментом. Однако эта характеристика силы стохастической связи имеет некоторую неопределенность, т.к. ее значение зависит от от
единиц измерения величин х и у. Поэтому-то на практике и используют безразмерную величину – коэффициент корреляции
ρ{x, y}= µ11{x, y} .
σxσ y
Представим выражение (18) в виде
D{x + y}= Dx +Dy + 2M{(x−Mx)(y−My)}σxσy .
σxσ y
Тогда
D{x + y}= Dx +Dy +2ρσxσy ,
где ρ - коэффициент корреляции.
Из свойств коэффициента корреляции (которые мы опишем ниже) вытекает, что при переходе к нормированной форме величин, значение коэффициента корреляции не изменяется. Поскольку дисперсии нормированных ве - личин равны единице, то при при переходе к нормированной форме величин
получаем
D{xn + yn}=1+1+2ρ .
Можно показать, что
40
