Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Национальная металлургическая академия Украины

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Обработка данных / [SHashkov_V.B.]_Obrabotka_yeksperimentalnueh_dannu(BookFi.org)

.pdf

Скачиваний:

Добавлен:

13.02.2016

Размер:

991.46 Кб

Скачать

☆

<<< < Предыдущая 1 2 34 / 164 5 6 7 8 9 10 11 12 13 14 15 16 > Следующая >>>

роятностью р, нужно провести не менее определенного количества наблюдений n. Возникает задача: определить необходимое число опытов n, чтобы с фиксированной доверительной вероятностью р получить заданную точность оценивания исследуемой величины. Эта задача решается с использованием интервальной оценки математического ожидания этой величины и ее нормированной формы

u= y−M{y} ,

σ/ n

где y - среднее значение случайной величины по выборке.

Интервальная оценка для M{y}представлена неравенством
		−	u pσ		y	< M{y}< y +	u pσн		,
	y									(16)

				n				n

где uр- табличный квантиль стандартной величины, отвечающий вероятности р.

Выборка имеет определенный размах значений от левой границы q1 до правой границы q2; тогда длина интервала значений L=q2-q1. Очевидно, что чем больше размах значений величины, тем менее достоверны и менее точны выборочные оценки. Действительно, "максимум точности" будет достигнут при длине интервала, равной нулю, когда исследуемая величина станет константой.

В качестве оценки точности принимают величину ε

ε =L/ 2σ y .

Здесь знаменатель является константой - чем больше интервал значе-

ний L, тем меньше точность и больше относительное отклонение ε , т.е. значение этой характеристики обратно точности.

Левую и правую части выражения (16) будем рассматривать как границы q1 и q2, тогда

L =2u pσ y ,

а относительная погрешность ε будет ε =up / n , откуда следует

	up 2
n ≥			,	(17)
		ε
		ε

Для технических объектов "рядового" уровня надежности обычно доверительную вероятность принимают равной 0,95, а значение относительной

погрешности ε 0,5. Табличный квантиль u0,95 при этом равен 1,96 /4/. Тогда в соответствии с (16) необходимое минимальное количество наблюдений

псоставит 16.

Все вышеизложенное относится к табличному значению отклика yg на данной строке и наглядно демонстрирует проблему достоверности экспериментальных данных. Очевидно, что всегда нужно стремиться провести по режиму данной строки хотя бы несколько наблюдений и вносить в таблицу экспериментальных данных их среднее значение в качестве экспериментального значения отклика yg на данной строке.

7 Лекция 7. Особенности связи между случайными величинами

7.1Стохастическая связь между случайными величинами

Вматематике понятие зависимости между величинами выражается понятием функции у=ϕ(х), когда одному значению аргумента х отвечает одно,

итолько одно, значение функции у. Если с изменением величины х величина

уне меняет своего значения, эти величины являются независимыми.

Но бывают и другие ситуации. В работе /5/, например, изучали зависимость между ростом х и весом у студентов-юношей третьего курса. Графический вид этой зависимости приведен на рисунке 3.

Посмотрим на поле черных экспериментальных точек, не обращая пока внимания на расчетную кривую. Есть ли тут какая-либо зависимость между величинами х и у ? Вообще-то априори понятно, что такая зависимость должна существовать. Но интуитивно понятно также, что вес человека определяется не только ростом, но и другими факторами, например, окружностью талии. Поэтому, не смотря на очевидную зависимость «вес-рост», мы не можем признать ее однозначной и , таким образом, функциональной. Очевидно, что это какая-то другая, т.е. нефункциональная зависимость.

По данным любой таблицы экспериментальных данных можно рассчитать уравнение любого вида, другой вопрос – насколько точно оно будет отражать таблицу. Продемонстрируем это на данном примере.

Во-первых, найдем полином регрессии, отражающий экспериментальные данные рисунка 3. Он имеет вид

у= 74,024+0,873х – 1,368х2+0,900x3.

Именно по нему и нанесена расчетная кривая на график. Но это уравнение "не совсем функция". Существуют показатели качества таких формул, отражающих экспериментальные данные. Одним из таких показателей является оценка – насколько близка или далека данная зависимость от "стопроцентной" функции. Если эту "стопроцентную" функцию принять за единицу, то для данной эмпирической формулы этот показатель будет равен 0,513 –т.е.

Рисунок 3 – Зависимость массы тела студентов от их роста

данная зависимость имеет 51,2% "функциональности."

Особенности таких зависимостей состоят прежде всего в том, что график имеет вид слабо ориентированного облака точек и в том, что одному значению аргумента может отвечать несколько значений функции. Получается, что для данного значения аргумента может выпасть либо одно, либо другое значение функции – т.е. появляется вероятность того или иного значения. Поэтому такой вид связи между величинами носит название вероят-

ностной или стохастической связи.

В данном конкретном примере такой вид связи обусловлен тем, что в математическую модель объекта и в эксперимент мы включили в качестве аргументов-факторов только рост студентов, хотя очевидно то, что существуют и другие факторы, влияющие на функцию, например, размер грудной клетки в сантиметрах. В общем случае стохастическая связь между случайными величинами имеет место тогда, когда они имеют как общие, так и раз-

ные аргументы, например y = f (u,ε) и x =φ(u,γ ). Если влияние общего

аргументов будет нулевым, х и у будут независимы. Если влияние разных аргументов будет нулевым, связь х и у будет функциональной. Это есть два крайних положения, а между ними лежит бесконечное множество различных

по силе состояний стохастической связи. При этом изменение величин х и у будет складываться из двух составляющих:

-собственно стохастической под действием общего аргумента u;

-cлучайной составляющей под действием разных аргументов ε и γ.

Соотношение между этими составляющими может быть разным, в соответствии с этим стохастическая связь может быть сильной или слабой, что удобно иллюстрировать на графике. Сильная связь на графике дает плотную дорожку точек, т.е. облако их узкое и имеет выраженную направленность. В пределе эта ситуация сводится к линии, т.е. к функции. Слабая связь иллюстрируется рисунком 3 – облако размытое, ориентированность направления

σ−1

Рисунок 4 – Зависимость долговечности образцов жаропрочного сплава от напряжения

проявляется слабо. В пределе ситуация сводится к полной хаотичности в расположении точек – тогда зависимость между случайными величинами отсутствует.

Пример сильной стохастической связи иллюстрируется рисунком 4 (данные заимствованы из работы /6/).

Эта графическая зависимость выражается уравнением

у=1,158-0,116х+0,001х2.

Показатель функциональности этого уравнения равен 0,909 или 90,9%. Поскольку значение случайной величины при данных аргументах не

постоянно и полная его характеристика требует учета рассеивания относительно генерального среднего – математического ожидания (например, в виде доверительного интервала /4/), постольку стохастическую связь определяют как такую связь, при которой изменение одной величины вызывает из-

менение закона распределения другой.

Приведенные выше примеры показывают, что термины "сильная" и "слабая связь" требуют количественной оценки этой силы или слабости.

7.2 Показатели силы стохастической связи

Известное положение математической статистики гласит, что дисперсия суммы независимых величин равна сумме их дисперсий, т.е.

D{x+y}=Dx+Dy.

Поскольку дисперсия выражается уравнением Dz=M{(z-Mz)2}, можем записать

D{x+y}=M{[(x+y)-M{(x+y)}]2}.

Символ математического ожидания суммы разносится по составляющим этой суммы, поэтому

D{x+y}=M{(x+y –Mx -My)2}=M{[(x-Mx)+(y-My)]2}=-

M{(x-Mx)2+2(x-Mx)(y-My)+(y-My)2}=

M{(x-Mx)2}+2M{(x-Mx)(y-My)}+M{(y-My)2}=

Dx+ 2M{(x-Mx)(y-My)}+Dy.

(18)

По сравнению с исходным уравнением D{x+y}=Dx+Dy мы теперь другой результат - появляется дополнительное слагаемое, содержащее

2M{(x-Mx)(y-My)}. Очевидно, что величина 2M{(x-Mx)(y-My)} равна ну-

лю, если величины x и y независимы. При наличии связи между x и y, она принимает какое-то численное значение которое будет тем больше, чем сильнее связь между переменными.

Величина M{(x-Mx)(y-My)} является вторым смешанным центральным моментом и обозначается как

µ11{x, y}= M{(x −Mx)(y −My)}.

Она и является показателем силы стохастической связи. На практике же используют не сам показатель µ11{x, y} в исходном виде, а в виде его

безразмерной функции – коэффициента корреляции

ρ{x, y}= µ11{x, y}	,	(19)
σ σ
x y

где σ - среднеквадратичное отклонение.

Чтобы рассмотреть вопрос о свойствах коэффициента корреляции, необходимо предварительно разобрать вопрос о свойствах нормированных величин.

7.3 Нормирование исходных данных при решении задач регрессии. Свойства нормированных величин

Процедуру регрессионного анализа рекомендуют вести при нормиро- вано-центрированой форме факторов x /1,2/, которую чаще называют просто нормированой или стандартной. С этим понятием мы уже встречались при построении интервальной оценки для Мх (см. уравнения (13) и (14). В свое время нормирование было введено Гауссом, т. к. свойства нормированоцентрированых величин позволяют упростить ручные расчеты. С появлением вычислительной техники это обстоятельство потеряло свое значение. В настоящее время эту форму величин используют тогда, когда она позволяет проконтролировать правильность промежуточных расчетов, что имеет место и при выполнении процедуры регрессионного анализа.

Разность между текущим значением случайной величины z и её средним (генеральным или выборочным), т.е. величину (z-Mz), называют центрированной случайной величиной, поскольку она интерпретирует текущее значение как отрезок от центра (среднего значения), который лежит либо слева от центра (отрицательные значения ), либо справа – в области положительных значений. Для обработки данных важны следующие свойства центрированных величин.

Первое (нулевое) свойство: сумма центрированных величин по их совокупности (выборке) равна нулю. Это свойство очевидно, т.к. центри-

рование делит массив данных на две равные части с противоположными знаками.

Второе (минимальное) свойство : сумма квадратов отклонений те-

кущих значений случайной величины от их среднего меньше, чем сумма квадратов отклонений от любого другого числа, в том числе от моды и медианы.

Докажем это свойство. Пусть сумма квадратов отклонений Sotkl от некоторого числа с

n		−c)2	=min .
Sotkl = ∑ (z	i	−c)2	=min .	(20)
i=1	i
i=1

Требуется определить значение с, при котором функция Sotkl обращается в минимум. Решением является корень уравнения

∂Sotkl =0,

∂c

при условии, что вторая производная имеет положительное значение. Дифференцируя уравнение (20), получаем:

	n
	-2 ∑ (zi	−c)=0 ,
	i=1
n	n		∑z	=zsr , где последняя вели-
откуда ∑ zi	= ∑c, или ∑z=n c, т.е. c=		n	=zsr , где последняя вели-
i=1	i=1

чина означает среднее значение z. Это означает min исследуемой функции именно для условия c=zsr . В то же время

∂ 2c		∂ [		]	n
∂c2	=		−2∑(z−c) =2		∑1=2 n>0,
	=	∂c	−2∑(z−c) =2		∑1=2 n>0,
		∂c		i	=
				i	1

что доказывает второе свойство.

Условие (20) называют требованием наименьших квадратов, которое и используется в процедуре регрессионного анализа.

Разделим центрированную величину (zi −Mz)на среднеквадратичное

отклонение σ исходной величины z. Такая операция называется нормированием, т.к. среднеквадратичное отклонение здесь выступает как мера или

норма измерения величины (zi −Mz). Полученная величина Zn называется нормированной:

Zn	=	zi −Mz	,
		σ
i

а суммарная операция центрирования и нормирования называется стандартизацией масштаба величины z.

Физический смысл переменной Zn заключается в том, что показывает, на какое число величин σ отклоняется данное значение zi от своего генерального (или выборочного) среднего. Таким образом, для нормированной

величины начало отсчёта производится от					среднего значения zsr , а измере-
ние её – в новых единицах «σ ».
При обработке экспериментальных данных нормирование переменных
производят по формуле
	Zn=	Zi −zsr		,	(21)

		dz

		n			2
		∑	z −zsr
где	dz =	i=1	i			.
			n

Для обработки экспериментальных данных важны два свойства нормированных величин: сумма их по массиву равна нулю в силу первого свойства центрированной величины; сумма квадратов нормированных величин равна их количеству в массиве.

Действительно, обозначая нормировано-центрированые факторы х как xn, для вектора размерности n будем иметь

−xsr 2

∑xn

=∑

∑(x

−xsr)

∑(x

−xsr)2 = n .

∑

−xsr)2

Таким образом, ∑ xn равна нулю, а ∑ xn2 равна п. Тогда, дисперсия нормировано-центрированой формы случайной величины равна

σ2 = ∑(xn−Mxn)2 , n

а поскольку Mxn =0, а ∑ xn2 равна п, то дисперсия нормированной слу-

чайной величины равна единице

σ2	{ }	=1.
	xn		(22)

8 Лекция 8. Коэффициент корреляции – свойства и область действия

8.1 Корреляция и коэффициент корреляции. Диапазон значений

Наличие зависимости между х и у немедленно вытекает из неравенства

M{(x-Mx)(y-My)}≠0.

Однако, обратное утверждение несправедливо и из равенства

M{(x-Mx)(y-My)}=0

делать вывод о независимости величин х и у нельзя. Это значит, что на дисперсии суммы слагаемых сказывается не всякая стохастическая связь между этими величинами (ниже мы покажем это на конкретном примере). Может

быть и так, что D{x+y}≠Dx+Dy, но это неравенство обуславливается только частью связи между х и у. Вот эта часть стохастической связи между х и у, которая вызывает отличие D{x+y} от Dx+Dy, называется корреляцией. Необходимым и достаточным условием корреляции служит неравенство

M{(x-Mx)(y-My)}≠0 и поэтому величину M{(x-Mx)(y-My)} называют

корреляционным моментом. Однако эта характеристика силы стохастической связи имеет некоторую неопределенность, т.к. ее значение зависит от от

единиц измерения величин х и у. Поэтому-то на практике и используют безразмерную величину – коэффициент корреляции

ρ{x, y}= µ11{x, y} .

σxσ y

Представим выражение (18) в виде

D{x + y}= Dx +Dy + 2M{(x−Mx)(y−My)}σxσy .

σxσ y

Тогда

D{x + y}= Dx +Dy +2ρσxσy ,

где ρ - коэффициент корреляции.

Из свойств коэффициента корреляции (которые мы опишем ниже) вытекает, что при переходе к нормированной форме величин, значение коэффициента корреляции не изменяется. Поскольку дисперсии нормированных ве - личин равны единице, то при при переходе к нормированной форме величин

получаем

D{xn + yn}=1+1+2ρ .

Можно показать, что

<<< < Предыдущая 1 2 34 / 164 5 6 7 8 9 10 11 12 13 14 15 16 > Следующая >>>

Соседние файлы в папке Обработка данных

#
13.02.2016822.98 Кб41ElemTreat.pdf
#
13.02.20161.05 Mб63excel_zadaci.pdf
#
13.02.20161.53 Mб66[Romanov_V.N.,_Komarov_V.V.]_Teoriya_izmereny._Ana(BookFi.org).pdf
#
13.02.2016991.46 Кб79[SHashkov_V.B.]_Obrabotka_yeksperimentalnueh_dannu(BookFi.org).pdf
#
13.02.20161.01 Mб114Обработка эксперимент данных.doc