Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Обработка данных / [SHashkov_V.B.]_Obrabotka_yeksperimentalnueh_dannu(BookFi.org)

.pdf
Скачиваний:
63
Добавлен:
13.02.2016
Размер:
991.46 Кб
Скачать

метры распределения М{х} и σ. Если же они не известны, то приходится

использовать их выборочные оценки xsr и s. Тогда для крайнего элемента рабочей статистикой будет условие

tраб= х-хsr /s,

которое называется максимальным относительным отклонением и подчиняется распределению Стьюдента. Крайнее значение отбрасывается как грубо ошибочное при условии

х-хsr /s>t1-p

где t1-p есть квантиль распределения Стьюдента при данном объеме выборки.

После исключения аномального значения из вариационного ряда статистические характеристики данной выборки пересчитываются для нового объема и новый крайний элемент может быть подвергнут новой проверке. Поскольку при использовании выборочных оценок возникает их смещение относительно оцениваемой величины, в рабочую статистику должна быть введена поправка

tраб= х-хsr /(s n n1 ).

В работе /5/ показано, что границы критической зоны τр (где р- процентная точка нормированного выборочного отклонения) выражаются через квантили этой точки распределения Стьюдента tр,n-2 по соотношению

τ p,n

=

 

t p,n2

 

n1

 

 

 

 

 

 

 

 

 

 

 

(72)

 

 

 

 

 

 

 

(n2)+(t

p,n2

)2

 

 

 

 

 

 

 

 

 

 

 

 

С учетом этого уравнения для выборок большого объема (при n больше 25) рекомендуют /5/ следующую процедуру отсева аномальных данных:

-выбирают значение xi c максимальным отклонением от среднего;

-вычисляют значение рабочей статистики

tраб= х-хsr /(s n n1 );

-по таблице t- распределения находят точки t0,05;n-2 и t0,001;n-2;

-по уравнению (72) находят критические границы τ0,05;n и τ0,001;n. Эти точки ограничивают три зоны:

-левую до границы t0,05;n-2;

81

-среднюю между границами t0,05;n-2 и t0,001;n-2;

-правую от границы t0,001;n-2.

Если значение рабочей статистики попадает в левую зону, крайнее значение не является аномальным. Если оно в средней зоне, то необходим профессиональный анализ ситуации и выработка дополнительных аргументов в

пользу того или иного решения. Если tраб в правой зоне, крайнее значение безусловно отбрасывается.

16.2 Приведение распределения исследуемой величины кнормаль-

ному

Предпосылки (условия) процедуры регрессионного анализа содержат требования нормального распределения отклика объекта исследования на данной строке таблицы экспериментальных данных. Нарушение этого условия затрудняет проведение второй части процедуры, т.к. делает невозмож-

ным использование параметров распределений, связанных с нормальным: u-

и t- распределений, F-распределения Фишера и χ2 распределения Пирсона. Нельзя пользоваться квантилями этих распределений, нельзя строить интервальные оценки с их помощью и, соответственно, нельзя проверять гипотезы об адекватности уравнений регрессии истинной математической модели.

Обзор методов “экспрессной” проверки нормальности распределения данной выборки дан в работе /5/. Для небольших выборок (менее 120 элементов) рекомендуется использовать значение среднего абсолютного отклонения

х=(xi-xsr)/n.

Для выборки, имеющей приближенно нормальное распределение, справедливо условие

xi/s – 0,7979 <0,4/ n .

Для класса выборок 3<n<1000 используется значение размаха варьиро-

вания xmax-xmin . Для нормального распределения отношение этой величины к среднеквадратичному выборочному отклонению должно лежать в определенных границах, зависящих от объема выборки и доверительной вероятности. Значение нижних и верхних границ табулированы (см. приложение 6 в работе /5/).

Проверка нормальности распределения может быть проведена по пока-

зателям асимметрии As=µ3/σ3 и эксцесса Ek=(µ4/σ4)-3 (где µ- центральные моменты третьего и четвертого порядка). Для проверки используются несмещенные оценки этих показателей /5/

82

 

A

=

 

n(n1)

 

A

,

 

 

 

 

 

 

 

 

 

 

 

ns

 

 

 

n2

 

s

 

 

 

 

 

 

 

 

 

 

 

 

E =

 

n1

 

(n+1)E

k

+6 .

 

 

 

 

 

 

 

 

 

 

nk

 

 

 

 

[

 

 

 

]

 

(n2)(n3)

 

 

 

 

 

Для приближенно нормального распределения эти показатели должны быть близки к нулю.

Описанные методы используются для быстрой “прикидочной” оценки нормальности распределения. Если такой оценки недостаточно, проводят проверку гипотезы о нормальности закона распределения с использованием критерия согласия Пирсона. Практическая реализация этого метода описана в /1,2/.

Если проверка нормальности распределения дала отрицательные результаты, следует преобразовать исходные данные таким образом, чтобы их распределение стало нормальным. Такие преобразования проводят, руководствуясь видом эмпирических полигонов и гистограмм частот распределения изучаемой случайной величины.

Существуют, например, так называемые логарифмические нормальные распределения. Особенностью таких распределений является крутая левая ветвь полигона и пологая правая. Логарифмические распределения играют большую роль в математической статистике, так как очень часто встречаются в практике обработки экспериментальных данных и легко преобразуются к нормальному виду путем логарифмирования исходных данных. При логарифмировании левая ветвь кривой эмпирического распределения сильно растягивается и распределение становится приближенно нормальным. Таким

образом, исследователь переходит к новой переменной z=ln x. Если при этом встречаются значения между нулем и единицей, то все вновь полученые значения для удобства расчетов и во избежание отрицательных значений

следует преобразовать по уравнению типа z=10K ln х, где “к” – соответствующая константа.

Асимметричные распределения с одной вершиной часто приводятся к нормальному виду за счет преобразования вида z=ln( x+к). В отдельных

случаях возможны и другие преобразования типа z=1/ x или z=1/ х. Для нормализации смещенного вправо распределения используют тригонометрические преобразования или степенные функции типа z= xк. При умеренном правом смещении значение “к” принимают до 1,5, а при сильном - до двух.

После завершения всей процедуры обработки данных для получения окончательного результата следует выполнить обратные преобразования приведения данных к исходному виду.

83

17 Лекция 17. Эмпирические формулы для нелинейной парной связи, получаемые методом линеаризации исходных уравнений

17.1 Линеаризация и построение функциональных шкал

Известные МНК-оценки для коэффициентов линейной регрессии (52) и

(53)

 

n

y

 

b x

 

 

 

n

x y

 

−∑x y

 

 

g

 

 

 

n

g

g

b =

g =1

 

1

и

b

=

g =1

 

 

 

 

 

 

n x2 (x)2

 

0

 

 

 

n

 

1

 

 

могут быть использованы и для построения уравнений нелинейной парной регрессии. Для этого искомую нелинейную зависимость нужно привести к линейному виду (если это возможно). Такие преобразования называются ме -

тодом выравнивания или методом линеаризации функций.

 

Рассмотрим, например, нелинейную зависимость вида

 

f(y)=b0+b1ϕ(x),

(73)

где b0 и b1 -постоянные,

 

f(y) и ϕ(x)-строго монотонные функции.

 

На плоскости 0ху функция (73) изображается некоторой кривой. Вве-

дем новые переменные Х=ϕ(x) и У= f(y), которые преобразуют зависимость (73) в уравнение

У=b0+b1 Х,

(74)

в силу чего точки графика Ni(Xi,Yi) на новой координатной плоскости 0ХУ будут располагаться на прямой линии. Справедливо и обратное положение:

если при построении на плоскости 0ХУ обнаружится, что точки Ni практически лежат на прямой линии, то между переменными х и у имеет место нелинейная зависимость (73).

Построение линеаризующих координатных плоскостей 0ХУ проводят с использованием так называемых функциональных шкал.

Принципы построения функциональных шкал рассмотрим на конкретном примере. Проследим изменение нелинейной функции у=х2 на отрезке [1,2]. Разобьем отрезок на десять частей и вычислим значение функции во всех точках деления. Соответствующие данные представлены в таблице 11.

84

Таблица 11Значения функции в точках деления

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

точки

1

2

3

4

5

6

7

 

8

 

9

10

11

Вели-

 

 

чина

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Х

1,00

1,10

1,20

1,30

1,40

1,50

1,60

 

1,70

 

1,80

1,90

2,00

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

У

1,00

1,21

1,44

1,69

1,96

2,25

2,56

 

2,89

 

3,24

3,61

4,00

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

х2-1

0,00

0,21

0,44

0,69

0,96

1,25

1,56

 

1,89

 

2,24

2,61

3,00

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

µ

2

-1)

0,00

0,84

1,76

2,76

3,84

5,00

6,24

 

7,56

 

8,96

10,44

12,00

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Для того, чтобы нанести расчетные данные таблицы 11 на шкалу в грани-

цах отрезка Хк=2 и Хн=1, определим масштаб шкалы µ.

Последний будет

связан с длиной шкалы L соотношением µ [ X k2

X н2 ] = µ [22-12], что

при L = 12 даст µ = 4. Поскольку шкала начинается со значения функции, равного единице, то в точках деления шкалы следует откладывать величины

4(х2-1) - см. таблицу 11.

Данные таблицы 11 перенесем на чертеж, представленный на рисунке 5. Здесь против конца i-го отрезка деления шкалы поставлено i-ое значение аргумента х (нижний ряд цифр).

Такие шкалы называют функциональными, так как они графически демонстрируют поведение функции на рассматриваемом отрезке.

Теперь дополним полученную шкалу верхним рядом чиселравномерной шкалой значений функции на отрезке [1,2]. На этой двойной шкале теперь можно находить значения функции х2. Для этого следует найти

1,0

1,3

1,6

1,9

2,2

 

2,5

2,8

3,1

3,4

3,7

4,0

 

 

. •

 

 

1,0 1,1

1,2

1,3

1,4

 

1,5

1,6

1,7

 

1,8

1,9

2,0

Рисунок 5 - Шкала значений х во второй степени

85

значение аргумента х на нижней шкале и прочесть соответствующее значение этой точки на верхней шкале. Если же х определить сперва на верхней

шкале, то соответствующее значение на нижней даст значение x при значениях х в диапазоне от 1 до 4.

Функциональные шкалы нашли широкое применение при обработке экспериментальных данных благодаря тому, что графики многих функций

путем специального подбора функциональных шкал могут быть преобра-

зованы к прямолинейному виду. После этого коэффициенты “псевдолинейной ” регрессии могут быть определены по соотношениям (52) и (53).

Упражнение к разделу. Прологарифмируем показательную функцию х=10У. Для полученной после этого функции

у=lgx

(75)

построить функциональную шкалу на участке [1,10] при масштабе 25.

 

17.2 Функциональные сетки и их применение

 

Рассмотрим уравнение

 

у=0,6 х2+ 20

(76)

На вертикальной оси графика построим обычную равномерную шкалу значений функции, а на горизонтальной - функциональную шкалу квадратов на отрезке [0,10]. Тогда для µ[ X k2 X н2 ] = µ [100-0]=12 см масштаб µ

будет равен 0,12. Построенная таким образом координатная сетка представлена на рисунке 6. Построение такой сетки эквивалентно замене переменных х2=р. В новых координатах уравнение (74) примет вид

у=0.6 р+20

(77)

и график этой функции на рисунке 6 будет представлен прямой линией. Координатные сетки, построенные с помощью функциональных шкал,

называют функциональными сетками.

Для построения новых координат особенно часто используют логарифмические шкалы, с помощью которых можно линеаризовать графики степенных и показательных функций. Если из двух осей и одна является логарифмической, а другая равномерной, сетка называется полулогарифмической, если обе оси логарифмическието и сетка называется логарифмической. Такие сетки выпускаются на стандартной логарифмической и полулогарифмической бумаге.

86

У100

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

и я

90

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

к ц

80

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

у н

70

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Ф

60

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

50

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

40

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

30

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

20

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

10

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

10

 

 

 

20

30

40

50

60

70

 

 

80

 

90

 

0

 

 

 

 

 

 

 

 

 

 

 

 

! !

!

 

!

 

 

!

 

!

!

!

 

 

 

!

 

 

 

 

 

 

 

 

 

 

 

 

0

2

3

4

5

 

6

7

8

 

9

10

А р г у ме н т Х

Рисунок 6 - Функциональная сетка х2 Упражнение к разделу. Построить координатную полулогарифмиче-

скую сетку для функции (74) на участке [1,10]. Горизонтальная шкала - логарифмическая, вертикальная (значение функции)- обычная равномерная. Для сравнения постройте обычный график с равномерными осями х и у.

Если экспериментальные данные, нанесенные на координатную сетку, образуют криволинейный график, то по ограниченному графиком участку трудно обычно судить, каким уравнением отражать эту кривую.

Переведя экспериментальные данные на ту или иную заранее заготовленную функциональную бумагу, исследователь может судить, на какой из них данные располагаются ближе всего к прямойэто и будет наиболее подходящая линеаризованная зависимость. Выбрав таким образом вид уравнения, находим для ее линеаризованной формы коэффициенты линейной регрессии по МНКоценкам (52) и (53). После этого изучаются показатели качества построенного уравнения, например, по остаточной дисперсии уравнения. Если эти результаты приемлемы - линеаризованное уравнение преобразуется к исходному нелинейному виду.

87

17.3 Получение уравнений нелинейной парной регрессии методом перебора

С развитием методов обработки экспериментальных данных на ЭВМ применение функциональных координатных сеток потеряло свое прикладное значение. Прикладное, но не теоретическое, поскольку метод функциональных шкал и сеток способствует глубокому пониманию сущности линеаризации. Современные же методы выбора оптимальной формы уравнения регрессии основаны на формальном переборе всех охваченных данной компьютерной программой вариантов. Используя возможности ЭВМ, вместо применения сеток проще перебрать наиболее употребительные парные линеаризованные функции, найти таким образом группу альтернативных уравнений и выбрать из них наиболее подходящее. Сравнение уравнений производят либо по коэффициенту корреляции табличного и расчетного значения у для линеаризованной формы уравнения, либо по величине остаточной дисперсии разных уравнений. Однако, нужно помнить, что для такого сравнения различие между величинами должно быть статистически значимым.

При этом рекомендуется в качестве одного из альтернативных вариантов рассмотреть и алгебраический полином третьей - пятой степени, полученный методом классического регрессионного анализа.

17.4 Задания по теме и порядок их выполнения

1)На практических занятиях в порядке выполнения контрольной работы линеаризовать следующие парные зависимости:

1) y=b0 + b1 x2

2) y=b1 x +b2 x2

3)

y=b0 + b1/x

4)

y=b0 b1x

5)

y=1/(b0 + b1 x)

6)

y=x/ (b0 + b1 x)

7)

y= b0

+ b1 xn

8)

y= b0 + b1 ln(x)

9)

y= b0

+ b1 lg(x)

10)

y=b0 /( b1 +x)

11)

y=b0 exp(b1 x)

12)

y=b0 exp(b1/x)

13) y=1/(b0+b1 exp(-x))

14) y=b0 10b1 x

15)

y=b0

x b1

16)

y=b0 x/(b1+x)

2) Задачи, приведенные ниже, выполняются в виде домашних индивидуальных заданий. По указанию преподавателя студент для условий одной из задач находит ряд альтернативных уравнения согласно предыдущему разделу 1 и показатели качества этих уравнений. Затем на практических занятиях из всех совместных решений нескольких расчетчиков для данной задачи выбирается наилучшее решение.

88

Задача 1. Переменные: х- год; у - население земного шара в млрд.

g

x

y

 

G

x

y

 

 

 

 

 

 

 

1

1000

0.27

 

7

1900

1.62

 

 

 

 

 

 

 

2

1300

0.37

 

8

1950

2.48

 

 

 

 

 

 

 

3

1500

0.45

 

9

1975

4.00

 

 

 

 

 

 

 

4

1600

0.51

 

10

1995

5.2

 

 

 

 

 

 

 

5

1700

0.65

 

11

2000

6.10

 

 

 

 

 

 

 

6

1800

0.91

 

 

 

 

 

 

 

 

 

 

 

Задача 2. Переменные: х- превышение температуры твердого тела над температурой окружающей среды, град С0; у -скорость охлаждения тела, град/мин.

х

220

200

180

160

140

120

100

у

8,81

7,40

6,10

4,89

3,88

3,02

2,30

Задача 3. Переменные: х - масса студента 3-го курса, кг;

у - рост, см.

 

 

 

 

 

 

 

 

 

 

g

x

y

 

G

x

Y

 

 

 

 

 

 

 

 

 

 

1

72

183

 

10

79

177

 

 

 

 

 

 

 

 

 

 

 

2

83

176

 

11

84

176

 

 

 

 

 

 

 

 

 

 

 

3

68

178

 

12

80

179

 

 

 

 

 

 

 

 

 

 

 

4

83

180

 

13

65

167

 

 

 

 

 

 

 

 

 

 

 

5

71

184

 

14

62

166

 

 

 

 

 

 

 

 

 

 

 

6

70

174

 

15

68

170

 

 

 

 

 

 

 

 

 

 

 

7

85

189

 

16

70

177

 

 

 

 

 

 

 

 

 

 

 

8

60

167

 

17

71

174

 

 

 

 

 

 

 

 

 

 

 

9

74

178

 

18

76

176

 

 

 

 

 

 

 

 

 

 

89

9

Задача 3а. В предыдущей задаче в таблице поменяйте местами х и у.

Задача 4. Переменные: х - масса живого существа, кг; у -интенсивность энергообмена в организме, ккал/кг.

Существо

х

у

Морск. свинка

0.7

223

Собака

2

58

Студент

70

33

Лошадь

600

22

Слон

4000

13

Кит

150000

1,7

Задача 5. Переменные: х - скорость судна в узлах ; у - необходимая для обеспечения этой скорости мощность двигателя в лошадиных силах.

Х

5

6

7

8

9

11

12

У

290

426

560

848

1144

1810

2300

Задача 6. Переменные: х - температура подшипника,С0; у - коэф. трения.

Х

 

 

60

70

80

90

100

110

120

 

-4

148

124

102

85

71

59

51

у

10

 

 

 

 

 

 

 

90