Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Белокопытов Стат. методы

.pdf
Скачиваний:
138
Добавлен:
27.02.2016
Размер:
1.17 Mб
Скачать

9.Требуется ли корректировка уровня значимости при односторонней проверке с использованием критериев нормального распределения или Стьюдента?

10.По какому критерию осуществляют проверку дисперсий?

11.Может ли значение критерия Фишера быть меньше единицы?

12.Степень свободы какой дисперсии (большей или меньшей по величине) принимается за первую при нахождении значения критерия Фишера?

13.Требуется ли корректировка уровня значимости при односторонней проверке с использованием критерия Фишера?

14.Какая проверка всегда должна предшествовать проверке различия средних арифметических в двух выборках?

15.В каком случае проверка выборочных средних имеет смысл?

16.Чему равно число степеней свободы при нахождении табличного значения критерия Стьюдента при проверке различия средних арифметических?

17.С использованием какого критерия строят интервальную оценку в ситуации, когда дисперсия генеральной совокупности известна?

18.С использованием какого критерия строят интервальную оценку в ситуации, когда дисперсия генеральной совокупности неизвестна?

19.Какому распределению подчиняется число дефектных изделий в выборке, взятой из генеральной совокупности, с определенной долей дефектных изделий?

20.В чем заключается принципиальное отличие биномиального распределения от нормального?

21.В каких случаях биномиальное распределение приближается к нормальному?

22.Чему равно среднее значение в биномиальном распределении?

23.Чему равно среднее квадратическое отклонение в биномиальном распределении?

30

3.КОРРЕЛЯЦИОННЫЙ

ИРЕГРЕССИОННЫЙ АНАЛИЗ

Основными задачами корреляционного и регрессионного анализа являются установление наличия статистической связи между изучаемыми переменными величинами и определение формы этой связи.

3.1. Корреляционный анализ

На заводах и в лабораториях приходится часто проводить экспериментальное изучение зависимостей между случайными величинами x и y. Для этого производят некоторое количество n независимых опытов. Результат i-го опыта дает пару значений ( xi , yi ), i = 1, 2, 3,…, n.

Когда непрерывным изменениям измеряемой величины x в некоторых характеристиках сопутствуют непрерывные изменения другой величины y, то утверждают, что между x и y имеется корреляция.

Метод, изучающий корреляционную зависимость между несколькими переменными величинами, называют корреляционным анализом.

О наличии или отсутствии корреляции между двумя величинами можно судить по виду поля корреляции, нанося точки (xi, yi) на координатную плоскость. Такуюфигуруназываюткорреляционнойдиаграммой(рис. 3.1).

Рис. 3.1. Корреляционная диаграмма

Если провести прямые линии, параллельные оси абсцисс и оси ординат через точки ( x, y ), то плоскость рисунка, на которой разбросаны точки,

окажется разделенной на четыре части.

31

Корреляционная диаграмма показывает, что точки, расположенные в секторе I, будут превышать средние значения, а точки, расположенные в секторе III, окажутся меньше средних значений:

I.(xi x) 0, ( yi y) 0.

III. (xi x) 0, ( yi y) 0,

(xi x)( yi y) 0 .

Вобоих секторах при увеличении x увеличивается и y, или при уве-

личении y увеличивается x. В свою очередь, сумма произведений отклоне-

ний, называемая корреляционным соотношением, (xi x)( yi y) в сек-

торах I и III 0, а в секторах II и IV 0.

По корреляционному соотношению можно приблизительно понять степень корреляции, ибо если эта сумма составит значительную положительную величину, то это будет положительной корреляцией, если же она составит значительную отрицательную величину, – отрицательной корреляцией. Вместе с тем если рассчитывать степень корреляции только по сумме произведений, то нужно учесть, что она изменяется в зависимости от рассеивания значений x и y. Поэтому в качестве критерия корреляции принимают сумму произведений, деленную на произведение корней квадратных из суммы квадратов каждого из отклонений x и y, что и называют

коэффициентом корреляции:

r0

 

xi x yi y

xi x 2 yi y 2

 

 

 

 

 

хi yi xi yi

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

. (3.1)

 

 

x

2

 

y

 

2

 

 

 

2

 

 

 

 

xi

i

yi2

n

i

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Обозначая сумму квадратов х, сумму квадратов y, а также сумму произведений x и y, соответственно, через Sxx, Syy, Sxy, то r можно выразить следующей формулой:

ro

Sxy

.

(3.2)

SxxS yy

 

 

 

Коэффициент корреляции занимает промежуточное значение между –1 и +1. Причем если вслед за увеличением x увеличивается и y, то коэффициент корреляции становится положительным, а если вслед за увеличением x уменьшается y, то он становится отрицательным. Поэтому при приближении r к единице корреляция вполне вероятна, тогда как при приближении r к нулю она маловероятна. Поскольку r представляет собой стати-

32

стическую величину, вычисленную на основании опытных данных, то необходимо проверить значимость коэффициента корреляции.

Оценку значимости коэффициента парной корреляции (проверку наличия корреляции) выполняют по формуле

to r

n 2 .

(3.3)

 

1 r 2

 

Подставив в формулу (3.3) значение tф, , получают предельное значение rф, , с которым сравнивают r0. При условии r0 rф, принима-

ется решение о наличии взаимосвязи. Поскольку для вычисления r используют два расчетных значения x, y , то число степеней свободы Ф = n – 2.

3.2. Регрессионный анализ

Для характеристики формы связи при изучении корреляционной зависимости пользуются уравнением регрессии. Задача ставится таким образом: по данной выборке объема n найти уравнение регрессии и оценить допускаемую при этом ошибку. Для простоты и более легкого освоения методики регрессионного анализа предположим (на первых порах), что при проведении парного линейного регрессионного анализа имеем дело только с уравнением прямой линии.

Уравнение прямой на плоскости в декартовых координатах имеет

вид

y b

b x .

(3.4)

0

1

 

Для определения линии регрессии необходимо непременно статистически оценить коэффициент регрессии b1 и постоянное число b0.

Для этого должны быть удовлетворены два следующих условия:

1.Линия регрессии должна проходить через точку с координатами ( x; y ) средних значений x и y.

2.Сумма квадратов отклонений от линии регрессии вдоль оси y должна быть наименьшей:

U yi yi 2 min (наименьшее значение).

(3.5)

33

Если в эту формулу подставим значение yi , то получим

 

U yi b0 b1x 2 min .

(3.6)

Чтобы решить данную задачу, следует в каждом конкретном случае рассчитать значение коэффициентов b0 и b1, минимизирующих сумму отклонений U. Для этого, как известно из математического анализа, необходимо вычислить частные производные функции U по коэффициентам b0 и b1 и приравнять их к нулю:

Ub1Ub1

U 0,b0

U 0;b

1

2 yi b0 b1xi 1 0,

2 yi b0 b1xi xi 0.

(3.7)

(3.8)

Следовательно, прямая линия регрессии определяется следующими формулами:

yi nb0

b1 xi

y b0 b1x,

(3.9)

x

y

i

b

x

i

b

x2 .

 

(3.10)

i

 

0

 

1

i

 

 

Если выражение b0 y b1x из формулы (3.9)

b0 y b1x

подста-

вить в формулу (3.10), то получим

 

 

 

 

 

 

 

x y

y b x

x

b

x2

y x

i

b

x 2

x x

.

 

(3.11)

 

i i

 

1

 

i

 

 

1

i

 

 

 

 

1

 

 

 

i

 

 

 

 

i

 

 

 

Отсюда выразим b1:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xi yi y xi

 

 

xi

yi

xi yi

 

xi yi

 

xi yi

 

 

Sxy

 

 

 

 

 

 

 

 

 

 

 

 

b1

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

n

 

 

 

 

;

(3.12)

x2

x x

 

 

2

 

 

xi xi

 

 

 

 

 

 

x

2

Sxx

 

i

i

 

 

xi

 

 

 

 

 

 

 

 

 

x2

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

34

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

b0 y b1x .

(3.13)

Для проверки на адекватность уравнения регрессии экспериментальным данным используют F-критерий. Для этого находят общую 2y и оста-

точную ост2 дисперсии:

 

1

 

 

 

1

 

 

 

2

 

 

 

2y

 

yi y 2

 

 

yi2

 

yi

 

,

(3.14)

n 1

n 1

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ост2 =

 

1

yi yi 2 ,

(3.15)

n

2

 

 

 

 

а затем определяют их отношение

 

 

 

 

 

F 2

/ 2 .

(3.16)

 

0

y

ост

 

Если F0 Fn 1,n 2, , то уравнение адекватно описывает результаты

экспериментов.

П р и м е р 3.1. По данным табл. 3.1 рассчитать коэффициент корреляции между твердостью y и степенью деформации x. При наличии взаимосвязи получить уравнение регрессии и проверить его адекватность экспериментальным результатам.

Таблица 3.1

Исходные данные для примера парного корреляционного и регрессионного анализа

№ п/п

x

y

x2

y2

xy

yi

yi yi

yi yi 2

1

0,20

64

0,0400

4096

12,80

64,5

–0,5

0,250

2

0,19

65

0,0361

4225

12,35

63,9

1,1

1,210

3

0,28

69

0,0784

4761

19,32

69,1

–0,1

0,010

4

0,26

69

0,0676

4761

17,94

68,0

1,0

1,000

5

0,23

66

0,0529

4356

15,18

66,2

–0,2

0,040

6

0,21

65

0,0441

4225

13,65

65,1

–0,1

0,010

7

0,24

67

0,0576

4489

16,08

66,8

0,2

0,040

8

0,26

67

0,0676

4489

17,42

68,0

–1,0

1,000

9

0,28

70

0,0784

4900

19,60

69,1

0,9

0,810

35

Окончание табл. 3.1

№ п/п

x

y

x2

y2

xy

yi

yi yi

yi yi 2

10

0,25

68

0,0625

4624

17,00

67,4

0,6

0,360

11

0,25

67

0,0625

4489

16,75

67,4

–0,4

0,160

 

 

 

 

 

 

 

 

 

12

0,22

66

0,0484

4356

14,52

65,7

0,3

0,090

13

0,18

63

0,0324

3969

11,34

63,3

–0,3

0,090

 

 

 

 

 

 

 

 

 

14

0,26

68

0,0676

4624

17,68

68,0

0

0,000

15

0,17

62

0,0289

3844

10,54

62,7

–0,7

0,490

16

0,30

70

0,0900

4900

21,00

70,3

–0,3

0,090

 

 

 

 

 

 

 

 

 

17

0,19

64

0,0361

4096

12,16

63,9

0,1

0,010

18

0,25

68

0,0625

4624

17,00

67,4

0,6

0,360

 

 

 

 

 

 

 

 

 

19

0,29

69

0,0841

4761

20,01

69,7

–0,7

0,490

 

 

 

 

 

 

 

 

 

20

0,27

68

0,0729

4624

18,36

68,6

–0,6

0,360

 

4,78

1335

1,1706

89213

320,7

 

 

5,429

 

 

 

 

 

 

 

 

 

Р е ш е н и е 1. Определяют коэффициент корреляции:

Sxx x

2

 

x 2

1,1706

4,782

0,0282,

 

 

 

 

 

 

n

 

 

 

 

20

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S yy

y

2

 

 

 

y 2

 

89213

13352

101,75

,

 

 

 

 

 

n

 

 

 

 

20

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Sxy

xy

 

x y 320,7

4,78 1335

1,6350.

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

20

 

 

Тогда коэффициент корреляции (3.2)

 

 

 

 

 

 

 

 

 

 

 

r0

 

 

 

1,635

 

 

 

 

0,965.

 

 

 

 

 

0,0282 101,75

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2. Проводят проверку коэффициента корреляции. Для этого выбира-

ют уровень значимости = 0,01 и определяют число степеней свободы Ф = n – 2 = 20 – 2 = 18.

36

По табл. 4 (см. прил.) находят rф r18;0,01 0,561. Поскольку r0 0,965 > rф , то r обладает высокой степенью значимости.

3. Рассчитывают коэффициенты уравнения регрессии. По выраже-

нию (3.12)

b1 01,,0282635 58,11.

Для определения по формуле (3.13) b0 ние x, y :

x

xi

 

4,78

0,239,

y

yi

 

n

 

20

 

 

n

 

b0

66 ,75 58 ,11 0,239

необходимо вычислить сред-

133520 66,75;

52 ,87 .

Тогда уравнение регрессии будет иметь вид y 52,87 58,11xi .

4. Определяют адекватность уравнения экспериментальным данным:

y1 52,87 58,11x1 52,87 58,11 0,20 64,49 ,

…………………………………………………

y20 52,87 58,11x20 52,87 58,11 0,27 68,55.

Исходя из зависимостей (3.14), (3.15) и (3.16)

2

 

101,8

5,36,

2

 

5,429

0,3,

F

5,36

17,85.

y

19

 

ост

18

 

0

0,3

 

 

 

 

 

 

 

5. Вывод. Так как F0 = 17,85 Fn 1;n 2;0,05 2,2 , то следует признать,

что уравнение адекватно описывает экспериментальные результаты.

В данной главе рассмотрен простой корреляционный анализ, т. к.

изучалось взаимодействие только двух переменных величин. Когда же одновременно подвергают исследованию более трех переменных величин, то такой анализ называют сложным корреляционным анализом.

Задание

Используя данные табл. 3.2, рассчитайте коэффициент корреляции между входной h0 x и выходной h1 y толщиной при прокатке. При на-

личии взаимосвязи определите уравнение регрессии и его адекватность экспериментальным результатам.

37

Таблица 3.2

Исходные данные для парного корреляционного и регрессионного анализа

№ опыта

x

y

№ опыта

x

y

1

0,71

0,46

11

0,90

0,55

2

0,78

0,50

12

0,85

0,53

3

0,84

0,52

13

0,81

0,50

4

0,92

0,56

14

0,80

0,48

5

0,87

0,54

15

0,78

0,50

6

0,85

0,52

16

0,84

0,53

7

0,86

0,51

17

0,82

0,52

8

0,91

0,54

18

0,85

0,54

9

0,93

0,57

19

0,82

0,53

10

0,93

0,59

20

0,90

0,54

Из таблицы исключите опыт, порядковый номер которого соответствует сумме двух последних цифр из номера зачетной книжки.

Вопросы для самоконтроля

1.В каком случае положительно можно говорить о наличии корреляции между несколькими величинами?

2.Как называется метод, анализирующий взаимосвязь между несколькими величинами?

3.Что называют корреляционной диаграммой?

4.О чем говорят знак и величина корреляционного соотношения?

5.Дайте определение коэффициента корреляции.

6.В каких пределах изменяется коэффициент корреляции?

7.Чему равна степень свободы коэффициента корреляции?

8.В каких случаях можно утверждать о наличии значимости коэффициента корреляции?

9.Какие условия должны быть удовлетворены при определении коэффициентов регрессии?

10.Какой критерий используют при проверке адекватности уравнения регрессии экспериментальным данным?

11.Какие дисперсии необходимо определить для проверки адекватности уравнения регрессии?

12.Чему равна степень свободы остаточной дисперсии?

13.В каком случае делается вывод, что уравнение регрессии адекватно описывает результаты экспериментов?

38

4. ПЛАНИРОВАНИЕ ЭКСПЕРИМЕНТА

Важной задачей планирования эксперимента является определение числа опытов, которые необходимы для выявления зависимости между исследуемыми переменными величинами.

Те переменные параметры, которые изменяются экспериментатором в процессе испытаний, называются факторами, а те параметры, которые изучаются или оптимизируются, называются выходами, или откликами

системы, или параметрами оптимизации системы.

При математическом планировании эксперимента предполагается, что существует некоторая аналитическая связь между факторами и откликом процесса, и требуется выбрать минимальное число и условия проведения опытов, позволяющих найти область оптимальных значений параметров. Другими словами, необходимо найти приближенную зависимость выходного параметра от факторов, т. е. построить математическую модель процесса. Математическая задача планирования эксперимента состоит в том, чтобы найти уравнение поверхности отклика:

y f x1, x2,..., xn ,

(4.1)

где y – выход процесса, т. е. параметр оптимизации; xi – факторы, которые варьируются при проведении эксперимента.

Таким образом, математическое планирование фактически связано с изучением формы поверхности отклика и, следовательно, оптимальному значению выхода будут соответствовать максимальные или минимальные точки этой поверхности.

Для большинства реальных задач вид поверхности отклика заранее неизвестен, поэтому при экспериментальном поиске оптимальных условий функцию у представляют в виде системного ряда:

у 0 i xi ij xi x j ijk xi x j xk ...

(4.2)

Очевидно, точность подобной аппроксимации определяется порядком системного ряда и диапазоном изменения переменных хi . Так как по-

верхность отклика изучается обычно в сравнительно узком интервале варьирования факторов, то без большой погрешности можно отбросить члены высших порядков. Задача оптимизации решается в два этапа: сначала осуществляется поиск области оптимума, для чего используется линейная модель поверхности отклика; на втором этапе для описания почти стационарной (оптимальной) области используется степенной ряд, содержа-

39