Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Tom_2

.pdf
Скачиваний:
59
Добавлен:
18.02.2016
Размер:
3.2 Mб
Скачать

проверить нулевую гипотезу о том, что математическое ожидание генеральной совокупности равно некоторому числу a0 , т.е. гипотезу

H0 : a = a0 .

Пусть из генеральной совокупности извлечена выборка объема n и по ней найдена выборочная средняя x . Задача состоит в том, чтобы по выборочной средней при заданном уровне значимости α проверить нулевую гипотезу H0 : a = a0 при альтернативной гипотезе H1 : a ¹ a0 .

В качестве статистического критерия возьмем нормально

распределенную случайную величину

 

 

 

Z =

x - a

 

 

.

(4)

 

n

σ

 

 

 

 

Тогда область принятия гипотезы будет задаваться неравенствами

-uα < Z < uα ,

(5)

где

 

 

 

F(uα ) = 1-2α ,

Ф(t) – функция Лапласа.

Область отклонения гипотезы будет такой:

Z Î(;-uα )È (uα ;) .

Если значение

Z = xσ- a n

удовлетворяет неравенствам (5), то гипотезу H0 : a = a0 принимают; в противном случае ее отклоняют и принимают гипотезу H1 : a ¹ a0 .

В этом случае область

отклонения

гипотезы H0

имеет вид

(;-uα ) È (uα ;) и ее

называют

двусторонней

критической

областью значений статистики Z.

 

 

При использовании статистики (4) для проверки нулевой гипотезы

H0 : a = a0 при альтернативной H1 : a > a0 область принятия

H0

задается неравенством

 

 

 

Z < u,

(6)

где

1-

 

 

F(u) =

.

 

2

 

 

 

 

Критическая область значений статистики Z будет

правосторонней, Z Î(u;).

464

Если же статистика Z проверки гипотезы H0 : a = a0 при альтернативной гипотезе H1 : a < a0 , то область принятия гипотезы H0 задается неравенством

Z> -u

икритическая область значений статистики Z будет левосторонней,

Z Î(;-u ) .

Заметим, что принятие гипотезы H0 не означает, что она является единственно подходящей. Это означает лишь, что гипотеза H0 не противоречит выборочным данным. Естественно, что наряду с H0 могут существовать и другие гипотезы.

Пример 2. На станке изготавливаются детали с номинальным контролируемым размером 14 мм. Известно, что распределение контролируемого размера является нормальным с параметрами a = 14 мм и σ = 0,5 мм. В течение суток было отобрано 90 деталей и сделаны замеры контролируемого параметра, средний размер которого оказался x =14,3 . Можно ли считать, что станок изготавливает детали увеличенного размера с уровнем значимости 0,05?

Решение. Из условия следует, что необходимо проверить

нулевую гипотезу H0 : a = 14

при

альтернативной гипотезе

H1 : a > 14 . Найдем статистику Z по формуле (4):

Z =

14,3 -14

×30

=18 .

 

0,5

 

 

Далее найдем значение uпри α = 0,05 . По табл. П2 находим,

что u= 1,64 .

Так как в результате имеем, что Z > u, то статистика Z попала

в критическую область, и, следовательно, нулевую гипотезу отвергаем. Это означает, что с вероятностью ошибки меньшей, чем 0,05, можно утверждать, что контролируемый размер деталей является

завышенным по сравнению с номинальным размером.

30.2. Пусть теперь генеральная совокупность распределена по нормальному закону и значение дисперсии неизвестно. Требуется

проверить нулевую гипотезу H0 : a = a0 при альтернативной H1 :

a ¹ a0 .

В качестве статистики критерия возьмем случайную величину

T =

x - a

 

 

,

(7)

 

n -1

s

 

 

 

 

 

где s2 – исправленная статистическая дисперсия выборки, n – объем выборки, x – среднее значение выборки. Величина T здесь распределена

465

по закону Стьюдента с ν = n −1 степенями свободы и имеет функцию распределения Fν (t) . Критическая область здесь определяется неравенством

 

T

 

> tα ,ν ,

(8)

 

 

 

 

где величина tα ,ν определяется из уравнения

P{T > tα ,ν } = α ,

α– уровень значимости. Значение tα ,ν находится по табл. П3.

Пример 3. Техническая норма предусматривает на выполнение некоторой операции на конвейере 30 с. Поступила жалоба от рабочих, что они затрачивают больше времени на эту операцию. ОТК произвел хронометраж у 16 рабочих и получил следующие результаты (табл. 1).

 

 

 

 

 

 

Таблица 1

Значение признака

28

29

30

31

32

33

34

Частота

1

2

3

4

3

2

1

Можно ли по имеющимся хронометрическим данным при уровне значимости 0,02 отклонить предположение, что действительное среднее время исполнения операции соответствует норме?

Решение. Нулевая гипотеза здесь есть H0 : a = 30 , альтернативная – H1 : a ¹ 30 . Для проверки гипотезы H0 необходимо

вычислить по элементам выборки объема n = 16 значение статистики T (см. (7)). Будем предполагать, что генеральная совокупность распределена по нормальному закону. По данным табл. 1 находим среднее значение выборки x и исправленную статистическую

д и с п е р с и ю

 

в ы б о р к и

s2 :

 

 

x =

1

(28×1+ 29 × 2 + 30 ×3 + 31× 4 + 32×3 + 33× 2 + 34 ×1) = 31 ;

 

 

 

 

 

 

 

16

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

1

(32

+ 2× 22 + 3×12 + 3×12 + 2× 22 + 32 ) »1,6.

s =

åmk (xk

- x )2 =

 

 

15

 

 

n -1k=1

 

 

 

 

 

 

 

 

 

 

 

Следовательно, по формуле (7) находим, что

 

 

 

 

 

 

 

 

T =

 

31- 30

 

 

» 2,4 .

 

(9)

 

 

 

 

 

 

 

 

15

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1,6

 

 

 

 

 

 

 

 

С другой стороны, для α = 0,02 и ν = n −1 = 15 по табл. П.3 находим

 

 

 

 

 

 

 

 

 

 

 

tα ,ν

» 2,6 .

 

(10)

 

 

Сравнивая результаты (9) и (10), находим, что T < tα ,ν , и, таким

образом, гипотеза

H0 : a = 30 действительно должна быть принята

при уровне значимости 0,01.

 

 

 

 

 

 

Задания для самостоятельной работы

466

1.Для выборки 5, 10, 11, 13, 7, 8, 10, 0, 11, 3, 8, 11, 3, 11, 7 построить вариационный ряд, частотный полигон и эмпирическую функцию распределения.

2.Построить интервальный вариационный ряд и гистограмму относительных частот следующей выборки:

31

26

42

41

35

24

42

19

41

31

35

38

48

21

35

37

44

30

35

32

24

28

23

33

25

26

32

24

33

14

27

26

50

20

45

48

30

17

42

33

46

51

23

35

43

44

32

40

29

15.

3. В таблице дано распределение участков по урожайности зерновых:

Урожайность x′,

ц

10,5

16,5

24

30,5

37

44

50,5

55

i

га

 

 

 

 

 

 

 

 

Число участков mi

3

5

15

26

20

5

4

2

Найдите числовые характеристики выборки и постройте график эмпирической функции распределения.

4.Распределение рабочих механического цеха по тарифным разрядам задается в виде таблицы

Тарифный разряд xi

1

2

3

4

5

Число рабочих mi

4

6

16

26

48

Найдите числовые характеристики выборки и постройте график эмпирической функции распределения.

5. В таблице дана выборка предприятий одного из регионов по численности рабочих.

Предприятия со

до

101−

201−

501−

1001−

3001−

средней числен-

100

102

500

1000

3000

10000

ностью рабочих

 

 

 

 

 

 

 

Число

35

22

26

8

6

3

предприятий

 

 

 

 

 

 

 

 

 

 

 

 

 

Найти числовые характеристики выборки (среднее выборочное, дисперсию, стандартное отклонение, асимметрию и эксцесс), построить график эмпирической функции распределения.

467

6.Из партии в 10 000 электрических лампочек отобрано случайно 200 лампочек. Срок службы лампочек в генеральной и выборочной совокупности дан в следующих таблицах, соответственно.

Срок службы,

Количество

час

лампочек

900

– 1100

1000

1100

– 1300

6000

1300

– 1500

3000

 

 

N = 10 000

Срок службы,

Количество

час

лампочек

900

– 1100

10

1100

– 1300

120

1300

– 1500

70

 

 

n = 200

Найти генеральные и выборочные средние, дисперсии, средние квадратичные отклонения, а также среднюю и предельную ошибки выборки.

7.Из генеральной совокупности с нормальным распределением извлечена выборка с объемом n = 10 (см. табл.).

xi

−2

0

1

2

3

4

5

mi

1

1

2

1

2

2

1

Найти доверительный интервал для математического ожидания

с доверительной вероятностью γ = 0,99, если σ 2 = 4.

8.Какой должен быть объем бесповторной выборки для определения среднего возраста 1000 мужчин, если дисперсия не превышает 16, а доверительная вероятность равна 0,95. Ошибка в определении возраста не должна превышать одного года.

9.Из генеральной совокупности извлечена выборка объема n и результаты наблюдений сведены в интервальный вариационный

ряд. Построить доверительные интервалы для a и σ

при

доверительной вероятности γ = 0,95:

 

9.1.На станции технического обслуживания автомобилей исследовались затраты времени на ремонт карбюратора. Были зафиксированы следующие результаты:

Затраты времени

10 –

20 –

30 –

40 –

50 –

> 60

xi (в мин)

20

30

40

50

60

 

Число наблюдений mi ,

9

21

48

70

40

12

попавших в данный

интервал

 

 

 

 

 

 

9.2. Даны результаты испытания стойкости 100 сверл:

Стойкость сверл xi (в час)

17,5 –

22,5

27,5

32,5

37,5 –

 

22,5

27,5

32,5

37,5

42,5

Частота mi

6

21

 

45

 

21

 

7

468

9.3.Получены следующие значения (в %) содержания фосфора в 100 чугунных образцах

Содержание фосфора xi

0,1 – 0,2

0,2 – 0,3

0,3 – 0,4

0,4 – 0,5

0,5 – 0,6

(в %)

 

 

 

 

 

Частота mi

6

24

36

26

8

10. Даны результаты исследования 100 напыленных образцов на прочность напыленного слоя:

Прочность слоя xi

2,0 – 2,2

2,2 – 2,4

2,4 – 2,6

2,6 – 2,8

2,8 – 3,0

(в кг/мм2)

 

 

 

 

 

Частота mi

7

20

44

21

8

Предполагая, что величина прочности распределена по нормальному закону N(a,σ ) , найти точечные оценки

параметров a, σ и записать гипотетическую функцию распределения F (x).

С помощью критерия χ 2 Пирсона проверить гипотезу о согласии

выборочного распределения с законом нормального распределения при уровне значимости α = 0,05 .

11.При продолжительном наблюдении за весом X пакетов орешков, заполняемых автоматически, установлено, что стандартное отклонение веса пакетов σ = 10 г. Взвешено 25 пакетов, при этом

их средний

вес

составил x = 244 г. Проверить гипотезу:

MX = 250 г

при

уровне значимости α = 0,05 . Если данное

утверждение неверно, то станок-автомат требует подналадки.

12.Исследовалось время безотказной работы бытовых автоматических стиральных машин, для которых гарантийный срок 150 дней. Для этого фиксировалось время (в днях) с момента продажи до момента первого обращения покупателя в мастерскую по обслуживанию. Были зафиксированы следующие результаты:

Время безотказной

30

90

150

210

270

300

360

работы (в днях)

 

 

 

 

 

 

 

Число отказов

18

42

124

180

104

32

30

Можно ли по имеющимся данным при уровне значимости 0,02 отклонить предположение, что действительное среднее время безотказной работы стиральной машины соответствует гарантийному сроку?

ГЛАВА 13

469

ОСНОВЫ ТЕОРИИ КОРРЕЛЯЦИИ

§ 1. Линейная корреляция

Определим типы зависимостей между случайными величинами. Рассмотрим корреляционное отношение и линейную однофакторную регрессию.

10. Функциональная и статистическая зависимости. При рассмотрении случайных величин часто требуется установить или оценить зависимость одной из них от другой. Две случайные величины могут быть связаны функциональной или статистической зависимостями или быть независимыми.

Функциональной называется зависимость между величинами X и Y, когда изменение одной из них вызывает соответствующее изменение другой. Однако функциональная зависимость между случайными величинами наблюдается редко, потому что одна из них либо обе одновременно подвержены влиянию случайных факторов, среди которых могут быть такие, которые влияют на одну и на другую

случайные величины. В таких

случаях возникает статистическая

з

а

в

и

с

и

м

о

с

т

ь

.

Статистической называется зависимость, при которой изменение одной из случайных величин ведет к изменению закона распределения другой.

Статистическую зависимость, при которой значение одной случайной величины однозначно определяет среднее значение другой,

называют корреляционной или регрессионной.

Приведем пример случайной величины Y, которая не связана функционально с величиной Х, а связана корреляционно. Пусть Y – успеваемость студентов, Х – посещаемость учебных занятий. У одинаковых по количеству студентов и количеству часов лекционных и практических занятий студенческих групп по результатам экзаменационной сессии успеваемость разная, то есть Y не является функцией от Х – посещаемости учебных занятий. Однако, как показывает опыт, результаты экзаменационной сессии лучше у тех студентов, которые систематически посещали учебные занятия, это значит, Y связано с Х корреляционной связью.

Для уточнения определения корреляционной зависимости введем понятие условной средней.

470

Условной средней Y x = M (Y X = x) называется среднее значение случайной величины Y при X = x . Поскольку каждому значению х

соответствует одно значение условного среднего, то есть Y x = f (x)

является функцией от х, то можно сказать, что случайная величина Y зависит от случайной величины X корреляционно.

Корреляционной зависимостью Y от Х называется

функциональная зависимость условной средней Y x от х.

Уравнение y = f (x) называется уравнением регрессии Y на X.

Функция f (x) называется регрессией Y на X, а ее график – линией регрессии случайной величины Y на случайную величину X.

Аналогично определяются условное среднее X y = M (X Y = y),

корреляционная зависимость X от Y и функция регрессии ϕ( y) = X y

случайной величины X на Y.

Например, корреляционная зависимость имеется: а) между ростом и весом человека – с увеличением роста средний вес также возрастает; б) между надежностью автомобиля и его возрастом – чем больше возраст, тем меньше надежность.

Одна из случайных величин, зависимость между которыми анализируется, обычно называется фактором, а другая считается зависимой от этого фактора. Скажем, возраст автомобиля – фактор его н а д е ж н о с т и .

Основными задачами теории корреляции являются:

1.Установление формы корреляционной связи, то есть вида функции регрессии (линейная, квадратичная, показательная и т.д.);

2.Оценка тесноты корреляционной связи. Теснота корреляционной связи Y от X оценивается величиной рассеивания

значений Y около Y x . Большое рассеивание означает слабую

зависимость Y от X либо отсутствие зависимости. Малое рассеивание указывает на существование достаточно сильной зависимости.

Важной в приложениях является ситуация, когда обе функции регрессии f (x) и ϕ(y) являются линейными. Тогда говорят, что

случайные величины X, Y связаны линейной корреляционной зависимостью (линейной корреляцией). Так будет, если система (X ,Y )

имеет совместное нормальное распределение (см. п. 10.10.20).

471

20. Корреляционное отношение. Такое отношение является показателем степени статистической зависимости. Пусть случайная величина Y зависит в основном от фактора X и некоторого остаточного (небольшого по величине) фактора в виде случайной величины ε, которая влияет на Y, но не на X. Характеристикой общей изменчивости значений случайной величины Y является ее дисперсия

D(Y ) = M ([Y aY ]2 ) , где aY = M (Y ) . В эту величину вносят свой вклад и фактор X и остаток ε. Рассмотрим их вклад. Для избежания

громоздких обозначений далее будем обозначать через Z результат усреднения случайной величины Z, т.е. ее математическое ожидание.

 

 

 

При фиксированном значении фактора X, например, при X = x

дисперсия

D(Y x) = M (Y x M (Y x))2

условного

 

распределения

Y

x

= Y

X = x

как раз характеризует влияние на Y остатка ε при этом

 

 

 

 

 

 

 

 

 

 

 

 

 

а ее среднее значение

 

 

 

значении фактора X,

D(Y X )

характеризует

влияние в целом остатка ε на Y, которое обозначим D(Y,ост.) .

 

 

 

 

 

ожидание

 

x = M (Y x)

 

 

 

 

 

 

Математическое

Y

это

центр

группирования значений случайной величины Y при

X = x .

В то же

время

 

M (Y )

– общий центр группирования Y. Поэтому

разброс

групповых центров относительно общего центра определяет

 

D(

 

X )= M (

 

X MY )2

 

 

 

 

дисперсию

Y

Y

,

которая

характеризует

изменчивость значений Y, вызванную фактором X, и обозначается

D(Y,факт.) .

 

 

 

 

 

 

 

 

 

 

 

 

Можно показать, что D(Y ) = D(Y,факт.) + D(Y,ост.) .

Обозначим η2

=

D(Y,факт.)

= 1−

D(Y,ост.)

.

Величина η2

 

 

 

 

 

Y X

 

 

D(Y )

 

D(Y )

Y X

показывает, какая доля вариации значений случайной величины Y обусловлена вариацией значений фактора X, и называется

 

 

 

 

 

коэффициентом детерминации, а η

= η2

 

называется

Y X

 

Y

X

корреляционным отношением.

Для корреляционного отношения справедливы следующие утверждения:

1) 0 ≤ηY X ≤ 1;

472

2) условие ηY X = 1 необходимо и достаточно для однозначной функциональной зависимости Y от X.

Действительно, при ηY X = 1 имеем D(Y,ост.) = D(Y X ) = 0 ,

а так как D(Y x)³ 0 , то отсюда следует, что D(Y x) = 0 при всяком x.

Последнее означает, что Y есть константа при всяком значении фактора X, т.е. Y есть функция от X.

Наоборот, если Y есть функция от X, то D(Y x) = 0 при всяком x,

а тогда D(Y X ) = 0 и, значит, ηY X = 1;

3) условие ηY X = 0 необходимо и достаточно для отсутствия

регрессионной зависимости Y от X.

Действительно, если ηY X = 0 , то D(Y,факт.) = 0 Þ M (Y x)= M(Y) .

Поэтому M (Y x) есть константа при любом x и, значит, нет

регрессионной зависимости Y от X. Обратное очевидно;

4) чем ближе ηY X к единице, тем ближе статистическая

зависимость Y от X к однозначной функциональной, и наоборот, чем ближе зависимость Y от X к однозначной функциональной, тем

ближе ηY X к единице.

Пример 1. Система случайных величин (X ,Y ) имеет таблицу распределения

 

 

 

Таблица 1

Y

X

– 1

1

 

 

 

 

– 2

 

0,4

0

0

 

0,1

0,1

2

 

0

0,4

Найти коэффициент детерминации и корреляционное отношение между X и Y.

Решение. Находим ряд распределения Y, M (Y ) и D(Y ) :

Y :

-2

0

2

, M (Y ) = 0, D(Y ) = 3,2.

0,4

0,2

0,4

 

 

Найдем условные законы распределения:

473

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]