Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Учебное пособие С.Д. Шапорев ПРИКЛАДНАЯ СТАТИСТИКА.pdf
Скачиваний:
639
Добавлен:
26.03.2015
Размер:
2.25 Mб
Скачать

Здесь n = 28,

n

 

= 14 , так как n

- четное, то θ) =

1

[W (14) + W (15)]=

 

2

2

 

 

 

 

= 12 (81.3008 + 81.3008 ) = 81.3008 . Далее идут стандартные действия, т.е.

действия, аналогичные тем, какие производились при построении доверительного интервала по критерию знаков.

 

 

 

 

n(n +1)

 

 

 

 

- доверительный интервал для ме-

P C

 

θ

C

= 1

α

α

 

 

 

 

α

θ

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

θверхн. = W (M +1Cα) ,

 

дианы

 

и

 

 

θнижн.

= W (Cα ),

 

причем

M +1 Cα

α

 

 

. Если оставить то же α = 0.078 , то t(0.039,7) = 25 и

= t

2

, n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

α

 

 

= 28

+1 25 = 4, M +1 Cα = 28 +1 4 = 25 ,

т.е.

Cα = M +1 t

2

, n

 

 

 

 

 

 

 

 

 

 

 

 

 

W (4) θ W (25) или 81.3001 θ 81.3015 . Это (1 0.078) 100% - довери-

тельный интервал.

8.5. Двухвыборочный ранговый критерий Вилкоксона

Этот критерий предназначен для проверки нулевой гипотезы H0 , согласно которой двум независимым выборкам объемов n и m отвечают одинаковые функции распределения F1(x) ≡ F2 (y), против односторонней альтернативы H1 , по которой либо F1(x) < F2 (y), либо F1(x) > F2 (y), или против двусторонней альтернативы F1(x) ≠ F2 (y).

Нулевая гипотеза может быть сформулирована в терминах сдвига одной выборки относительно другой, так же как в предыдущем подразделе. При проверке нулевой гипотезы следует выполнить следующие действия.

1. Расположить выборочные значения обеих выборок в порядке возрастания, т.е. образовать общий вариационный ряд, и каждой величине из этого ряда сопоставить ее ранг Ri , равный порядковому номеру величины

в общем вариационном ряду. Заметим, что если H0 справедлива, то любое распределение по этим двум выборкам равновероятно, а общее число способов группирования рангов равно Cnm+m .

2. В качестве статистики критерия берут сумму рангов W одной (на-

 

m

 

пример, второй) выборки, т.е.

W = R j .

(8.5.1)

j =1

236

3. Подсчитываются все различные способы группирования рангов, при которых статистика W принимает значения, равные или меньшие наблюденного, после чего вычисляется отношение этого числа к общему

числу возможных распределений рангов по двум выборкам Cnm+m . Полученное отношение дает одностороннее p -значение критерия.

При малых значениях n и m относительно легко вычислить p -зна-

чение, но для выборок большого объема строят приближенный критерий,

основанный на асимптотическом распределении статистики W . Именно

M

(W ) = m(n + m +1)

, D(W ) = nm(n + m +1).

 

 

 

Тогда

статистика

 

 

 

2

 

W

m(n

+ m +1)12

 

 

 

 

 

 

 

 

 

 

W M (W )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

W

 

=

=

 

2

 

 

 

N (0,1) при n, m → ∞ .

 

 

D(W )

 

 

 

 

 

 

 

1

 

 

 

 

 

 

nm(n + m +1) 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

12

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Это приближение не дает хорошей точности при n, m 50 . По этой

причине следует пользоваться аппроксимацией Имана [27]:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

W

 

n + m 2

 

 

2

 

 

 

 

 

 

 

J =

 

 

 

 

 

 

 

,

 

(8.5.2)

 

 

 

 

2

1 +

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1 − (W

)

 

 

 

 

 

 

 

 

 

 

 

 

n + m

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

α%-ные точки для которой равны

 

Jα,n+m2

=

1 zα +

1 tα,n+m2 . Здесь

zα

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

2

tα,n+m2 -

 

- α%-ная точка стандартного нормального распределения,

α%-ная точка распределения Стьюдента с n + m 2 степенями свободы. Если среди наблюдений есть одинаковые, то надо работать со сред-

ними рангами. В этом случае при использовании нормальной аппроксимации в формулу (8.5.2) должна быть введена поправка. Эта поправка, как

показано в подразд. 8.4, изменит только оценку дисперсии статистик W или J .

При наличии t

совпадений формула для D(W )

имеет следующий

вид:

 

 

 

 

 

 

 

 

 

 

 

 

g

 

 

 

 

 

 

 

t j (t 2j 1)

 

 

D(W ) =

nm

 

 

 

j =1

 

(8.5.3)

n + m +1

 

,

 

12

 

 

(n

+ m)(n + m 1)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

237

 

 

 

где g - число групп совпадений, t j - объем j -й группы. В формуле (8.5.3),

если наблюдение не совпадает ни с каким другим, оно рассматривается как отдельная группа. Поэтому если в ранжировке нет совпадений, то g = n + m, t j = 1, j = 1,2,..., n + m , и правая часть (8.5.3) сводится к

nm(n + m +1) .

 

 

12

 

 

Три основных вида критериев значимости для данного критерия

можно сформулировать в следующей форме.

 

1. Для одностороннего критерия H0 : F1(x) ≡ F2 (y)

против альтерна-

тивы H1 : F1(x) < F2 (y) на уровне значимости α:

 

отклонить H0 , если W w(α, m, n);

 

принять H0 , если W < w(α, m, n), где константа w(α, m, n) удовлетво-

ряет условию P[W w(α, m, n)] = α . Значения w(α, m, n) табулированы.

Обширные таблицы критических точек распределения статистики W

опубликованы в [28].

 

 

2. Для одностороннего критерия H0 : F1(x) ≡ F2 (y)

против альтерна-

тивы H1 : F1(x) > F2 (y):

 

 

отклонить H0 , если W m(n + m +1)− w(α, m, n);

 

принять H0 , если W > m(n + m +1)− w(α, m, n).

 

3. Для двустороннего критерия H0 : F1(x) ≡ F2 (y) против альтернати-

вы H1 : F1(x) ≠ F2 (y):

W w(α2 , m, n) или

 

 

 

отклонить H0 , если

 

 

W m(n + m +1)− w(α1, m, n),

 

принять H0 , если m(n + m +1)w(α1, m, n) <W < w(α2, m, n), α = α1 + α2 . Пример. В биохимическом исследовании, проведенном методом меченых атомов, по результатам изучения 8 препаратов опытной серии и 5 препаратов контрольной серии получены следующие показания счетчика

импульсов (в импульсах в минуту):

Опыт

340

343

322

349

332

320

313

304

Контроль

318

321

318

301

312

-

-

-

Можно ли считать, что полученные значения опытной и контрольной серий различны? Принять α = 0.1.

Решение. Составим вариационный ряд, отмечая принадлежность элемента к контрольной серии чертой снизу.

238

Эле-

 

301

 

 

304

312

313

 

318

 

318

 

 

320

 

321

322

 

332

340

 

 

343

 

349

 

мент

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Ранг

 

1

 

 

 

2

3

4

 

5.5

 

5.5

 

 

7

 

8

9

 

10

 

11

 

 

12

 

13

 

 

5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

W = R j = 1 + 3 + 5.5 + 5.5 + 8 = 23 .

Имеется одна группа совпаде-

 

 

j =1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5(5 + 8 +1)

 

 

 

ний,

 

т.е.

 

g = 1, t

= 2 .

 

 

Тогда

M (W ) =

= 35,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2(4 1)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

D(W ) =

 

5 8

5 + 8 +1

 

 

= 46.538 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

12

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(5 + 8)(5 + 8 1)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Воспользуемся аппроксимацией Имана, так как n и m малы. При

этом

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1 2

 

 

 

 

 

W = 23 35

 

 

 

 

1.759 1

 

 

 

5 + 8 2

 

 

 

 

 

 

 

= −1.759,

J =

 

+

 

 

 

 

= −1.857 .

 

 

 

 

 

2

 

 

46.538

 

 

 

2

 

 

 

 

 

+ 8 1 (

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5

1.759)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

По таблицам нормального распределения и распределения Стьюдента на-

ходим: z0.1 = 1.280, t0.1,11 = 1.363 . Тогда 12 (zα + tα,n+m2 ) = 1.322 .

Так как при упорядочении двух выборок, все наблюдения второй оказались сильно сдвинуты в начало общего вариационного ряда, проверим:

H0 : F1(x) ≡ F2 (y) против альтернативы

H1 : F1(x) > F2 (y).

Таким образом, выбран левосторонний критерий значимости. Учитывая симметричность нормального распределения и распределения Стьюдента, получим J0.1,11 = −1.322 . Тогда J = −1.857 < J0.1,11 и, следователь-

но, J ω. Таким образом, нулевая гипотеза H0 должна быть отвергнута с

уровнем значимости α = 0.1, т.е. полученные значения показаний счетчиков в опытной и контрольной партиях различны.

8.6. Лабораторная работа № 10. Критерии знаков и рангов в пакете

MATHCAD

Одно из главных достоинств критерия знаков – его простота и очень скромные требования к первоначальному статистическому материалу. Критерий знаков чаще всего используется для проверки гипотезы об однородности наблюдений внутри каждой пары в парных выборках, однако его можно применять и к одномерной выборке для проверки гипотезы о положении медианы H0 : θ = θ0 .

239

Запрограммируем критерий знаков в пакете MATHCAD, решив с его помощью следующую задачу.

В эксперименте по искусственному стимулированию дождя были замерены дождевые осадки в течение 16 пар дней, причем в каждой паре один день облака засеивали стимулятором, а в другой день нет. Для каждой пары день засеивания выбирали случайным образом. В следующей таблице приведены количества выпавших осадков, замеренные специальным прибором за эти 16 пар дней.

Номер пары

1

2

3

4

5

6

7

8

Засеивание

0

2.09

0.07

0.30

0

2.55

1.62

0

Без засеивания

1.37

0

0

0.10

0.44

0

1.01

0.54

Номер пары

9

10

11

12

13

14

15

16

Засеивание

0

1.87

2.50

3.15

0.15

2.96

0

0

Без засеивания

0

0.62

0

5.54

0.01

0

0

0.75

Проверить нулевую гипотезу, согласно которой засеивание не оказывает эффекта.

Перейдем к одномерной выборке. Модернизируем наблюдения по

формуле z

 

= x

y

 

и вычислим статистику ψ

 

1,

z

i

> 0,

так как мы,

 

 

i

=

 

< 0,

 

 

 

i

 

i

 

i

 

 

 

 

0,

zi

 

 

 

очевидно, будем проверять нулевую гипотезу вида H0 : θ = 0 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

zi

 

-1.37

 

2.09

 

0.07

0.20

-0.44

 

2.55

 

 

0.51

-0.54

 

ψi

 

0

 

 

1

 

 

1

1

0

 

1

 

 

1

 

0

 

zi

 

0

 

 

1.25

 

2.50

-2.39

0.14

 

2.96

 

 

0

 

-0.75

 

ψi

 

-

 

 

1

 

 

1

0

1

 

1

 

 

-

 

0

 

 

Два наблюдения совпадают, следовательно,

для них статистика ψi не

определена. Отбросим эти совпадающие наблюдения, уменьшив объем выборки до n =14 .

ORIGIN:=1

α

 

n :=14 p := 0.5 B := 9 α:= 0.05 α1:=

β:=1- α1 n =14 p = 0.5 α1 = 0.025

 

2

 

β = 0.975 b := qbinom(β, n, p) b = 11

b1 := qbinom(α1, n, p) b1 = 3

Альтернативную гипотезу сформулируем в виде H1 : θ 0 , тогда, так

как b1 < B < b , нулевую гипотезу следует принять по двустороннему критерию с уровнем значимости α = 0.05 .

Воспользуемся теперь аппроксимацией для приближения к нормальной теории. В случае двустороннего критерия будем иметь

240

zright := qnorm(β,0,1) zleft := −zright zlefr = −1.96 zright = 1.96

Поскольку опять zleft < B < zright , гипотезу H0 нельзя отвергнуть,

т.е. искусственная стимуляция дождя не оказывает эффекта. Одностороннее p -значение критерия знаков определим по формуле

(8.2.5).

arm := (4 * B + 3)* (1 p) −

(4 * n 4 * B 1)* p arm = 1.334

pValue := 1 pnorm(arm,0,1)

pValue = 0.091

Для вычисления рангов элементов выборки и расчета статистики критерия T + по формуле (8.4.1) воспользуемся следующей подпрограммой.

Распределение t(α, n) статистики рангов T + найдем с помощью нормальной аппроксимации. Для этого вычислим математическое ожидание и дисперсию T + :

T := statT (x)1 z := statT (x)2

n1 := rows(z) n1 =14 T = 68

MT := n1*

n1 +1

 

Mt = 52.5

DT := MT *

2 * n +1

DT = 253.75

 

 

4

 

 

6

 

T1 := (T MT )

T1 = 0.973

pValue := 1 pnorm(T1,0,1)

DT

 

 

 

 

pValue = 0.165

 

 

 

 

 

 

 

 

241

 

 

Итак, поскольку статистика T1 опять находится в пределах 95%-й области принятия решений двустороннего критерия zleft = −1.96 < T1 = 0.973 < zright = 1.96 , гипотезу H0 следует принять.

Задание № 1. Решить следующие задачи с помощью критерия знаков и одновыборочного рангового критерия Вилкоксона. Везде принять α = 0.05 .

1. Предполагается, что один из двух приборов, определяющих скорость автомобиля, имеет систематическую ошибку. Для проверки этого предположения определили скорость 10 автомобилей, причем скорость каждого фиксировалась одновременно двумя приборами. В результате получены следующие данные:

v1

км / ч

70

85

63

54

65

80

75

95

52

55

v2

км / ч

72

86

62

55

63

80

78

90

53

57

Позволяют ли эти результаты утверждать, что второй прибор действительно дает завышенные значения скорости?

2. Приводится время (в секундах) решения контрольных задач одиннадцатью учащимися до и после специальных упражнений по устному счету. Можно ли считать, что эти упражнения улучшили способности учащихся в решении задач?

До упраж-

87

61

98

90

93

74

83

72

81

75

83

нений

 

 

 

 

 

 

 

 

 

 

 

После уп-

50

45

79

90

88

65

52

79

84

61

52

ражнений

3. Для 10 человек была предложена специальная диета. После двухнедельного питания по этой диете масса их тела изменилась следующим образом:

Масса до

68

80

92

81

70

79

78

66

57

76

диеты (кг)

 

 

 

 

 

 

 

 

 

 

Масса после

60

84

87

79

74

71

72

67

57

60

диеты (кг)

 

 

 

 

 

 

 

 

 

 

Можно ли рекомендовать эту диету для людей, желающих похудеть?

4. Сравнивалось действие двух экстрактов вируса табачной мозаики. Для этого каждая из половин листа натиралась соответствующим препаратом. Число мест приводится в таблице.

Экстракт А

20

39

43

13

28

26

17

49

36

Экстракт В

31

22

45

6

21

13

17

46

31

Можно ли считать, что действие этих экстрактов различно? 242

5. Изучалось влияние черного и апрельского пара на урожай ржи. Опыт длился шесть лет. Учитывалась масса 1000 зерен в граммах. Результаты опыта следующие:

Год посева

1

2

3

4

5

6

По черному пару

31.1

24.0

24.6

28.6

29.1

30.1

По апрельскому

31.6

24.2

24.8

19.1

29.9

31.0

пару

 

 

 

 

 

 

Можно ли считать, что урожай ржи по апрельскому пару значимо выше, чем по черному?

6.Проверить предположение о том, что предлагаемый лечебный препарат не меняет состав крови, если препарат испытывался на десяти особях, а текущий анализ крови дал следующие результаты: 0.97, 1.05, 1.09, 0.88, 1.01, 1.14, 1.03, 1.07, 0.94, 1.02. Числа выражают отношение числа лейкоцитов в опыте к числу лейкоцитов в норме.

7.Изменение урожайности при применении одного из видов предпосевной обработки семян характеризуется следующими данными (в центнерах с гектара):

Год

1972

1973

1974

1975

1976

1977

1978

1979

1980

Необрабо-

20.0

17.9

20.6

22.0

21.4

23.8

21.4

19.8

18.4

танные

семена

 

 

 

 

 

 

 

 

 

Обрабо-

22.1

18.5

19.4

22.1

21.7

24.9

21.6

20.3

18.3

танные

семена

 

 

 

 

 

 

 

 

 

Можно ли считать, что предпосевная обработка увеличивает урожайность?

8. Измерялось напряжение пробоя у диодов, отобранных случайным образом из двух партий. Результаты измерения (в вольтах) следующие:

1-я партия

39

50

61

67

40

40

54

2-я партия

60

53

42

41

40

54

63

Можно ли считать, что у диодов из второй партии напряжение пробоя выше, чем у диодов из первой партии?

9. Двум группам испытуемых предлагалось провести опознание трех начертаний цифры 5. Результаты эксперимента (в секундах) следующие:

1-я группа

25

28

27

29

26

24

28

23

30

25

26

2-я группа

18

19

31

32

17

15

41

35

38

13

14

Можно ли считать, что время опознания для первой и второй групп различны?

243

10. В течение некоторого времени суточная производительность двух автоматов характеризуется следующими данными:

1-й автомат

105

60

83

111

138

71

87

130

93

105

2-й автомат

172

45

51

155

117

103

82

93

31

51

Можно ли считать, что суточная производительность этих двух автоматов различна?

11. Контролируемый размер нескольких деталей был проверен до и после наладки станка. В результате получены следующие данные (в мм):

До наладки

36.4

37.5

36.9

37.6

38.1

35.5

37.8

38.3

36.6

После наладки

36.8

39.2

37.6

39.9

39.6

34.2

36.5

36.3

39.8

Изменилась ли измеряемая величина контролируемого размера после наладки станка?

12. Для контроля настройки двух станков-автоматов, производящих детали по одному чертежу, определили отклонения от номинальных размеров у нескольких деталей, изготовленных на обоих станках. В результате получили следующие данные (в мкм):

Станок А

44

-14

32

8

-50

20

-35

15

10

-8

-20

5

Станок В

52

-49

61

-35

-48

18

-45

35

28

21

-59

-19

Различно ли отклонение от номинальных размеров у этих двух стан- ков-автоматов?

13. Изучалось влияние пищевой добавки на увеличение массы тела кроликов. Опыт длился 7 недель. Исходная масса особей находилась в пределах от 500 до 600 грамм. За время опыта у животных наблюдались следующие прибавки в весе (за одну неделю):

Контрольные

560

580

600

420

530

490

580

Опытные

692

700

621

640

561

680

630

Можно ли утверждать, что пищевая добавка дает прибавку массы те-

ла?

14. По выборкам из двух партий микросхем после операции легирования поликремния измерялось удельное сопротивление. Результаты замеров следующие:

1-я

52.2

33

76

32.5

49.5

32.5

191.5

112.5

52.9

114.8

33.7

69.1

партия

2-я

119

17.5

43.5

43.5

90.5

40

50

108

62.4

16.5

97.5

96

партия

Одинаково ли удельное сопротивление в обеих партиях?

244

15. У двух партий приборов измерялась глубина слоя диффузии (в мкм) после напыления рабочей поверхности. Можно ли считать, что глубина слоя диффузии у приборов из обеих партий различна?

1-я

9.8

9.8

8.6

8.6

9.2

9.2

9.8

9

10

9.4

9

11.2

10.8

партия

2-я

8.6

9.2

10.4

9

9.8

9.2

9.6

10

9.8

9

9.8

8.7

8.6

партия

16. Длина тела личинок щелкуна, обитающих в посевах ржи и проса (в мм), варьируется следующим образом:

В посевах

7

10

14

15

12

16

12

ржи

 

 

 

 

 

 

 

В посевах

11

12

16

13

18

15

13

проса

 

 

 

 

 

 

 

На основании этих проб создается впечатление о более крупных размерах личинок щелкунов, обитающих в просе. Проверить это предположение.

17. У полевых транзисторов измерялась характеристика: емкость за- твор-сток. Увеличилась ли величина емкости затвор-сток у транзисторов, изготовленных по технологии В, если измерения дали следующие результаты (в пикофарадах):

Техно-

2.8

3.0

3.1

3.2

3.3

3.4

3.7

2.9

логия А

 

 

 

 

 

 

 

 

Техно-

3.8

3.4

3.6

2.9

2.8

3.0

3.4

3.0

логия В

 

 

 

 

 

 

 

 

18. У приборов двух партий, изготовленных с применением различной технологии, измерялось дифференциальное сопротивление канала Ri .

Результаты измерений (в микроомах) следующие:

Техно-

0.01

0.02

0.12

0.30

0.29

0.15

0.21

логия А

 

 

 

 

 

 

 

Техно-

0.15

0.07

0.25

0.15

0.22

0.18

0.18

логия В

 

 

 

 

 

 

 

Влияет ли технология изготовления на величину дифференциального сопротивления канала Ri ?

19. В следующей таблице приведено время работы (в сотнях часов) электронных ламп А и В до выхода из строя.

245

А

32

34

35

37

42

43

47

58

59

62

69

71

В

39

48

54

65

70

76

87

90

111

118

126

127

Проверить гипотезу о различии среднего времени работы ламп этих двух типов.

20. Приведены результаты двух серий измерений, полученных при производстве азотной кислоты путем окисления аммиака кислородом воздуха:

Метод А

95.6

94.9

96.2

95.1

95.8

96.3

92.1

95.3

94.0

Метод В

93.3

92.1

94.7

90.1

95.6

90.0

94.7

95.2

93.7

Проверить гипотезу о принадлежности наблюдений к общей генеральной совокупности.

21. Данные следующей таблицы основаны на наблюдениях девяти пациентов, принимавших транквилизатор, и представляют степень депрессии, измеренной по специальной шкале. Значения x относятся к первому визиту пациента к врачу, значения y к моменту окончания лечения.

Приводит ли прием транквилизатора к улучшению состояния пациентов?

xi

1.83

0.50

1.62

2.48

1.68

1.88

1.55

3.06

1.30

yi

0.88

0.65

0.60

2.05

1.06

1.29

1.06

3.14

1.29

22.Приведено содержание хрома (в весовых процентах) в образцах нержавеющей стали: 17.4, 17.9, 17.6, 18.1, 17.6, 18.9, 16.9, 17.5, 17.8, 17.4, 24.6, 26.0. Проверить гипотезу о том, что медиана процента хрома в стали равна 18% против альтернативы, что она не равна 18%.

23.Приведено содержание окислителя (zi ) в воде для орошения, из-

меряемое в миллионных долях озона: 0.32, 0.21, 0.28, 0.15, 0.08, 0.22, 0.17, 0.35, 0.20, 0.31, 0.17, 0.11. Проверить гипотезу о том, что медиана содержания окислителя равна 0.25, против альтернативы, что она меньше 0.25.

24. В следующей таблице представлены данные, относящиеся к методу прямого определения железистой сыворотки, полученные двумя способами (микрограмм/100 мл):

1-й способ

111

107

100

99

102

106

109

108

104

99

2-й способ

107

108

106

98

105

103

110

105

104

100

1-й способ

101

96

97

102

107

113

116

113

110

98

2-й способ

96

108

103

104

114

114

113

108

106

99

Проверить нулевую гипотезу о том, что обе выборки извлечены из одной генеральной совокупности.

246

25. На двух аналитических весах, в одном и том же порядке, взвешены десять проб химического вещества и получены следующие результаты взвешивания (в мг):

1-е весы

25

30

28

50

20

40

32

36

42

38

2-е весы

28

31

26

52

24

36

33

35

45

40

Проверить значимо или незначимо различаются результаты взвешиваний на аналитических весах.

26. Две лаборатории одним и тем же методом, в одном и том же порядке, определяли содержание углерода в тринадцати пробах нелегированной стали. Получены следующие результаты анализа (в %):

1-я лабо-

0.18

0.12

0.12

0.08

0.08

0.12

0.19

0.32

0.27

0.22

0.34

0.14

0.46

ратория

 

 

 

 

 

 

 

 

 

 

 

 

 

2-я лабо-

0.16

0.09

0.08

0.05

0.13

0.10

0.14

0.30

0.31

0.24

0.28

0.11

0.42

ратория

 

 

 

 

 

 

 

 

 

 

 

 

 

Различаются ли средние результаты анализа у обеих лабораторий?

27. Химическая лаборатория произвела анализ восьми проб двумя методами. Получены следующие результаты (в условных единицах):

1-й метод

15

20

16

22

24

14

18

20

2-й метод

15

22

14

25

29

16

20

24

Установить, значимо или незначимо различаются средние результаты анализа этими двумя методами.

28. Физическая подготовка девяти спортсменов была проверена при поступлении в спортивную школу, а затем после недели тренировки. Итоги проверки в баллах оказались следующими:

При поступлении

76

71

57

49

70

69

26

65

59

После недельной

81

85

52

52

70

63

33

83

62

тренировки

 

 

 

 

 

 

 

 

 

Улучшилась или нет физическая подготовка спортсменов после недельной тренировки?

29. Измерительным прибором, практически не имеющим систематической ошибки, было сделано восемь независимых измерений некоторой величины. Результаты измерений таковы: 2504, 2486, 2525, 2495, 2515, 2528, 2492, 2494. Проверить гипотезу о том, что медиана результатов измерений равна 2500, против альтернативы, что она больше 2500.

247

30. При измерении угла теодолитом получены следующие результа-

ты: 20o40/20// , 20o40/34// , 20o40/42// , 20o40/28// , 20o40/34// , 20o40/27// ,

20o40/25// , 20o40/32// , 20o40/46// . Проверить гипотезу, что медиана из-

мерений равна 20o40/30// , против альтернативы, что она не равна этому значению.

СЛОВАРЬ ИСПОЛЬЗУЕМЫХ ТЕРМИНОВ

Alternative hypothesis – альтернативная гипотеза. Analysis of variance (ANOVA) – дисперсионный анализ. Analysis options – процедуры анализа.

Analysis summary – сводка анализа.

Asymptotically confidence interval – асимптотический доверительный интервал.

Asymptotic distribution – асимптотическое распределение. Asymptotic efficiency – асимптотическая эффективность. Average – среднее значение.

Average rank – средний ранг.

Backward selection – уменьшение группы переменных в процедуре множественной регрессии.

Box-and-whisker plot – «ящик с усами». График в виде прямоугольника, построенный от сгиба до сгиба и имеющий поперечную черту на медиане с «усами» до указанных значений.

Central confidence interval – симметричный относительно центра доверительный интервал.

Chi-s quared distribution – распределение χ2 .

Compare – сравнение данных.

Comparison of alternative models – сравнение альтернативных моде-

лей.

Confidence interval – доверительный интервал.

Consistent estimator – состоятельная оценка.

Continuous random variable – непрерывная случайная величина.

Contrast – контраст.

Correlation coefficient – коэффициент корреляции.

Count – число наблюдений на данном уровне фактора. Covariance – ковариация, второй смешанный момент. Critical region – критическая область.

Cumulative distribution function – интегральная функция распреде-

ления.

Degree of freedom – степени свободы.

248

Density function – функция плотности вероятности. Density trace – график функции плотности. Describe – описание данных.

Discrete random variable – дискретная случайная величина. Dispersion – дисперсия, рассеяние.

Distribution fitting – подбор распределений.

Distribution-free test – свободный от распределения критерий.

Empirical distribution function – эмпирическая функция распределе-

ния.

Estimator – оценка; статистика, используемая в качестве оценки.

Expectation (of a continuous random variable) – математическое ожидание (непрерывной случайной величины).

Factor – фактор, обстоятельство.

F-distributionF-распределение (распределение Фишера). Fit – аппроксимация.

Fit the model – подбор модели.

Forecasts – предсказания.

Forward selection – увеличение группы переменных в процедуре множественной регрессии.

Frequency – частота.

Frequency histogram – гистограмма частот.

Greather than (больше чем) – выбор правостороннего критерия значимости.

Goodness-of-fit-test – критерий согласия.

Gross error – грубая ошибка.

Hazard function – функция риска. Homogeneous groups – однородные группы.

Hypothesis test – критерий для проверки гипотезы. Independent variable – независимая случайная величина. Intercept – свободный член (уравнения регрессии). Inverse CDF – обратная функция распределения.

Kruskal-Wallis tests – ранговый однофакторный критерий КраскелаУоллиса.

Kurtosis – коэффициент эксцесса.

Lack-of-fitнеадекватность, рассогласованность.

Less then (меньше чем) – выбор левостороннего критерия значимо-

сти.

Level – уровень.

Level of factor – уровень фактора. Linear regression – линейная регрессия. Lower – нижний.

Mean (of a sample) – выборочное среднее. 249

Median – медиана.

Midpoint – середина интервала группировки. Modify arrangement – задание классификации. Multiple range test – множественные сравнения. Multiple regression – множественная регрессия.

Multiple variable analysis – анализ многих переменных. Nonparametric statistical procedure – непараметрический статисти-

ческий метод.

Normal population – (генеральная) совокупность с нормальным распределением.

Normal probability plot – график на нормальной вероятностной бума-

ге.

Normal probability plot of residuals – нормальный вероятностный график остатков.

Not equal (не равно) – выбор двустороннего критерия значимости.

Null hypothesis – нулевая гипотеза.

Numeric data – числовые данные.

Observed versus predicted – график предсказанных значений. One-sided test – односторонний критерий.

One-variable analysis – анализ одной переменной.

One-way ANOVA – однофакторный дисперсионный анализ. Pane options – панель процедур.

Percentile – процентиль.

Plot of fitted model – график подобранной модели.

Point estimator – точечная оценка.

Probability distribution – распределение вероятностей. Pure error – полная (чистая) ошибка.

Quantile – квантиль.

Random numbers – случайные числа.

Ratio – отношение.

Rejection region – область отклонения ( гипотезы). Relate – отношения данных.

Relative frequency – относительная частота.

Residual – остаток. Response – отклик.

Ridge regression – ридж-регрессия или гребневая регрессия.

Sample standard deviation – выборочное среднее квадратическое отклонение.

Sample variance – выборочная дисперсия. Scatterplot – диаграмма рассеивания. Signed rank – знаковый ранг.

Significance level – уровень значимости. 250

Significance test – критерий значимости.

Simple regression – простая регрессия.

Size – объем, размер.

Skewness – коэффициент асимметрии. Slope – угловой коэффициент (наклон). Source – источник.

Summary statistics – описание данных.

Survivor function – функция выживаемости. Tail areas – площади хвостов (распределений).

Tail areas probabilities – вероятности хвостов (распределений. t-distributionраспределение Стьюдента.

Test for normality – критерий на принадлежность выборки к нормальному распределению.

Test statistic – статистика, лежащая в основе критерия.

Type I error – ошибка I рода. Type II error – ошибка II рода.

Upper – верхний.

Unusual residuals – необычные остатки. Variance check – тесты дисперсий.

Библиографический список

1.Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. М.:

Наука, 1983.

2.Браунли К.А. Статистическая теория и методология в науке и технике. М.:

Наука, 1977.

3.Вадзинский Р.Н. Справочник по вероятностным распределениям. СПб.:

Наука, 2001.

4.Гаек Я., Шидак З. Теория ранговых критериев. М.: Наука, 1971.

5.Губарев В.В. Алгоритмы статистических измерений. М.: Энергоатомиздат,

1985.

6.Джонсон Н., Лион Ф. Статистика и планирование эксперимента в технике

инауке. М.: Мир. Т.1, 1980. Т.2, 1981.

7.Дрейпер Н., Смит Г. Прикладной регрессионный анализ. М.: Финансы и статистика, 1987.

8.Дэйвид Г. Порядковые статистики. М.: Наука, 1979.

9.Дюк В. Обработка данных на ПК в примерах. СПб.: Питер, 1997.

10.Калинина В.Н., Панкин В.Ф. Математическая статистика. М.: Высшая школа, 1998.

11.Кнут Д.Е. Искусство программирования. Т. 2. Получисленные алгоритмы.

М.: Мир,1977.

12.Мэйндональд Дж. Вычислительные алгоритмы в прикладной статистике. М.: Финансы и статистика, 1988.

251

13.Песаран М., Слейтер Л. Динамическая регрессия: теория и алгоритмы. М.: Финансы и статистика, 1984.

14.Плескунин В.И., Воронина Е.Д. Теоретические основы организации и анализа выборочных данных в эксперименте. Л.: Из-во Лен. гос. ун-та, 1979.

15.Пугачев В.С. Теория вероятностей и математическая статистика. М.: Нау-

ка, 1979.

16.Сборник задач по математике. Специальные курсы / Под ред. А.В. Ефи-

мова М.: Наука, 1984.

17.Себер Дж. Линейный регрессионный анализ. М.: Мир, 1980.

18.Смирнов Н.В., Дунин-Барковский И.В. Краткий курс математической статистики для технических приложений. М.: Физматгиз, 1959.

19.Тьюки Дж. Анализ результатов наблюдений. Разведочный анализ. М.:

Мир, 1981.

20.Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере. М.: Финансы и статистика, 1995.

21. Факторный, дискриминантный и кластерный анализ / Под ред.

И.С. Енюкова М.: Финансы и статистика, 1989.

22.Форсайт Дж., Малькольм М., Моулер К., Машинные методы математиче-

ских вычислений. М.: Мир, 1980.

23.Хастингс Н., Пикок Дж. Справочник по статистическим распределениям. М.: Статистика, 1980.

24.Холлендер М., Вульф Д. Непараметрические методы статистики. М.: Финансы и статистика, 1983.

25.Хьюбер П. Робастность в статистике. М.: Мир, 1984.

26.Шапорев С.Д. Методы вычислительной математики и их приложения / Балт. гос. техн. ун-т. СПб., 2002.

27.Iman R. L. An approximation to the exact distribution of the Wilcoxon-Mann- Whithey rank sum test statistic. Communication in Statistic, A5(Theory and Method), 1976. p. 587-598.

28.Wilcoxon F., Katti S.K., Wilcox Roberta A. Critical values an probability levels for the Wilcoxon rank test.- In: Selected Tables in Mathematical Statistics, vol.1/2-d ed. H.L. Harter, D.B. Owen, eds.- Providence, R. I. Am. Math. Soc., 1973, p. 171-235.

252

О Г Л А В Л Е Н И Е

 

1. Случайные величины и их законы распределения....................................................

3

1.1. Законы распределения дискретных случайных величин ........................................

3

1.2. Числовые характеристики дискретных случайных величин, их свойства...........

6

1.3. Законы распределения непрерывных случайных величин .....................................

9

1.4. Числовые характеристики непрерывных случайных величин .............................

10

1.5. Выборочные аналоги интегральной и дифференциальной функций

 

распределения..............................................................................................................................

13

1.6. Лабораторная работа № 1. Методы описательной статистики в пакете

 

STATGRAPHICS .........................................................................................................................

18

1.7. Нормальное распределение и его числовые характеристики...............................

28

2. Распределения, связанные с нормальным распределением...................................

31

2.1. χ2 -распределение.....................................................................................................

31

2.2. t -распределение Стьюдента....................................................................................

37

2.3. F -распределение (распределение Фишера) или распределение диспер-

 

сионного отношения...................................................................................................................

40

2.4. Распределение Колмогорова.....................................................................................

44

2.5. Гамма–распределение................................................................................................

47

2.6. Распределение Вейбулла (Вейбулла – Гнеденко) ..................................................

48

2.7. Лабораторная работа № 2. Семейства вероятностных распределений в мате-

 

матических пакетах STATGRAPHICS и MAHTCAD .............................................................

50

3. Метод статистических испытаний (метод Монте-Карло) .......................................

61

3.1. Общие принципы метода статистических испытаний...........................................

61

3.2. Датчики базовой случайной величины (БСВ) ........................................................

63

3.3. Моделирование на ЭВМ стандартной равномерно распределенной случай-

 

ной величины (базовой случайной величины) ........................................................................

64

3.4. Моделирование дискретной случайной величины при помощи случайных

 

событий ........................................................................................................................................

66

3.5. Моделирование непрерывных случайных величин...............................................

68

3.6. Лабораторная работа № 3. Моделирование некоторых распределений с по-

 

мощью базовых случайных величин в пакете MATHCAD...................................................

71

4. Точечные и нтервальные оценки параметров распределений и их свойства....

81

4.1. Статистические характеристики вариационных рядов и показатели их

 

качества........................................................................................................................................

81

4.2. Типовые принципы, используемые при построении оценок [5] ..........................

82

4.3. Точечные оценки вероятности по частоте, математического ожидания и

 

дисперсии.....................................................................................................................................

85

4.4. Неравенство Крамера - Рао.......................................................................................

89

4.5. Методы получения точечных оценок......................................................................

92

4.6. Сущность интервального оценивания.....................................................................

96

4.7. Приближенные и точные доверительные интервалы для параметров распре-

 

делений.........................................................................................................................................

96

4.8. Лабораторная работа № 4. Оценивание параметров вероятностных распре-

 

делений в пакетах STATGRAPHICS и MATHCAD ..............................................................

101

5. Проверка статистических гипотез. Критерий согласия........................................

107

5.1. Понятие статистической гипотезы. Основные этапы проверки гипотез...........

107

5.2. Критерий Неймана – Пирсона................................................................................

113

5.3. Проверка гипотез о числовых значениях параметров нормального распре-

 

деления.......................................................................................................................................

115

5.4. Проверка гипотез о параметрах двух нормальных распределений....................

118

5.5. Лабораторная работа № 5. Проверка статистических гипотез о числовых

 

значениях нормальных распределений в математических пакетах STATGRAPHICS и

 

MATHCAD.................................................................................................................................

123

5.6. Критерии согласия...................................................................................................

131

5.7. Лабораторная работа № 6. Критерии согласия в статистическом пакете

 

STATGRAPHICS .......................................................................................................................

142

5.8. Лабораторная работа №7. Критерии согласия в математическом пакете

 

MATHCAD.................................................................................................................................

151

6. Однофакторный дисперсионный анализ..................................................................

158

6.1. Постановка задачи ...................................................................................................

158

6.2. Дисперсионный анализ............................................................................................

159

6.3. Ранговый однофакторный анализ ..........................................................................

168

6.4. Критерий Краскела - Уоллиса (Н-критерий) ........................................................

170

6.5. Лабораторная работа № 8. Однофакторный ранговый и дисперсионный ана-

 

лиз в статистическом пакете STATGRAPHICS.....................................................................

173

7. Регрессионный анализ..................................................................................................

189

7.1. Модели регрессии....................................................................................................

189

7.2. Оценка параметров линейной регрессии методом наименьших квадратов.....

192

7.3. Интервальные оценки параметров линейной регрессии и кривой регрессии..

197

7.4. Проверка адекватности линейной регрессии........................................................

203

7.5. Выбор наилучшей регрессии..................................................................................

206

7.6. Лабораторная работа № 9. Регрессионный анализ в пакетах STAT-

 

GRAPHICS и MATHCAD.........................................................................................................

207

8. Непараметрические методы статистики...................................................................

222

8.1. Основные понятия и область применимости непараметрических методов......

222

8.2. Критерий знаков.......................................................................................................

223

8.3. Критерий знаков для одномерной выборки..........................................................

227

8.4. Ранговый критерий (одновыборочный критерий Вилкоксона)..........................

230

8.5. Двухвыборочный ранговый критерий Вилкоксона .............................................

236

8.6. Лабораторная работа № 10. Критерии знаков и рангов в пакете MATHCAD ..

239

Словарь используемых терминов...................................................................................

248

Библиографический список ............................................................................................

251

Шапорев Сергей Дмитриевич

Прикладная статистика

Редактор Г.B. Никитина Корректор А.А. Баутдинова

Подписано в печать 04.07.2003. Формат 60×84/16. Бумага документная. Печать трафаретная. Усл. печ. л. 15,875. Уч. - изд. л. 18,5. Тираж 150 экз. Заказ № 73.

Балтийский государственный технический университет Типография БГТУ

190005, С.-Петербург, 1-я Красноармейская ул., д.1