Добавил:
СПбГУТ * ИКСС * Программная инженерия Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Камартина Н. М. Теория вероятностей и математическая статистика. Часть 2. Статистика.pdf
Скачиваний:
16
Добавлен:
17.06.2020
Размер:
1.15 Mб
Скачать

б) увеличение доверительной вероятности (1 – ) приводит к увеличению длины доверительного интервала, т. е. к уменьшению точности;

в) если задать точность и доверительную вероятность (1 – ), то можно найти минимальный объем выборки, который обеспечивает заданную точность.

ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ

При проведении статистического исследования возникают вопросы о свойствах генерального распределения и выборки. Для ответов на эти вопросы выдвигаются гипотезы, требующие статистической проверки на основе полученной выборки. Гипотеза о виде распределения строится на основе графических данных. График эмпирической функции распределения должен быть похож на график функции распределения гипотетического закона, а гистограмма – на график плотности гипотетического распределения. Для часто встречающихся на практике законов распределения эти графики имеют известный вид.

Статистической гипотезой H называется предположение относительно параметров или вида распределения случайной величины Х. Проверяемая гипотеза называется нулевой гипотезой и обозначается H0 . Наряду

с гипотезой H0 рассматривают одну из альтернативных (конкурирующих) гипотез H1.

Термин «конкурирующая» означает, что являются взаимоисключающими два события:

по выборке принимается решение о справедливости для генеральной совокупности гипотезы H0 ;

по выборке принимается решение о справедливости для генеральной совокупности гипотезы H1.

Выдвинутую гипотезу проверяют на основе выборки. Для этого формируется функция выборочных элементов (статистика), по значениям которой судят о справедливости гипотезы. Эта статистика называется критерием значимости Z. Требования здесь такие:

ее значения зависят от выборочных данных;

будучи величиной случайной (в силу случайности элементов выбор-

ки), величина Z при выполнении гипотезы Н0 подчиняется некоторому известному закону распределения;

– ее значения позволяют судить о расхождении гипотезы Н0 с выборочными данными.

В основе большинства критериев значимости лежит простой принцип: если есть гипотеза о том, что событие имеет очень малую вероятность, но в результате всего лишь одного испытания это событие произошло, то следует

13

подвергнуть сомнению справедливость выдвинутой гипотезы. События, имеющие большую вероятность, считаются достоверными. Этот принцип реализуется следующим образом. Перед анализом выборки устанавливается

некоторая малая вероятность , называемая уровнем значимости. Она выбирается исходя из конкретики задачи. Пусть V – множество значений статистики Z. Указывается область маловероятных значений Z: Vk V, попадание в которую статистики Z позволит принять или отвергнуть гипотезу H0.

Критической областью критерия значимости называется подобласть значений статистики Z, вероятность попадания в которую для этой статистики при условии истинности проверяемой гипотезы равна уровню значимости:

P Z Vk / H0 .

Очевидно, попадание значения статистики в дополнительную область V \ Vk , называемую допустимой, будет означать принятие проверяемой ги-

потезы. Уровень значимости α определяет «размер» критической области. Критическая область выбирается исходя из требований задачи. Она может представлять собой полуось или объединение двух полубесконечных интервалов. В зависимости от вида критической области критерии подразделяют на правосторонние, левосторонние и двусторонние. По выбранному уровню значимости и по выборочным значениям признака определяется величина статистики критерия. Если эта величина попала в критическую область, то гипотеза отвергается. Но она может оказаться справедливой, просто случайно произошло событие, которое имеет очень малую вероятность α. Таким образом, α представляет собой вероятность отвержения правильной гипотезы. С уменьшением уровня значимости α расширяется критическая область и тем самым увеличивается вероятность принятия проверяемой гипотезы, когда она неверна.

Ошибкой первого рода называется ошибка отвержения правильной гипотезы. Ошибкой второго рода называется ошибка принятия неверной гипотезы.

Вероятность ошибки первого рода:

P Z Vk / H0 .

Вероятность ошибки второго рода:

P Z V \ Vk / H1 .

Число 1 – β называют мощностью критерия. Его выбор осуществляют таким образом, чтобы мощность была максимальной.

Общая схема проверки статистических гипотез:

1)выдвигаются проверяемая и альтернативная гипотезы H0 , H1 ;

2)выбирается уровень значимости α. Обычно это 0,001; 0,01; 0,05; 0,1;

14

3)выбираются статистика Z критерия значимости и критическая область, соответствующая ей, уровню значимости и проверяемым гипотезам;

4)вычисляется выборочное значение статистики Z;

5)если найденное по выборке значение статистики попало в критическую область, то гипотеза отвергается, если нет – принимается.

Критериев существует много. Мы ограничимся рассмотрением наиболее распространенного критерия значимости.

ПРИМЕНЕНИЕ КРИТЕРИЯ СОГЛАСИЯ 2 (ПИРСОНА)

Пусть по виду гистограммы выборки выдвинуто предположение о том, что распределение генеральной совокупности X можно считать нормальным. Разобьем множество значений исследуемого признака на непересекающиеся промежутки i, считая, что это множество занимало всю вещественную ось. Крайние промежутки при этом будут полубесконечными. Обозначим pi P X i вероятность попадания случайной величины Х

в соответствующий промежуток.

Для выборки, по которой мы изучаем нашу генеральную совокупность, обозначим n1, ..., nk частоты попадания вариант в соответствующие

промежутки. Очевидно, в случае справедливости выдвинутой гипотезы от-

носительные частоты

nk

при большом объеме выборки должны быть

n

 

 

 

 

 

 

 

близки к вероятностям pi. Статистика критерия Пирсона имеет вид

 

 

 

2

k

n np

2

(13)

 

 

 

i

i

.

 

 

 

i 1

 

npi

 

 

Со свойствами ее распределения можно ознакомиться в [1]. Применение критерия Пирсона основано на проверке согласованности

частот (отсюда название «критерий согласия») эмпирического распределения с теоретическими частотами нормального распределения.

Практические действия по проверке выдвинутой гипотезы начинаются с разбиения числовой оси. Как правило, используют те же промежутки, которые были найдены при построении гистограммы выборки. Если для ка- ких-либо промежутков частота индивидуальных значений признака оказывается мала (меньше 5), то соседние промежутки нужно объединить.

Определяют число степеней свободы (число независимых аргументов) статистики 2 . Аргументами являются частоты выборки, они связаны одним

равенством (их сумма равна объему выборки). В остальном частоты будут независимыми в силу независимости элементов выборки. Поэтому функция

2 имеет k – 1 независимых аргументов (число частот минус одна связь).

15

В случае когда параметры генерального распределения неизвестны, их оценивание производится по той же выборке, что уменьшает число степеней свободы статистики хи-квадрат.

Критерий Пирсона является правосторонним, его критической областью будет промежуток 12 r , , где 12 r – квантиль порядка 1 – α

распределения хи-квадрат с r = k l – 1 степенями свободы. Число l зависит от ситуации. Оно представляет собой число параметров распределения генеральной совокупности, оцениваемых по выборке. Критические значения критерия представлены в таблице с двумя входами (приложение, табл. П4).

Статистический вывод формируется на основе сравнения двух значений статистики Пирсона – наблюдаемого и теоретического.

Если 2

2

r , то гипотеза Н принимается, в противном слу-

в

1

0

чае отвергается.

ПОНЯТИЕ О КОРРЕЛЯЦИОННО-РЕГРЕССИОННОМ АНАЛИЗЕ

При решении многих задач экономики бывает необходимо изучать зависимость наблюдаемой случайной величины Y от одной или нескольких других случайных величин X1, X2, ..., Xk . Случайная величина Y называется откликом, а величины X1, X2, ..., Xk – факторами. Общий тезис о наличии зависимости в математике формулируется в виде функционального

уравнения

y x1,..., xk . В статистике данное уравнение понимается

«в среднем», оно устанавливает зависимость среднего значения величины Y

от величин

x1,..., xk , потому что детерминированной зависимости между

факторами и откликом быть не может в силу их случайности.

Задача регрессионного анализа состоит в том, чтобы на основании полученной выборки выявить характер связи между фактором X и откликом Y, т. е. получить оценку регрессии Y на X. Эта оценка представляет собой статистику и зависит от неизвестных параметров. Поэтому ее можно записать как функцию y x,a0,a1,...,am , где a0,a1,...,am – неизвестные

параметры.

Для определения типа зависимости сначала строится диаграмма рассеивания. При этом результаты измерений изображаются точками на координатной плоскости. Геометрически задача подбора аналитической функции состоит в проведении такой кривой (ее называют «линия регрессии»), которая возможно «ближе» примыкает к системе точек xi , yi ,

16

полученных в результате n реализаций случайных величин X и Y. Значения параметров определяются для выбранного типа линии так, чтобы функция y x,a0,a1,...,am наилучшим образом соответствовала неизвестной рег-

рессии. Простейшим случаем является линейная регрессия. Она описывается уравнением вида y 0 1x. Коэффициенты этого уравнения будут

статистиками. Для их определения используется метод наименьших квадратов. В расчетах линейной модели используются формулы

 

r

sX

;

 

0

y x .

(14)

 

1

XY s

 

 

 

1

 

 

 

Y

 

 

 

 

 

 

 

Коэффициент

 

 

 

 

 

 

 

 

 

 

r

 

xy x y

 

 

 

 

(15)

 

XY

 

 

sX sY

 

 

 

 

 

 

играет отдельную роль в анализе взаимосвязи признаков. Он называется

выборочным коэффициентом корреляции. Тесноту корреляционной свя-

зи с его помощью оценивают по эмпирическому правилу (шкала Чеддока, табл. 1).

 

 

 

Таблица 1

 

 

 

 

 

r

 

Теснота связи

 

 

 

 

Менее 0,1

Отсутствует линейная связь

 

 

От 0,1 до 0,3

Слабая

 

 

От 0,3 до 0,5

Умеренная

 

 

От 0,5 до 0,7

Заметная

 

 

Более 0,7

Сильная (тесная)

 

 

 

 

Рассмотрим простейший пример построения прямой регрессии. Имеются 10 экспериментальных точек – значений десяти измерений двух признаков.

i

1

2

3

4

5

6

7

8

9

10

 

 

 

 

 

 

 

 

 

 

 

xi

45

54

63

74

85

93

104

111

123

135

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

yi

52

70

74

87

92

117

123

121

133

157

Требуется построить уравнение прямой регрессии «игрек» на «икс» и провести его статистический анализ.

Расчеты оформим таблицей.

17

I

 

 

 

 

 

x x

 

 

y y

 

 

x x

2

 

 

y y

 

2

 

(x x) y y

ˆ

 

ˆ

2

xi

yi

 

 

 

 

 

i

 

 

 

 

 

 

 

y

x

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

i

 

 

 

i

 

 

( yi yx )

 

1

45

52

 

 

 

–43,7

 

 

–50,6

 

 

1909,7

 

 

2560,30

2211,22

 

53,66

2,76

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

54

70

 

 

 

–34,7

 

 

–32,6

 

 

1204,1

 

 

1062,76

1131,22

 

63,74

39,19

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3

63

74

 

 

 

–25,7

 

 

–28,6

 

 

660,5

 

 

 

817,96

735,02

 

73,82

0,03

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4

74

87

 

 

 

–14,7

 

 

–15,6

 

 

216,06

 

 

243,36

229,32

 

86,14

0,74

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5

85

92

 

 

 

–3,7

 

 

–10,6

 

 

13,69

 

 

 

112,36

 

 

39,22

 

98,46

41,73

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

6

93

117

 

 

 

4,3

 

14,4

 

 

 

18,49

 

 

 

207,36

 

 

61,92

 

107,42

91,78

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

7

104

123

 

 

 

15,3

 

20,4

 

 

 

234,09

 

 

416,16

312,12

 

119,74

10,63

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

8

111

121

 

 

 

22,3

 

18,4

 

 

 

427,29

 

 

338,56

410,32

 

127,58

43,3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

9

123

133

 

 

 

34,3

 

30,4

 

 

 

1176,49

 

924,16

1042,72

 

141,02

64,32

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

10

135

157

 

 

 

46,3

 

54,4

 

 

 

2143,69

 

2959,36

2518,72

 

154,46

6,45

 

887

1026

 

 

 

 

 

 

 

 

 

8004,01

 

9642,34

8691,8

 

1026,04

300,91

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Далее рассчитаем:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

887

88,7 ;

y

1026

 

102,6 ;

 

xy

8691,8

869,18 ;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

10

 

 

 

 

 

 

 

10

 

 

 

 

 

 

 

 

 

10

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

s

 

 

8004,01

28, 29 ;

s

 

9642,34

 

32,05 ;

 

 

 

 

 

 

 

X

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

10

 

 

 

 

 

 

 

 

 

Y

 

 

10

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,99

32,05

 

1,12 ;

 

 

 

102,6 88,7 1,12 3,26 .

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

28,29

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Уравнение линейной регрессии Y на X имеет следующий вид: y = 3,26 + 1,12 x.

На рис. 1 приведены эмпирические и теоретические значения.

180

 

 

 

 

 

 

 

 

160

 

 

 

 

 

 

 

 

140

 

 

 

 

 

 

 

 

120

 

 

 

 

 

 

 

 

100

 

 

 

 

 

 

 

 

80

 

 

 

 

 

 

 

 

60

 

 

 

 

 

 

 

 

40

 

 

 

 

 

 

 

 

20

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

0

20

40

60

80

100

120

140

160

Рис. 1. Графики эмпирической и теоретической регрессии

Проверку адекватности полученной модели проводят с помощью F- теста. Для этого используется критерий Фишера.

18