Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

1674

.pdf
Скачиваний:
0
Добавлен:
07.01.2021
Размер:
1.54 Mб
Скачать

ние закономерностей, которым подчиняются массовые случайные явления. Установление этих закономерностей основано на изучении статистических данных в виде результатов наблюдений.

В математической статистике существуют две основные задачи, а именно:

-указать способы сбора и группировки (если очень много) статистических данных;

-разработать методы анализа статистических данных в зависимости от целей исследования.

Решение многих научных и практических задач (экономичная органи-

зация технологического процесса, наиболее целесообразное планирование и т.п.) непосредственно связано с изучением соответствующего явления методами математической статистики.

Таким образом, основной задачей математической статистики является создание методов сбора и обработки статистических данных с целью получения научных и практических результатов.

2.1. Основные понятия и определения

Допустим, поставлена задача – изучить совокупность однородных объектов (скажем, партию деталей) относительно некоторого качественного (качественным признаком может служить стандартность детали) либо количественного (размер детали) признака. С этой целью иногда проводят сплошное обследование, но чаще отбирают случайным образом из всей совокупности однородных предметов ограниченное число объектов, а затем их изучают.

При этом совокупность, из которой извлекают ограниченное число объектов, называется генеральной совокупностью.

Совокупность случайно отобранных объектов при этом называется выборочной совокупностью или просто выборкой.

Количество выбранных объектов называется объемом выборки.

Если перед отбором следующего объекта предыдущий возвращается в генеральную совокупность, то такая выборка называется повторной. При бесповторной выборке отобранные объекты не возвращаются в генеральную совокупность.

Для того чтобы по выборке можно было уверенно судить о рассматриваемом признаке генеральной совокупности, необходимо, чтобы объекты выборки правильно представляли генеральную совокупность или, иначе говоря, выборка должна быть представительной (т.е. репрезентативной). Случайный отбор объектов из генеральной совокупности и достаточный объем выборки – это условие ее репрезентативности.

Рассмотрим общий случай, когда из генеральной совокупности извле-

79

чена выборка, в которой x1 наблюдалось n1 раз; x2 – n2;… xi – ni;… xk – nk раз, причем

k

 

 

ni

n,

(99)

i 1

 

 

где n – объем выборки, шт.; k – количество возможных значений (вариант). При этом конкретное значение случайной величины xi называют вариантой, а последовательность вариант, расположенных в порядке возрастания, принято называть вариационным рядом. Количество наблюдаемой варианты называют ее частотой появления, а отношение частоты появления варианты к объему выборки именуют относительной частотой данной ва-

рианты, т.е.

Wi = ni / n .

(100)

Статистическим распределением выборки называют перечень вариант и соответствующих им частот. Статистическое распределение также можно задать в виде последовательности интервалов и соответствующих им частот или относительных частот. В этом случае в качестве частоты, соответствующей интервалу, принимают сумму частот вариант, попавших в этот интервал.

Пример А. Пусть будет задано статистическое распределение (табл. 7). Найти его распределение относительных частот.

Таблица 7

Статистическое распределение

xi

2

7

15

20

25

Ni

3

27

40

20

10

Решение.

1. Определяем сумму частот или, иначе, объем выборки по форму-

5

ле (99): n ni 3 27 40 20 10 100.

i1

2.Определяем относительные частоты по каждой варианте с исполь-

зованием формулы (100): W1 = n1 / n = 3 / 100 = 0,03; W2 = 27 / 100 = 0,27; W3 = 40/ 100 = 0,4; W4 = 20/ 100 = 0,2; W5 = 10/ 100 = 0,1.

Запишем новое статистическое распределение с использованием вычисленных относительных частот (табл. 8).

 

 

Распределение относительных частот

Таблица 8

 

 

 

 

 

 

 

 

 

 

Xi

2

 

7

15

20

25

Wi

0,03

 

0,27

0,4

0,2

0,1

80

Нетрудно заметить, что в теории вероятности аналогичная таблица называется рядом распределения, но там вместо вариант указываются возможные значения случайной величины, а вместо относительных частот – вероятности их появления.

2.2. Эмпирическая функция распределения

Для рассмотрения этого понятия введем следующие обозначения: nx – число наблюдений, при которых значение признака было меньше некоторой конкретной величины x; n – объем выборки, или, иначе, общее число наблюдений; (X<x) – событие, состоящее в том, что случайная величина X приняла значение меньше x;W(X<x) – относительная частота этого события,

W(X<x) = nх / n.

(101)

Здесь следует заметить, что относительная частота W(X<x) зависит от х, т.е. является функцией от х.

Эмпирической функцией распределения (или, иначе, функцией распределения выборки) называют функцию F*(x), определяющую для каждого значения х относительную частоту события (X<x).

По определению имеем

F*(x) = W(X<x);

(102)

F*(x) = nх / n.

(103)

Интегральную функцию F(x) распределения генеральной совокупности в отличие от эмпирической F*(x) называют теоретической функцией распределения. Различие их состоит в том, что теоретическая функция определяет вероятность, а эмпирическая - относительную частоту одного и того же события (X<x).

Эмпирическая, как и теоретическая функция, обладает следующими свойствами:

1.Значения эмпирической функции принадлежит отрезку [0,1].

2.F*(x) – неубывающая функция.

3.Если х1 – наименьшая варианта, то F*(x)=0 при х ≤ х1.

Если хк – наибольшая варианта, то F*(xк)=1 при х ≥ хк.

Эмпирическая функция распределения выборки является оценкой теоретической функции распределения генеральной совокупности.

Пример Б. Построить эмпирическую функцию распределения по статистическому распределению, заданному в примере А.

Решение.

1.

х ≤ 2;

nх=0;

F*(x) = 0 / 100 = 0.

2

2 < х ≤ 7;

nх=3;

F*(x) = 3/ 100 = 0,03.

 

 

 

81

3.7 < х ≤ 15;

4.15 < х ≤ 20;

5.20 < х ≤ 25;

6.

х > 25;

F*(x)=

nх=30;

F*(x) = 30/ 100 = 0,3.

nх=70;

F*(x) = 70/ 100 = 0,7.

nх=90;

F*(x) = 90/ 100 = 0,9.

nх=100;

F*(x) = 100/ 100 = 1.

0

при

 

х ≤ 2;

0,03

при

2

< х ≤ 7;

0,3

при

7 < х ≤ 15;

0,7

при

15

< х ≤ 20;

0,9

при

20

< х ≤ 25;

1

при

 

х > 25.

График этой функции приведен на рис.26.

F(x)

1

0,8

0,6

0,4

0,2

x 0

0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30

Рис 26. График эмпирической функции F*(x) распределения выборки

2.3. Полигон и гистограмма

Для наглядности представления статистического распределения строят различные графики. Так, полигоном частот этого распределения называют

ломаную линию, отрезки которой соединяют точки xi,ni (i 1,k). Полигоном относительных частот называют ломаную линию, отрезки

которой соединяют точки xi,Wi.

На рис.27 и 28 изображены полигоны частот и относительных частот для статистического распределения, приведенного в примере А.

82

45

ni

 

 

 

 

 

 

 

 

40

 

 

 

 

 

 

 

 

 

35

 

 

 

 

 

 

 

 

 

30

 

 

 

 

 

 

 

 

 

25

 

 

 

 

 

 

 

 

 

20

 

 

 

 

 

 

 

 

 

15

 

 

 

 

 

 

 

 

 

10

 

 

 

 

 

 

 

 

 

5

 

 

 

 

 

 

 

 

x

0

 

 

 

 

 

 

 

 

3

6

9

12

15

18

21

24

30

 

 

Рис. 27. Полигон частот

 

 

 

Wi

 

0,45

 

0,40

 

0,35

 

0,30

 

0,25

 

0,20

 

0,15

 

0,10

 

0,05

x

0

 

5 10 15 20 25 30

Рис.28. Полигон относительных частот

Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиною h, а высота равна отношению ni/h (плотность частоты).

Гистограммой относительных частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиною h, а высота равна отношению Wi/h.

На рис. 29 и 30 изображены соответственно гистограммы частот и относительных частот для статистического распределения ( табл.9).

Таблица 9

Статистическое распределение

Интервалы h

5 – 10

10 –

15

15 – 20

20 – 25

25 – 30

30 – 35

35 –

40

Частоты ni

3

7

 

17

30

24

14

5

 

83

7

 

Судя по заданному распределению h=5, n ni

3 7 17 30

i 1

 

24 15 5 100.

Отсюда имеем следующую таблицу исходных данных для построения вышеупомянутой гистограммы (табл. 10).

 

 

Исходные данные

 

Таблица 10

 

 

 

 

 

 

 

 

 

 

 

 

Номер

Интервал

ni

ni/h

Wi

Wi/h

 

интервала

 

1

5–10

3

0,6

0,03

0,006

 

2

10–15

7

1,4

0,07

0,014

 

3

15–20

17

3,4

0,17

0,034

 

4

20–25

30

6,0

0,30

0,060

 

5

25–30

24

4,8

0,24

0,048

 

6

30–35

14

2,8

0,14

0,028

 

7

35–40

5

1,0

0,05

0,010

 

ni/h 1

6

5

4

3

2

1

 

x

 

0 0 5 10 15 20 25 30 35 40 45 50

Рис. 29. Гистограмма частот

W/h 10-2

7

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

6

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5

10

15

20

25

30

35

40

45

50

 

0

Рис. 30. Гистограмма относительных частот

84

Гистограмма относительных частот является статистическим аналогом кривой распределения, по виду которой можно судить о законе распределения соответствующей случайной величины.

2.4.Статистические оценки параметров распределения

Вматематической статистике рассматриваются статистические оценки неизвестных параметров распределения. В инженерной практике наибольшее значение имеют математическое ожидание и дисперсия, поэтому ограничимся рассмотрением их оценок.

Статистическая оценка параметра должна быть приемлемой или в некотором смысле «хорошей», поэтому к ней предъявляются следующие требования:

-несмещенность;

-эффективность;

-состоятельность.

Остановимся на этих требованиях подробнее.

Несмещенной называют статистическую оценку, математическое ожидание которой равно ожидаемому параметру.

Эффективной принято считать такую статистическую оценку, которая имеет наименьшую возможную дисперсию при заданном объеме выборки.

Состоятельной называют такую статистическую оценку, которая при бесконечном увеличении объема выборки (n ) сходится по вероятности к оцениваемому параметру.

Статистической оценкой математического ожидания в математической статистике принято считать выборочную среднюю, которую обозначают xb .Оценка математического ожидания определяется по формуле

x

пi xi .

(104)

b

n

 

Оценкой дисперсии является выборочная дисперсия Db:

(xi xb)2 ni

D

i

 

.

(105)

 

 

b

n

 

 

 

 

Однако при вычислении удобно пользоваться следующими формула-

ми:

xi2 ni

x

2

 

i

 

,

(106)

 

 

b

 

 

n

 

 

 

 

 

 

где xb2 выборочная средняя квадратов;

D

 

x

2

(

x

)2.

(107)

b

 

b

 

b

 

85

 

 

 

 

 

 

Статистической оценкой среднего квадратичного отклонения является выборочное среднее квадратичное отклонение b , которое определяется по формуле

b Db .

(108)

Величина выборочной дисперсии является смещенной оценкой дисперсии. Поэтому вводится так называемая «исправленная», или несмещенная,

оценка дисперсии S2, которая определяется по формуле

 

 

 

 

 

 

 

 

 

S2

n

 

D ,

(109)

 

 

 

 

 

 

 

n 1

 

 

 

 

 

 

 

 

 

b

 

 

 

 

 

 

 

 

 

 

 

отсюда

S

n

 

D ,

 

 

n 1

 

 

 

 

 

b

 

 

где S – “исправленное” среднее квадратическое отклонение.

 

Выборочная средняя

x

b

и выборочная дисперсия Db – это так называе-

мые точечные оценки параметров, определяемых одним числом. Кроме точечных в математической статистике используются интервальные оценки, которые определяются двумя числами – концами интервала изменения рассматриваемого параметра.

Эти интервалы именуются доверительными интервалами.

Если рассматриваемый интервал симметричен относительно точечной оценки неизвестного параметра, то вводится понятие отклонения этого параметра относительно точечной оценки.

Вероятность, с которой неизвестный параметр попадет в доверительный интервал, принято называть надежностью, или доверительной вероятностью γ.

Изучение доверительных интервалов ограничим тем, что рассмотрим только выборки, извлеченные из генеральных совокупностей, распределенных по закону Гаусса, т.е. имеющих нормальное распределение, и только для оценок математического ожидания и дисперсии.

Обозначим через А событие, состоящее в том, что неизвестное матема-

тическое ожидание

x

b

попало в интервал (α,β), изображенный на рис. 31,

т.е. А=(α<а<β).

 

 

 

 

 

δ

 

 

δ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xb

Рис. 31. Доверительный интервал для xb

Границы интервала можно определить по формулам

α=xb δ; β=xb + δ. (110)

Тогда вероятность того, что математическое ожидание будет распола-

86

гаться в указанных границах или, иначе, доверительная вероятность рассматриваемого события определяется по формуле

P(A) P (

x

b ) a (

x

b ) .

(111)

Методика расчета величины отклонения δ зависит от того, известно или неизвестно среднее квадратическое отклонение σ.

Так, если известно среднее квадратическое отклонение, то

 

t

 

 

,

(112)

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

где t – аргумент функции Лапласа, который находят из условия, что

 

2Ф(t) = γ

 

(113)

или

 

 

 

 

 

 

 

 

 

 

 

 

Ф(t)/2.

(114)

Здесь уместно напомнить, что

 

 

функция Лапласа

табулирована

(см. прил. 2) и имеет следующий вид:

 

 

 

 

 

 

 

t

 

 

 

 

 

1

 

t

 

 

 

 

 

 

 

 

 

 

 

 

 

Ф(t)=

 

 

e 2

dt .

(115)

 

 

 

2

 

 

0

 

 

 

 

 

 

 

 

 

Если же среднее квадратическое отклонение неизвестно, то

 

δ=·t

 

 

S

 

,

 

(116)

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

где S – несмещенная оценка среднего квадратического отклонения; tγ – функция двух аргументов α и k; α – уровень значимости, т.е. вероятность того, что оцениваемый параметр не попал в доверительный интервал.

Поскольку события, состоящие в том, что оцениваемый параметр попал и не попал в доверительный интервал, составляют полную группу событий, то сумма вероятностей γ и α этих событий равна единице, т.е.

 

α + γ = 1,

(117)

тогда

α = 1 γ.

(118)

κ – число степеней свободы выборки, которое определяется по формуле

κ = n – 1.

(119)

Доверительный интервал для среднего квадратического отклонения

нормального распределения рассчитывают по формуле

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S

 

 

n 1

 

 

S

 

 

n 1

 

.

(120)

 

 

1

 

 

 

 

1

 

 

 

2

 

 

 

2

 

 

 

 

 

 

,n 1

 

 

 

 

 

,n 1

 

2

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

При определении доверительного интервала для оценки дисперсии ис-

87

пользуют формулу

 

 

 

 

 

 

 

 

 

 

 

S2

 

 

n 1

 

2 S2

 

 

n 1

 

,

(121)

 

 

1

 

 

 

1

 

 

2

 

2

 

 

 

 

 

,n 1

 

 

 

,n 1

 

2

2

 

 

 

 

 

 

 

 

 

 

 

 

где 2 – табулированная функция двух аргументов (читают: ΧИ квадрат),

2= 2(α,κ),

(122)

где α – уровень значимости, который принимается для левой границы1 2, а для правой 1 2; k – степень свободы выборки, которая одинакова для обеих границ и равна

 

 

 

k = n – 1.

 

(123)

Пример. Пусть задана выборка, извлеченная из генеральной сово-

купности нормального распределения (табл. 11).

 

 

 

 

Статистическое распределение

Таблица 11

 

 

 

 

 

 

 

 

 

 

xi

-3

 

2

 

4

6

ni

2

 

3

 

4

1

Необходимо определить:

1)выборочную среднюю xb ;

2)«исправленное» среднее квадратическое отклонение S;

3)доверительные интервалы для оценок математического ожидания и среднего квадратического отклонения.

Решение.

1)вычисляем объем выборки по формуле (99):

4

n ni = 2 + 3 + 4 + 1 = 10.

i 1

Определяем выборочное среднее по формуле (104):

4

n x

3 2 2 3 4 4 6 1

 

x

b

i

i

 

 

 

2,2;

 

 

10

 

 

i 1

 

n

 

 

2) находим выборочное среднее квадратов по формуле (106):

 

b2

xi2 ni

 

( 3)

2

2 2

2

3 4

2

4 6

2

1

 

x

i

 

 

 

 

 

13.

n

 

 

 

 

10

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Определяем выборочную дисперсию по формуле (107):

Db xb2 (xb)2=13 – (2,2)2 = 13 – 4, 84 = 8,16.

Находим «исправленную» или несмещенную оценку дисперсии S2 по формуле (109) S2 n(n 1) Db 10(10 1) 8,16 8,16 1,11 9,06.

88

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]