Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Прикладная статистика

..pdf
Скачиваний:
7
Добавлен:
12.11.2023
Размер:
9.53 Mб
Скачать

для изучения виде. Возникает задача описания к представления выборки,

Наконец, располагая сведениями о свойствах генеральной совокупности, можно предсказать свойства повторно извлечен­ ных из нее выборок — заглянуть в будущее.

Г л а в а II

ВЫБОРКА, ЕБ ПРЕДСТАВЛЕНИЕ И ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ

Все, что вндшг лгы — видииоеть только одна. Далеко от поверхности люрн до дна.

Полагай несутцеспгяеинымявное я чпрс. Ибо тайная сутцносшь вещей не видна.

О. Хойяч (перевод Г, Плисецкого)

2 .1 . П Р Е Д С Т А В Л Е Н И Е В Ы Б О Р К И

2.1.1. Таблица частот и интервальная таблица частот

Небольшие выборки удобно представлять в виде таблицы из двух строк. В первой строке записывают элементы выбор* ки (они называются вариантам»), расположенные в порядке возрастания. Во второй строке записываются частоты вариант. Частотой варианты называется число, равное количеству повто­ рений варианты в выборке. Если и,— частота варианты х., всего в выборке к разных вариант, то л, + п3+...+ л§ = и, где п — объем выборки. Описанная таблица называется таблицей частот.

Рассмотрим пример. С производственной лилии случайным образом 36 раз отбирали по 10 единиц некоторого изделия. Каж­ дый раз отмечалось число дефектных изделий.

 

Получена выборка 1:

 

 

 

 

 

 

 

 

 

 

 

0

0

1

0

2

0

1

2

1

0

0

0

0

0

3

1

0

0

0

0

0

2

0

0

1

1

0

0

0

1

1

0

1

0

1

1

12

Здесь л - 36, в выборке представлены 4 варианты: х;= 0, х2 = I,

х^ = 2у =3.

Таблица частот выглядит следующим образом (табл. 2.1):

 

 

 

 

Таблица 2. /

*

0

1

2

3

л.21 11 3 1

Относительной частотой варианты лг. называется число равное отношению и;/н . Если сумма частот равна п, то сумма отлоситсльных частот равна Ып = I.

Таблица относительных частот для этого примера такова (табл. 2.25:

 

 

 

 

Таблица2,2

дг(

0

1

2

3

V,

21/36

11/36

3/36

1/36

Таблица относительных частот напоминает таблицу вероят­ ностей дискретном случайной величины. Только вместо значе­ нии случайной величины пишут варианты выборки, ароль веро­ ятностей исполняют отноегггельные частоты.

Накопленной частотой называется число вариант выбор­ ки, меньших данного числа"1*.

Относительной накопленной частотой \*°*называется отно­ шение п™/п. Найдем накопленные и относительные накоплен­ ные частоты вариант выборки для нашего примера (табл 2.3):

 

 

 

 

 

Т а б л и ц а 2 ,3

 

0

1

2

 

3

 

0

21

32

 

35

 

0

21/36

32/36

35/36

Ясно, что пя"" “ 0,

= 0, т.х. нет нн одной варианты, мень-

&ЙХ;.

;

 

 

 

 

Кроме того,

 

 

 

 

««IV

_ «Ь , .. _ У

и , V *“* = УГ?1 +У . , = У у .

\

- ' V + ян - 2 и пА

V

м ^ и

 

!<*

 

 

 

 

13

отчего частоты и называются накопленными. Относительные накопленные частоты — это статистические аггалош значении функций распределения Р(х) дискретной случайной величины X. Действительно,

/сГ /</ Если выборка навлечена из непрерывно распределенной ге­

неральной совокупности, причем ее объем п достаточно ослик, то в выборке представлено много значений, н такую выборку неразумно представлять л виде таблицы частот. Кроме того, при работе с непрерывно распределенными случайными величина­ ми рассматривают не отдельные значения этик величин, а неко­ торые интервалы этих значений. Поэтому достаточно большую выборку, извлеченную из непрерывно распределенной генераль­ ной совокупности, группируют по интервалам следующим об­ разом. Весь диапазон значений вариант разбивают на разумное число интервалов одинаковой, как правило, ширины А. Чтобы не было недоразумении при подсчете числа вариант выборки, попавших в каждый интервал, левый конец каждого интервала считают закрытым, а правый — открытым, так что интервалы имеют внд [лг^-сД

Частотой /-го интервала л называется число, равное количес­ тву вариант выборки, попавших в этот интервал.

Относительной частотой 1-го интервала у, называется отно­ шение п/п. Кроме того, вычисляют накопленные и относитель­ ные накопленные частоты для правых храннц интервалов.

Если всего интервалов к, очевидно

2 » , = « ; 2 > , = | ; » Г = » < “ = ь

4-1

1»1

где лгд — правая

граница последнего интервала, все варианты

выборки меньше числа хк.

Полученные числа заносят в таблицу, которая называется интервальной таблицей частот.

Рассмотрим пример. У 50 новорожденных измерили массу тела с точностью до 10 г. Результаты (в кг) таковы (выборка 2):

14

3,7

3,85

3,7

3,78

3,6

4,45

4,2

3,87

з,зз

3,76

3,75

4,03

3,75

4,18

3,8

4,75

3.25

4,1

3,55

3,35

3,38

3,3

4.15

3,95

3,5

3,88

3,71

3,15

4,15

3,8

4.2г

3,75

3,58

3,55

4,08

4,03

3,24

4,05

3,56

3,05

3,58

3,98

3,88

3,78

4,05

3,4

3,8

3,06

4,38

4.2

Сгруппируем эту выборку. Наименьшая масса равна 3,05 кг, наибольшая масса равна 4,75 кг. «Упакуем» выборку в интервал [3-4,8], который разобьем на 6 интервалов шириной 0,3.

Интервальная таблица частот выглядит следующим образом (накопленные частоты считают для правых, границ интервалов) (табл. 2.4):

 

 

 

 

 

 

Таблица2.4

к ,.* ,)

[3-3,3)

[З.э-З,б)

13.6-3,9) [3.9-4.2)

[4,2-4,5)

(4,5-4.8)

"7

5

и

17

И

5

1

 

0.1

0,22

0,34

0,22

0,1

0,02

п Ч**

5

16

33

44

49

50

Vь

од

0,32

0,66

0,88

0.98

1.0

2.1.2. Графическое представление выборки. Полигон, гистограмма, кривая накопленных частот

Рисуккл и графики — удобный и наглядный способ пред­ ставления выборки. Выборку, извлеченную из дискретной гене­ ральной совокупности, можно представить в виде полигона час­ тот. На плоскости в прямоугольной системе координат строят точки с координатами (х^ у) и соединяют эти точки отрезками прямых. Полученная ломаная к называется полигоном частот. Полигон можно, конечно, построить и для сгруппированной вы­ борки. Но такую выборку нагляднее всего представить в виде гистограммы. Гистограмма — это фигура, состоящая из прямо­ угольников. Основашм прямоугольников — это интервалы, на которые разбита сгруппированная выборка. Высота /-го прямо­ угольника А# определяется формулой

^ = У,Л»,

1,2,3,...,* .

15

Таким образом, высоты прямоугольников пропорциональны частотам интервалов, а сумма высот равна

^ \',/Л = 1/Л-

ы

Поэтому площадь гистограммы равна (1/Л)хА = I. Гистограмма — это аналог графика функции плотности ве­

роятности /(х) непрерывной случайной величины, площадь под графиком $х) равна Г Кривая накоплютых частот (кумулятив­ ная кривая) — это статистический аналог графика функции рас­ пределения Р(х) непрерывной случайно» величины. Кривая на­ копленных частот строится так: точки с координатами (хг соединяют отрезками прямых, Кроме того, накопленные час­ тоты для любого числа х < х г равны 0, накопленные частоты для любого числа х> хк равны 1. Чтобы найти накопленную частоту для некоторогох] < х< Хр нужно воспользоваться линейной ин­ терполяцией. На рис. 2.1, 2.2, 2.3 показаны политое! частот для выборки 1, гистограмма и кумулятивная кривая для выборки 2 соответственно.

Рис. 2.1

И , = О,1Л),3 - 0,33; А ,=0,22/0,3 = 0,73; Ал = 0,34/0,3 = 1,13; А,= А/» - 0,73; Ь , = А, = 0,33; А, = 0,02/0,3 = 0,067.

Покажем, как, используя линейную интерполяцию, найти от­ носительную накопленную частоту V/® для числахг < х < х г

16

/г,/(»Л)

Рис.

17

Пусть х принадлежит интервалу [ам,

Рассмотрим соот­

ветствующий участок кривой накопленных частот ( рис. 2.4).

Имеем:ЛС= Ь ;АВ = х-х.

ВС= у~* -у*" ; О Б= у Г ' - у Г ;

 

М ВС -& АП Е.

 

Изподобиятреугольников следует,что

АС

ВС

В

—V

 

 

А Е ~ О Е ',Ши х -х,_ ,

 

 

Отсюда получаем

 

 

 

наг

у ,,вк + -

 

Л

 

 

 

 

 

Например, в выборке 2 :

 

 

 

у “ = 0,66 + [(4 -

3,9)*(0,88 - 0,66)]Д>,3 = 0,73.

Точно так же решается к обратная задача: по известкой час­

тоте у ** нангн число х. Имеем

-Ут

)

'

 

 

 

Л(у;ик ■ ♦ти *

Х=Л7_1 +

ипак

и нэк

 

 

 

У*1

*.-1

 

Например, для выборки 2 относительную накоплениую час­ тоту 0,5 имеет число

0 ;« - 0 Д 2

Действительно, если V™ = 0,5,то числох лежит внутри ин­ тервала [3,6; 3,9), так как у , = 0,32 < 0,5, а у3 = 0,66 > 0,5.

2 .2 . Ч И С Л О В Ы Е Х А Р А К Т Е Р И С Т И К И

ВЫ Б О Р К И

2.2.1.Выборочное среднее, мода, медиана

Выборочное среднее х — этосреднее арифметическое вари­ ант выборки. Если объем выборки равен и, то

18

Л-1

= ( ^ " > Е " л = Х у 1х'г.

1^1

|'«1

где к — число различных вариант; п. — частота варианты х, I = =1,2, 3......к.

Если выборка сгруппирована, то часто даже неизвестно, ка­ кие именно вариаЕггы попали в 1-й интервал. Тогда частоту ин­ тервала п(умножают на середину интервала. Конечно, при этом получается ошибка, так как варианты, лопавшие в интервал, не обязаны вес совпадать с числом (х, + хм)/2. Но эта ошибка не может быть слишком большой, особенно при достаточно боль­ ших л. Ведь в среднем половина вариант, попавших в интервал [х,,, *.), будет меньше числа + х(,)/2, а половина — больше, поэтому ошибки будут иметь разные знаки и таким образом компенсировать друг друга. Легко видеть, что формула для вы­ борочного среднего* совпадаете формулой для вычисления ма­ тематического ожидания дискретной случайной величины. Роль вероятностей играют относительные частоты уг

Найдем выборочные средние для выборок, рассмотренных ранее.

1.Выборка 1.

х= ]Гу,х х( = 0* 21'36 + I*11 /36 +2*3/36 4-Зх1/36 = 0,56,

ы

Итак, в среднем из каждых 10 единиц товара 0,56 единицы дефектны.

2. Выборка 2.

Найдем сначала выборочное среднее непосредственно по выборке, а затем по сгруппированной выборке и сравним полу­ ченные числа.

В первом случае имеем:

5г = (1/50)*(3,7+3,85 +3,7 + 3,78+3,6 + 4,45 +4,2+3,87+ЗДЗ+3,76+ +3,75 + 4,03 +3,75 +4,18+3,8 +4,75 + 3,25 + 4,1 + 3,55 + 3,35 + 3,38+

+3,3 + 4,15+3,95+3,5 + 3,88 + 3,71 + 3,15 + 4,15 + 3,8 + 4,22 + 3,75+

+3,58 + 3,55 + 4,08 + 4,03 + 3,24 + 4,05 + 3,56 + 3,05 + 3,58 + 3,98 +

+3,88 + 3,78 + 4,05 +3,4 + 3,8 + 3,06 + 4,38 + 4,2)=3,78.

19

Средняя масса ребенка равна 3,78 кг.

Рассчитаем выборочное среднее по сгруппированное выборке.

а- = 3,15x0,1

+ 3,45^0,22 + 3,75x0,34 + 4,05x0,22 + 4,35x0,1 +

+ 4,65x0,02

=3,77.

Расхождение равно 10 граммам. Но ведь и ьгассы детей опре­

делялись с точностью до 10 граммов, так что мы нс превзошли ошибки округления. Сам же подсчет оказался намного проще.

В теории вероятностен модой дискретной случайной ве­ личины называется такое ее значение, которое имеет максималь­ ную вероятность. Модой непрерывкой случайной величины на­ зывается такое со значение, на котором достигается максимум функции ллотности вероятности/!^. Закон распределения назы­ вается унимодальным, если мода единственна. Соответственно вводится лошпие моды и в статистике. Модой $ (обозначают 5, читают ест с крышечкой») называется варианта V. с наибольшей частотой (относительной частотой). В выборке I мода $ = 0.

Если выборка сгруппирована, то сначала определяют мо­ дальны Ц интервал, т.с. интервал с наибольшей частотой (отно­ сительной частотой). В качестве моды можно взять середину модальненчэ интервала. Эту оценку можно подправить с помо­ щью простого дополи игольного построения на гистограмме (рис. 2.5).

В выборке 2 модальный интервал — это интервал [3,6; 3,9). Тогда $ = 3,75. Так как высоты прямоугольников слева и справа от интервала [3,6; 3,9) одинаковы, подправлять значение $ нс нужно.

В теории вероятностей медианой непрерывной случайной величины X называется такое число хт%когда Р(Х < х^) = 0,5 = = Р(Х>хш), Соответственно в статистике медианой (обозначают А, читают их с волной») называют такое число х, когда 50% ва­ риант выборки меньше этого значения, а 50% больше его. Ясно, что для любой выборки можно подобрать бесконечно много ме­ диан. Чтобы избежать неоднозначности, будем называть медиа­

ной число

* такое, когда

= 0,5, где 0,5 — ордината точки с

абсциссой

х на кривой накопленных частот.

20