книги / Прикладная статистика
..pdfдля изучения виде. Возникает задача описания к представления выборки,
Наконец, располагая сведениями о свойствах генеральной совокупности, можно предсказать свойства повторно извлечен ных из нее выборок — заглянуть в будущее.
Г л а в а II
ВЫБОРКА, ЕБ ПРЕДСТАВЛЕНИЕ И ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ
Все, что вндшг лгы — видииоеть только одна. Далеко от поверхности люрн до дна.
Полагай несутцеспгяеинымявное я чпрс. Ибо тайная сутцносшь вещей —не видна.
О. Хойяч (перевод Г, Плисецкого)
2 .1 . П Р Е Д С Т А В Л Е Н И Е В Ы Б О Р К И
2.1.1. Таблица частот и интервальная таблица частот
Небольшие выборки удобно представлять в виде таблицы из двух строк. В первой строке записывают элементы выбор* ки (они называются вариантам»), расположенные в порядке возрастания. Во второй строке записываются частоты вариант. Частотой варианты называется число, равное количеству повто рений варианты в выборке. Если и,— частота варианты х., всего в выборке к разных вариант, то л, + п3+...+ л§ = и, где п — объем выборки. Описанная таблица называется таблицей частот.
Рассмотрим пример. С производственной лилии случайным образом 36 раз отбирали по 10 единиц некоторого изделия. Каж дый раз отмечалось число дефектных изделий.
|
Получена выборка 1: |
|
|
|
|
|
|
|
|
|
|
|
|||||
0 |
0 |
1 |
0 |
2 |
0 |
1 |
2 |
1 |
0 |
0 |
0 |
0 |
0 |
3 |
1 |
0 |
0 |
0 |
0 |
0 |
2 |
0 |
0 |
1 |
1 |
0 |
0 |
0 |
1 |
1 |
0 |
1 |
0 |
1 |
1 |
12
Здесь л - 36, в выборке представлены 4 варианты: х;= 0, х2 = I,
х^ = 2у =3.
Таблица частот выглядит следующим образом (табл. 2.1):
|
|
|
|
Таблица 2. / |
* |
0 |
1 |
2 |
3 |
л.21 11 3 1
Относительной частотой варианты лг. называется число равное отношению и;/н . Если сумма частот равна п, то сумма отлоситсльных частот равна Ып = I.
Таблица относительных частот для этого примера такова (табл. 2.25:
|
|
|
|
Таблица2,2 |
дг( |
0 |
1 |
2 |
3 |
V, |
21/36 |
11/36 |
3/36 |
1/36 |
Таблица относительных частот напоминает таблицу вероят ностей дискретном случайной величины. Только вместо значе нии случайной величины пишут варианты выборки, ароль веро ятностей исполняют отноегггельные частоты.
Накопленной частотой называется число вариант выбор ки, меньших данного числа"1*.
Относительной накопленной частотой \*°*называется отно шение п™/п. Найдем накопленные и относительные накоплен ные частоты вариант выборки для нашего примера (табл 2.3):
|
|
|
|
|
Т а б л и ц а 2 ,3 |
|
0 |
1 |
2 |
|
3 |
|
0 |
21 |
32 |
|
35 |
|
0 |
21/36 |
32/36 |
35/36 |
|
Ясно, что пя"" “ 0, |
= 0, т.х. нет нн одной варианты, мень- |
||||
&ЙХ;. |
; |
|
|
|
|
Кроме того, |
|
|
|
|
|
««IV |
_ «Ь , .. _ У |
и , V *“* = УГ?1 +У . , = У у . |
|||
\ |
- ' V + ян - 2 и пА |
V |
м ^ и |
||
|
!<* |
|
|
|
|
13
отчего частоты и называются накопленными. Относительные накопленные частоты — это статистические аггалош значении функций распределения Р(х) дискретной случайной величины X. Действительно,
/сГ /</ Если выборка навлечена из непрерывно распределенной ге
неральной совокупности, причем ее объем п достаточно ослик, то в выборке представлено много значений, н такую выборку неразумно представлять л виде таблицы частот. Кроме того, при работе с непрерывно распределенными случайными величина ми рассматривают не отдельные значения этик величин, а неко торые интервалы этих значений. Поэтому достаточно большую выборку, извлеченную из непрерывно распределенной генераль ной совокупности, группируют по интервалам следующим об разом. Весь диапазон значений вариант разбивают на разумное число интервалов одинаковой, как правило, ширины А. Чтобы не было недоразумении при подсчете числа вариант выборки, попавших в каждый интервал, левый конец каждого интервала считают закрытым, а правый — открытым, так что интервалы имеют внд [лг^-сД
Частотой /-го интервала л называется число, равное количес тву вариант выборки, попавших в этот интервал.
Относительной частотой 1-го интервала у, называется отно шение п/п. Кроме того, вычисляют накопленные и относитель ные накопленные частоты для правых храннц интервалов.
Если всего интервалов к, очевидно
2 » , = « ; 2 > , = | ; » Г = » < “ = ь |
|
4-1 |
1»1 |
где лгд — правая |
граница последнего интервала, все варианты |
выборки меньше числа хк.
Полученные числа заносят в таблицу, которая называется интервальной таблицей частот.
Рассмотрим пример. У 50 новорожденных измерили массу тела с точностью до 10 г. Результаты (в кг) таковы (выборка 2):
14
3,7 |
3,85 |
3,7 |
3,78 |
3,6 |
4,45 |
4,2 |
3,87 |
з,зз |
3,76 |
3,75 |
4,03 |
3,75 |
4,18 |
3,8 |
4,75 |
3.25 |
4,1 |
3,55 |
3,35 |
3,38 |
3,3 |
4.15 |
3,95 |
3,5 |
3,88 |
3,71 |
3,15 |
4,15 |
3,8 |
4.2г |
3,75 |
3,58 |
3,55 |
4,08 |
4,03 |
3,24 |
4,05 |
3,56 |
3,05 |
3,58 |
3,98 |
3,88 |
3,78 |
4,05 |
3,4 |
3,8 |
3,06 |
4,38 |
4.2 |
Сгруппируем эту выборку. Наименьшая масса равна 3,05 кг, наибольшая масса равна 4,75 кг. «Упакуем» выборку в интервал [3-4,8], который разобьем на 6 интервалов шириной 0,3.
Интервальная таблица частот выглядит следующим образом (накопленные частоты считают для правых, границ интервалов) (табл. 2.4):
|
|
|
|
|
|
Таблица2.4 |
к ,.* ,) |
[3-3,3) |
[З.э-З,б) |
13.6-3,9) [3.9-4.2) |
[4,2-4,5) |
(4,5-4.8) |
|
"7 |
5 |
и |
17 |
И |
5 |
1 |
|
0.1 |
0,22 |
0,34 |
0,22 |
0,1 |
0,02 |
п Ч** |
5 |
16 |
33 |
44 |
49 |
50 |
Vь— |
од |
0,32 |
0,66 |
0,88 |
0.98 |
1.0 |
2.1.2. Графическое представление выборки. Полигон, гистограмма, кривая накопленных частот
Рисуккл и графики — удобный и наглядный способ пред ставления выборки. Выборку, извлеченную из дискретной гене ральной совокупности, можно представить в виде полигона час тот. На плоскости в прямоугольной системе координат строят точки с координатами (х^ у) и соединяют эти точки отрезками прямых. Полученная ломаная к называется полигоном частот. Полигон можно, конечно, построить и для сгруппированной вы борки. Но такую выборку нагляднее всего представить в виде гистограммы. Гистограмма — это фигура, состоящая из прямо угольников. Основашм прямоугольников — это интервалы, на которые разбита сгруппированная выборка. Высота /-го прямо угольника А# определяется формулой
^ = У,Л», |
1,2,3,...,* . |
15
Таким образом, высоты прямоугольников пропорциональны частотам интервалов, а сумма высот равна
^ \',/Л = 1/Л-
ы
Поэтому площадь гистограммы равна (1/Л)хА = I. Гистограмма — это аналог графика функции плотности ве
роятности /(х) непрерывной случайной величины, площадь под графиком $х) равна Г Кривая накоплютых частот (кумулятив ная кривая) — это статистический аналог графика функции рас пределения Р(х) непрерывной случайно» величины. Кривая на копленных частот строится так: точки с координатами (хг соединяют отрезками прямых, Кроме того, накопленные час тоты для любого числа х < х г равны 0, накопленные частоты для любого числа х> хк равны 1. Чтобы найти накопленную частоту для некоторогох] < х< Хр нужно воспользоваться линейной ин терполяцией. На рис. 2.1, 2.2, 2.3 показаны политое! частот для выборки 1, гистограмма и кумулятивная кривая для выборки 2 соответственно.
Рис. 2.1
И , = О,1Л),3 - 0,33; А ,=0,22/0,3 = 0,73; Ал = 0,34/0,3 = 1,13; А,= А/» - 0,73; Ь , = А, = 0,33; А, = 0,02/0,3 = 0,067.
Покажем, как, используя линейную интерполяцию, найти от носительную накопленную частоту V/® для числахг < х < х г
16
/г,/(»Л)
Рис. 2А
17
Пусть х принадлежит интервалу [ам, |
Рассмотрим соот |
|||
ветствующий участок кривой накопленных частот ( рис. 2.4). |
||||
Имеем:ЛС= Ь ;АВ = х-х. |
ВС= у~* -у*" ; О Б= у Г ' - у Г ; |
|||
|
М ВС -& АП Е. |
|
||
Изподобиятреугольников следует,что |
||||
АС |
ВС |
В |
\Г |
—V |
|
|
|||
А Е ~ О Е ',Ши х -х,_ , |
|
|
||
Отсюда получаем |
|
|
|
|
наг |
у ,,вк + - |
|
Л |
|
|
|
|
|
|
Например, в выборке 2 : |
|
|
|
|
у “ = 0,66 + [(4 - |
3,9)*(0,88 - 0,66)]Д>,3 = 0,73. |
|||
Точно так же решается к обратная задача: по известкой час |
||||
тоте у ** нангн число х. Имеем |
-Ут |
) |
||
' |
|
|
||
|
Л(у;ик ■ ♦ти * |
|||
Х=Л7_1 + |
ипак |
и нэк |
|
|
|
|
У*1 |
*.-1 |
|
Например, для выборки 2 относительную накоплениую час тоту 0,5 имеет число
0 ;« - 0 Д 2
Действительно, если V™ = 0,5,то числох лежит внутри ин тервала [3,6; 3,9), так как у , = 0,32 < 0,5, а у3 = 0,66 > 0,5.
2 .2 . Ч И С Л О В Ы Е Х А Р А К Т Е Р И С Т И К И
ВЫ Б О Р К И
2.2.1.Выборочное среднее, мода, медиана
Выборочное среднее х — этосреднее арифметическое вари ант выборки. Если объем выборки равен и, то
18
Л-1 |
= ( ^ " > Е " л = Х у 1х'г. |
|
1^1 |
|'«1 |
где к — число различных вариант; п. — частота варианты х, I = =1,2, 3......к.
Если выборка сгруппирована, то часто даже неизвестно, ка кие именно вариаЕггы попали в 1-й интервал. Тогда частоту ин тервала п(умножают на середину интервала. Конечно, при этом получается ошибка, так как варианты, лопавшие в интервал, не обязаны вес совпадать с числом (х, + хм)/2. Но эта ошибка не может быть слишком большой, особенно при достаточно боль ших л. Ведь в среднем половина вариант, попавших в интервал [х,,, *.), будет меньше числа + х(,)/2, а половина — больше, поэтому ошибки будут иметь разные знаки и таким образом компенсировать друг друга. Легко видеть, что формула для вы борочного среднего* совпадаете формулой для вычисления ма тематического ожидания дискретной случайной величины. Роль вероятностей играют относительные частоты уг
Найдем выборочные средние для выборок, рассмотренных ранее.
1.Выборка 1.
х= ]Гу,х х( = 0* 21'36 + I*11 /36 +2*3/36 4-Зх1/36 = 0,56,
ы
Итак, в среднем из каждых 10 единиц товара 0,56 единицы дефектны.
2. Выборка 2.
Найдем сначала выборочное среднее непосредственно по выборке, а затем по сгруппированной выборке и сравним полу ченные числа.
В первом случае имеем:
5г = (1/50)*(3,7+3,85 +3,7 + 3,78+3,6 + 4,45 +4,2+3,87+ЗДЗ+3,76+ +3,75 + 4,03 +3,75 +4,18+3,8 +4,75 + 3,25 + 4,1 + 3,55 + 3,35 + 3,38+
+3,3 + 4,15+3,95+3,5 + 3,88 + 3,71 + 3,15 + 4,15 + 3,8 + 4,22 + 3,75+
+3,58 + 3,55 + 4,08 + 4,03 + 3,24 + 4,05 + 3,56 + 3,05 + 3,58 + 3,98 +
+3,88 + 3,78 + 4,05 +3,4 + 3,8 + 3,06 + 4,38 + 4,2)=3,78.
19
Средняя масса ребенка равна 3,78 кг.
Рассчитаем выборочное среднее по сгруппированное выборке.
а- = 3,15x0,1 |
+ 3,45^0,22 + 3,75x0,34 + 4,05x0,22 + 4,35x0,1 + |
+ 4,65x0,02 |
=3,77. |
Расхождение равно 10 граммам. Но ведь и ьгассы детей опре |
делялись с точностью до 10 граммов, так что мы нс превзошли ошибки округления. Сам же подсчет оказался намного проще.
В теории вероятностен модой дискретной случайной ве личины называется такое ее значение, которое имеет максималь ную вероятность. Модой непрерывкой случайной величины на зывается такое со значение, на котором достигается максимум функции ллотности вероятности/!^. Закон распределения назы вается унимодальным, если мода единственна. Соответственно вводится лошпие моды и в статистике. Модой $ (обозначают 5, читают ест с крышечкой») называется варианта V. с наибольшей частотой (относительной частотой). В выборке I мода $ = 0.
Если выборка сгруппирована, то сначала определяют мо дальны Ц интервал, т.с. интервал с наибольшей частотой (отно сительной частотой). В качестве моды можно взять середину модальненчэ интервала. Эту оценку можно подправить с помо щью простого дополи игольного построения на гистограмме (рис. 2.5).
В выборке 2 модальный интервал — это интервал [3,6; 3,9). Тогда $ = 3,75. Так как высоты прямоугольников слева и справа от интервала [3,6; 3,9) одинаковы, подправлять значение $ нс нужно.
В теории вероятностей медианой непрерывной случайной величины X называется такое число хт%когда Р(Х < х^) = 0,5 = = Р(Х>хш), Соответственно в статистике медианой (обозначают А, читают их с волной») называют такое число х, когда 50% ва риант выборки меньше этого значения, а 50% больше его. Ясно, что для любой выборки можно подобрать бесконечно много ме диан. Чтобы избежать неоднозначности, будем называть медиа
ной число |
* такое, когда |
= 0,5, где 0,5 — ордината точки с |
абсциссой |
х на кривой накопленных частот. |
20