Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Учебное пособие по ТВ и МС

.pdf
Скачиваний:
59
Добавлен:
08.03.2016
Размер:
3.21 Mб
Скачать

Вариационные ряды графически могут быть изображены в виде полигона, гистограммы, кумулятивной кривой, кривой концентрации (кривой Лоренца).

Полигон служит для изображения, как правило, дискретного вариационного ряда и представляет собой ломанную, у которой концы отрезков имеют координаты (xi , ni ), i =1,K, L .

Гистограмма используется только для изображения интервальных вариационных рядов и представляет собой ступенчатую фигуру из прямоугольников с основаниями, равными интервалам значений признака

hi = xi+1 xi , i =1,K, L , и высотами, равными относительным частотам wi

интервалов. Если соединить середины верхних оснований прямоугольников отрезками, то можно получить полигон того же распределения.

Кумулятивная кривая (кумулянта) – кривая накопленных частот

(частостей). Для дискретного ряда кумулянта представляет собой ломанную,

соединяющую

точки

(xi , niнак )

или

(xi , wiнак ), i =1KL ,

где

i

i

 

 

 

 

niнак = n j , wiнак = wj .

Для интервального

ряда ломаная начинается

из

j=1

j=1

 

 

 

 

точки, абсцисса которой равна началу первого интервала, а ордината – накопленной частоте (частости), равной нулю. Другие концы этой ломанной соответствуют концам интервалов.

Кривая концентрации (кривая Лоренца) показывает степень концентрации отдельных элементов выборки по группам. Для ее построения на оси абсцисс будем откладывать накопленные частоты (частости), а на оси ординат – соответствующие суммы значений признака.

Определим далее эмпирическую функцию распределения Fn (x) .

Определение 6.2. Пусть дана выборка X = (x1 ,K, xn ) . Положим, что xi независимы. Для получения функции Fn (x) выполним следующие действия:

1)сформируем вариационный ряд x(1) x(2) ≤ K≤ x(n) ;

2)выделим минимальный xmin = x(1) и максимальный xmax = x(n) элементы;

3)для каждого значения x случайной величины найдем такое nx, равное числу элементов выборки, значения которых не более заданного x. Тогда отношение

Fn (x) = nnx

называется эмпирической функцией распределения (или распределением выборки).

81

Свойства эмпирической функции распределения:

1)0 Fn (x) 1;

2)Fn (x) неубывающая функция;

3)Fn (x) непрерывна справа;

4)Fn (x) кусочно-постоянна и изменяется только в точках вариационного ряда. В общем случае Fn (x) можно представить в виде

0,

при

x x(1) ,

 

n

x

 

 

 

Fn (x) =

 

, при x < x x(n) ,

(6.2)

 

 

n

при

x > x(n) ,

 

1,

 

 

 

 

 

 

 

где nx количество элементов выборки, значения которых меньше или равны заданному x.

Пример 6.1. Выборка, n = 15: X = (0; 2; 1; 2,6; 3,1; 4,6; 1; 4,6; 6; 2,6; 6; 7; 9; 9; 2,6). Вариационный ряд: (0; 1; 1; 2; 2,6; 2,6; 2,6; 3,1; 4,6; 4,6; 6; 6; 7; 9; 9).

Эмпирическая функция распределения (рис. 6.1) имеет скачки в точках выборки, величина скачка в точке x(i) равна m/n, где m количество элементов

выборки, совпадающих с x(i) .

Рис. 6.1.

Далее разобьем отрезок [0,10] на 4 равных отрезка. В отрезок A1 = [0; 2,5) попали 4 элемента выборки, в А2 = [2,5; 5) 6, в А3 = [5; 7,5) 3, и в отрезок А4 = [7,5; 10] попали 2 элемента выборки. Строим гистограмму (рис. 6.2, слева). Справа тоже гистограмма для той же выборки, но при разбиении области на 5 равных отрезков.

82

Рис. 6.2.

Замечание 6.1. Наилучшее число интервалов группировки следует определять по формуле (6.1). Заметим, что чем больше интервалов группировки, тем лучше. Но это «чем больше» имеет свои границы: если брать число интервалов, скажем, порядка n, то с ростом n гистограмма, очевидно, не будет поточечно приближаться к плотности распределения, как следует из следующего утверждения.

Предложение 6.1. Если плотность распределения элементов выборки – непрерывная функция, то при L(n) , так что L(n) / n 0 , имеет место поточечная сходимость по вероятности гистограммы к плотности распределения.

Упражнение 6.1. Можно ли по эмпирической функции распределения, приведенной на рис. 6.1, восстановить выборку X = (x1 ,K, xn ) если n известно? А вариационный ряд? Как это сделать? А если n неизвестно?

Кхарактеристикам одномерного распределения частот относятся:

-меры положения, которые характеризуют среднее положение распределения;

-меры рассеяния, отражающие изменчивость распределения;

-меры формы, характеризующие отклонение распределения от нормального.

6.2. Средние величины

Средние величины характеризуют значения признака, вокруг которого концентрируются наблюдения. Наиболее распространенной из средних величин является средняя арифметическая. Она употреблялась еще задолго до появления статистики как науки.

Определение 6.3. Средняя арифметическая вариационного ряда – сумма произведений всех вариантов на соответствующие частоты, деленная на сумму частот:

83

 

 

L

 

L

 

 

 

 

xi ni

 

xi ni

 

 

x

=

i=1

=

i=1

,

(6.3)

L

n

 

 

ni

 

 

 

 

 

 

 

 

 

i=1

где xi варианты дискретного ряда или середины интервалов интервального вариационного ряда, ni соответствующие им частоты.

Основные свойства средней арифметической аналогичны свойствам математического ожидания:

1.Средняя арифметическая константы равно этой константе, C = C .

2.Cx = C x .

3.x +C = x +C .

4.Средняя арифметическая отклонений вариантов от средней арифметической равна нулю:

xx = 0 .

5.Средняя арифметическая суммы признаков равно сумме средних арифметических этих признаков:

x+ y = x + y .

6.Если ряд состоит из нескольких групп, общая средняя равна средней арифметической групповых средних, причем весами являются объемы групп:

 

 

L

 

 

 

 

i ni

 

 

 

x

 

 

=

i=1

 

x

,

n

 

 

 

где xi групповая средняя i-й группы, объем которой равен ni , L число групп.

Упражнение 6.2. Докажите свойства средней арифметической.

При решении практических задач могут использоваться и иные формы средней, которые получаются из средней степенной k-го порядка:

 

 

 

 

 

1

 

 

 

 

 

 

L

 

 

 

 

 

 

 

 

 

k

 

k

 

 

 

 

 

 

xi

ni

 

 

 

 

 

(k ) =

i=1

 

 

 

, k Z, xi

> 0

 

 

x

 

.

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Очевидно,

что при k = 1

имеем формулу средней арифметической (6.3).

При некоторых других значениях k получаем формулы

84

k = −1:

 

 

(1) =

 

n

 

 

x

средняя гармоническая;

 

 

L

 

 

 

 

 

ni

 

 

 

 

 

 

 

 

 

 

 

 

 

i=1 xi

 

 

 

 

 

 

L

 

k = 0 :

x(0) = n

xini

средняя геометрическая.

 

 

 

 

 

i=1

 

Рассмотренные выше средние величины называют аналитическими. Наряду с ними в статистике применяют структурные или порядковые средние, наиболее распространенными из которых являются медиана и мода.

Определение 6.4. Медианой ~xmed вариационного ряда называется значение

признака, приходящееся на середину упорядоченного по возрастанию ряда наблюдений.

Если выборка состоит из (2N +1) членов, то под медианой понимается (N +1) -е по величине значение варианты. Если же выборка состоит из 2N членов, то медианой считают полусумму N-го и (N + 1) -го значений варианты.

Достоинство медианы как меры положения заключается в том, что на нее практически не влияют значения крайних членов вариационного ряда, особенно, когда они оказались чрезмерно большими по абсолютной величине в сравнении с остальными членами ряда.

Определение 6.5. Модой ~ вариационного ряда называется вариант,

xmod

которому соответствует наибольшая частота.

Особенность моды как меры положения состоит в том, что она не изменяется при изменении членов ряда, отдаленных от центра ряда. Если вероятность или плотность вероятности достигает локального максимума в нескольких точках, то распределение называется полимодальным.

6.3. Показатели вариации

Рассмотренные выше средние величины не отражают изменчивости, степени рассеяния значений признака. Для оценки меры рассеяния используют показатели вариации.

Простейшей и весьма приближенной мерой рассеяния является вариационный размах R, равный разности между наибольшим и наименьшим вариантами ряда:

R = xmax xmin .

85

Если выборка состоит только из двух значений, то вариационный размах является исчерпывающей характеристикой рассеяния. При увеличении объема выборки эта мера уже становится недостаточной, потому что учитывает только два крайних, экстремальных значения.

Разделим вариационный ряд девятью значениями на десять равных частей. Эти значения назовем децилями и обозначим DZ1 ,K, DZ9 . Мерой рассеяния,

которая, в противоположность вариационному размаху, почти не зависит от экстремальных значений и в то же время включает в себя 80% всего выборочного распределения и имеет очень малые колебания от выборки к выборке, является интердецильный размах, равный

I80 = DZ9 DZ1 .

Наибольший интерес представляют меры рассеяния наблюдений вокруг средних величин, в частности, вокруг средней арифметической.

Средним линейным отклонением вариационного ряда называется средняя арифметическая абсолютных величин отклонений вариантов от их средней арифметической:

L xi x ni

d =

i=1

 

.

 

n

 

 

 

Определение 6.6. Дисперсией s2 вариационного ряда называется средняя арифметическая квадратов отклонений вариантов от их средней арифметической:

 

L

(xi

 

)2 ni

 

 

x

 

s2 =

i=1

 

 

 

.

 

n

 

 

 

В качестве меры рассеяния, наряду с выборочной дисперсией, используют среднее квадратическое отклонение s, равное

L

(xi x)2 ni

 

s = s2 = i=1

n

,

 

 

которое, в отличие от дисперсии, имеет ту же размерность, что и значения признака.

86

Введенные выше меры рассеяния являются размерными величинами. Поэтому могут возникнуть трудности при их сравнении для выборок из разных генеральных совокупностей. Наиболее распространенной безразмерной меры рассеяния является коэффициент вариации ν~ , равный

ν~ =

 

s

 

100%, (

 

0) .

 

 

x

 

 

 

x

 

 

 

 

 

Следует обратить внимание на то, чтобы значения xi были положительными. Выборка является однородной, если ν~ > 33 % . Коэффициент вариации особенно пригоден для сравнения выборок из генеральных совокупностей одного типа, т.е. имеющих один и тот же тип закона распределения.

6.4. Начальные и центральные моменты вариационного ряда

Средняя арифметическая и дисперсия вариационного ряда являются частными случаями более общего понятия – моментов вариационного ряда.

Определение 6.7. Начальный момент ν~k k-го порядка вариационного ряда:

 

L

 

ν~k =

xik ni

 

i=1

.

n

 

 

Очевидно, что x =ν~1 .

Определение 6.8. Центральный момент ~ k-го порядка вариационного

µk

ряда:

 

L

 

 

(xi

 

)k ni

 

µk =

x

.

i=1

~

 

 

n

 

Дисперсия является центральным моментом 2-го порядка, D = µ~2 .

С помощью моментов распределения можно описать не только среднюю тенденцию и рассеяние, но и другие особенности вариации признака, в

частности форму распределения.

Определение 6.9. Коэффициентом асимметрии ~ (или β1) вариационного

A

ряда называется число

87

 

 

 

 

 

L

 

 

 

 

 

 

 

 

(xi

 

)3 ni

 

 

 

 

~

~

 

 

x

 

 

 

 

µ

3

 

i=1

 

 

 

 

A =

 

 

=

.

 

 

 

σ 3

nσ 3

 

 

 

 

 

 

 

 

 

Для симметричного распределения

~

µ3) равен нулю. Например, для

A

нормального

 

 

 

~

При

~

< 0 распределение имеет

распределения A = 0 .

A

левостороннюю асимметрию (средняя арифметическая меньше медианы), при

~

правостороннюю (рис. 6.3).

A > 0

Рис. 6.3. Зависимость формы плотности распределения вероятности от коэффициента асимметрии

 

 

 

 

~

Определение 6.10. Коэффициентом эксцесса E (или γ) вариационного ряда

называется число

 

~

~

 

 

 

µ4

 

 

E =

 

 

3 .

 

µ

2

 

 

 

 

 

 

2

 

 

Для

 

 

~

= 0 . Распределение с более острой

нормального распределения E

вершиной – с крутизной, большей, чем у нормального распределения, имеет

~

> 0 ; распределение, более плоское, чем нормальное, имеет

~

< 0 .

E

E

~

Зависимость формы плотности распределения от E приведена на рис. 6.4.

Рис. 6.4. Зависимость формы плотности распределения вероятностей от коэффициента эксцесса

88

D[ξ]

Замечание 6.2. Средняя арифметическая x , дисперсия s2 и другие рассмотренные характеристики вариационного ряда являются статистическими аналогами математического ожидания M [ξ] , дисперсии и

соответствующих характеристик случайной величины ξ.

Глава 7. Основы выборочного метода

Вэтой главе рассмотрим вопросы построения оценок общих и числовых характеристик случайных величин по выборочным данным и показатели качества этих оценок.

7.1.Общие сведения о выборочном методе

Впрактике статистических наблюдений различают два вида наблюдений: сплошное, когда изучаются все объекты, и выборочное, когда изучается часть объектов.

Вся подлежащая изучению совокупность объектов называется генеральной совокупностью.

Генеральная совокупность – весь мыслимый набор данных, описывающих какое-либо явление. Более строго: генеральная совокупность – это случайная

величина ξ(ω) , заданная на пространстве элементарных событий с

выделенным в нем полем событий S, для которых указаны их вероятности P. Понятие генеральной совокупности в определенном смысле аналогично

понятию случайной величины (закону распределения вероятностей, вероятностному пространству).

Выборка из объема n (или просто выборка) – ограниченный набор n реально наблюдаемых выборочных из генеральной совокупности значений, описывающих исследуемое явление.

Конкретная выборка x1 ,K, xn – это конечная последовательность n чисел

– реализация случайной величины ξ(ω) .

Случайная выборка объема n из генеральной совокупности (или выборка из распределения случайной величины ξ) – это последовательность X1,K, Xn

независимых одинаково распределенных случайных величин, распределение каждой из которых совпадает с распределением случайной величины ξ(ω) . Случайная выборка имеет следующее распределение:

n

n

FX1 ,K,X n (x1 ,K, xn ) = P{X1 < x1 , K, X n < xn }= P{X i < xi }= FXi (xi ) .

i=1

i=1

Сущность выборочного метода состоит в том, чтобы по некоторой части генеральной совокупности (по выборке) делать выводы о ее свойствах в целом.

89

Преимущества выборочного метода наблюдения по сравнению со сплошным:

-существенно экономит затраты ресурсов;

-является единственно возможным в случае бесконечной генеральной совокупности;

-при тех же затратах ресурсов дает возможность проведения углубленного анализа за счет расширения программы исследования;

-позволяет снизить ошибки регистрации, т.е. расхождения между

истинным и зарегистрированным значениями признака.

Основной недостаток выборочного метода – ошибки репрезентативности

(или представительства).

Выборка называется репрезентативной (или представительной), если она достаточно хорошо воспроизводит генеральную совокупность.

Чтобы по данным выборки иметь возможность судить о генеральной совокупности, она должна быть отобрана случайно, т.е. быть собственно-

случайной.

7.2. Понятие оценки параметров

Сформулируем задачу оценки параметров в общем виде. Пусть распределение признака ξ – генеральной совокупности – задается функцией вероятностей pξ (xi ,θ) = P(ξ = xi ) (для дискретной случайной величины ξ) или

плотностью вероятности pξ (x,θ) (для непрерывной случайной величины ξ), которая содержит неизвестный параметр θ. Например, это параметр λ для показательного распределения, a и σ 2 для нормального распределения и т.д. Параметр θ является величиной неслучайной, детерминированной.

Для вычисления параметра θ исследовать всю генеральную совокупность не представляется возможным. Поэтому о параметре θ судят по выборке, состоящей из значений x1 ,K, xn . Эти значения можно рассматривать как

частные значения n независимых случайных величин X1,K, X n , каждая из которых имеет тот же закон распределения, что и сама случайная величина θ.

Определение 7.1. Оценкой θ~n параметра θ называют всякую функцию

результатов наблюдений над случайной величиной ξ, с помощью которой судят о значении параметра θ:

θ~n =θ~n (X1 ,K, X n ) .

Поскольку X1,K, X n случайные величины, то и оценка θ~n является случайной величиной, зависящей от закона распределения случайной величины θ и числа n.

90