Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Полшков Ю.Н. Курс лекций по ТВиМС.pdf
Скачиваний:
170
Добавлен:
13.04.2015
Размер:
4.63 Mб
Скачать

48

Лекция 2. ХАРАКТЕРИСТИКИU ЦЕНТРА ГРУППИРОВАНИЯ И РАССЕИВАНИЯ ВЫБОРКИ U

План

1.Среднее значение, медиана, мода.

2.Дисперсия, среднеквадратическое отклонение, коэффициент вариации.

3.Статистические моменты, асимметрия и эксцесс выборки.

1.К характеристикам центра группирования относятся: среднее значение, медиана,

мода.

Средним значением выборки (выборочной средней) называют число

x = 1 n xi , n i=1

где x1 , x2 ,..., xn – наблюдаемые значения случайной величины X , вошедшие в выборку объема n . Если же признак в выборке принимает значения x1 , x2 ,..., xk с соответствующими частотами n1 , n2 ,..., nk , то

x = 1 k xi ni ,

n i=1

причём n = n1 + n2 +... + nk . В соответствие с этой формулой выборочную среднюю можно

назвать средней арифметической различных значений выборки, взвешенной по частотам. В

том случае, когда выборка представлена интервалами и частотами попадания в эти интервалы, за значения признака берут середины интервалов и применяют последнюю формулу. В прошлой лекции вводилось понятие частости wi . Тогда последняя формула может быть за-

писана в виде

k

x = xi

i=1

ni = k xi wi .

n i=1

ЗамечаниеU 1.U Генеральную (выборочную) среднюю называют общей средней генеральной совокупности (выборки).

Когда объем выборки n невелик, то имеет смысл рассчитать медиану me . Если объем

выборки n – нечетное число, то составив вариационный ряд, за медиану принимают то значение величины X , которое оказалось посредине распределения. Если n – четное число, то за медиану принимают среднее арифметическое из двух значений, лежащих в середине распределения.

Мода mo выборки – это значение, имеющее наибольшую частоту или частость. Если

несколько значений выборки имеют одинаковую наибольшую частоту, то модами будут эти значения. Если же все значения выборки имеют частоту 1, то мода отсутствует.

ПримерU 1.U Используя данные примера 3 предыдущей лекции (табл. 1),

Табл. 1. Таблица распределения частот к примеру 1

xi

26

27

28

29

30

31

32

Σ

ni

1

2

1

6

4

4

2

20

рассчитать среднее значение, медиану, моду.

x = 201 (26 1 + 27 2 + 28 1 + 29 6 + 30 4 + 31 4 + 32 2) = 29,5 ,

= 29 +30 =

me 2 29,5 ,

49

mo = 29 .

ЗамечаниеU 2.U Практически любой пакет прикладных программ, позволяющий делать математические расчеты, содержит статистические функции или процедуры. Например, в Microsoft Excel встроены статистические функции, среди которых есть СРЗНАЧ( ), МЕДИАНА( ), МОДА( ). В Maple 6 их аналогами, соответственно, являются функции stats[describe,mean]( ), stats[describe,median( ), stats[describe,mode]( ). В дальнейшем будут указываться наиболее простые пути решения задач математической статистики, позволяющие избежать «ручного» счёта.

2. Наиболее употребительными эмпирическими характеристиками рассеивания яв-

ляются: дисперсия, среднеквадратическое отклонение, коэффициент вариации. На практике используют ещё размах варьирования R (см. лекцию 9) и положения крайних членов выборки.

 

Дисперсия выборки (выборочная дисперсия)

sX

2 (или s2 ( X ) ) вычисляется по форму-

лам:

 

 

 

 

 

 

 

1

n

 

1

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

sX 2

=

(xi x)2 =

xi

2 (x)2 = x2 (x)2 .

 

 

 

 

 

 

 

 

 

n

n

 

 

 

 

 

 

 

 

 

 

 

i=1

 

i=1

 

 

 

 

 

 

 

 

 

 

Если же признак принимает значения x1 , x2 ,..., xk

с соответствующими частотами n1 , n2 ,..., nk

(или частостями w1 , w2 ,..., wk ), то

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

k

 

 

 

1

k

 

 

 

 

 

 

k

 

 

 

 

 

sX 2 =

(xi

x)2 ni =

xi 2 ni (x)2 = xi 2 wi (x)2 = x2 (x)2 .

 

n

n

 

 

 

 

 

i=1

 

 

 

i=1

 

 

 

 

 

 

i=1

 

 

Выборочная дисперсия умышленно обозначается другим символом (т.е.

sX

2 ), чтобы отли-

чаться от генеральной дисперсии DX .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ЗамечаниеU

3.U Генеральную (выборочную) дисперсию называют общей дисперсией ге-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

неральной совокупности (выборки).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Выборочное среднеквадратическое (стандартное) отклонение sX

(или s( X ) ) – это

квадратный корень из выборочной дисперсии sX

2 .

 

 

 

 

 

 

 

 

 

Коэффициент вариации выборки vX (или v( X ) ) вычисляется по формуле:

 

 

 

 

 

 

 

 

 

 

 

 

vX

=

sX

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

ПримерU

2.U Используя данные примера 1, рассчитать дисперсию, среднеквадратичес-

 

 

коэффициент вариации выборки.

 

 

 

 

 

 

 

 

кое отклонение,

 

 

 

 

 

 

 

 

Решение. Воспользовавшись одной из формул выборочной дисперсии, получим

sX 2 = 1 n xi 2 ni (x)2 =

n i=1

= 201 (262 1+ 272 2 + 282 1+ 292 6 +302 4 +312 4 +322 2) (29,5)2 = = 1745620 870,25 = 872,8 870,25 = 2,55 .

Выборочные стандартное отклонение и коэффициент вариации, соответственно, равны sX = 2,55 1,5969

vX = 1,596929,5 0,054132 .

3. Кроме перечисленных характеристик, на практике часто приходится вычислять статистические (эмпирические) моменты.

Начальным статистическим моментом k -го порядка принято называть число

50

ak ( X ) = 1 n xi k .

n i=1

Центральным статистическим моментом k -го порядка называют число

mk ( X ) = 1 n (xi x)k . n i=1

Моменты выборки связаны с характеристиками выборки следующим образом:

x = a ( X ),

x2

= a

2

( X ), s

2

= m

( X ) .

1

 

 

 

X

2

 

Знание эмпирических моментов позволяет вычислить асимметрию и эксцесс выборки.

Уже отмечалось, что нормальное распределение занимает особое место в теории вероятностей и математической статистике. Поэтому при рассмотрении распределений, отличных от нормального, стремятся дать количественную оценку этого отличия. Пытаются выяснить:

асимметричность распределения, поскольку нормальное распределение является симметричным;

островершинность кривой распределения, поскольку нормальная кривая имеет куполообразную форму вершины.

Асимметрия выборки определяется соотношением

S ( X ) = m3 ( X ) .

sX

3

Показатель асимметрии для нормального распределения равен нулю. Рассмотрим распределение, кривая плотности которого изображена на рис. 1. Эта кривая такова, что по одну сторону от математического ожидания расположена “длинная часть”, а по другую – “короткая часть”. Если “длинная часть” расположена слева от математического ожидания, то асимметрия отрицательна. Именно такая кривая плотности изображена на рис. 1. Если “длинная часть” лежит справа от математического ожидания, то асимметрия положительна.

Рис. 1. Кривая плотности распределения с отрицательной асимметрией.

Для характеристики сглаженности кривой плотности около ее центра используют показатель «эксцесс».

Эксцессом выборки называют число

Е( X ) = m4 ( X ) 3. sX 4

Отношение центрального момента 4-го порядка к среднеквадратическому в 4-й степени, для нормально распределенной случайной величины, равно 3. Т.о., эксцесс нормального распределения равен нулю. Положительное значение эксцесса обычно указывает на то, что кривая

51

плотности распределения в окрестности моды имеет более высокую и более острую вершину, чем нормальная кривая с тем же центром и дисперсией (рис. 3). Отрицательное значение эксцесса указывает на более низкий и более плоский характер вершины по сравнению с соответствующей нормальной кривой (рис. 2).

Рис. 2. Кривая плотности распределения с отрицательным эксцессом. Нормальная кривая изображена пунктиром.

Рис. 3. Кривая плотности распределения с положительным эксцессом. Нормальная кривая изображена пунктиром.

ПримерU 3.U На основе данных примера 1, рассчитать асимметрию и эксцесс выборки, и проиллюстрировать их графически.

Решение. Вычислим асимметрию выборки, воспользовавшись соответствующей функцией из Maple 6:

S ( X ) = stats[describe,skewness]( ) = -.40521.

Заметим, что число (-.40521) в более привычном для нас виде выглядит как (-0,40521). Т.е. в десятичном формате Maple 6 использует точку вместо запятой и опускает число 0, если 0 – целая часть десятичной дроби. В Microsoft Excel функция СКОС( ) вычисляет асимметрию.

На рис. 4 построим гистограмму частотей и плотность распределения нормальной случайной величины N(29,5;1,5969). Действительно, более «длинная часть» гистограммы находится левее среднего значения 29,5. Это указывает на отрицательность асимметрии.

52

Рис. 4. Гистограмма частостей и график плотности распределения нормальной случайной величины N(29,5;1,5969).

Рассчитаем эксцесс выборки, воспользовавшись соответствующей функцией из Maple

6:

Е( X ) = stats[describe,kurtosis]( ) – 3 = -.44521.

Функция ЭКСЦЕСС( ) из Microsoft Excel также вычисляет эксцесс выборки.

Для иллюстрации эксцесса изобразим на рис. 5 ту же гистограмму частостей и график нормальной кривой с центром в моде выборки и с тем же стандартным отклонением, что и у выборки, т.е. N(29;1,5969).

Рис. 5. Гистограмма частостей и график плотности распределения нормальной случайной величины N(29;1,5969).

Пример 5 выполнен.