Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Лекции СТАТИСТИКА

.pdf
Скачиваний:
13
Добавлен:
03.03.2016
Размер:
857.02 Кб
Скачать

МОМЕНТЫ РАСПРЕДЕЛЕНИЯ

Момент k-го порядка – это средняя арифметическая k-ой степени отклонений отдельных вариант от какой-то постоянной величины а.

Mk xi a k i .

i

Если принять a 0, то момент называется начальным:

xik i mk i .

Тогда начальный момент первого порядка равен m1 xi i x, начальный момент второго по-

i

 

 

xi2 i

 

 

 

 

xi3 i

 

 

 

рядка - m

 

x2 , начальный момент третьего порядка - m

 

x3 , и. т. д.

i

i

2

 

3

 

 

 

 

Если принять a x, то моменты называются центральными:

 

 

 

 

 

 

 

 

 

 

xi

 

k i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

k

 

 

 

 

 

 

 

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Центральные моменты первых трех порядков:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xi

 

i

 

 

 

 

 

xi

 

 

2 i

 

 

 

 

xi

 

 

3 i

 

x

 

;

 

 

x

2 ;

 

 

x

 

 

 

 

0

2

 

 

 

 

 

 

3

 

 

.

 

 

 

 

 

 

 

 

 

 

 

1

i

 

 

 

 

 

i

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

ВИДЫ РАСПРЕДЕЛЕНИЯ

ПОНЯТИЕ О ЗАКОНОМЕРНОСТЯХ РАСПРЕДЕЛЕНИЯ

В приведенных выше примерах можно заметить определенную зависимость между изменением значений варьирующего признака и частот. Частоты в этих рядах с увеличением значения варьирующего признака первоначально увеличиваются, а затем после достижения какой-то максимальной величины в середине ряда уменьшаются. Это свидетельствует о том, что частоты в вариационных рядах изменяются закономерно в связи с изменением варьирующего признака. Такие закономерности изменения частот в вариационных рядах называются закономерностями распределе-

ния.

Одна из важных целей статистического изучения вариационных рядов состоит в выявлении закономерности распределения и определении ее характера. Закономерности распределения наиболее отчетливо проявляются только при массовом наблюдении. Поэтому основной путь в выявлении закономерностей распределения состоит в построении вариационных рядов для достаточно больших выборок. Кроме того, большое значение для нахождения закономерностей распределения имеет правильное построение самого вариационного ряда: необходимо определить оптимальное число групп и размер интервала, при котором закономерность распределения видна более отчетливо.

Закономерности распределения выражают свойства явлений, общие условия, влияющие на формирование вариации признака.

ИЗУЧЕНИЕ ФОРМЫ РАСПРЕДЕЛЕНИЯ

Основная задача анализа вариационных рядов – выявление подлинной закономерности распределения путем исключения влияния второстепенных, случайных для данного распределения факторов – достигается увеличением объема исследуемой совокупности при одновременном уменьше-

21

нии интервала ряда. Если изобразить эти данные графически, то гистограмма распределения все более и более приближается к некоторой плавной линии – кривой распределения.

Кривая распределения – это графическое изображение в виде непрерывной линии изменения частот в вариационном ряду, функционально связанного с изменением вариант.

Получение кривой распределения на основе гистограммы можно представить лишь для гипотетического случая, соответствующего бесконечно большой выборке и бесконечно малой ширине интервала ряда. Только при этих идеализированных условиях кривая распределения будет выражать функциональную связь между значениями варьирующего признака и соответствующими им частотами и представлять так называемое теоретическое распределение.

Теоретической кривой распределения называется кривая, выражающая общую закономерность данного типа распределения в чистом виде, исключающего влияние случайных для него законо-

мерностей факторов. Но получение кривой распределения из эмпирических данных (гистограмма) возможно лишь для описанного выше идеального случая. Поэтому при проведении анализа вариационных рядов целесообразно свести эмпирическое распределение к одному из хорошо исследованных видов теоретического распределения, рассматриваемых статистикой. При этом теоретическое распределение играет роль некоторой идеализированной модели эмпирического распределения, а сам анализ вариационных рядов сводится к сопоставлению эмпирического и теоретического распределений и определению степени различия междуними.

Различают следующие разновидности кривых распределения:

1.Одновершинные

симметричные

Для симметричных распределений средняя, мода и медиана (примерно) равны. Также равны частоты любых двух вариант, равноотстоящих в обе стороны от центра распределения.

асимметричные

Для асимметричных рядов выполняется соотношение Mo x 3 Me x .

2.Многовершинные (бимодальные)

При сравнении асимметрии нескольких распределений с разными единицами измерения вычисля-

ется относительный показатель асимметрии:

As x Mo или As 3 x Me

Если As 0, то асимметрия является правосторонней (Рис. 6), если As 0, то асимметрия является левосторонней (Рис. 7).

Рис. 6. Правосторонняя асимметрия

Рис. 7. Левосторонняя асимметрия

Для симметричных распределений рассчитывается показатель эксцесса («крутость» ряда):

E 4 3.

4

Если E 0, то распределение островершинное (Рис. 8), если E 0, то плосковершинное (Рис. 9).

22

Рис. 8. Островершинное распределение

Рис. 9. Плосковершинное распределение

НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ

Многие явления, рассматриваемые каждое в отдельности, кажутся случайными. Однако если анализировать эти явления в совокупности с другими аналогичными, то часто удается обнаружить закономерность, связанную с их возникновением. Например, мы не можем предсказать уровень дохода человека, если не располагаем о нем некоторой дополнительной информацией (о возрасте, профессиональной принадлежности, месте работы и т. д.). В то же время при рассмотрении группы людей закономерности формирования доходов проявляются более отчетливо. Так, во многих странах большинство населения имеет относительно низкий уровень дохода, некоторые – более высокий и только у незначительной части уровень дохода очень высокий. Именно существование подобных статистических закономерностей делает необходимым изучение индивидуальных, на первый взгляд беспорядочно колеблющихся данных.

В статистике широко используются различные виды теоретических распределений: нормальное, биноминальное, распределение Пуассона и др. Чаще всего в качестве теоретического распределения используется нормальное распределение. Графиком нормального распределения является симметричная колоколообразная кривая, которая выражается уравнением:

 

 

1

 

 

(x x)2

 

 

 

 

 

2

 

f (x)

 

 

 

 

e

2

 

.

 

 

 

 

 

 

 

2

 

 

 

 

 

Кривая нормального распределения полностью определяется средней арифметической и стан-

дартным отклонением – N x, .

Для удобства вычислений выборочные значения изучаемого признака стандартизируются, т. е.

вводится стандартизированная переменная t

xi

x

. Тогда уравнение кривой нормального рас-

 

 

 

i

 

 

 

 

 

 

пределения примет вид:

 

 

 

 

 

 

f (t)

 

 

1

 

e

t2

 

 

 

2

.

 

 

 

2

 

 

 

 

 

 

 

 

В этом случае параметры нормального распределения N(0;1).

23

1 t2

Величина e 2 определяется по таблице.

2

Свойства кривой нормального распределения.

f (t) четная функция, т. е. f (t) f ( t). Следовательно, изображающая ее кривая распределена симметрично относительно оси ординат, т. е. x Mo Me;

функция имеет бесконечно малые значения при t . Это означает, что ветви кривой удалены в бесконечность и асимптотически приближаются к оси абсцисс;

функция имеет максимум при t 0. Отсюда следует, что модального значения кривая достига-

ет при x x. Величина максимума составляет 1 .

2

На практике можно сделать первичное предположение о нормальности распределения рассматриваемой выборки по гистограмме и ящику с усами. В случае нормальности гистограмма и ящик будут (почти) симметричны.

Идея построения диаграммы ящик с усами представлена на Рис. 10.

Рис. 10. Идея построения ящика с усами

Построим еще раз гистограммуи ящик с усами по данным Табл. 5 (Рис. 11, Рис. 12). И гистограмма и ящик являются симметричными, что, скорее всего, указывает на нормальное распределение.

18

 

 

 

 

 

 

16

 

 

 

 

 

 

 

 

 

16

 

 

 

 

 

 

 

 

14

 

 

 

 

 

 

14

 

 

 

 

 

 

 

 

 

12

 

 

 

 

 

 

12

 

 

 

 

 

 

 

 

 

10

 

 

 

 

 

 

 

 

8

 

 

 

 

 

 

10

 

 

 

 

 

 

 

 

 

6

 

 

 

 

 

 

8

 

 

 

 

 

 

 

 

 

4

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

6

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

4

 

5,1

6,8

8,5

10,2

11,9

13,6

15,3

 

N =

50

ПРОДАЖИ

 

 

 

 

 

 

ПРОДАЖ И

 

 

 

 

 

 

 

 

 

 

Рис. 11

 

 

 

 

Рис. 12

Важно! Если объем выборки N 30, то считают, что данные распределены не нормально.

Но если известно, что выборка извлечена из нормально распределенной совокупности, то тогда можно говорить о нормальности.

24

Часто обращаются к другому графическомуспособупроверки на нормальность.

Для построения теоретической кривой нормального распределения необходимо вычислить теоретические частоты (т.е. как если бы распределение было нормальным):

 

h i

 

 

1

 

 

t2

 

h i

 

 

 

 

 

2

 

'

 

 

 

 

 

e

 

 

 

f (t),

 

 

 

 

 

2

 

 

 

 

 

 

 

 

где h – длина интервала группировки.

Рассмотрим расчет значений теоретических частот ряда распределения на основании данных примера из Табл. 5:

 

 

 

 

 

 

x'

 

 

 

 

 

xi

i

t

 

 

x

 

f (ti )

'

инт.

i

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

5,1

4

 

 

-1,67

 

 

0,0989

3

2

6,8

7

 

 

-1,04

 

 

0,2323

7

3

8,5

16

 

 

-0,41

 

 

0,3668

12

4

10,2

9

 

 

0,21

 

 

0,3902

12

5

11,9

6

 

 

0,84

 

 

0,2803

9

6

13,6

5

 

 

1,47

 

 

0,1354

4

7

15,3

3

 

 

2,10

 

 

0,0440

1

Сумма:

50

 

 

 

48

Замечание. Округленный коэффициент для расчета теоретических частот h i 31,4.

Расхождения полученных теоретических и эмпирических (фактических) частот невелики. На графике (Рис. 13) видна довольно большая близость фактических частот распределения к теоретическим.

18

 

 

 

 

 

 

16

 

 

 

 

 

 

14

 

 

 

 

 

 

12

 

 

 

 

 

 

10

 

 

 

 

 

 

8

 

 

 

 

 

 

6

 

 

 

 

 

 

4

 

 

 

 

 

 

2

 

 

 

 

 

 

0

 

 

 

 

 

 

5,1

6,8

8,5

10,2

11,9

13,6

15,3

Эмпирические частоты Теоретические частоты

Рис. 13. График эмпирических и теоретических частот

Сопоставление графиков эмпирических и теоретических частот, с целью определения соответствия эмпирического распределения нормальному, позволяет оценивать эти расхождения только субъективно. Объективная характеристика соответствия может быть получена с помощью критериев согласия.

25

КРИТЕРИИ СОГЛАСИЯ

Подчиняется выборка определенному закону распределения (в частности, нормальному) или нет, можно проверить с помощью критериев согласия: Пирсона 2 и Колмогорова ( ).

критерий согласия Пирсона

Выдвигается гипотеза H0 о нормальном распределении выборки. Далее вычисляется фактическое значение критерия Пирсона:

 

 

 

 

'

2

 

 

 

i

 

 

факт2

 

i

 

 

.

 

 

'

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

Фактическое значение сравнивается с теоретическим табл2 (определяется по таблице критических значений критерия Пирсона) на уровне значимости и определенном числе степеней свободы.

Уровень значимости – это вероятность допустить ошибку. В данном случае, утверждая, что распределение не является нормальным. Обычно 0,05.

Число степеней свободы определяется следующим образом:

число интервалов (n) – 1 – число параметров распределения.

Для нормального распределения число параметров равно двум (x и ), значит число степеней свободы n 3.

Если факт2 табл2 , то расхождение между выборочными и теоретическими частотами считается случайным и гипотеза H0 о выдвинутом законе распределения принимается с вероятностью ошибки .

Если факт2 табл2 , то гипотеза о нормальном распределении отклоняется. Проверим, подчинен ли ряд из Табл. 5 нормальномузакону.

Выдвигаем гипотезу H0 о нормальном распределении выборки.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

'

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

i

 

 

 

 

 

 

 

 

x

 

 

i

'

 

i

'

 

'

 

 

 

 

 

 

 

 

инт.

 

 

i

 

 

i

 

i

i

i

 

 

 

 

'

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

1

 

 

 

5,1

 

4

3

 

 

1

 

1

 

 

 

 

0,33

 

 

 

 

 

 

2

 

 

 

6,8

 

7

7

 

 

0

 

0

 

 

 

 

 

0

 

 

 

 

 

 

 

3

 

 

 

8,5

 

16

12

 

 

4

 

16

 

 

 

 

1,33

 

 

 

 

 

 

4

 

 

 

10,2

 

9

12

 

 

-3

 

9

 

 

 

 

0,75

 

 

 

 

 

 

5

 

 

 

11,9

 

6

9

 

 

-3

 

9

 

 

 

 

 

1

 

 

 

 

 

 

 

6

 

 

 

13,6

 

5

4

 

 

1

 

1

 

 

 

 

0,25

 

 

 

 

 

 

7

 

 

 

15,3

 

3

1

 

 

2

 

4

 

 

 

 

 

4

 

 

 

 

 

 

 

 

 

 

 

Итого:

 

50

48

 

 

 

 

 

 

 

7,66

 

 

 

 

 

 

 

'

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

факт2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

'

i

7,66.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

табл2

9,49

при 0,05

и числе степеней свободы n 3 7 3 4.

 

 

 

 

 

 

 

 

 

факт2 7,66 табл2 9,49, следовательно, гипотеза H0 принимается, и расхождение между выборочными и теоретическими частотами считается случайным.

26

критерий согласия Колмогорова

Величина критерия рассчитывается по формуле:

 

 

D

,

 

 

факт

 

 

N

 

 

 

где D максимальная разность между накопленными частотами эмпирического и теоретическо-

го распределений, N – число наблюдений (сумма всех частот).

По таблице критических значений критерия Колмогорова находят табл на уровне значимости .

Если факт табл , то можно считать, что отклонения фактических частот от теоретических явля-

ется случайным. Следовательно, в основе фактического распределения лежит закон нормального распределения.

Рассмотрим данные из Табл. 5.

xi

Частота

Накопленная частота

Абсолютная

эмпирическая

теоретическая

эмпирическая

теоретическая

разность накоп-

 

( i )

( ')

ленных частот

5,1

4

3

4

3

1

6,8

7

7

11

10

1

8,5

16

12

27

22

5

10,2

9

12

36

34

2

11,9

6

9

42

43

1

13,6

5

4

47

47

0

15,3

3

1

50

48

2

Итого:

50

48

Максимальное значение разности между эмпирическими и теоретическими частотами составляет

5, т. е. D 5.

Величина критерия равна

 

D

 

 

5

0,71.

 

 

 

 

факт

 

 

N

50

 

 

 

 

 

По таблице определяем: табл 1,36 факт 0,71. Значит, в основе фактического распределения лежит закон нормального распределения.

27

СПОСОБЫ ОПИСАНИЯ КОЛИЧЕСТВЕННЫХ ПРИЗНАКОВ

Количественный

признак

Построить:

гистограмму

«ящик с усами»

 

 

Критерии

 

 

согласия

 

 

 

Да

Распределение

Нет

 

является

 

 

нормальным?

 

Рекомендуется найти:

среднее

стандартное отклонение

размах

Рекомендуется найти:

медиану

квартили

квартильный размах

размах

28

АНАЛИЗ ВЛИЯНИЯ ФАКТОРОВ

фактор

каким-то образом

отклик

 

влияет на

 

 

 

 

Общая идея методов: определить, влияет ли фактор на отклик или нет. Вопросы о качественном характере этого влияния («каким образом влияет?») статистикой не рассматриваются.

В зависимости от типа переменной фактора и отклика будут использоваться разные методы обработки.

T-КРИТЕРИЙ СТЬЮДЕНТА

Рассмотрим, как один качественный фактор влияет на количественный отклик.

Ограничения критерия

1.Качественный фактор должен иметь строго два значения.

2.Количество элементов в двух группах n1,n2 , определенных значениями качественного при-

знака, должны быть примерно равны и не менее 30 для каждой.

3.Распределение в двух группах, определенных значениями качественного признака, должно быть близко к нормальному, или известно, что обе выборки извлечены из нормально распределенной совокупности.

Постановка задачи

Повлияла ли проведенная рекламная акция на объем продаж некоторого товара? Исходные данные представлены в Табл. 10.

Табл. 10. Исходные данные

Объем продаж (тыс.р)

Период продаж

504

до акции

560

до акции

420

до акции

600

до акции

580

до акции

530

до акции

490

до акции

580

до акции

470

до акции

580

после акции

692

после акции

700

после акции

621

после акции

640

после акции

561

после акции

680

после акции

630

после акции

Были получены данные объемов продаж за 9 дней до проведения акции и за 8 дней после. Фактически задача сводится к проверки существенности различия средних объемов продаж до и после проведения данной акции. Предположим, что данные о продажах подчинены нормальному распределению (как до, так и после проведения акции).

Алгоритм использования критерия

1)выдвинуть гипотезуо несущественном различии средних в группах: H0 : x1 x2 ;

2)рассчитать объединенную дисперсию:

29

2 12 n1 1 22 n2 1 ,

n1 n2 2

а затем, фактическое значение t-критерия:

 

 

 

 

 

 

 

 

 

 

 

 

 

t

факт

 

 

х1 х2

 

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n1 n2

Затем полученное фактическое значение сравнивается с tтабл на уровне значимости и числе степеней свободы n1 n2 2. Если tтабл tфакт , то гипотеза о равенстве средних принимается,

в противном случае – отвергается; Используем критерий для нашего примера. Составим расчетную таблицу(Табл. 11).

Табл. 11. Расчетная таблица

 

 

 

Объем продаж

 

 

 

 

 

 

2

 

 

 

 

 

 

 

2

x1i x1

x2i x2

 

до акции

после акции

 

 

 

504

 

 

580

 

484

 

 

 

3364

 

 

 

560

 

 

692

 

1156

 

 

 

2916

 

 

 

420

 

 

700

 

11236

 

 

3844

 

 

 

600

 

 

621

 

5476

 

 

 

289

 

 

 

580

 

 

640

 

2916

 

 

 

4

 

 

 

 

 

530

 

 

561

 

16

 

 

 

5929

 

 

 

490

 

 

680

 

1296

 

 

 

1764

 

 

 

580

 

 

630

 

2916

 

 

 

64

 

 

 

 

470

 

 

 

 

 

 

 

 

3136

 

 

 

 

 

 

 

 

 

 

 

 

 

526

 

 

 

 

638

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x1

 

x2

 

 

 

 

2

 

 

 

 

 

 

 

2

 

 

 

 

 

x1i

x1

28632

x2i

x2

18174

 

 

n 9

 

 

 

n 8

 

 

 

1

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Выдвигаем гипотезу H0 :

 

 

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x1

x2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Найдем дисперсии продаж до и после акции и общую дисперсию:

 

 

x1

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

12

 

x1

28632

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3181,3

 

 

 

 

 

n1

 

 

 

9

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x2i

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

x2

18174

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2271,8

 

 

 

 

 

n2

 

 

 

 

 

 

8

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

n 1

2

n

 

1

3181,3 (9 1) 2271,8 (8 1)

 

2

 

 

1

1

 

 

 

 

 

 

 

2

2

 

 

 

 

 

 

 

 

 

 

 

 

2757.

 

 

 

 

 

 

 

n1 n2 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

9 8 2

 

Фактическое значение t-критерия:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

t

 

 

 

 

х1

х2

 

 

 

 

 

 

 

 

 

526 638

 

 

4,39.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

факт

 

 

 

1

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

2757

 

 

 

 

 

 

 

 

 

 

n2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n1

 

 

 

 

 

 

 

 

 

9 8

 

 

 

Табличное

 

значение

tтабл 2,133 на уровне значимости

0,05 и числе степеней свободы

n1 n2 2 9 8 2 15.

 

 

 

 

 

 

 

 

 

 

 

 

tтабл 2,133 tфакт 4,39, значит гипотеза H0 отклоняется, средние не равны и акция сущест-

венно повлияла на объем продаж. В среднем объем продаж увеличился на 526 638 112 тыс.р. 30