Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

1638

.pdf
Скачиваний:
34
Добавлен:
07.01.2021
Размер:
1.46 Mб
Скачать

3,75

4,03

3,75

4,18

3,8

4,75

3,25

4,1

3,55

3,35

3,38

3,3

4,15

3,95

3,5

 

 

 

 

 

Для этой выборки

 

1 = 3,8; S12 = 0,132.

 

 

 

 

x

 

 

 

 

2-я часть:

 

 

 

 

 

 

 

 

 

3,88

3,71

3,15

4,15

3,8

4,22

3,75

3,58

3,55

4,08

4,03

3,24

4,05

3,56

3,05

3,58

3,98

3,88

3,78

4,05

3,4

3,8

3,06

4,38

4,2

 

 

 

 

 

Для этой выборки x2 = 3,76; S22 = 0,131. Тогда

x 25 3,8 25 3,76 3,78; 50

S2 25 0,132 25 0,131 0,1315; S = 0,36. 50

Небольшие отличия x и S2 от найденных ранее получились из-за того, что x1, x2, S12, S22 считались “в лоб”, для несгруппированных выборок.

2.2.6. Общая, межгрупповая и внутригрупповая дисперсии

Пусть из k выборок объемов n1, n2, …, nk соответственно образована одна выборка объема n = n1 + n2 +…+ nk. Обозначим через x, x1, …, x k, S2, S12, …, Sk2 выборочные средние и выборочные дисперсии объединенной выборки и исходных выборок соответственно. Обобщая формулы, рассмотренные выше, получим, что объединенная дисперсия равна

 

 

 

 

 

 

k

 

k

 

 

 

 

 

 

 

Si2ni

 

(

 

i

 

)2 ni

 

 

1

n

 

 

 

x

x

 

S2

(xj

 

 

)2

i 1

 

i 1

.

x

n

n

 

 

j 1

 

 

 

 

 

 

n

 

Величину S называют еще общей дисперсией. Величины S12, S22, …, Sk2 называют внутригрупповыми дисперсиями.

Величина 1

k

(xi x)2 ni называется межгрупповой дисперсией. Она

n i 1

показывает, насколько в среднем выборочные средние отдельных выборок отличаются от общего выборочного среднего. Тем самым оценивается, насколько внутригрупповые выборочные средние отличаются друг от друга. Мы разложили общую дисперсию на сумму межгрупповой дисперсии и среднего из внутригрупповых дисперсий.

2.2.7. Кривая Лоренца и показатели концентрации

С помощью кривой Лоренца представляют распределение некоторых ресурсов (капитала, земли, рабочей силы и т.п.) среди владельцев

21

ресурсов. Если значительная часть ресурсов сосредоточена у небольшой доли владельцев, говорят о высокой степени концентрации ресурсов.

Степень концентрации оценивают с помощью специальных коэффициентов. Неравномерность распределения ресурсов можно проследить и по кривой Лоренца, при построении этой кривой по горизонтальной оси откладывают накопленные доли владельцев ресурсов, а по вертикальной оси – относительные накопленные частоты объема ресурсов. Полученные точки соединяют отрезками.

Рассмотрим распределение в 1964 г. ферм в США, сгруппированных по величине занимаемых площадей (табл. 2.5).

 

 

 

 

 

 

 

Таблица 2.5

Площадь

Число

Общая

Относительные

Относительные

площадь

частоты

накопленные частоты,%

фермы, акр

ферм

занимаемой

Число

Площадь

Число

Площадь

(1акр 0,4га)

10

3

 

земли, акр∙103

ферм

земли

ферм

земли

[0-10)

183

778

0,057

0,0007

5,7

0,07

[10-50)

637

17325

0,202

0,0156

25,9

1,63

[50 - 100 )

542

39589

0,172

0,0357

43,1

5,2

[100 - 180 )

633

86592

0,201

0,0780

63,2

13,0

[180 - 260 )

355

76857

0,112

0,0692

74,4

19,92

[260-500)

451

159598

0,143

0,1438

88,7

34,3

[ 500 - 1000 )

210

144600

0,067

0,1302

95,4

47,32

1000

145

584848

0,046

0,5268

100,0

100,0

ВСЕГО

3156

1110187

1,00

1,00

Здесь ресурсы – это земля; владельцы ресурсов – фермы. Кривая Лоренца построена на рис. 2.7.

Если бы распределение земли было строго равномерным, то 5,7% ферм располагали бы 5,7% земли; 25,9% ферм располагали бы 25,7% земли и т.д., а кривая Лоренца стала бы биссектрисой координатного угла. Эта биссектриса называется линией равномерного распределения.

Чем сильнее кривая Лоренца отклоняется от линии равномерного распределения, тем выше концентрация ресурсов. В нашем случае 52,7% всей земли сконцентрировано у 4,6% крупных ферм. А на остальные 95,4% небольших ферм приходится менее половины угодий.

Степень концентрации можно оценить, вычисляя площадь фигуры А (см. рис.2.7), ограниченной линией равномерного распределения и кривой Лоренца. Если принять площадь квадрата за 1, то удвоенная площадь фигуры А равна разности 1 минус удвоенная площадь фигуры В.

Последняя легко считается как сумма площадей трапеций, составляющих фигуру В. Таким образом определяется коэффициент Джини:

22

Площадь

100

 

 

 

 

 

 

 

 

 

 

земли, % к

90

 

 

 

 

 

 

 

 

 

 

итогу

 

 

 

 

 

 

 

 

 

 

80

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

70

 

 

 

 

 

 

 

 

 

 

 

60

 

 

 

 

 

 

 

 

 

 

 

50

 

 

 

 

 

A

 

 

 

 

 

40

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

30

 

 

 

 

 

 

 

 

 

 

 

20

 

 

 

 

 

 

 

B

 

 

10

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

 

 

0

10

20

30

40

50

60

70

80

90

100

 

 

 

 

Число ферм, % к итогу

 

 

 

Линия равномерного распределения

Рис. 2.7

k

k

k

k

нак

xi yi

нак

xi yi ,

G 1 2 xi yi 1

1 2 xi yi

i 1

i 1

i 1

i 1

где k – число интервалов группировки;

xi – относительная частота i-го интервала группировки владельцев ресурсов;

yi – относительная частота i-го интервала группировки ресурсов;

yiнак – относительная накопленная частота i-го интервала группировки ресурсов.

На рис.2.8 показана i-я трапеция, составляющая фигуру B, и приведен расчет площади этой трапеции.

 

 

накy

 

 

 

 

 

 

накy

 

 

 

 

С

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

нак

B

 

 

 

 

 

 

 

 

 

Si

 

 

 

 

yi 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

A

 

 

 

 

D

 

нак

 

 

 

 

 

 

 

 

 

 

x

 

 

накx

накx

 

 

 

 

 

 

i 1

 

 

i

 

 

Рис. 2.8

AB yнакi 1 накyi yi ;

CD нак ; yi

AD xнакi xнакi 1 xi ;

Si 0,5 (AB BC) AD

0,5 (2

нак

y

) x

 

 

y

i

i

 

 

i

 

 

 

0,5 (2

нак

y

) x .

 

у

i

i

 

 

i 1

 

 

 

Тогда

23

G 1 2 SB 1 2 Si

1 (2

нак

y

) x

 

 

 

 

 

 

y

i 1

 

i

 

 

 

i

i

 

i

 

 

 

 

 

 

 

 

 

 

 

1 (2

нак

y

) x

1 2 x

 

нак

x

y

i

yi 1

i

i

i

yi

i

i

i

 

 

 

i

 

 

 

 

 

нак

xi yi .

 

 

 

 

 

1 2 xi yi 1

 

 

 

 

 

i

 

i

 

 

 

 

 

 

 

В нашем случае

G = 1 - 2(0,057*0,0007 + 0,202*0,0163 + 0,172*0,052 + 0,201*0,13 + +0,112*0,1992 + 0,143*0,343 + 0,067*0,4732 + 0,046*1) + (0,057*0,0007 + +0,202*0,0156 + 0,172*0,0357 + 0,201*0,078 + 0,112*0,0692 + 0,143* *0,1438 + 0,067*0,1302 + 0,046*0,5268) = 0,7113 (71,13%).

Другой коэффициент, оценивающий степень концентрации, называется коэффициентом Лоренца. Рассмотрим сумму

k

xi yi , i 1

По известному свойству модуля

k

k

k

xi yi xi yi 1 1 2.

i 1

i 1

i 1

Число 2 получается в пределе, если практически 100% ресурсов сосредоточены у бесконечно малой доли владельцев. Поэтому, чем ближе к 2 эта сумма, тем выше концентрация ресурсов, тем неравномернее они распределены.

Коэффициент Лоренца определяется так:

k

xi yi

L

i 1

 

1000

0 .

 

2

 

 

 

 

Для нашего случая получаем:

L = (1/2)*( 0,057 - 0,0007 + 0,202 - 0,0156 + 10,172 - 0,0357 + + 0,201 - 0,0780 + 0,112 - 0,0692 + 0,143 - 0,1438 + 0,067 - 0,1302 + + 0,046 - 0,5268 )*100% = 54,5%.

Полученные значения коэффициентов Джини и Лоренца говорят о высокой степени концентрации земли на крупных фермах.

2.3. ЗАДАЧИ

1. Как изменятся выборочное среднее, мода, медиана и выборочная дисперсия, если каждый член выборки:

а) увеличить (уменьшить) на число d? б) увеличить (уменьшить) в k раз?

В задачах 2 - 13 нужно представить выборку графически и найти её

24

числовые характеристики.

2. Диаметры 40 металлических шариков (мм):

8,53

8,59

8,51

8,59

8,41

8,46

8,57

8,62

8,45

8,51

8,46

8,55

8,61

8,68

8,52

8,43

8,40

8,41

8,54

8,47

8,53

8,55

8,43

8,47

8,59

8,63

8,56

8,42

8,58

8,60

8,52

8,56

8,56

8,60

8,54

8,61

8,42

8,54

8,57

8,68

 

 

 

 

 

3. Продолжительность работы 30 электрических лампочек (часы /10):

51

56

69

31

56

49

51

53

74

51

63

48

53

51

64

50

59

84

55

82

55

72

70

54

51

77

98

62

73

55

4. Скорость автомобилей на некотором участке дороги (км/ч):

41

41

29

15

41

43

42

34

41

30

23

48

50

36

35

46

28

46

50

41

55

27

43

53

48

47

34

35

29

42

30

35

38

41

36

38

45

59

44

43

5. В «Северных прериях» Э. Сетон-Томпсон рассказывает, что из окна вагона поезда канадской Тихоокеанской железной дороги в районе Альберты он видел 26 стад антилоп. В книге указывается количество животных в каждом стаде:

8

14

7

18

3

9

4

1

6

12

2

8

1

3

4

6

18

4

25

4

34

6

5

6

16

4

6. Пятьюдесятью абитуриентами на вступительных экзаменах получены следующие баллы (из 20 возможных):

12

14

19

15

14

18

13

16

17

12

20

17

15

13

17

16

20

14

14

13

17

16

15

19

16

15

18

17

15

14

15

15

18

15

15

19

14

16

18

18

15

15

17

15

16

16

14

14

17

19

 

 

7. Результаты исследования прочности 200 образцов бетона на сжатие:

Предел прочности

[19,20)

[20,21)

[21,22)

[22,23)

[23,24)

[24,25)

(МПа)

 

 

 

 

 

 

Количество образцов

10

26

56

64

30

14

8.

Продолжительности автомобильных рейсов, определенные по

дорожным ведомостям:

 

 

 

 

 

 

 

 

Продолжительность рейса

[0,2)

[2,4)

[4,6)

[6,8)

[8,10)

 

 

 

(суток)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

9.

 

Число рейсов

400

600

900

700

400

 

 

Распределение частот

барометрического давления воздуха в городе

25

Ташкенте с мая по август 1897г.:

Давление

709

710

711

712

713

714

715

716

717

(мм рт. ст.)

 

 

 

 

 

 

 

 

 

Количество дней

2

7

24

30

44

48

36

35

32

Давление

718

719

720

721

722

723

724

725

726

(мм рт. ст.)

 

 

 

 

 

 

 

 

 

Количество дней

26

23

21

14

12

8

7

2

1

10. Следующее распределение частот было получено в результате эксперимента с разведением мышей:

Количество мышей в одном

1

2

3

4

5

6

7

8

9

помете (шт.)

 

 

 

 

 

 

 

 

 

Частота

7

11

16

17

26

31

11

1

1

11. Длины початков кукурузы в дюймах (с точностью до половины дюйма):

Длина

4

4,5

5

5,5

6

6,5

7

7,5

8

8,5

9

9,5

10

початка

Частота

1

1

8

33

70

110

176

172

124

61

32

10

2

12. При подсчете количества простых чисел в восьмом миллионе весь интервал был разбит на 2000 групп по 500 последовательных чисел в каждой группе. Пусть Х – количество простых чисел в группе, N (х) – число групп, в которых по Х простых чисел. В результате подсчетов получилась таблица

Х

18

19

20

21

22

23

24

25

26

27

28

29

30

31

N(x)

1

4

5

6

11

18

48

63

70

102

141

149

165

188

Х

32

33

34

35

36

37

38

39

40

41

42

43

44

N(x)

203

181

160

141

115

78

63

38

16

15

14

4

1

Показать, что, если бы простые числа были расположены случайно, дисперсия была бы значительно больше.

13. Приведенные ниже числа представляют собой затраты в долл. на питание 66 семей, каждая из которых состоит из 4 человек (данные конца

1960-х годов).

48

44

40

51

44

45

46

57

57

34

38

47

48

52

39

41

39

38

43

29

45

54

38

28

48

28

47

52

33

40

45

40

55

45

32

32

56

41

52

36

50

37

53

42

38

49

46

42

41

51

39

47

37

35

44

39

32

50

46

41

43

40

45

44

53

46

 

 

 

 

 

 

14. Даны следующие 7 выборок объема 20, сгруппированных по одним

26

и тем же интервалам:

[хi-1, хi)

ni1

ni2

ni3

ni4

ni5

ni6

ni7

[12-15)

2

6

4

1

0

2

2

[15-18)

4

3

4

1

1

3

8

[18-21)

8

2

4

16

18

5

5

[21-24)

4

3

4

1

1

8

3

[24-27)

2

6

4

1

0

2

2

а) Не производя вычислений, на глаз, сравнить следующие пары стандартных отклонений: S1 и S2; S2 и S3; S1 и S4; S4 и S5; S1 и S6; S2 и S6; S6 и

S7.

в) Вычислить стандартные отклонения.

15. Преподаватели А и В ведут разные курсы у одних и тех же студентов. Преподаватель А, оценивая знания студентов, предлагает им письменные работы и подсчитывает баллы, набранные студентами за ответы на вопросы в работах. Преподаватель В поступает так: всего нужно посетить 24 занятия, за каждое посещение начисляется 2 очка. Баллы, полученные пятью студентами у этих преподавателей, таковы:

Студент

1

2

3

4

5

Преподаватель А

69

70

77

62

58

Преподаватель В

48

42

44

46

46

Вычислить коэффициент вариации баллов у каждого преподавателя. Почему оценкам преподавателя В не следует доверять?

16. Следующие баллы получены пятью студентами у преподавателей X, Y, Z, ведущих три смежных дисциплины:

Студент

1

2

3

4

5

Преподаватель Х

168

190

147

158

179

Преподаватель Y

36

44

37

38

40

Преподаватель Z

76

78

85

67

65

Вычислить коэффициенты вариации оценок. Можно ли утверждать, что системы оценок сходны по своим принципам?

17. Варианты выборки называют стандартизированными, если они преобразуются по следующему правилу:

xi= (xi - x)/S,

где xi – старое значение варианты; xi– новое значение варианты;

x, S – выборочное среднее и стандартное отклонение исходной выборки.

а) Показать, что выборочное среднее преобразованной выборки равно 0, а стандартное отклонение равно 1.

б) Стандартизировать баллы студентов из задачи 15 и сравнить

27

успеваемость каждого студента по каждой дисциплине.

18. В приведенной ниже таблице фермы США сгруппированы по величине занимаемых площадей

Площадь, занимаемая фермой, акр

Число ферм 103

(1акр 0,4га)

 

 

1940

1964

 

<10

506

183

[10-50)

1780

637

[50 -100)

1291

542

[100-180)

1310

633

[180 - 260)

486

355

[260 - 500)

459

451

[500 -1000)

164

210

Площадь, занимаемая фермой, акр

Число ферм 103

(1акр 0,4га)

 

 

> 1000

101

145

Всего

6097

3156

а) Почему пришлось прибегнуть к интервалам разной ширины? б) Какие изменения произошли в фермерском хозяйстве США?

19.Ниже приводятся распределения возрастных групп населения США

иострова Самоа в 1960г.:

Остров Самоа

 

США

 

 

 

 

 

Возраст, лет

 

Численность 103 чел.

Возраст, лет

Численность 103 чел.

<5

 

 

3709

<5

16243

[5-10)

 

 

3244

[5-15)

24429

[10-15)

 

 

2993

[15-25)

22220

[15-20)

 

 

2182

[25 – 35)

23878

[20 - 25)

 

 

1444

[35 – 45)

21535

[25-35)

 

 

2261

[45 – 55)

17398

[35-45)

 

 

1844

[55-65)

13327

[45 - 55)

 

 

1162

[65-75)

8432

[55 - 65)

 

 

672

75

3862

65

 

 

540

Всего

 

 

20051

151324

а) Найти Q1,

~

в каждом случае и объяснить результаты.

x , Q3

б) Определить долю населения старше 55 лет в каждой стране.

20. Ниже приводятся два следующих распределения. Годовой денежный доход лиц, окончивших только среднюю школу, и лиц,

28

имеющих высшее образование (4-годичный колледж), данные налоговых деклараций за 1967 год.

Доход, долл.

% лиц с данным доходом

Среднее образование

Бакалавры

 

<2000

5,6

3,8

[2000 - 4000)

9,2

4,9

[4000-7000)

31,8

15,5

[7000-10000)

32,6

25,1

[10000 -15000)

16,2

29,4

15000

4,6

21,3

Всего

100

100

а) Найти Q1, ~x , Q3 для каждой выборки и объяснить результаты.

б) Подобрать разумные правые границы для последних интервалов, вычислить x и S для каждой выборки и объяснить результаты

21. Построить кривую Лоренца и найти коэффициент Джини для следующих данных:

Группы

 

 

 

 

 

предприятий по

[1 - 500)

[500-1000)

[1000-5000)

[5000-10000)

10000

численности

 

 

 

 

 

занятых, чел.

 

 

 

 

 

Число

4941

1173

1408

202

94

предприятий

 

 

 

 

 

Численность

 

 

 

 

 

занятых, млн.

0,99

0,84

2,92

1,36

1,81

чел.

 

 

 

 

 

22. Построить кривую Лоренца и найти коэффициент Джини для следующих данных:

Группы населения,

 

 

 

 

 

 

 

 

 

 

ранжированные по

 

 

 

 

 

 

 

 

 

 

уровню

 

 

 

 

 

 

 

 

 

 

среднедушевого

1

2

3

4

5

6

7

8

9

10

дохода (по 10% от

 

 

 

 

 

 

 

 

 

 

общей численности

 

 

 

 

 

 

 

 

 

 

населения)

 

 

 

 

 

 

 

 

 

 

Удельный вес в

 

 

 

 

 

 

 

 

 

 

совокупном доходе,

2,3

5,1

6,0

6,9

7,8

8,6

9,7

11,5

15,8

26,3

(%)

 

 

 

 

 

 

 

 

 

 

29

3. ОБРАБОТКА РЕЗУЛЬТАТОВ НАБЛЮДЕНИЙ ПО МЕТОДУ НАИМЕНЬШИХ КВАДРАТОВ

Музыку я разъял, как труп. Поверил я алгеброй гармонию.

А. Пушкин. Моцарт и Сальери

3.1. ДВУМЕРНЫЕ ВЫБОРКИ

До сих пор мы считали, что генеральная совокупность Х – одномерная случайная величина. В результате эксперимента такая случайная величина принимает одно значение – х. Но генеральная совокупность может быть и многомерной случайной величиной. Здесь мы ограничимся случаем двумерных случайных величин (Х, Y). Составляющие двумерного вектора

– случайные величины Х и Y - могут быть как зависимыми, так и независимыми. Значения двумерной случайной величины (Х, Y) – это упорядоченные пары чисел (x, y). Выборка объема n из двумерной генеральной совокупности - это набор из n упорядоченных пар (xii), i = =1,2,...,n. Такие выборки называются двумерными. Рассмотрим несколько примеров.

1. Генеральная совокупность (X, Y) – это множество предложений русского языка. Случайная величина Х – число слов в предложении. Случайная величина Y - число букв в предложении. Ниже приводится текст из 10 предложений - отрывок из рассказа А.П. Чехова «Анна на шее». После каждого предложения в скобках указано количество слов (xi) и количество букв (yi) в данном предложении. Пробелы здесь не учитываются.

«Поехали на бал. (3,12) Вот и дворянское собрание, и подъезд со швейцаром. (8,41) Передняя с вешалками, шубы, снующие лакеи и декольтированные дамы, закрывающиеся веерами от сквозного ветра; пахнет светильным газом и солдатами. (19,122) Когда Аня, идя вверх по лестнице под руку с мужем, услышала музыку и увидела в громадном зеркале всю себя, освещенную множеством огней, то в душе ее проснулась радость и то самое предчувствие счастья, какое испытывала она в лунный вечер на полустанке. (41,203) Она шла гордая, самоуверенная, в первый раз чувствуя себя не девочкой, а дамой, и невольно походкою и манерами подражая своей покойной матери. (22,106) И в первый раз в жизни она чувствовала себя богатой и свободной. (12,52) Даже присутствие мужа не стесняло ее, так как, перейдя порог собрания, она уже угадала инстинктом, что близость старого мужа нисколько не унижает ее, а, наоборот, кладет на нее печать пикантной таинственности, которая так нравится мужчинам.

30

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]