Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Статистика (1).doc
Скачиваний:
282
Добавлен:
03.05.2015
Размер:
542.72 Кб
Скачать

Решение:

Затраты на рекламу - признак-фактор, прибыль - признак-результат.

Средние значения и показатели вариации (среднеквадратическое отклонение и коэффициент вариации) для признака-фактора и признака-результата.:

Проранжируем 1 ряд. Для этого сортируем его значения по возрастанию.

Таблица для расчета показателей.

x

|x - xср|

(x - xср)2

15

13,4

179,56

16

12,4

153,76

17

11,4

129,96

18

10,4

108,16

19

9,4

88,36

20

8,4

70,56

22

6,4

40,96

24

4,4

19,36

25

3,4

11,56

26

2,4

5,76

28

0,4

0,16

30

1,6

2,56

32

3,6

12,96

34

5,6

31,36

36

7,6

57,76

38

9,6

92,16

40

11,6

134,56

42

13,6

184,96

42

13,6

184,96

44

15,6

243,36

568

164,8

1752,8

Для оценки ряда распределения найдем следующие показатели:

Показатели центра распределения.

Простая средняя арифметическая

Значение ряда 42 встречается всех больше (2 раз). Следовательно, мода равна x = 42

Медиана соответствует варианту, стоящему в середине ранжированного ряда.

Находим середину ранжированного ряда: h = n/2 = 20/2 = 10. Ранжированный ряд включает четное число единиц, следовательно медиана определяется как средняя из двух центральных значений: (26 + 28)/2 = 27

Размах вариации R = Xmax - Xmin

R = 44 - 15 = 29

Среднее линейное отклонение

Каждое значение ряда отличается от другого в среднем на 8.24

Дисперсия

Среднее квадратическое отклонение (средняя ошибка выборки).

Каждое значение ряда отличается от среднего значения 28.4 в среднем на 9.36

Коэффициент вариации

Поскольку v>30% ,но v<70%, то вариация умеренная.

Проранжируем 2 ряд. Для этого сортируем его значения по возрастанию.

Таблица для расчета показателей.

x

|x - xср|

(x - xср)2

29

26,95

726,3

32

23,95

573,6

34

21,95

481,8

38

17,95

322,2

40

15,95

254,4

42

13,95

194,6

44

11,95

142,8

46

9,95

99

52

3,95

15,6

54

1,95

3,8

58

2,05

4,2

60

4,05

16,4

62

6,05

36,6

64

8,05

64,8

65

9,05

81,9

68

12,05

145,2

70

14,05

197,4

79

23,05

531,3

85

29,05

843,9

97

41,05

1685,1

1119

297

6420,95

Для оценки ряда распределения найдем следующие показатели:

Показатели центра распределения.

Простая средняя арифметическая

Мода отсутствует (все значения ряда индивидуальные).

Медиана.

Находим середину ранжированного ряда: h = n/2 = 20/2 = 10. Ранжированный ряд включает четное число единиц, следовательно медиана определяется как средняя из двух центральных значений: (54 + 58)/2 = 56

Показатели вариации.

Абсолютные показатели вариации R = Xmax - Xmin

R = 97 - 29 = 68

Среднее линейное отклонение

Каждое значение ряда отличается от другого в среднем на 14.85

Дисперсия

Среднее квадратическое отклонение (средняя ошибка выборки).

Каждое значение ряда отличается от среднего значения 55.95 в среднем на 17.92

Коэффициент вариации

Поскольку v>30% ,но v<70%, то вариация умеренная.

Поле корреляции.

Данные группируются по признаку-фактору. Затем по каждой группе рассчитывается среднее значение. Задача состоит в том, чтобы увидеть, есть связь между признаками или нет; прямая связь или обратная; линейная или нелинейная.

Тогда ширина интервала составит:

Для каждого значения ряда подсчитаем, какое количество раз оно попадает в тот или иной интервал. Для этого сортируем ряд по возрастанию.

15

15 - 22,25

1

16

15 - 22,25

2

17

15 - 22,25

3

18

15 - 22,25

4

19

15 - 22,25

5

20

15 - 22,25

6

22

15 - 22,25

7

24

22,25 - 29,5

1

25

22,25 - 29,5

2

26

22,25 - 29,5

3

28

22,25 - 29,5

4

30

29,5 - 36,75

1

32

29,5 - 36,75

2

34

29,5 - 36,75

3

36

29,5 - 36,75

4

38

36,75 - 44

1

40

36,75 - 44

2

42

36,75 - 44

3

42

36,75 - 44

4

44

36,75 - 44

5

Аналитическая группировка.

Группы

Кол-во, nj

∑X

Xcp = ∑Xj / nj

∑Y

Ycp = ∑Yj / nj

15 - 22,25

1,2,3,4,5,6,7

7

127

18,14

259

37

22,25 - 29,5

8,9,10,11

4

103

25,75

212

53

29,5 - 36,75

12,13,14,15

4

132

33

258

64,5

36,75 - 44

16,17,18,19,20

5

206

41,2

390

78

Итого

-

20

568

-

1119

-

По аналитической группировке измеряют связь при помощи эмпирического корреляционного отношения. Оно основано на правиле разложения дисперсии: общая дисперсия равна сумме внутригрупповой и межгрупповой дисперсий.

Находим средние значения каждой группы.

млн. руб.

млн. руб.

млн. руб.

млн. руб.

Общее средние значение для всей совокупности:

млн. руб.

Дисперсия внутри группы при относительном постоянстве признака-фактора возникает за счет других факторов (не связанных с изучением). Эта дисперсия называется остаточной:

Расчет для группы: 15 - 22.25 (1,2,3,4,5,6,7)

yj

(yj - yср)2

Результат

29

(29 - 37)2

64

32

(32 - 37)2

25

38

(38 - 37)2

1

42

(42 - 37)2

25

44

(44 - 37)2

49

40

(40 - 37)2

9

34

(34 - 37)2

9

Итого

182

Определим групповую (частную) дисперсию для 1-ой группы:

Расчет для группы: 22.25 - 29.5 (8,9,10,11)

yj

(yj - yср)2

Результат

54

(54 - 53)2

1

46

(46 - 53)2

49

52

(52 - 53)2

1

60

(60 - 53)2

49

Итого

100

Определим групповую (частную) дисперсию для 2-ой группы:

Расчет для группы: 29.5 - 36.75 (12,13,14,15)

yj

(yj - yср)2

Результат

58

(58 - 64.5)2

42.25

62

(62 - 64.5)2

6.25

70

(70 - 64.5)2

30.25

68

(68 - 64.5)2

12.25

Итого

91

Определим групповую (частную) дисперсию для 3-ой группы:

Расчет для группы: 36.75 - 44 (16,17,18,19,20)

yj

(yj - yср)2

Результат

79

(79 - 78)2

1

64

(64 - 78)2

196

65

(65 - 78)2

169

97

(97 - 78)2

361

85

(85 - 78)2

49

Итого

776

Определим групповую (частную) дисперсию для 4-ой группы:

Внутригрупповые дисперсии объединяются в средней величине внутригрупповых дисперсий:

Средняя из частных дисперсий:

млн. руб.

Межгрупповая дисперсия относится на счет изучаемого фактора, она называется факторной

млн. руб.

Определяем общую дисперсию по всей совокупности, используя правило сложения дисперсий:

σ2 = 57.45 + 263.6 = 321.05 млн. руб.

Проверим этот вывод путем расчета общей дисперсии обычным способом:

yi

(yi - yср)2

Результат

29

(29 - 55,95)2

726,3

32

(32 - 55,95)2

573,6

38

(38 - 55,95)2

322,2

42

(42 - 55,95)2

194,6

44

(44 - 55,95)2

142,8

40

(40 - 55,95)2

254,4

34

(34 - 55,95)2

481,8

54

(54 - 55,95)2

3,8

46

(46 - 55,95)2

99

52

(52 - 55,95)2

15,6

60

(60 - 55,95)2

16,4

58

(58 - 55,95)2

4,2

62

(62 - 55,95)2

36,6

70

(70 - 55,95)2

197,4

68

(68 - 55,95)2

145,2

79

(79 - 55,95)2

531,3

64

(64 - 55,95)2

64,8

65

(65 - 55,95)2

81,9

97

(97 - 55,95)2

1685,1

85

(85 - 55,95)2

843,9

Итого

6420,95

млн. руб.

Эмпирическое корреляционное отношение измеряет, какую часть общей колеблемости результативного признака вызывает изучаемый фактор. Это отношение факторной дисперсии к общей дисперсии:

Определяем эмпирическое корреляционное отношение:

Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:

0.1 < η < 0.3: слабая;

0.3 < η < 0.5: умеренная;

0.5 < η < 0.7: заметная;

0.7 < η < 0.9: высокая;

0.9 < η < 1: весьма высокая;

В нашем примере связь между признаком Y фактором X весьма высокая

На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит линейный характер.

Линейное уравнение регрессии имеет вид y = bx + a

Оценочное уравнение регрессии (построенное по выборочным данным) будет иметь вид y = bx + a + ε, где ei – наблюдаемые значения (оценки) ошибок εi, а и b соответственно оценки параметров α и β регрессионной модели, которые следует найти.

Для оценки параметров α и β - используют МНК (метод наименьших квадратов).

Система нормальных уравнений.

a•n + b∑x = ∑y

a∑x + b∑x2 = ∑y•x

Для наших данных система уравнений имеет вид

20a + 568 b = 1119

568 a + 17884 b = 34869

Домножим уравнение (1) системы на (-28.4), получим систему, которую решим методом алгебраического сложения.

-568a -16131.2 b = -31779.6

568 a + 17884 b = 34869

Получаем:

1752.8 b = 3089.4

Откуда b = 1.7626

Теперь найдем коэффициент «a» из уравнения (1):

20a + 568 b = 1119

20a + 568 • 1.7626 = 1119

20a = 117.87

a = 5.8935

Получаем эмпирические коэффициенты регрессии: b = 1.7626, a = 5.8935

Уравнение регрессии (эмпирическое уравнение регрессии):

y = 1.7626 x + 5.8935

Для расчета параметров регрессии построим расчетную таблицу

x

y

x2

y2

x • y

15

29

225

841

435

17

38

289

1444

646

25

46

625

2116

1150

40

64

1600

4096

2560

32

62

1024

3844

1984

34

70

1156

4900

2380

28

60

784

3600

1680

18

42

324

1764

756

26

52

676

2704

1352

20

40

400

1600

800

19

44

361

1936

836

16

32

256

1024

512

36

68

1296

4624

2448

42

65

1764

4225

2730

24

54

576

2916

1296

30

58

900

3364

1740

38

79

1444

6241

3002

44

85

1936

7225

3740

22

34

484

1156

748

42

97

1764

9409

4074

568

1119

17884

69029

34869

Параметры уравнения регрессии.

Выборочные средние.

Выборочные дисперсии:

Среднеквадратическое отклонение

Коэффициент корреляции b можно находить по формуле, не решая систему непосредственно:

Коэффициент корреляции

Ковариация.

Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:

Линейный коэффициент корреляции принимает значения от –1 до +1.

Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:

0.1 < rxy < 0.3: слабая;

0.3 < rxy < 0.5: умеренная;

0.5 < rxy < 0.7: заметная;

0.7 < rxy < 0.9: высокая;

0.9 < rxy < 1: весьма высокая;

В нашем примере связь между признаком Y фактором X весьма высокая и прямая.

Кроме того, коэффициент линейной парной корреляции может быть определен через коэффициент регрессии b:

Уравнение регрессии (оценка уравнения регрессии).

Линейное уравнение регрессии имеет вид y = 1.76 x + 5.89

Коэффициентам уравнения линейной регрессии можно придать экономический смысл.

Коэффициент регрессии b = 1.76 показывает среднее изменение результативного показателя (в единицах измерения у) с повышением или понижением величины фактора х на единицу его измерения. В данном примере с увеличением на 1 единицу y повышается в среднем на 1.76.

Коэффициент a = 5.89 формально показывает прогнозируемый уровень у, но только в том случае, если х=0 находится близко с выборочными значениями.

Но если х=0 находится далеко от выборочных значений х, то буквальная интерпретация может привести к неверным результатам, и даже если линия регрессии довольно точно описывает значения наблюдаемой выборки, нет гарантий, что также будет при экстраполяции влево или вправо.

Подставив в уравнение регрессии соответствующие значения х, можно определить выровненные (предсказанные) значения результативного показателя y(x) для каждого наблюдения.

Связь между у и х определяет знак коэффициента регрессии b (если > 0 – прямая связь, иначе - обратная). В нашем примере связь прямая.

Коэффициент детерминации.

R2= 0.9212 = 0.848

т.е. в 84.8 % случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - высокая. Остальные 15.2 % изменения Y объясняются факторами, не учтенными в модели (а также ошибками спецификации).

Для оценки качества параметров регрессии построим расчетную таблицу

x

y

y(x)

(yi-ycp)2

(y-y(x))2

15

29

32,33

726,3

11,1

17

38

35,86

322,2

4,59

25

46

49,96

99

15,66

40

64

76,4

64,8

153,65

32

62

62,3

36,6

0,0871

34

70

65,82

197,4

17,47

28

60

55,24

16,4

22,61

18

42

37,62

194,6

19,19

26

52

51,72

15,6

0,0785

20

40

41,14

254,4

1,31

19

44

39,38

142,8

21,33

16

32

34,09

573,6

4,39

36

68

69,35

145,2

1,81

42

65

79,92

81,9

222,63

24

54

48,19

3,8

33,7

30

58

58,77

4,2

0,59

38

79

72,87

531,3

37,57

44

85

83,45

843,9

2,42

22

34

44,67

481,8

113,84

42

97

79,92

1685,1

291,7

568

1119

1119

6420,95

975,72

Оценка параметров уравнения регрессии.

Анализ точности определения оценок коэффициентов регрессии.

Несмещенной оценкой дисперсии возмущений является величина:

S2 = 54.207 - необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).

S = 7.36 - стандартная ошибка оценки (стандартная ошибка регрессии).

Проверка гипотез относительно коэффициентов линейного уравнения регрессии.

2) F-статистика. Критерий Фишера.

Табличное значение критерия со степенями свободы k1=1 и k2=18, Fтабл = 4.41

Поскольку фактическое значение F > Fтабл, то коэффициент детерминации статистически значим (найденная оценка уравнения регрессии статистически надежна).