Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
1103 УП МВО Шокина.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
2.71 Mб
Скачать

2.5. Дисперсионный анализ

Основным способом проверки гипотезы о связях признаков служит дисперсионный анализ. Заключение об отсутствии или наличии связи делается при этом на основе -критерия. Критерий F представляет собой отношение выборочных дисперсий и , которые представляются как оценки одной и той же генеральной дисперсии 2: .

Распределение дисперсионного отношения F зависит от числа степеней свободы и . Построены таблицы критических значений величины F при разном числе степеней свободы для разных уровней значимости (Приложение Е). Таблицей F-распределения можно пользоваться и при малых и при больших выборках. За S21 берётся большая из дисперсий, т.е. S21 > S22, соответственно – число степеней свободы S21 , – число степеней свободы S22 . Минимальное значение F=1 соответствует случаю равенства дисперсий, чем значительнее расхождение между дисперсиями, тем больше величина F.

Сущность дисперсионного анализа заключается в расчленении общей вариации на части и в сравнении полученных частных дисперсий. Испытуемая гипотеза при этом состоит в том, что если данные каждой части представляют случайную выборку из нормально распределённой генеральной совокупности, то величина всех частных дисперсий должны быть пропорциональны своим степеням свободы и каждую из них можно рассматривать как приближённую оценку генеральной дисперсии. Нулевая гипотеза предполагает случайность различия сравниваемых величин S21 и S22 . Опровержение нулевой гипотезы служит доказательством действия того фактора, на основе которого производилась разбивка данных.

Очевидна связь дисперсионного анализа с методом аналитических группировок. При изучении связей признаков с помощью аналитических группировок совокупность разбивается на группы по значениям признака-фактора и полагают, что различие средних результативного признака в группах определяются действием данного фактора. Задача состоит в оценке существенности различий между групповыми средними результативного признака, когда выделены лишь две группы, эта задача решается с помощью t - критерия. Если же число признаков больше двух, то существенность различия выделенных частей (групп) доказывается с помощью дисперсионного анализа на основе F-критерия. В зависимости от количества учтённых факторов, действующих на результативный признак, дисперсионный анализ подразделяется на однофакторный и многофакторный.

В случае выделения групп по одному фактору (однофакторная аналитическая группировка) общая вариация результативного признака – общая сумма квадратов отклонений индивидуальных значений от его общего среднего значения – может быть разложена на две составные части вариацию, обусловленную действием факторного признака на результативный (факторная дисперсия) и вариацию, обусловленную действием всех прочих причин (остаточная дисперсия).

Сумма квадратов отклонений внутри групп определяется следующим образом:

где – значение результативного признака -й единицы в -й

группе;

− номер единицы, ;

− номер группы, ;

− численность -й группы;

j − средняя величина результативного признака в -й группе;

– общая средняя результативного признака.

Если обозначить суммы квадратов отклонений буквой , получим равенство: ..

На основе разложения дисперсии в соответствии с гипотезой отсутствия различий между группами могут быть получены три оценки генеральной дисперсии, пропорциональные степеням свободы: на основе общей вариации, межгрупповой (факторной) и внутригрупповой (остаточной). Число степеней свободы равно:

  1. для общей вариации ;

  2. для вариации между группами (межгрупповая вариация)

( – число групп);

  1. для вариации внутри групп: .

Как и суммы квадратов отклонений, числа степеней свободы связаны между собой равенством: . Рассчитываем дисперсии путём деления сумм квадратов отклонений на соответствующее число степеней свободы. При этом получаем три оценки генеральной дисперсии 2 : ; ; .

Поскольку измеряет вариацию результативного признака, связанную с изменением фактора, по которому произведена группировка, а – вариацию, связанную с изменением всех прочих факторов, срав-нение этих величин, рассчитанных на одну степень свободы, даёт возможность оценить существенность влияния признака-фактора на результативный признак с помощью -критерия: . Эта запись предполагает, что . Если , можно утверждать, что нуль-гипотеза не соответствует фактическим данным, влияние признака-фактора является существенным или статистически значимым.

Например. По выборке 20 заводов отрасли установить, оказывает ли существенное влияние фондооснащённость предприятий на выпуск продукции (таблица 2.5.1).

Таблица 2.5.1 − Расчётные данные

Стоимость основных производственных фондов, млн руб.

Объём продукции, млн руб., уi

уi -

i - )2

2,8

2,8

- 2,34

5,4756

2,2

2,5

- 2,64

6,9696

1,0

1,6

- 3,54

12,5316

2,0

0,7

- 4,44

19,7136

1.9

0,9

- 4,24

17,9776

3,1

2,5

- 2,64

6,9696

3,2

2,8

- 2,34

5,4756

4,0

5,6

0,46

0,2116

3,8

4,4

- 0,74

0,5476

3,5

3,5

- 1,64

2,6896

3,4

3,6

- 1,54

2,3716

3,9

4,6

- 0,54

0,2916

4,8

6,4

1,26

1,5876

4,1

4,3

- 0,84

0,7056

3,2

1,3

- 3,84

14,7456

5,9

14,6

9,46

89,4916

6,5

9,4

4,26

18,1476

7,0

13,6

8,46

71,5716

6,7

10,0

4,86

23,6196

5,1

7,6

2,46

6,0516

Итого

102,7

-

307,1460

Испытуемой является гипотеза об отсутствии связи, её можно сформулировать как или .

Решение:

  1. Находим среднее значение результативного признака

.

2. Определяем общую сумму квадратов отклонений индивидуальных значений результативного признака – объём продукции от его общей средней:

3. Рассчитаем сумму квадратов отклонений, вызванных действием данного фактора (таблица 2.5.2):

Таблица 2.5.2 − Расчёт факторной дисперсии

Стоимость основных производственных фондов, млн руб., (х)

Число заводов

(nj)

∑уij

-

( - )2

( - )2nj

1 3

5

8,5

1,70

- 3,435

11,7992

58,9961

3 5

10

39,0

3,90

- 1,235

1,5252

15,2523

5 7

5

55,2

11,04

5,905

34,8690

174,3451

Итого

20

102,7

5,135

-

-

248,5935

Dфакт.=248,5935.

4.Определяем остаточную сумму квадратов отклонений

Dост=Dобщ-Dфакт=307,146-248,594=58,552.

5.Число степеней свободы составит:

- для общей суммы квадратов отклонений dfобщ=n-1=20-1=19;

- для суммы квадратов отклонений за счёт фактора dfфакт.=m-1=3-1=2;

- для остаточной суммы квадратов отклонений dfост=n-m=20-3=17.

6. Рассчитаем дисперсии факторную и остаточную на одну степень свободы:

7. Определяем F-критерий расчётный .

8. Находим табличное значение Fтабл. (α = 0,05; df1= m-1 = 3-1 = 2;

df2= n-m = 20-3 = 17) (Приложение Е). Fтабл.=3,59.

Fрасч. Fтабл., следовательно фондооснащённость предприятий сущест-венно влияет на выпуск продукции.

Обобщая этапы однофакторного дисперсионного анализа составим таблицу (таблица 2.5.3).

Таблица 2.5.3 − Однофакторный дисперсионный анализ

Вариация

Сумма квадратов отклонений, D

Степень свободы,

Df

Средний квадрат отклонений, S2

Величина F-критерия

Fрасч.

Между группами

m-1

S2факт

Внутри групп

m-n

S2ост

Общая

n-1

-

-

Рассмотрим решение двухфакторного комплекса

Разложение общей суммы квадратов отклонений производится следующим образом

где i – номер единицы совокупности, i=1…, n;

j – номер группы по признаку х, j=1, …, m;

k – номер группы по признаку z, k=1,…,p.

Обозначив суммы квадратов отклонений через D, перепишем предыдущее уравнение ,

где Dфакт вариация у под влиянием фактора х;

Dфакт – вариация у, обусловленная взаимодействием факторов z;

Dфакт – вариация у, обусловленная взаимодействием факторов x и z;

Dост – остаточная вариация у;

Общая факторная вариация у под влиянием обоих факторов может быть записана: ,

Число степеней свободы для каждой суммы квадратов отклонений составит: ;

Рассчитывая дисперсии на одну степень свободы и сопоставляя их с S2ост., также рассчитанной на одну степень свободы, оцениваем с помощью величины F – критерия существенность влияния на результативный признак каждого из факторов (таблица 2.5.4).

Таблица 2.5.4 − Двухфакторный дисперсионный анализ

Вариация

Сумма квадратов отклонений D

Степень свободы df

Средний квадрат отклонений S2=D/df

Величина F-критерия

Между группами по х

m-1

S2факт

Между группами по z

p-1

S2факт

Взаимодейст-вие xz

(m-1)(p-1)

S2факт

Остаточная

n-mp

S2ост

-

Общая

n-1

S2

-

Обычные тесты для проверки гипотезы выглядят так:

сравнивается с ;

сравнивается с ;

сравнивается с ;

Во всех случаях, если ., отклоняется.

Например. Продолжая прежний пример, введём в анализ ещё один фактор, влияющий на выпуск продукции, – численность работающих (z) (таблица 2.5.5).

Таблица 2.5.5 − Исходные данные

Стоимость основных производ-ственных фондов,

млн руб. (х)

Численность работающих (z)

200 350

350 500

Итого

Число заводов, (njk)

Выпуск продукции, млн руб. ( jk)

Число заводов, (njk)

Выпуск продукции, млн руб. ( jk)

Число заводов, (njk)

Выпуск продукции, млн руб. ( jk)

1 3

3

1,07

2

2,65

5

1,70

3 5

3

2,23

7

4,63

10

3,90

5 7

2

8,50

3

12,73

5

11,04

nk

k

nk

k

N

Итого

8

3,36

12

6,33

20

5,14

1. Вычисляем сумму квадратов отклонений под влиянием фактора (численность работающих) Dфакт = =(3,36-3,135)2·8+(6,33-5,135)2·12=42,34.

2. Определяем сумму квадратов отклонений под воздействием факторов и (таблица 2.5.6): Dфакт = =7,505 4.

Таблица 2.5.6 − Расчётные данные*

( )2

njk

( )2

1,07-1,70-3,36+5,14=1,15

1,322 5

3

3,9675

2,65-1,70-6,33+5,14=-0,24

0,057 6

2

0,1152

2,23-3,90-3,36+5,14=0,11

0,012 1

3

0,0363

4,63-3,90-6,33+5,14=-0,46

0,211 6

7

1,4812

8,50-11,04-3,36+5,14=-0,76

0,577 6

2

1,1552

12,73-11,04-6,33+5,14=0,5

0,250 0

3

0,7500

-

-

20

7,5054

* берём из таблицы 2.5.2.

3. Dфакт = =248,5935 (таблица 2.5.2).

4. Находим Dфакт (суммы квадратов отклонений под влиянием факторов и ):

+ + =248,593 5+42,340 0+7,505 4=298,438 9.

5. Рассчитаем остаточную вариацию: =307,146-298,438 9=8,707 1.

6. Оценим существенность влияния каждого из факторов и их взаимо-действия на выпуск продукции. Результаты обобщим в таблица 2.5.7.

Таблица 2.5.7 − Двухфакторный дисперсионный анализ

Сумма квадратов отклонений, D

Степени свободы, df

Средний квадрат отклонения, S2=D/df

Величина F- критерия

Dфакт = 248,5935

dfx=m-1=3-1=2

S2факт = =

=124,297

Fрасч = =

= 199,87

Dфакт =42,34

dfz=p-1=2-1=1

S2 факт =42,34

Fрасч = =

= 68,08

Dфакт =7,5054

dfxz=

=dfx· dfz=2·1=2

S2 факт = =

=3,7527

Fрасч = =

= 6,03

Dфакт=298,4389

dfфакт= dfx+ dfz+ +dfхz=2+1+2=5

S2факт= =

=59,6878

Fрасч= =

=0,017

Dобщ=307,146

Dfобщ.=n-1=20-

-1=19

S2общ.= =

=16,1656

-

Dост=8,7071

dfост=dfобщ-

-dfфакт=19-5=14

S2ост= =

=0,6219

-

2. Вторая гипотеза испытывается на основе сравнения Fрасч =68,08 с Fтабл. . (α=0,05; df1=dfz=1; df2=dfост=14)=4,60.

Fрасч Fтабл – гипотеза Н0 отклоняется, следовательно, достоверность влияния фактора z также доказана.

3. Третье − испытывается на основе сравнения Fрасч =6,03 с Fтабл. (α=0,05; df1=dfxz=2; df2=dfост=14)=3,74.

Fрасч Fтабл гипотеза Н0 отвергается, значит, эффект от взаимодействия факторов имеет место быть (таблица 2.5.7).

Если в исследование включено более двух факторов, то дисперсионный анализ ведётся по тому же принципу, что и для двухфакторного комплекса. Так, в случае трёхфакторного комплекса

Dобщ = Dост + Dфакт,

где Dфакт=Dфакт + Dфакт + Dфакт + Dфакт + Dфакт + Dфакт + Dфакт .

Доказав достоверность влияния отдельных факторов или целой группы факторов, на основе разложения общей дисперсии результативного признака можно оценить тесноту связи его с каждым из факторов и со всеми учтёнными факторами ,

где − коэффициент детерминации (0≤ ≤1).

Задачи

11.1. Известны результаты выборочного обследования пробега автомобильных шин нового типа в различных условиях эксплуатации:

Условия эксплуатации

Пробег шин, тыс. км.

№ п/п

Условия эксплуатации

Пробег шин, тыс. км.

Загородные

54,2

13

Загородные

56,6

Городские

70,5

14

Смешанные

60,5

Смешанные

58,9

15

Городские

70,3

Городские

71,8

16

Загородные

55,0

Смешанные

59,1

17

Смешанные

58,4

Городские

69,8

18

Городские

69,1

Загородные

58,8

19

Городские

72,0

Городские

58,9

20

Смешанные

59,0

Городские

68,7

21

Загородные

56,4

Смешанные

60,1

22

Городские

58,7

Городские

72,1

23

Смешанные

61,8

Смешанные

62,2

24

Городские

66,2

Установить, существует ли зависимость между условиями эксплуатации и величиной пробега шин, гарантируя результат с вероятностью 0,95.

11.2. По 25 рабочим механического цеха собраны данные о прохождении этими рабочими технического обучения и проценте выполнения норм выработки. Результаты обследования следующие:

Группа рабочих

Число рабочих

Процент выполнения норм выработки каждым рабочим

Не прошедшие техническое обучение

11

98,0; 102,0; 108,0; 103,2; 97,5; 100,0; 104,0; 100,8; 107,2; 105,4; 99,2

Прошедшие техническое обучение

14

112,8; 118,4; 106,8; 103,1; 108,9; 111,4; 100,8; 114,1; 110,8; 112,0; 107,9; 106,9; 118,7; 110,2

Используя метод дисперсионного анализа, установить, существует ли зависимость между процентом выполнения норм выработки и повышением квалификации, гарантируя результат с вероятностью 0,95.

11.3. За месяц известны данные о выработке рабочего за время работы в первую и во вторую смены:

Смена

Выработка рабочего, нормо-час

I

12,1; 11,1; 12,6; 12,9; 11,6; 13,1; 12,6; 12,4; 11,6; 17,3; 12,9; 11,6; 12,4

II

9,9; 11,4; 13,4; 10,4; 12,9; 12,6; 13,9; 13,4; 12,4; 9,9

Можно ли считать, что расхождение между уровнями выработки рабочего в первую и во вторую смены несущественно. С уровнем значимости  = 0,05.

11.4. По следующим данным с использованием дисперсионного анализа установите, оказывает ли влияние продолжительность оборота средств в днях на среднюю прибыль:

Продолжитель оборота средств в днях

Число малых предприятий

Средняя прибыль, млн руб.

40 50

6

14,57

50 70

8

12,95

70 100

6

7,40

Итого

20

-

Dобщ = 208 ( = 0,05).

11.5. По приведённым данным с помощью дисперсионного анализа установить, существует ли влияние на среднюю прибыль средних запасов оборотных средств и оборачиваемости оборотных средств в днях.

Средний запас оборотных средств, млн руб.

Оборачиваемость оборотных средств в днях

40 − 50

50 − 70

70 − 100

Число предпри-ятий

Средняя прибыль, млн руб.

Число предпри-ятий

Средняя прибыль, млн руб.

Число предпри-ятий

Средняя прибыль, млн руб.

55 − 85

1

11,00

2

10,85

1

7,05

85 − 115

2

11,85

4

11,90

2

5,75

115 − 145

3

17,60

2

17,00

3

8,62

Dобщ = 450 ( = 0,05).

11.6. Имеются следующие данные по 20 коммерческим банкам.

Собственный капитал, млрд руб.

Привлечённые ресурсы, млрд руб.

Балансовая прибыль, млрд руб.

12,0

27,1

8,1

70,4

56,3

9,5

41,0

95,7

38,4

120,8

44,8

38,4

79,3

26,7

13,4

50,3

108,1

30,1

70,0

50,2

37,8

52,4

26,3

41,1

99,8

53,5

9,3

27,3

24,4

39,3

72,0

65,5

8,6

22,4

76,0

40,5

39,3

106,9

45,3

70,0

89,5

8,4

22,9

84,0

12,8

119,3

89,4

44,7

49,6

93,8

8,8

88,6

91,3

32,2

43,7

108,1

20,3

90,5

55,7

12,2

Постройте группировку коммерческих банков по величине собственного капитала, выделив пять групп с равными интервалами. Рас-считайте по каждой группе балансовую прибыль. По данным группировки

с помощью дисперсионного анализа установить, оказывает ли влияние величина собственного капитала на балансовую прибыль ( = 0,05).

11.7. По данным предыдущей задачи построить комбинационную группировку. В качестве группировочных признаков выбрать величину собственного капитала и привлечённые средства (выделить 3 группы). На основе полученной группировки с помощью дисперсионного анализа установить, оказывают ли влияние на балансовую прибыль величина собственного капитала и привлечённые средства ( = 0,05).

11.8. Имеются следующие данные по 15 промышленным предприятиям:

Предприятие

Стоимость основных фондов, млн руб.

Затраты на 100 руб. продукции, руб.

Прибыль, млн руб.

1

4,1

80

300

2

6,6

73

950

3

4,0

72

520

4

4,2

75

480

5

6,3

67

1 000

6

6,0

71

900

7

5,9

76

800

8

4,8

55

750

9

5,1

75

610

10

5,7

82

420

11

4,3

60

850

12

4,9

64

780

13

5,5

67

1 100

14

6,7

81

820

15

6,5

70

600

Постройте группировку промышленных предприятий по стоимости основных фондов, выделив 3 группы с равными интервалами. Рассчитайте по каждой группе прибыль. По данным группировки с помощью дисперсионного анализ установите, оказывает ли влияние величина стоимости основных фондов на величину прибыли.

11.9. По данным предыдущей задачи построить комбинационную группировку. В качестве группировочных признаков выбрать величину стоимости основных фондов (3 группы) и затрат на 100 руб. продукции (2 группы). На основе полученной группировки с помощью дисперсионного анализа установите, оказывают ли влияние на величину прибыли стоимость основных фондов и затрат на 100 руб. продукции ( = 0,05).