- •Методы выборочного обследования Рекомендовано
- •Введение
- •Ошибки выборки при некоторых способах отбора. Необходимая численность выборки
- •1.1. Собственно-случайная и механическая выборка
- •1.2. Типический (стратифицированный, расслоённый, районированный) отбор
- •1.3. Серийный (гнездовой) отбор
- •1.4. Многоступенчатый отбор (комбинированная выборка)
- •1.5. Малая выборка
- •1.6. Определение необходимой численности выборки
- •1.7. Распространение результатов выборочного наблюдения на генеральную совокупность
- •Контрольные вопросы и задания к главе 1
- •2. Проверка статистических гипотез. Дисперсионный анализ
- •2.1. Понятие статистической гипотезы
- •2.2. Проверка гипотез о распределениях
- •Выразив стандартизованное отклонение через , получим
- •8.3. Результаты статистического обследования фирм, участвовавших в международной выставке, представлены в следующей таблице:
- •2.3. Проверка гипотез о связях
- •2.4. Проверка гипотез о средней и о доле
- •2.5. Дисперсионный анализ
- •Контрольные вопросы и задания к главе 2
- •Заключение
- •Библиографический список
- •Приложение в
- •Методы выборочного обследования
- •Редактор г.С. Одинцова
2.5. Дисперсионный анализ
Основным
способом проверки гипотезы о связях
признаков служит дисперсионный анализ.
Заключение об отсутствии или наличии
связи делается при этом на основе
-критерия.
Критерий F представляет собой отношение
выборочных дисперсий
и
,
которые представляются как оценки
одной и той же генеральной дисперсии
2:
.
Распределение
дисперсионного отношения F зависит от
числа степеней свободы
и
.
Построены таблицы критических
значений величины F при разном
числе степеней свободы для разных
уровней значимости
(Приложение Е). Таблицей F-распределения
можно пользоваться и при малых и при
больших выборках. За S21 берётся
большая из дисперсий, т.е. S21
> S22, соответственно
– число степеней свободы S21
,
– число степеней свободы S22
. Минимальное значение F=1 соответствует
случаю равенства дисперсий, чем
значительнее расхождение между
дисперсиями, тем больше величина F.
Сущность дисперсионного анализа заключается в расчленении общей вариации на части и в сравнении полученных частных дисперсий. Испытуемая гипотеза при этом состоит в том, что если данные каждой части представляют случайную выборку из нормально распределённой генеральной совокупности, то величина всех частных дисперсий должны быть пропорциональны своим степеням свободы и каждую из них можно рассматривать как приближённую оценку генеральной дисперсии. Нулевая гипотеза предполагает случайность различия сравниваемых величин S21 и S22 . Опровержение нулевой гипотезы служит доказательством действия того фактора, на основе которого производилась разбивка данных.
Очевидна связь дисперсионного анализа с методом аналитических группировок. При изучении связей признаков с помощью аналитических группировок совокупность разбивается на группы по значениям признака-фактора и полагают, что различие средних результативного признака в группах определяются действием данного фактора. Задача состоит в оценке существенности различий между групповыми средними результативного признака, когда выделены лишь две группы, эта задача решается с помощью t - критерия. Если же число признаков больше двух, то существенность различия выделенных частей (групп) доказывается с помощью дисперсионного анализа на основе F-критерия. В зависимости от количества учтённых факторов, действующих на результативный признак, дисперсионный анализ подразделяется на однофакторный и многофакторный.
В случае выделения групп по одному фактору (однофакторная аналитическая группировка) общая вариация результативного признака – общая сумма квадратов отклонений индивидуальных значений от его общего среднего значения – может быть разложена на две составные части − вариацию, обусловленную действием факторного признака на результативный (факторная дисперсия) и вариацию, обусловленную действием всех прочих причин (остаточная дисперсия).
Сумма квадратов отклонений внутри групп определяется следующим образом:
где
– значение результативного признака
-й
единицы в
-й
группе;
− номер единицы,
;
− номер группы,
;
−
численность
-й
группы;
j
− средняя величина результативного
признака в
-й
группе;
– общая средняя результативного признака.
Если
обозначить суммы квадратов отклонений
буквой
,
получим равенство:
..
На основе разложения дисперсии в соответствии с гипотезой отсутствия различий между группами могут быть получены три оценки генеральной дисперсии, пропорциональные степеням свободы: на основе общей вариации, межгрупповой (факторной) и внутригрупповой (остаточной). Число степеней свободы равно:
для общей вариации
;для вариации между группами (межгрупповая вариация)
(
– число групп);
для вариации внутри групп:
.
Как и суммы
квадратов отклонений, числа степеней
свободы связаны между собой равенством:
.
Рассчитываем дисперсии путём деления
сумм квадратов отклонений на
соответствующее число степеней свободы.
При этом получаем три оценки генеральной
дисперсии
2
:
;
;
.
Поскольку
измеряет вариацию результативного
признака, связанную с изменением фактора,
по которому произведена группировка,
а
–
вариацию, связанную с изменением всех
прочих факторов, срав-нение
этих величин, рассчитанных на одну
степень свободы, даёт возможность
оценить существенность влияния
признака-фактора на результативный
признак с помощью
-критерия:
.
Эта запись предполагает, что
.
Если
,
можно утверждать, что нуль-гипотеза не
соответствует фактическим данным,
влияние признака-фактора является
существенным или статистически значимым.
Например. По выборке 20 заводов отрасли установить, оказывает ли существенное влияние фондооснащённость предприятий на выпуск продукции (таблица 2.5.1).
Таблица 2.5.1 − Расчётные данные
Стоимость основных производственных фондов, млн руб. |
Объём продукции, млн руб., уi |
уi - |
(уi - )2 |
2,8 |
2,8 |
- 2,34 |
5,4756 |
2,2 |
2,5 |
- 2,64 |
6,9696 |
1,0 |
1,6 |
- 3,54 |
12,5316 |
2,0 |
0,7 |
- 4,44 |
19,7136 |
1.9 |
0,9 |
- 4,24 |
17,9776 |
3,1 |
2,5 |
- 2,64 |
6,9696 |
3,2 |
2,8 |
- 2,34 |
5,4756 |
4,0 |
5,6 |
0,46 |
0,2116 |
3,8 |
4,4 |
- 0,74 |
0,5476 |
3,5 |
3,5 |
- 1,64 |
2,6896 |
3,4 |
3,6 |
- 1,54 |
2,3716 |
3,9 |
4,6 |
- 0,54 |
0,2916 |
4,8 |
6,4 |
1,26 |
1,5876 |
4,1 |
4,3 |
- 0,84 |
0,7056 |
3,2 |
1,3 |
- 3,84 |
14,7456 |
5,9 |
14,6 |
9,46 |
89,4916 |
6,5 |
9,4 |
4,26 |
18,1476 |
7,0 |
13,6 |
8,46 |
71,5716 |
6,7 |
10,0 |
4,86 |
23,6196 |
5,1 |
7,6 |
2,46 |
6,0516 |
Итого |
102,7 |
- |
307,1460 |
Испытуемой
является гипотеза об отсутствии связи,
её можно сформулировать как
или
.
Решение:
Находим среднее значение результативного признака
.
2.
Определяем общую сумму квадратов
отклонений индивидуальных значений
результативного признака – объём
продукции от его общей средней:
3.
Рассчитаем сумму квадратов отклонений,
вызванных действием данного фактора
(таблица 2.5.2):
Таблица 2.5.2 − Расчёт факторной дисперсии
Стоимость основных производственных фондов, млн руб., (х) |
Число заводов (nj) |
∑уij |
|
- |
( - )2 |
( - )2nj |
1 − 3 |
5 |
8,5 |
1,70 |
- 3,435 |
11,7992 |
58,9961 |
3 − 5 |
10 |
39,0 |
3,90 |
- 1,235 |
1,5252 |
15,2523 |
5 − 7 |
5 |
55,2 |
11,04 |
5,905 |
34,8690 |
174,3451 |
Итого |
20 |
102,7 |
5,135 |
- |
- |
248,5935 |
Dфакт.=248,5935.
4.Определяем остаточную сумму квадратов отклонений
Dост=Dобщ-Dфакт=307,146-248,594=58,552.
5.Число степеней свободы составит:
- для общей суммы квадратов отклонений dfобщ=n-1=20-1=19;
- для суммы квадратов отклонений за счёт фактора dfфакт.=m-1=3-1=2;
- для остаточной суммы квадратов отклонений dfост=n-m=20-3=17.
6.
Рассчитаем дисперсии факторную и
остаточную на одну степень свободы:
7.
Определяем F-критерий
расчётный
.
8. Находим табличное значение Fтабл. (α = 0,05; df1= m-1 = 3-1 = 2;
df2= n-m = 20-3 = 17) (Приложение Е). Fтабл.=3,59.
Fрасч.
Fтабл.,
следовательно фондооснащённость
предприятий сущест-венно влияет на
выпуск продукции.
Обобщая этапы однофакторного дисперсионного анализа составим таблицу (таблица 2.5.3).
Таблица 2.5.3 − Однофакторный дисперсионный анализ
Вариация |
Сумма квадратов отклонений, D |
Степень свободы, Df |
Средний квадрат отклонений, S2 |
Величина F-критерия Fрасч. |
Между группами |
|
m-1 |
S2факт |
|
Внутри групп |
|
m-n |
S2ост |
|
Общая |
|
n-1 |
- |
- |
Рассмотрим решение двухфакторного комплекса
Разложение
общей суммы квадратов отклонений
производится следующим образом
где i – номер единицы совокупности, i=1…, n;
j – номер группы по признаку х, j=1, …, m;
k – номер группы по признаку z, k=1,…,p.
Обозначив
суммы квадратов отклонений через D,
перепишем предыдущее уравнение
,
где
Dфакт
– вариация
у под влиянием фактора х;
Dфакт
–
вариация у, обусловленная взаимодействием
факторов z;
Dфакт
– вариация у, обусловленная взаимодействием
факторов x
и z;
Dост – остаточная вариация у;
Общая
факторная вариация у под влиянием обоих
факторов может быть записана:
,
Число
степеней свободы для каждой суммы
квадратов отклонений составит:
;
Рассчитывая
дисперсии на одну степень свободы
и сопоставляя их с S2ост.,
также рассчитанной на одну степень
свободы, оцениваем с помощью величины
F
– критерия существенность влияния на
результативный признак каждого из
факторов (таблица 2.5.4).
Таблица 2.5.4 − Двухфакторный дисперсионный анализ
Вариация |
Сумма квадратов отклонений D |
Степень свободы df |
Средний квадрат отклонений S2=D/df |
Величина F-критерия |
Между группами по х |
|
m-1 |
S2факт |
|
Между группами по z |
|
p-1 |
S2факт |
|
Взаимодейст-вие xz |
|
(m-1)(p-1) |
S2факт |
|
Остаточная |
|
n-mp |
S2ост |
- |
Общая |
|
n-1 |
S2 |
- |
Обычные тесты для проверки гипотезы выглядят так:
сравнивается
с
;
сравнивается
с
;
сравнивается
с
;
Во всех случаях, если ., отклоняется.
Например. Продолжая прежний пример, введём в анализ ещё один фактор, влияющий на выпуск продукции, – численность работающих (z) (таблица 2.5.5).
Таблица 2.5.5 − Исходные данные
Стоимость основных производ-ственных фондов, млн руб. (х) |
Численность работающих (z) |
|||||
200 − 350 |
350 − 500 |
Итого |
||||
Число заводов, (njk) |
Выпуск продукции, млн руб. ( jk) |
Число заводов, (njk) |
Выпуск продукции, млн руб. ( jk) |
Число заводов, (njk) |
Выпуск продукции, млн руб. ( jk) |
|
1 − 3 |
3 |
1,07 |
2 |
2,65 |
5 |
1,70 |
3 − 5 |
3 |
2,23 |
7 |
4,63 |
10 |
3,90 |
5 − 7 |
2 |
8,50 |
3 |
12,73 |
5 |
11,04 |
|
nk |
k |
nk |
k |
N |
|
Итого |
8 |
3,36 |
12 |
6,33 |
20 |
5,14 |
1.
Вычисляем сумму квадратов отклонений
под влиянием фактора
(численность работающих)
Dфакт
=
=(3,36-3,135)2·8+(6,33-5,135)2·12=42,34.
2.
Определяем сумму квадратов отклонений
под воздействием факторов
и
(таблица 2.5.6): Dфакт
=
=7,505
4.
Таблица 2.5.6 − Расчётные данные*
|
( )2 |
njk |
(
)2 |
1,07-1,70-3,36+5,14=1,15 |
1,322 5 |
3 |
3,9675 |
2,65-1,70-6,33+5,14=-0,24 |
0,057 6 |
2 |
0,1152 |
2,23-3,90-3,36+5,14=0,11 |
0,012 1 |
3 |
0,0363 |
4,63-3,90-6,33+5,14=-0,46 |
0,211 6 |
7 |
1,4812 |
8,50-11,04-3,36+5,14=-0,76 |
0,577 6 |
2 |
1,1552 |
12,73-11,04-6,33+5,14=0,5 |
0,250 0 |
3 |
0,7500 |
- |
- |
20 |
7,5054 |
* берём из таблицы 2.5.2.
3.
Dфакт
=
=248,5935
(таблица 2.5.2).
4. Находим Dфакт (суммы квадратов отклонений под влиянием факторов и ):
+
+
=248,593 5+42,340 0+7,505
4=298,438 9.
5.
Рассчитаем остаточную вариацию:
=307,146-298,438
9=8,707 1.
6. Оценим существенность влияния каждого из факторов и их взаимо-действия на выпуск продукции. Результаты обобщим в таблица 2.5.7.
Таблица 2.5.7 − Двухфакторный дисперсионный анализ
Сумма квадратов отклонений, D |
Степени свободы, df |
Средний квадрат отклонения, S2=D/df |
Величина F- критерия |
Dфакт = 248,5935 |
dfx=m-1=3-1=2 |
S2факт
= =124,297 |
Fрасч
= = 199,87 |
Dфакт =42,34 |
dfz=p-1=2-1=1 |
S2 факт =42,34 |
Fрасч
= = 68,08
|
Dфакт |
dfxz= =dfx· dfz=2·1=2 |
S2
факт
= =3,7527 |
Fрасч
= = 6,03 |
Dфакт=298,4389 |
dfфакт= dfx+ dfz+ +dfхz=2+1+2=5 |
S2факт= =59,6878 |
Fрасч= =0,017 |
Dобщ=307,146 |
Dfобщ.=n-1=20- -1=19 |
S2общ.= =16,1656 |
- |
Dост=8,7071 |
dfост=dfобщ- -dfфакт=19-5=14 |
S2ост= =0,6219 |
- |
2.
Вторая гипотеза
испытывается на основе сравнения Fрасч
=68,08 с Fтабл.
. (α=0,05;
df1=dfz=1;
df2=dfост=14)=4,60.
Fрасч Fтабл – гипотеза Н0 отклоняется, следовательно, достоверность влияния фактора z также доказана.
3.
Третье −
испытывается на основе сравнения
Fрасч
=6,03
с Fтабл.
(α=0,05;
df1=dfxz=2;
df2=dfост=14)=3,74.
Fрасч Fтабл гипотеза Н0 отвергается, значит, эффект от взаимодействия факторов имеет место быть (таблица 2.5.7).
Если в исследование включено более двух факторов, то дисперсионный анализ ведётся по тому же принципу, что и для двухфакторного комплекса. Так, в случае трёхфакторного комплекса
Dобщ = Dост + Dфакт,
где
Dфакт=Dфакт
+
Dфакт
+
Dфакт
+
Dфакт
+
Dфакт
+
Dфакт
+
Dфакт
.
Доказав
достоверность влияния отдельных факторов
или целой группы факторов, на основе
разложения общей дисперсии результативного
признака можно оценить тесноту связи
его с каждым из факторов
и со всеми учтёнными факторами
,
где
− коэффициент
детерминации (0≤
≤1).
Задачи
11.1. Известны результаты выборочного обследования пробега автомобильных шин нового типа в различных условиях эксплуатации:
Условия эксплуатации |
Пробег шин, тыс. км. |
№ п/п |
Условия эксплуатации |
Пробег шин, тыс. км. |
Загородные |
54,2 |
13 |
Загородные |
56,6 |
Городские |
70,5 |
14 |
Смешанные |
60,5 |
Смешанные |
58,9 |
15 |
Городские |
70,3 |
Городские |
71,8 |
16 |
Загородные |
55,0 |
Смешанные |
59,1 |
17 |
Смешанные |
58,4 |
Городские |
69,8 |
18 |
Городские |
69,1 |
Загородные |
58,8 |
19 |
Городские |
72,0 |
Городские |
58,9 |
20 |
Смешанные |
59,0 |
Городские |
68,7 |
21 |
Загородные |
56,4 |
Смешанные |
60,1 |
22 |
Городские |
58,7 |
Городские |
72,1 |
23 |
Смешанные |
61,8 |
Смешанные |
62,2 |
24 |
Городские |
66,2 |
Установить, существует ли зависимость между условиями эксплуатации и величиной пробега шин, гарантируя результат с вероятностью 0,95.
11.2. По 25 рабочим механического цеха собраны данные о прохождении этими рабочими технического обучения и проценте выполнения норм выработки. Результаты обследования следующие:
Группа рабочих
|
Число рабочих |
Процент выполнения норм выработки каждым рабочим |
Не прошедшие техническое обучение |
11 |
98,0; 102,0; 108,0; 103,2; 97,5; 100,0; 104,0; 100,8; 107,2; 105,4; 99,2 |
Прошедшие техническое обучение |
14 |
112,8; 118,4; 106,8; 103,1; 108,9; 111,4; 100,8; 114,1; 110,8; 112,0; 107,9; 106,9; 118,7; 110,2 |
Используя метод дисперсионного анализа, установить, существует ли зависимость между процентом выполнения норм выработки и повышением квалификации, гарантируя результат с вероятностью 0,95.
11.3. За месяц известны данные о выработке рабочего за время работы в первую и во вторую смены:
Смена |
Выработка рабочего, нормо-час |
I |
12,1; 11,1; 12,6; 12,9; 11,6; 13,1; 12,6; 12,4; 11,6; 17,3; 12,9; 11,6; 12,4 |
II |
9,9; 11,4; 13,4; 10,4; 12,9; 12,6; 13,9; 13,4; 12,4; 9,9 |
Можно ли считать, что расхождение между уровнями выработки рабочего в первую и во вторую смены несущественно. С уровнем значимости = 0,05.
11.4. По следующим данным с использованием дисперсионного анализа установите, оказывает ли влияние продолжительность оборота средств в днях на среднюю прибыль:
Продолжитель оборота средств в днях |
Число малых предприятий |
Средняя прибыль, млн руб. |
40 − 50 |
6 |
14,57 |
50 − 70 |
8 |
12,95 |
70 − 100 |
6 |
7,40 |
Итого |
20 |
- |
Dобщ = 208 ( = 0,05).
11.5. По приведённым данным с помощью дисперсионного анализа установить, существует ли влияние на среднюю прибыль средних запасов оборотных средств и оборачиваемости оборотных средств в днях.
Средний запас оборотных средств, млн руб. |
Оборачиваемость оборотных средств в днях |
|||||
40 − 50 |
50 − 70 |
70 − 100 |
||||
Число предпри-ятий |
Средняя прибыль, млн руб. |
Число предпри-ятий |
Средняя прибыль, млн руб. |
Число предпри-ятий |
Средняя прибыль, млн руб. |
|
55 − 85 |
1 |
11,00 |
2 |
10,85 |
1 |
7,05 |
85 − 115 |
2 |
11,85 |
4 |
11,90 |
2 |
5,75 |
115 − 145 |
3 |
17,60 |
2 |
17,00 |
3 |
8,62 |
Dобщ = 450 ( = 0,05).
11.6. Имеются следующие данные по 20 коммерческим банкам.
Собственный капитал, млрд руб. |
Привлечённые ресурсы, млрд руб. |
Балансовая прибыль, млрд руб. |
12,0 |
27,1 |
8,1 |
70,4 |
56,3 |
9,5 |
41,0 |
95,7 |
38,4 |
120,8 |
44,8 |
38,4 |
79,3 |
26,7 |
13,4 |
50,3 |
108,1 |
30,1 |
70,0 |
50,2 |
37,8 |
52,4 |
26,3 |
41,1 |
99,8 |
53,5 |
9,3 |
27,3 |
24,4 |
39,3 |
72,0 |
65,5 |
8,6 |
22,4 |
76,0 |
40,5 |
39,3 |
106,9 |
45,3 |
70,0 |
89,5 |
8,4 |
22,9 |
84,0 |
12,8 |
119,3 |
89,4 |
44,7 |
49,6 |
93,8 |
8,8 |
88,6 |
91,3 |
32,2 |
43,7 |
108,1 |
20,3 |
90,5 |
55,7 |
12,2 |
Постройте группировку коммерческих банков по величине собственного капитала, выделив пять групп с равными интервалами. Рас-считайте по каждой группе балансовую прибыль. По данным группировки
с помощью дисперсионного анализа установить, оказывает ли влияние величина собственного капитала на балансовую прибыль ( = 0,05).
11.7. По данным предыдущей задачи построить комбинационную группировку. В качестве группировочных признаков выбрать величину собственного капитала и привлечённые средства (выделить 3 группы). На основе полученной группировки с помощью дисперсионного анализа установить, оказывают ли влияние на балансовую прибыль величина собственного капитала и привлечённые средства ( = 0,05).
11.8. Имеются следующие данные по 15 промышленным предприятиям:
Предприятие |
Стоимость основных фондов, млн руб. |
Затраты на 100 руб. продукции, руб. |
Прибыль, млн руб. |
1 |
4,1 |
80 |
300 |
2 |
6,6 |
73 |
950 |
3 |
4,0 |
72 |
520 |
4 |
4,2 |
75 |
480 |
5 |
6,3 |
67 |
1 000 |
6 |
6,0 |
71 |
900 |
7 |
5,9 |
76 |
800 |
8 |
4,8 |
55 |
750 |
9 |
5,1 |
75 |
610 |
10 |
5,7 |
82 |
420 |
11 |
4,3 |
60 |
850 |
12 |
4,9 |
64 |
780 |
13 |
5,5 |
67 |
1 100 |
14 |
6,7 |
81 |
820 |
15 |
6,5 |
70 |
600 |
Постройте группировку промышленных предприятий по стоимости основных фондов, выделив 3 группы с равными интервалами. Рассчитайте по каждой группе прибыль. По данным группировки с помощью дисперсионного анализ установите, оказывает ли влияние величина стоимости основных фондов на величину прибыли.
11.9. По данным предыдущей задачи построить комбинационную группировку. В качестве группировочных признаков выбрать величину стоимости основных фондов (3 группы) и затрат на 100 руб. продукции (2 группы). На основе полученной группировки с помощью дисперсионного анализа установите, оказывают ли влияние на величину прибыли стоимость основных фондов и затрат на 100 руб. продукции ( = 0,05).
