Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Артамонов статистика.pdf
Скачиваний:
43
Добавлен:
23.03.2015
Размер:
1.69 Mб
Скачать

Задача 4.4

Имеются данные об урожайности зерновых и валовом сборе зерна по пяти хозяйствам области (табл. 4.5).

 

 

Таблица 4.5

Хозяйство

Урожайность зерновых, ц/га

Валовый сбор зерна, ц

 

1

18

18000

 

2

20

30000

 

3

21

63000

 

4

22

44000

 

5

25

30000

 

Итого

185000

 

Рассчитать среднюю урожайность для всех хозяйств.

Задача 4.5

Определить моду по данным задачи 4.3.

Задача 4.6

Для приведенного в задаче 4.3 распределения рабочих по размеру заработной платы определить медиану.

Задача 4.7

Воспользовавшись исходными данными задачи 4.2, где x = 3,9, рассчитать основные показатели вариации: размах вариации, среднее линейное отклонение, среднее квадратическое отклонение и коэффициент вариации.

Задача 4.8

Воспользовавшись исходными данными задачи 4.3, рассчитать среднюю арифметическую, дисперсию и коэффициент вариации.

Задача 4.9

Пусть имеются следующие данные о результатах экзаменационной сессии на первом и втором курсах одного из вузов: на первом курсе 85% студентов сдали сессию без двоек, а на втором курсе – 90%. Определить дисперсию доли студентов, успешно сдавших сессию (или, что то же самое, доли студентов, получивших двойки на сессии).

Задача 4.10

На конец 1995 г. в РФ имелось следующее распределение безработных по возрастным группам (табл. 4.6).

51

 

Таблица 4.6

Возрастные группы, лет

Численность безработных, % к итогу

 

16–19

10,2

 

20–24

17,9

 

25–29

12,7

 

30–49

48,8

 

50–54

4,0

 

55–59

4,5

 

60–72

1,9

 

Итого

100,0

 

Определить: 1) средний (арифметический) возраст безработных; 2) модальный возраст (моду); 3) медианный возраст (медиану); 4) среднее квадратическое отклонение; 5) коэффициент вариации.

Задача 4.11

Имеются данные о распределении населения Московской области по уровню среднемесячного дохода в 2003 г. (табл. 4.7).

 

Таблица 4.7

Среднемесячный душевой доход, тыс. р.

Численность населения, % к итогу

До 200

15,3

200–400

50,6

400–600

23,5

600–800

7,3

800–1000

2,2

Свыше 1000

1,1

Определить в данном распределении: 1) среднемесячный душевой доход по области в целом; 2) моду; 3) медиану; 4) среднее квадратическое отклонение доходов; 5) дециальный коэффициент дифференциации (ДКД) доходов.

Ответ: 1) 367,6 тыс. р.;

2) Мо = 313,1 тыс. р.;

3)

Ме = 337,2 тыс. р.;

4) 193,8 тыс. р.;

5)

ДКД = 4,7 раза.

 

Задача 4.12

По переписи населения 1926 г. в России доля грамотных среди женщин составляла 46, а среди мужчин – 77 %. Определить общий (средний) процент грамотности всего населения и дисперсию этого показателя, если женщины составляли 53 % от общей численности населения.

Ответ. 1) p = 60,57% ; 2) σ2 = pq = 0,2388 .

52

Тема 5. ПРОВЕРКА ГИПОТЕЗ. КРИТЕРИИ СОГЛАСИЯ

Проверка статистических гипотез

Статистическая гипотеза – предположение о виде распределения или параметрах распределения случайной величины. Существуют простая гипотеза (предположение об одном значении параметра или распределении) и сложная (предположение о нескольких значениях параметра или распределений).

Обычно выделяют некоторую нулевую гипотезу Н0 , наряду с которой рассматривают конкурирующую, альтернативную, противоположную гипотезу Н1. Для того, чтобы принять Н0 или Н1 считается наблюдаемая статистика.

Проверка последовательности гипотезы проходит в следующей последовательности. Проводится серия n испытаний, результат – ва-

риационный ряд x1, x2 ,..., xn .

Считается наблюдаемая

статистика

tн(x1, x2 ,..., xn ). Зная закон ее

распределения, задаем

критическое

значение tкр:

-если tн tкр, то принимается гипотеза Н0 ,

-если tн > tкр, то принимается гипотезаН1.

Возможны следующие варианты для нулевой гипотезы Н0

(табл. 5.1).

Таблица 5.1

Н0

Принимается

Не принимается

Верна

Правильное решение

Неправильное решение

 

 

(ошибка первого рода)

 

 

 

Не верна

Неправильное решение

Правильное решение

 

(ошибка второго рода)

 

Правило, по которому принимается или отвергается гипотеза,

называется статистическим критерием.

Виды гипотез: 1) правосторонняя; 2) левосторонняя; 3) двусторонняя.

Если проверяется левосторонняя или правосторонняя гипотеза и задан α (уровень значимости гипотезы), тогда критическое значение статистики находят по интегралу Лапласа (прил. 3):

Ф(tкр )=12α.

53

Если проверяется двусторонняя гипотеза, тогда интеграл Лапласа имеет вид

Ф(tкр )= 1 − α

ипо нему находят критическое значение статистики (прил. 3). Наиболее распространены гипотезы: о равенстве средних значе-

ний, долей значений признака, дисперсий в двух и более совокупностях; о числовых значениях параметров распределения. Рассмотрим проверку гипотез на различных примерах.

Проверка гипотезы о равенстве средних в двух и более совокупностях

Пример 1. Оценка эффективности новой технологии для двух вариационных рядов: x1, x2, …, xn1 и y1, y2, …, yn2.

В производстве заняты две группы рабочих: в первой группе 50 человек ( n1) используют новую технологию, среднее значение производительности их труда х = 85 изделий; во второй – 70 человек ( n2 ) используют старую технологию, среднее значение производительности их труда y = 78 изделий.

На уровне значимости α = 0,05 оцените влияние новой технологии, если дисперсии для производительностей труда равны соответственно σ2x =100; σ2y = 74.

Решение:

Рассмотрим нулевую гипотезу H0 : х0 = y0 (обе группы рабо-

чих имеют одинаковую производительность труда). Зададим уровень значимости α = 0,05.

Наблюдаемая статистика рассчитывается по формуле

tн =

x

y

 

=

85 78

4 .

σ2x

 

σ2y

 

100

+

74

 

n1

+ n2

 

50

70

 

Для альтернативной гипотезы H1 : x0 > y0 (производительность

труда первой группы рабочих больше производительности труда второй группы рабочих), следовательно, Ф(tкр )=1 2 0,05 = 0,9 .

По интегралу Лапласа (прил. 3) tкр =1,65 tн > tкр отвергаем

гипотезу Н0 и принимаем гипотезу Н1 о том, что новая технология статистически значима на уровне α = 0,05, так как производитель-

54

ность труда первой группы рабочих больше производительности труда второй группы рабочих.

Если σ2x , σ2y неизвестны, но дано, что σ2x = σ2y = σ2 , то наблюдаемая статистика имеет вид

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

tн =

 

 

 

 

x

y

 

 

 

 

 

 

 

 

,

 

 

n

S 2 + n S

2

 

 

1

 

1

 

 

 

 

 

1

 

x

2

 

 

y

 

 

+

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где n1, n2 – выборки,

 

 

n1 + n2 2 n1

n2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Sx2 , Sy2 – исправленные выборочные дисперсии.

Sx2 =

 

1

 

(xi

 

)2 ,

 

Sy2

=

1

 

 

 

(yi

 

)2

 

 

x

 

 

 

y

n1

1

 

n2 1

имеют распределение Стьюдента с (n1 + n2 2) степенями свободы

(прил. 4).

Пример 2. Убрано 8 участков зерновых культур до дождя (со средней урожайностью и средним квадратическим отклонением соответственно х =16,2 и Sx = 3,2 центнера с гектара). Оставшиеся 9 участков убирали после дождя (со средней урожайностью и средним квадратическим отклонением соответственно y =13,9 и Sy = 2,1).

На уровне значимости α = 0,05 оценить влияние своевременной

уборки.

 

 

 

 

 

Решение:

 

 

 

 

 

Считаем

 

 

 

 

 

tн =

16,2 13,9

 

 

 

=1,62.

8 (3,2)2 +9 (2,1)2

1

+

1

 

8 +9 2

 

8

 

 

9

 

 

Для нулевой гипотезы H0 : x0 = y0 (урожайность одинакова, и время уборки несущественно). Для H1 : x0 > y0 (первая урожайность

больше второй, и время уборки более выгодно до дождя), тогда ϕ(k,tкр)=12 0,05 = 0,9, где k = 8 +9 2 =15. По таблице Стьюдента (прил. 4) tкр =1,75 tн < tкр принимается Н0 о случайности

отклонения и равенстве средних значений, что приводит к выводу о том, что время уборки не влияет на урожайность.

55

Гипотеза о равенстве долей

Под долей значения признака в совокупности понимают отношение количества единиц наблюдения, обладающих данным признаком, к общему числу наблюдаемых единиц.

Обычно обозначают: N – количество объектов во всей (генеральной) совокупности, M – количество объектов в генеральной совокупности, обладающих данным свойством, n – количество наблюдаемых объектов (выборочная совокупность), m – количество объектов, обладающих данным признаком.

Тогда под генеральной долей понимают

р = MN ,

под выборочной долей понимают

W = mm.

Могут быть выдвинуты следующие гипотезы:

1) гипотеза H0 : p1 = p2 (доли признака в двух совокупностях равны, отклонение случайное);

2) гипотеза H1 : p1 p2 (доли признака в двух совокупностях не

равны, отклонение неслучайное).

Обычно число единиц, обладающих данным свойством считается по формуле

m = z1 + z2 +... + zn , (i = 1, 2, 3, ..., n).

Если zi = 0 , то признака нет; если zi =1, то признак есть.

Далее рассчитывается разность долей признака в двух совокуп-

ностях:

 

 

= m1 m2 .

 

W1 W2

Рассчитывается дисперсия:

n1

n2

 

 

σ2

W2

= p1 (1p1)

+ p2 (1p2 ).

W1

 

n1

n2

 

 

 

Считается статистика:

t = W1 W2 .

σW1 W2

Если выполняется гипотеза Н0 и n1 = n2 , то распределение подчиняется закону Лапласа (прил. 3) и по нему считается критическое значение статистики.

56

Довольно часто задача решается иначе. Считается общая доля признака в двух совокупностях

W = m1 + m2 , n1 + n2

тогда статистика считается по формуле

t =

W1 W2

 

 

.

 

1

 

1

W (1

W )

 

+

 

 

 

n2

 

n1

 

 

Пример 3. Две группы студентов экономического факультета решают контрольную работу по статистике. В 1-й группе из 105 задач студенты правильно решили 60 задач, а во 2-й из 140 решено 69 задач.

На уровне значимости α = 0,02 проверить гипотезу об отсутствии существенных различий в освоении материала студентами различных групп.

Решение:

Рассчитаем доли студентов, решивших задачи в каждой группе:

W1 =

60

 

0,571,

W2

=

 

69

 

 

0,493.

 

140

 

105

 

 

 

 

 

 

 

 

 

Выдвигаем гипотезы:

 

 

 

 

 

 

 

 

 

 

1) для H0 : p1 = p2 (доли задач, решенных в каждой группе,

одинаковы);

 

 

 

 

 

 

 

 

 

 

 

 

 

2) для H1 : p1 p2

(доли задач, решенных в каждой группе, раз-

личны).

 

 

 

 

 

 

 

 

 

 

 

 

 

Считаем общую долю:

 

 

 

 

 

 

 

 

 

 

 

W =

60 + 69

 

0,527.

 

 

 

 

 

 

 

 

 

 

 

 

105 +140

 

 

 

 

 

 

 

 

 

 

Считаем статистику:

 

 

 

 

 

 

 

 

 

 

t =

0,571 0,493

 

 

 

 

 

1,24

 

 

1

 

 

 

1

 

0,527(1 0,527)

 

 

 

+

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

105

 

140

 

.

Находим (прил. 4) критическое значение статистики:

ϕ(tкр )=1 −α =1 0,02 = 0,98 ,

tкр = 2,32 t < tкр .

Ответ: Принимается Н0 , разница несущественная, отклонение случайное, т.е. обе группы студентов подготовлены к решению задач одинаково.

57

Теорема Колмогорова – Смирнова: проверка однородности в совокупности (по эмпирическим данным)

ТЕОРЕМА. Если проведены две выборки объемами n1 и n2 , построены эмпирические функции распределения F1(x) и F2 (x), то однородность выборок определяется с помощью статистики

 

 

 

 

 

λ′ =

n1 n2

max

 

F1(x)F2 (x)

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n1 + n2

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Если λ′ < λтабл, то для уровня значимости α Н0 :

 

 

 

F1(x) = F2 (x) (однородность выборки).

 

 

 

 

Если λ′ ≥ λтабл, то для уровня значимости α Н1:

 

 

 

 

 

 

F1(x) F2

(x) (неоднородность выборки).

 

 

 

 

Пример 4.

Рассмотрим теорему по данным двух проверок про-

давцов рынка (табл. 5.2).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 5.2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Ин-

 

Недо-

 

Частота

 

 

в

 

 

накоп

 

накоп

 

 

F

(x)

F (x)

 

F1(x)F2 (x)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

тервал

 

вес, г

 

n1

 

n2

 

 

xi

 

n1

 

n2

 

 

1

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5

 

 

 

 

 

 

 

 

 

 

 

 

1

 

0–10

 

3

 

5

 

10

 

3

 

 

 

 

 

0,027

0,05

0,023

 

 

2

 

10–20

 

10

 

12

 

20

 

13

 

 

17

 

 

0,118

0,17

0,052

 

 

3

 

20–30

 

15

 

8

 

30

 

28

 

 

25

 

 

0,254

0,25

0,004

 

 

4

 

30–40

 

20

 

25

 

40

 

48

 

 

50

 

 

0,436

0,50

0,064

 

 

5

 

40–50

 

12

 

10

 

50

 

60

 

 

60

 

 

0,545

0,60

0,055

 

 

6

 

50–60

 

5

 

8

 

60

 

65

 

 

68

 

 

0,591

0,68

0,089

 

 

7

 

60–70

 

25

 

20

 

70

 

90

 

 

88

 

 

0,818

0,88

0,062

 

 

8

 

70–80

 

15

 

7

 

80

 

105

 

 

95

 

 

0,955

0,95

0,005

 

 

9

 

80–90

 

5

 

5

 

90

 

110

 

 

100

 

 

1,000

1,00

0,000

 

 

Итого

110

100

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

max = 0,089

Выдвигаем гипотезу H0 : F1(x)= F2 (x).

 

 

 

 

 

 

 

 

 

 

Рассчитываем F1(x)=

nнакоп

 

(x)=

nнакоп

 

 

 

 

 

1

 

и F2

 

2

 

.

 

 

 

 

 

n1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n2

 

 

 

 

 

 

 

 

 

Находим λ′ =

 

100 110

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

100 +110 0,089 0,064.

 

 

 

 

 

 

 

 

 

 

По

таблице

Колмогорова

– Смирнова

(прил. 8)

определяем

λтабл =1,36 при уровне значимости α = 0,05.

Итак, λ′ < λтабл0 H0 (распределения одинаковы и недовесы на данном рынке постоянны).

58

 

 

 

 

Гипотезы о проверке числовых значений

 

 

 

 

Выше были рассмотрены гипотезы для произвольных значений

средних, дисперсий случайных величин и долей. На практике интерес-

но бывает знать их конкретные значения (соответственно a0, σ02 , p0).

 

 

Выдвигается одна из нулевых гипотез:

 

 

 

 

 

 

 

1)

H0 : x = a0 ;

 

 

 

 

 

 

 

 

 

 

 

2) H0 : S 2 = σ02 ;

 

 

 

 

 

 

 

 

 

 

 

3)

H0 : p = p0 .

 

 

 

 

 

 

 

 

 

 

 

Данные гипотезы проверяются посхеме, приведенной в табл. 5.3.

 

 

 

 

 

 

 

 

 

 

 

Таблица 5.3

Гипотеза

Предполо-

Статистика

Гипотеза

Критическое зна-

 

 

Н0

 

жение

 

 

Н1

чение статистики

 

 

 

 

 

 

 

 

х = a0

Дисперсия

t =

x a0

x > a0

t12α,n1

неизвестна

 

 

 

 

 

 

S

 

x < a0

t12α,n1

 

 

 

 

 

 

n 1

x a0

t1−α,n1

 

 

 

 

 

(Стьюдент)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Дисперсия

t =

x a0

 

x > a0

t12α

 

 

 

 

известна

 

 

 

 

 

 

 

σ

 

 

x < a0

t12α

 

 

 

 

 

 

n 1

x a0

t1−α

 

 

 

 

 

(нормальное

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

распределение)

 

 

 

 

 

 

S

2

 

2

Среднее

χ2

= nS

2

S

2

2

2

 

 

 

= σ0

значение

 

 

> σ0

χα, n1

 

 

 

 

неизвестно

 

σ02

S 2 < σ02

χ12−α, n1

 

 

 

 

 

 

 

 

S 2 ≠ σ02

χα2

2

, n1

 

 

 

 

 

 

 

 

 

 

 

 

 

p = p0

Достаточно

t =

w p0

w > p0

t12α

p = (w)

большое n

p0q0

w < p0

t12α

 

 

 

 

 

 

 

n

w p0

t1−α

 

 

S2 – выборочная дисперсия, w – доля, q0 =1p0 .

 

 

 

Пример 5. Дебиторская задолженность предприятий региона a0 =120 денежных единиц (средняя задолженность). Проверили 10 предприятий: n = 10, х =135 ден. ед., S = 20 ден. ед.

На уровне значимости α = 0,05 выяснить, можно ли принять прогноз для a0 : х = a0 .

59

Решение:

x a0

 

 

Статистикарассчитываетсяпоформуле t =

 

, онаподчиняет-

S

 

 

 

n 1

 

сяраспределениюСтьюдента tα с(n – 1) степенямисвободы(прил. 4.6).

Альтернативные гипотезы имеют вид: H1 : x a0 , H1 : x > a0 . Статистика для наших данных t = 20135 120 2,25.

10 1

По прил. 4.6 находим t2α, n1 = t0,9; 9 =1,83.

Таккак2,25 > 1,83, то Н0 опровергаетсяипринимается H1 : x > a0 .

Выравнивание вариационных рядов

Под выравниванием вариационных рядов понимается замена

эмпирического распределения близким к нему по характеру теоретическим (вероятностным) распределением, имеющим определенное аналитическое выражение (параметры последнего определяются по данным эмпирического распределения).

Из многих форм кривых распределения, по которым может выравниваться вариационный ряд, рассмотрим нормальное распределение, график которого имеет форму колоколообразной кривой, симметричной относительно x , концы которой асимптотически приближаются к оси абсцисс. Кривая имеет точки перегиба, абсциссы которых находятся на расстоянии σ от центра симметрии ивыражается уравнением

у =

1

e

t 2

2 ,

 

2π

 

 

где y – ордината кривой нормального распределения.

ТЕОРЕМА. При выравнивании вариационного ряда по кривой нормального распределения теоретические частоты ряда определяются по формуле

f ′ =

Nh

1

t 2

 

 

 

σ

2π e

 

2 ,

где N = f – сумма всех частот вариационного ряда;

h – величина интервала в группах (классах); σ – среднее квадратическое отклонение;

t =

x x

– нормированное отклонение вариантов от средней

σ

 

 

арифметической.

60

 

1

e

t2

 

Величина

2

табулирована, ее легко определить по таб-

 

2π

 

 

 

лице (прил. 1) как функцию t , т.е. y = ϕ(t) .

Как видно из формулы, основными параметрами кривой нормального распределения являются x и σ. По этим характеристикам ее и можно построить.

Распределение Пуассона. В целом ряде случаев, если вариационный ряд представляет собой распределение по дискретному признаку (где по мере увеличения значений признака x частоты резко уменьшаются, и средняя арифметическая ряда равна или близка по

значению к дисперсии, т.е. x = σ2 ), то такой ряд можно выровнять по кривой Пуассона, аналитическое выражение которой

Px = axea , x!

где Px – вероятность появления отдельных значений x; a = x – средняя арифметическая вариационного ряда.

Теоретические частоты при выравнивании эмпирических данных для распределения Пуассона определяются по формуле

f ′ = NPx ,

где f – теоретические частоты; N – общее число единиц ряда.

Критерии согласия

После выравнивания ряда, т.е. нахождения теоретических частот, возникает необходимость проверить, случайны или существенны расхождения между эмпирическими и теоретическими частотами, и тем самым выявить правильность выдвинутой при выравнивании ряда гипотезы о наличии того или иного характера распределения в эмпирическом ряду.

Для оценки близости эмпирических ( f ) и теоретических ( f ) частот можно применить один из критериев согласия: критерий Пирсона (χ2 – «хи-квадрат»), критерий Романовского, критерий Колмогорова (λ – «лямбда»).

Критерий Пирсона (χ2 ) представляет собой сумму отношений квадратов расхождений между f и f к теоретическим частотам:

61

χ2

2

= ( f f ) .

 

f

Фактическое значение

χ2 сравнивают с критическим, опреде-

ляемым по специальным таблицам в зависимости от принимаемого уровня значимости и числа степеней свободы.

Уровень значимости (α) – вероятность допуска ошибки в утверждении гипотетического закона (характера) распределения – обычно принимается равным 5 или 1 % (α = 0,05 или α = 0,01).

Число степеней свободы ( k ) рассчитывается как число групп ( m) в ряду распределения минус единица и минус число параметров эмпирического распределения, использованных для нахождения теоретических частот. Так, при выравнивании по кривой нормального распределения число степеней свободы k = m 12, поскольку при расчете теоретических частот используется два параметра эмпирического распределения ( x и σ), т.е. k = m 3.

Если фактическое χ2 оказывается меньше табличного (критиче-

ского), то расхождения между эмпирическими и теоретическими частотами можно считать случайными.

При отсутствии таблиц для оценки случайности расхождений теоретических и эмпирических частот можно воспользоваться кри-

 

χ2 k

терием Романовского

2k . Если это отношение меньше 3, то рас-

хождения считают случайными, если больше 3, то они существенны. Критерий Колмогорова (λ) основан на определении максимального расхождения между накопленными частотами эмпириче-

ского и теоретического распределений.

Если пользоваться накопленными частотами (абсолютными показателями), то формула примет вид

λ = DN ,

где D – максимальная разность между накопленными частотами; N – сумма всех частот.

Вопросы и задания

1.В чем суть выравнивания вариационных рядов (по кривой нормального распределения и кривой Пуассона)?

2.Какие критерии согласия вам известны? Что они характери-

зуют?

62