Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
5163.pdf
Скачиваний:
5
Добавлен:
13.11.2022
Размер:
1.04 Mб
Скачать

39

Таблица 1.6.1 − Формулы для нахождения необходимой численность выборки при разных способах отбора

Виды выборочного

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Способ отбора

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

наблюдения

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Повторный

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

бесповторный

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

для средней

 

для доли

 

для средней

 

 

для доли

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1. Собственно-

 

 

t

 

 

 

 

 

 

 

 

t

 

 

 

 

 

t ~ N

 

 

 

 

 

 

 

t

 

N

 

 

 

 

 

 

2

 

2

 

 

 

2

 

 

2

 

 

 

2

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

2

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

n

 

 

 

 

w

 

 

n

 

 

 

 

х

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

2

 

 

 

2

 

 

 

 

 

2 2

 

 

 

2

 

 

 

 

 

 

2 2

 

 

случайная выборка

 

 

 

~

 

 

 

 

w

 

 

~ N

t ~

 

 

 

 

 

w

N t

w

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2. Механическая

 

-

 

 

 

 

 

 

 

 

-

 

 

 

 

 

 

 

t ~ N

 

 

 

 

 

 

 

t

 

N

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

х

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

2 2

 

 

 

 

 

 

 

N

 

 

2 2

 

 

выборка

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

~ N

t ~

 

 

 

 

w

t

w

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3. Типическая

 

 

t

~

 

 

 

 

t

 

 

 

 

 

t

 

 

 

N

 

 

 

 

 

 

 

t

 

N

 

 

 

 

 

n

2

 

 

 

2

 

 

n

2

 

 

2

 

 

n

2

 

 

 

2

 

 

 

 

 

 

n

 

 

 

 

 

 

2

 

 

2

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

w

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

2

 

 

 

2

 

 

 

 

 

2

 

2

 

 

 

2

 

N

 

 

2

 

2

 

выборка

 

 

 

~

 

 

 

 

w

 

 

~ N

t ~

 

 

 

 

 

w

t

w

 

 

 

 

x

 

 

 

 

 

 

 

 

x

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4. Серийная выборка

 

 

 

t

~

 

 

 

 

 

t

 

 

 

 

 

t ~ R

 

 

 

 

 

 

 

 

t

 

R

 

 

 

 

 

 

2

 

2

 

 

 

2

 

 

2

 

 

 

2

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

2

 

 

 

 

 

 

 

r

 

 

 

 

x

 

 

r

 

 

 

 

w

 

 

n

 

 

 

 

x

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

w

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

2

 

 

 

2

 

 

 

 

 

2 2

 

 

 

 

2

 

 

 

 

 

2 2

 

 

 

 

 

 

~

 

 

 

 

w

 

 

 

~ R t ~

 

 

 

 

 

w

R t

w

 

 

 

 

 

x

 

 

 

 

 

 

 

 

x

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Примечание. При серийном отборе на основе приведённых формул определяется число серий (r), которое необходимо обследовать, так как они являются единицей наблюдения при данном способе отбора. R – число серий в генеральной совокупности.

40

6.8.Для определения средней продолжительности телефонного разговора и доли разговоров, продолжительность которых превышает 5 мин, предполагается провести выборочное наблюдение методом случайной выборки. По данным аналогичных обследований, среднее квадратическое отклонение продолжительности разговора составило 3,5 мин, а доля телефонных разговоров, продолжительность которых превышает 5 мин, составила 0,4. Сколько телефонных разговоров необходимо обследовать для того, чтобы с вероятностью 0,954 (0,997) найти среднюю продолжительность телефонного разговора, с ошибкой, не превышающей 30 с, а также долю телефонных разговоров, продолжительность которых превышает 5 мин, с ошибкой, не превышающей 5%?

6.9.При обследовании жилищ в городе был произведён механический отбор по списку всех домов с долей отбора, равной 1/50. Из общего числа домов в выборке, равного 8 491, нуждались в ремонте? Ответ дайте с вероятностью 0,997.

6.10.Для установления среднего возраста 50 тыс. читателей библиотеки необходимо провести выборку из читательских карточек методом механического отбора. Предварительно установлено, что среднее квадратическое отклонение возраста читателей равно 10 годам. Определите необходимую численность выборки при условии, что с вероятностью 0,954 ошибка выборки будет не более двух лет.

6.11.Для определения среднего возраста 1 200 студентов факультета необходимо провести выборочное обследование методом случайного бесповторного отбора. Предварительно установлено, что среднее квадратическое отклонение возраста студентов равно 10 годам. Сколько студентов нужно обследовать, чтобы с вероятностью 0,954 средняя ошибка выборки не превышала 3 года?

41

6.12.На предприятии с числом установленных металлорежущих станков 120 единиц необходимо на основе выборочного обследования определить долю станков возрастом свыше 10 лет. Никаких предварительных данных об удельном весе этого оборудования в общей численности установленного оборудования нет.

Определить, каков должен быть объём выборки с механическим отбором, чтобы при вероятности 0,954 предельная ошибка выборки не превышала 5%.

6.13.Какова должна быть численность механической выборки для определения доли служащих, прошедших повышение квалификации по использованию вычислительной техники, чтобы с вероятностью 0,954 ошибка репрезентативности не превышала 10%? Общая численность служащих предприятия составляет 324 человека.

6.14.Для изучения успеваемости студентов экономического вуза по предмету статистика планируется провести обследование. Сколько студентов необходимо обследовать, если по данным предыдущих обследований известно, что коэффициент вариации успеваемости составляет 20%, средний балл – 3,9, а предельная ошибка с вероятностью 0,954 не должна превысить 0,3 балла.

6.15.В городе зарегистрировано 30 тыс. безработных. Для определения средней продолжительности безработицы организуется выборочное обследование. По данным прошлых лет известно, что коэффициент вариации продолжительности безработицы составляет 40%. Какое число безработных необходимо охватить выборочным наблюдением, чтобы с вероятностью 0,997 утверждать, что полученная ошибка выборки не превышает 5% средней продолжительности безработицы.

6.16.На предприятии в порядке случайной бесповторной выборки было опрошено 100 рабочих из 1 000 и получены следующие данные об их доходе за октябрь:

42

Месячный доход

25 000 − 29 000

29 000 − 33 000

33 000 −37 000

41 000 − 45 000

Число рабочих

12

60

20

8

Определите: 1) среднемесячный размер дохода из работников данного предприятия, гарантируя результат с вероятностью 0,997; 2) долю рабочих предприятия, имеющих месячный доход 33 000 руб. и выше, гарантируя результат с вероятностью 0,954; 3) необходимую численность выборки при определении среднего месячного дохода работников предприятия, чтобы с вероятностью 0,954 предельная ошибка выборки не превышала 50 руб.; 4) необходимую численность выборки при определении доли рабочих с размером месячного дохода 33 000 руб. и выше, чтобы с вероятностью 0,954 предельная ошибка не превышала 4%.

6.17. Произведён 10%-й пропорциональный типический отбор рабочих со сдельной и повременной системами оплаты труда для изучения показателей выполнения сменного задания. Отбор единиц в каждой группе бесповторный. Выборка дала следующее распределение численности рабочих по проценту выполнения норм выработки:

Группа рабочих по

Группа рабочих по проценту выполнения

Итого

 

сменного задания, %

 

оплате труда

 

 

рабочих

до 100

100 − 120

120 − 140

 

140 и выше

 

 

 

Рабочие сдельщики

20

150

80

 

30

280

Рабочие повременщики

40

100

60

 

20

220

Итого

60

250

140

 

50

500

Определите: 1) доверительные интервалы, в которых с вероятностью 0,954 заключён средний процент выполнения сменного задания для всех рабочих предприятия; 2) возможные пределы доли рабочих, выполняющих сменное задание не менее чем 120% (с вероятностью 0,954); 3) необходимую численность выборки при определении доли рабочих, выполняющих сменное задание не менее чем на 120%, чтобы с вероятностью 0,954 предельная ошибка выборки не превышала 3%.

6.18. 300 работников аппаратного цеха предприятия разделены на 15 бригад по 20 человек в каждой. При определении среднего стажа работы произведена 20%-я бесповторная серийная выборка. В выборку попали 3 бригады, в которых средний стаж работы составил: в первой – 8 лет, во второй – 12, в третьей – 10. Определите межсерийную дисперсию и объём

43

выборки, при котором с вероятностью 0,997 средний стаж работы в отобранных сериях не будет отклоняться от среднего стажа всех работников более чем на 5 %.

6.19. Организована двухфазная механическая выборка. Из генеральной совокупности в 10 000 единиц на первой фазе отобрано 1 000 единиц. Установлено, что дисперсия исследованного на первой фазе признака равна 500. Определите: а) абсолютную ошибку на первой фазе выборки, гарантируя результат с вероятностью 0,997; б) сколько единиц нужно отобрать на второй фазе выборки, чтобы относительная ошибка не превышала 10%, гарантируя результат с вероятностью 0,954. Известно, что коэффициент вариации признака, исследуемого на второй фазе выборки равен 0,5.

1.7. Распространение результатов выборочного наблюдения на генеральную совокупность

На заключительном этапе выборочного обследования решается вопрос о возможности распространения полученных результатов на генеральную совокупность. При этом учитываются два основных обстоятельства:

1. Насколько адекватно представлена генеральная совокупность в выборке, то есть соблюдены ли основные пропорции между типическими группами в выборочной и генеральной совокупности.

Для восстановления исходных пропорций генеральной совокупности проводится корректировка выборки либо путём отсечения части единиц, доля которых в выборке непропорционально велика по сравнению с долей в генеральной совокупности (метод «отсечения»), либо путём многократного использования результатов наблюдения за единицами тех групп, которые недостаточно широко представлены в выборке (метод «взвешивания»).

Метод «отсечения» поясним на следующим условном примере.

С целью изучения общественного мнения из генеральной совокупности численностью 1 000 человек было отобрано в порядке типической пропорциональной выборки 100 человек, принадлежащих к различным соци-

44

альным группам: рабочие, служащие, студенты. При этом в генеральной совокупности было 50% рабочих, 35% служащих и 15% студентов, т.е. пропорция по группам населения составила примерно 3,3:2,3:1. Следовательно, для обеспечения представительности выборки по признаку социального положения требовалось получить данные о 50 рабочих, 35 служащих и 15 студентах. Однако по тем или иным причинам часть анкет не была получена, а другая часть была забракована. В результате пригодными для дальнейшей обработки оказались 40 анкет, заполненных рабочими, 30 − служащими и 10 − студентами. Таким образом, пропорции по различным группам в массиве для обработки составили 4:3:1, что свидетельствует о нарушении структуры совокупности.

Для проведения корректировки необходимо определить, анкеты какой социальной группы респондентов должны быть сохранены в процессе обработки полностью. Это можно вычислить для каждой социальной категории как отношение числа пригодных для обработки анкет к общему количеству анкет по данной группе. Расчёты показывают, что наименьшая относительная величина получается по студентам (приблизительно 66,7%=10:15 · 100). Следовательно, формуляры, относящиеся к данной группе населения, необходимо сохранить полностью. Чтобы восстановить реальные пропорции генеральной совокупности, нужно вновь обратиться к её структуре, выраженной соотношением 3,3:2,3:1.

Вычисления показывают, что для сохранения представительности выборки в массиве анкет для дальнейшей обработки должны быть 33 анкеты, заполненные рабочими, 23 – служащими и 10 – студентами. Таким образом, из дальнейшей обработки следует «отсечь» по 7 анкет, относящихся к рабочим и служащим. После «отсечения» следует проверить, как исключение некоторого числа формуляров повлияло на обобщающие показатели фактической выборки.

Корректировка способом «отсечения» имеет существенные недостатки. Во-первых, «отсечение» приводит к ещё большому уменьшению объёма выборки. Во-вторых, из обработки и анализа исключается вполне пригодные для исследования формуляры.

45

В таких случаях более целесообразно пользоваться другим способом корректировки – с помощью «взвешивания».

Способ корректировки «взвешивание» даёт возможность сохранить в обрабатываемом массиве все или почти все полученные формуляры. Достигается это путём многократного пользования при обработке части формуляров. При этом несколько раз используются, как правило, те формуляры, число которых настолько мало, что вызывает необходимость исключения из дальнейшей обработки большого числа для исследования формуляров, относящихся к другим группам. Многократное применение формуляров проводится на основе специально рассчитанных для этой цели «весов».

2. Какова степень соответствия фактически полученной относительной ошибки выборки запланированному её уровню. Фактическое значение относительной ошибки определяется путём сопоставления абсолютной

величины предельной ошибки выборки,

полученной в

результате

обследования, со средним уровнем признака, рассчитанным

на основе

~

 

 

w

 

 

выборки, то есть отн ~х 100 или для доли отн

 

100.

 

 

 

 

х

 

w

 

Общее значение изучаемого показателя для совокупности в целом определяется двумя способами методом прямого счёта и методом коэффициентов.

Сущность способа прямого счёта заключается в умножении среднего значения признака, найденного в результате выборочного наблюдения, на объём генеральной совокупности.

Например, на основании выборочного обследования 1 000 молодых семей требуется оценить потребность в местах в детских садах. Известно, что детсад могут посещать дети с двухлетнего возраста. По материалам выборочного обследования следует вычислить среднее число детей в возрасте от 2 до 7 лет. Предположим, что оно составляет 1,5 человек, умножив это число на численность генеральной совокупности, получим, что в детских садах потребуется выделить 1 500 мест.

Предположим, в нашем примере некоторое число семей по тем или иным причинам не было обследовано. Это привело к снижению объёма

46

фактической выборки по сравнению с запланированной. Среднее число детей, вычисленное по этой «неполной» выборке, составило не 1,5, а 1,4. Тогда прямой счёт выборочной характеристики на объём генеральной совокупности даст результат 1 400 мест. Абсолютное отклонение от необходимого количества мест при условии охвата обследованием всей выборочной совокупности составит 100 мест, а относительно приблизительно 6,7% (100:1500).

Данный пример показывает: недоучёт обстоятельств, при которых на практике объёмы фактической и запланированной выборки часто не совпадают, приведёт к серьёзным ошибкам при использовании расспространённых на генеральную совокупность результатов таких исследований. Но могла возникнуть и обратная ситуация, когда вычисленное по «неполной» выборочной совокупности среднее число детей оказалось бы больше «истинного». В этом случае появились бы «лишние» места.

Наряду со способом прямого счёта при распространении данных выборочного наблюдения на генеральную совокупность применяется способ коэффициентов. Этот метод используется для данных сплошного наблюдения с помощью дополнительно проведённого выборочного обследования.

При этом следует использовать следующую формулу: N1 N0 n1 ,

n0

где N1 − численность совокупности с поправкой на недоучёт; N 0 − численность совокупности без этой поправки;

n0 − численность совокупности в контрольных точках по первоначальным данным;

n1 − численность совокупности в тех же точках по данным контрольных мероприятий.

Например. По данным переписи предприятий розничной торговли города установлено, что их общее число N 0 составило 350 единиц. Дополнительно проведённое выборочное обследование показало, что из 54 торговых предприятий (n1 ) бланк сплошного обследования заполнен по 50

47

единицам (n 0 ). В таком случае скорректированное общее число объектов

генеральной совокупности N1 N0 n1 350 54 378.

n0 50

Задачи

7.1.В результате выборочной стрижки 100 овец из стада в 1 000 овец установлено с вероятностью 0,954, что средний настриг шерсти с 1 овцы составил 4,2 кг, а пределы возможных отклонений 0,9 кг. В каких пределах будет находиться общий настриг шерсти 1 000 овец.

7.2.Для определения качества продукции проверено 500 изделий из 10 000. В результате проверки установлено с вероятностью 0,997, что средний процент изделий I сорта всей партии составил 10%, а предел

возможных отклонений 1,2%. Определите количество изделий I сорта в генеральной совокупности.

7.3. По данным сплошного учёта в 20 населённых пунктах имеется 4 200 коров. В результате контрольных обходов в порядке серийной выборки в четырёх населённых пунктах оказалось 804 коровы против 800, зарегистрированных по данным учёта. Определите поголовье скота в районе с учётом данных контрольного обхода.

7.4. В результате сплошного учёта скота в хозяйствах фермеров, рабочих и служащих по району и результатов 10%-го контрольного обхода в этом районе получены следующие данные.

 

Общая

численность

Численность скота в хозяйствах,

 

охваченных контрольным обходом

Вид скота

скота в районе по дан-

по данным сплош-

по данным контроль-

 

ным сплошного учёта

 

ного учёта

ного обхода

 

 

 

Крупный

 

 

 

 

рогатый скот

8 000

 

900

909

Овцы

12 000

 

1 200

1 219

Свиньи

26 000

 

2 800

2 814

Скорректируйте данные сплошного наблюдения по результатам контрольного обхода и установите поголовье скота по видам.

7.5. Имеются данные о количестве скота, находящегося в личном пользовании согласно переписи, а также согласно контрольному обходу:

48

Группа скота

 

 

Учтено во

Учтено в

хозяйствах,

За время, прошедшее от

 

 

переписи

до

контрольного

 

 

 

всех

подвергнутых

 

 

 

обхода

в

хозяйствах,

 

 

 

хозяйствах

контрольному обходу

 

 

 

подвергнутых

 

 

 

 

 

 

 

 

 

 

 

 

 

 

контрольному обходу

 

 

 

 

по

при

прибыло

 

убыло

 

 

 

 

переписи

контрольном

 

 

 

 

 

 

 

 

обходе

 

 

 

Коровы

 

 

9 200

850

863

6

 

2

Нетели и телки,

 

 

 

 

 

 

 

рождённые

в

 

 

 

 

 

 

 

прошлом году и

 

 

 

 

 

 

 

старше

 

 

1 200

140

144

4

 

1

Телки, рождён-

 

 

 

 

 

 

 

ные в этом году

 

800

80

82

2

 

-

Итого

 

 

10 200

1 070

1 094

12

 

3

Определите:

1) процент недоучёта и коэффициент

недоучёта по

группам скота; 2) фактическое поголовье скота при помощи поправочных коэффициентов.

Контрольные вопросы и задания к главе 1

1.В чём преимущества выборочного метода в сравнении с другими видами статистических наблюдений?

2.Назовите общие и специфические этапы выборочного наблюдения.

3.Охарактеризуйте сферы применения и особенности различных способов формирования выборочной совокупности.

4.Что означает ошибка репрезентативности, какие факторы определяют её величину?

5.Чем отличается распределение ошибок простой случайной выборки при проведении больших и малых выборок?

6.От чего зависит точность оценки параметров генеральной совокупности (генеральной средней и генеральной доли)?

7.Чем отличается величина средней квадратической ошибки простой случайной выборки при повторном и бесповторном отборе? Какие из этих ошибок больше?

8.Для решения каких вопросов организации выборочного наблюдения

иоценки его результатов может использоваться формула средней квадратической ошибки выборки?

49

9.Как определяется предельная ошибка при проведении большой и малой выборок?

10.В чём состоят преимущества серийной выборки перед простой случайной выборкой?

11.Какие способы размещения общего объёма подлежащих обследованию единиц могут быть использованы при организации типической выборки?

12.Какие факторы влияют на определение объёма выборки при различных способах отбора?

13.Как определяется выборочная дисперсия: а) для средней и доли; б) для качественных альтернативных признаков?

14.Что такое корректировка материалов выборочного наблюдения?

2.Проверка статистических гипотез. Дисперсионный анализ

2.1. Понятие статистической гипотезы

Под статистической гипотезой понимают всякое высказывание о генеральной совокупности (случайной величине), проверяемое по выборке (результатам наблюдения).

Проверка статистической гипотезы заключается в том, чтобы оценить, можно ли считать случайным расхождение между выдвинутой гипотезой и результатом выборочного наблюдения.

Проверяемая гипотеза называется основной и обозначается через Н0. Суть проверки – убедиться в отсутствии систематической ошибки между исследуемым параметром генеральной совокупности и заданным значением, то есть проверяется гипотеза о нулевом расхождении между ними, поэтому гипотезы называют нулевой: H 0 : x x0 . Гипотеза,

альтернативная основной, обозначается через H1 , т.е. H 0 : x x0 . Выдвигаемые гипотезы могут быть простыми и сложными. Простая

гипотеза однозначно характеризует оцениваемый параметр генеральной совокупности. Сложная гипотеза определяет область возможных значений исследуемого параметра.

Поскольку при проверке гипотезы используются данные выборочного наблюдения, вывод о её допустимости носит вероятностный характер, т.е.

50

не исключена возможность ошибки. При этом может иметь место ошибка двух родов:

- отвергают гипотезу H 0 или иначе принимают альтернативную гипотезу H1 ,тогда как на самом деле гипотеза H 0 верна. Это ошибка первого рода;

- принимают гипотезу H 0 , тогда как на самом деле высказывание H 0

неверно, то есть верной является гипотеза H1 . Это ошибка второго рода. Уровень значимости – это вероятность ошибки первого рода, то есть

PH0 (H1 ) ,

где PH0 (H1 ) , − вероятность того, что будет принята гипотеза H1 , если на самом деле в генеральной совокупности верна гипотеза H 0 . Вероятность задается заранее, разумеется, малым числом, поскольку это вероятность ошибочного заключения, при этом используют стандартные значения:

0,05; 0,01; 0,005; 0,001.

Например, 0,05 означает следующее: если гипотезу H 0 проверять по каждой из 100 выборок одинакового объёма, то в среднем в 5 случаях из 100 мы совершаем ошибку первого рода.

Вероятность ошибки второго рода обозначают , т.е. PH1 (H0 ) ,

где PH1 (H0 ) – вероятность того, что будет принята гипотеза H 0 , если на самом деле верна гипотеза H1 (таблица 2.1.1).

Таблица 2.1.1 − Ошибка при проверки статистических гипотез

Решение, принимаемое о

Фактически

гипотезе H 0

по выборке

гипотеза H 0 верна

гипотеза H 0 неверна, т.е.

 

 

 

верна гипотеза H1

Гипотеза

отвергается,

Ошибка первого рода, её

Правильное решение, его

т.е. принимается гипо-

вероятность PH0 (H1 )

вероятность PH0 (H0 ) 1

теза H1

 

 

 

Гипотеза H 0 прини-

Правильное решение, его

Ошибка второго рода. Её

мается

 

вероятность PH1 (H1 ) 1

вероятность PH1 (H0 )

Для того чтобы сделать вывод о соответствии результатов выборочного наблюдения выдвинутой гипотезе, необходимо принять определённый критерий, в соответствии с которым устанавливается, при

51

каких результатах выборочного обследования основная гипотеза не может быть отклонена, а при каких от неё необходимо отказаться.

В зависимости от вида проверяемых гипотез (о среднем значении, законе распределения, взаимосвязи признаков и т.д.) выбираются разные критерии (t – статистика Стьюдента; 2 – критерий Пирсона; F − критерий Фишера и др.).

2.2. Проверка гипотез о распределениях

Одна из важнейших задач анализа вариационных рядов заключается в выявлении закономерности распределения и определении её характера. Для обоснования определённого типа теоретической кривой распределение выдвигается какая-нибудь научная гипотеза.

Графическое изображение ряда в виде изменения частот в вариационном ряду, функционально связанных с изменением значений признака, называется теоретической кривой распределения. Получение кривой распределения из эмпирических данных (полигон, гистограмма) возможно лишь для описания идеального случая. При этом теоретическое распределение играет роль некоторой идеализированной модели эмпирического распределения, а сам анализ вариационных рядов сводится к сопоставлению эмпирического и теоретического распределений и определению степени различия между ними.

В статистике широко используются различные виды теоретических распределений: нормальное распределение, биномиальное распределение, распределение Пуассона и др. Каждое из теоретических распределений имеет специфику и свою область применения. Однако чаще всего в качестве теоретического распределения используется нормальное

 

 

 

 

 

 

( х

 

) 2

 

 

 

 

 

 

 

х

 

распределение, которое выражается формулой f (x) 2 e

2 2

,

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где f (x) – ордината кривой нормального распределения (вероятность),и е − математические постоянные ( 3,1415; e 2,7182)

x− варианты вариационного ряда (значение признака);

х− среднее значение признака;

− среднее квадратическое отклонение.

52

 

 

 

 

х

 

 

 

Выразив стандартизованное отклонение

х

 

через t , получим

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

t 2

 

 

 

f (t)

 

 

 

e

2 .

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

Гипотеза о распределениях заключается в том, что выдвигается предположение о том, что распределение в генеральной совокупности подчиняется какому-то определённому закону. Проверка гипотезы состоит в том, чтобы на основе сравнения эмпирических частот (частостей) с теоретическими сделать вывод о соответствии фактического распределения гипотетическому распределению.

Для проверки гипотезы о соответствии эмпирического распределения закону нормального распределения необходимо по фактическим данным вычислить теоретические частоты кривой нормального распределения ( fТ )

 

 

 

i n

 

 

1

 

e

t 2

 

i n

 

 

по формуле f

 

 

 

 

 

2

 

f

(t ),

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где n – объём выборки;

i − величина интервала вариационного ряда.

Значение ординат

кривой

 

 

нормального распределения f(t ) можно

 

 

 

1

 

 

 

t 2

 

получить по таблице

f (t)

 

 

e

2 (Приложение А).

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

Например. По материалам обследования качества нити получено 220 проб нити по крепости (таблица 2.2.1).

Таблица 2.2.1 − Распределение проб нити по крепости

Крепость нити, г

120 −

130 −

140 −

150 −

160 −

170

180

190 −

Итого

(х)

130

140

150

160

170

−180

−190

200

 

 

 

 

 

 

 

 

 

 

 

Число проб, ( f )

9

13

27

59

56

31

17

8

220

 

 

 

 

 

 

 

 

 

 

Можно ли с 5%-м уровнем значимости считать, что это распределение подчиняется нормальному.

Испытаем нулевую гипотезу, состоящую в том, что распределение подчиняется нормальному закону (H 0 ) . Вычисляем теоретические частоты, соответствующие нормальному распределению (таблица. 2.2.2).

53

Проверяемая гипотеза формулируется как H0 : fф fт , альтернативная

H0 : fф fт .

1. Рассчитаем среднюю арифметическую взвешенную:

 

 

 

xf

 

35 310

160,5 г .

 

х

f

 

 

 

220

 

2. Определим дисперсию и среднеквадратическое отклонение:

 

(х

 

) f

 

 

 

 

 

 

 

 

 

 

х

 

55 445

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

2

 

252,02;.

x

 

 

252,02 15,88 г

 

 

 

х

f

220

 

 

x

 

 

 

 

 

 

 

 

 

 

 

3. Находим стандартизованное отклонение (таблица 2.2.2, гр.7)

 

x

 

 

 

35,5

 

25,5

 

15,5

 

t

x

 

 

2,24;

1,61;

0,98 и т.д.

x

 

15,88

15,88

15,88

 

 

 

 

 

 

4. На основе найденного стандартизованного отклонения определяем значение ординат кривой нормального распределения f (t) , которые определяют по таблицам значения функции (таблица 2.2.2, гр.8):

 

 

1

 

 

 

t 2

 

f (t)

 

 

e

2 , (Приложение А).

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

5. По фактическим данным вычисляем теоретические частоты нормального распределения fT (таблица 2.2.2, гр.9):

f

 

 

i n

f

 

 

10 220

 

0,0 325 5;

 

10 220

0,1 092 15;

 

x

(t )

 

 

 

 

 

 

15,88

 

 

15,88

 

 

 

 

 

 

 

 

 

10 220 0,2 468 3,4 и т.д. 15,88

Объективная характеристика соответствия эмпирических частот с теоретическими может быть получена на основе проверки нулевой гипотезы о характере распределения с помощью критерия согласия К. Пирсона, В.И. Романовского, А.Н. Колмогорова и Б.С. Ястремского.

Критерий согласия Пирсона (χ2-хи квадрат) вычисляется по формуле

2 ( fi fi )

2

 

,

s

 

 

 

i 1

fi

 

 

где S – число категорий ряда распределения, i − номер категории;

f − частота фактического распределения;

f − частота теоретического распределения.

df (S 1) P S (P 1) .
f1 , f 2 ,..., f S

54

2 равно нулю, если все фактические частоты равны соответствующим теоретическим частотам. Кроме того, величина 2 зависит от числа групп, на которые разбита совокупность. Чем больше групп выделяют в совокупности, тем больше слагаемых входят в величину 2 , а значит, тем больше отклонений эмпирических частот от теоретических.

Имеются специальные таблицы критических значений 2 при 5% и 1% уровнях значимости (Приложение Б). Табличные значения 2 зависят от числа степеней свободы ( df – degrees of freedom) и уровня значимости ( ). Понятие числа степеней свободы означает следующее: если фактический ряд распределения имеет ( ) категорий, то фактические частоты

s

должны быть связаны таким соотношением: fi n .

1

Таким образом, если параметры теоретического распределения известны, то свободно варьировать могут только S 1 частот, а последняя частота может быть определена с помощью вышеуказанного соотношения. Вместе с тем если P параметров теоретического распределения неизвестны при нахождении теоретических частот, то они определяются на основе данных эмпирического распределения. Это накладывает на эмпирические частоты ещё P связей, в результате чего теряется ещё P степеней свободы. Следовательно, число степеней свободы становится равным

Порядок применения критерия согласия 2 сводится к следующему:

 

 

s

 

2

 

 

 

( fi fi )

 

1. Вычисляется хи-квадрат фактическое ( 2

расч.): расч2

 

.

 

 

 

i 1

fi

 

 

2.Определяем число степеней свободы: df S (P 1)

3.Выбираем уровень значимости (α=0,05; α=0,01).

4.По таблицам значений 2 Пирсона (Приложение Б) находят

табличное значение хи-квадрата ( 2табл.) при заданном уровне значимости ( ) и данном числе степеней свободы (df ) .

55

Таблица 2.2.2 − Расчётные данные

Середина

Число проб,

xf

x x

(x x)2

(x x)2 f

 

x

 

 

 

f (t)

 

 

i n

 

t

x

f

f (t)

интервала, х

f

 

 

 

 

x

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

2

3

4

5

6

 

7

 

 

8

 

9

 

 

 

 

 

 

 

 

 

 

 

 

 

 

125

9

1 125

-35,5

1 260,25

11 342,25

-2,24

 

 

 

0,0325

 

5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

135

13

1 755

-25,5

650,25

8 453,25

-1,61

 

 

 

0,1092

 

15

 

 

 

 

 

 

 

 

 

 

 

 

 

 

145

27

3 915

-15,5

240,25

6 486,75

-0,98

 

 

 

0,2468

 

34

 

 

 

 

 

 

 

 

 

 

 

 

 

 

155

59

9 145

-5,5

30,25

1 784,75

-0,35

 

 

 

0,3752

 

52

 

 

 

 

 

 

 

 

 

 

 

 

 

 

165

56

9 240

4,5

20,25

1 134,00

0,28

 

 

 

0,3836

 

53

 

 

 

 

 

 

 

 

 

 

 

 

 

 

175

31

5 425

14,5

210,25

6 517,75

0,91

 

 

 

0,2637

 

37

 

 

 

 

 

 

 

 

 

 

 

 

 

 

185

17

3 145

24,5

600,25

10 204,25

1,54

 

 

 

0,1219

 

17

 

 

 

 

 

 

 

 

 

 

 

 

 

 

195

8

1 560

34,5

1 190,25

9 522,00

2,17

 

 

 

0,0379

 

5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Итого

220

35 310

-

-

55 445,00

 

-

 

 

 

-

 

218

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

56

5. Сравниваем 2расч. с 2табл. При полном совпадении теоретического и эмпирического распределений 2 0 . Если 2расч.> 2табл., то гипотезу о несущественности (случайности) расхождений отклоняем. В случае, если2расч. 2табл., заключаем, что эмпирический ряд хорошо согласуется с гипотезой о предполагаемом распределении и что расхождение между теоретическими и эмпирическими частотами случайно.

Отметим, что практическое использование критерия согласия Пирсона

2 связано с рядом ограничений, важнейшие из них:

1.Объём выборки (n) должен быть не менее 50 единиц.

2.Эмпирические и теоретические частоты всех интервалов должны насчитывать не менее 5 единиц. Если это условие не выполняется, то малонакопленные интервалы объединяются с соседними.

3.В совокупностях малого объёма 2 должен определяться по

частотам, а не по частостям.

4. Число интервалов (категорий) ряда распределения должно быть большим, так как оценка χ2 зависит от числа степеней свободы. При малом числе степеней свободы оценки получаются недостаточно надежными.

Например, проверим согласованность эмпирических и теоретических частот с помощью критерия 2 на основе предыдущего примера (таблица 2.2.2). Расчёт χ2расч. представлен в таблице 2.2.3.

Таблица 2.2.3 − Расчётные данные

Частоты

 

 

fф fT

( fф fT )2

 

( f f )2

 

эмпирические, f ф

теоретические,

f T

 

 

 

 

f

 

 

 

 

 

 

 

 

1

2

 

3

4

 

5

 

9

5

 

4

16

 

3,20

 

13

15

 

-2

4

 

0,27

 

27

34

 

-7

49

 

1,44

 

59

52

 

7

49

 

0,94

 

56

53

 

3

9

 

0,17

 

31

37

 

-6

36

 

0,97

 

17

17

 

0

0

 

0

 

8

5

 

3

9

 

1,8

 

 

 

 

 

 

 

 

 

220

218

 

-

-

 

8,79

 

57

1.Находим разность между эмпирическими и теоретическими частотами (таблица 2.2.3, гр.3): fф fT =9-5=4; 13-15=-2; 27-34=-7 и т.д.

2.Возводим найденную разность в квадрат ( fф fT )2 (таблица 2.2.3,

гр.4)

3. Делим полученный результат на соответствующие теоретические

частоты (таблица 2.2.3, гр.5):

( f f )2

 

16

3,2;

4

 

0,27;

49

1,44 и т.д.

 

 

 

 

 

 

 

 

 

f

 

5

 

15

34

 

4. Определим число степеней свободы. Гипотетическое нормальное распределение зависит от двух параметров ( х и х , т.е. число параметров Р=2), количество категорий (количество интервалов) S=8, следовательно, число степеней свободы df S (P 1) 8−(2+1)=5.

Уровень значимости

=0,05 (по условию примера).

5. По таблице значимости

2 (критерий Пирсона) (Приложение Б)

находим 2табл. ( 0,05; df 5) =11,07. Так как

2расч.=8,79< 2табл.=11,07,

выдвинутая гипотеза

(H 0 )

принимается

и расхождения между

эмпирическими и теоретическими частотами можно считать случайными. Критерий Романовского (С) также используется для проверки близости

эмпирического и теоретического распределения, определяется следующим

 

 

2

 

df

 

 

образом: С

 

расч

 

 

 

,

 

 

 

 

 

 

 

2df

 

 

 

 

 

где χ2 – критерий Пирсона;

df − число степеней свободы df S (P 1) .

Этот показатель весьма удобен при отсутствии таблиц для χ2. Если С<3, то расхождение между теоретическим и эмпирическим распределением случайно, если же С>3, то не случайны и расхождение между теоретическим распределением не может служить моделью для

изучаемого эмпирического распределения.

 

 

 

Проверим выдвинутую гипотезу,

 

 

в нашем примере, с помощью

критерия Романовского: χ2расч.=8,79 и df =5;

 

С

 

расч2 . df

 

 

8,79 5

1,2 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2df

 

2

5

 

 

 

 

 

 

58

Так как С<3, гипотеза не отвергается. Критерий Романовского также подтверждает, что расхождение между эмпирическими и теоретическими частотами несущественно.

Критерий Колмогорова λ основан на определении максимального расхождения между накопленными частотами или частостями

эмпирических и теоретических распределений:

D

 

или d

 

 

 

 

 

n ,

 

 

 

 

 

 

 

 

 

n

 

 

 

где D – максимальная

разность

между

накопленными

 

частотами

(Fф FT ) эмпирического и теоретического рядов распределений;

d – максимальная

разность

между

накопленными

частостями

(Pф PT ) эмпирического и теоретического рядов распределений; n – число единиц в совокупности.

Рассчитав значение λ, по таблице Р(λ) (Приложение В) определяют вероятность, с которой можно утверждать, что отклонение эмпирических частот от теоретических случайно. Вероятность Р(λ) может изменяться от 0 до 1. При Р(λ)=1 происходит полное совпадение частот, при Р(λ)=0 – полное расхождение. Если λ принимают значение до 0,3, то Р(λ)=1.

Основное условие для использования критерия Колмогорова достаточно большое число наблюдений.

Например, используя данные таблицы 2.2.3, проверить правильность выдвинутой гипотезы о распределении проб по крепости нити по закону нормального распределения (таблица 2.2.4) с помощью критерия Колмогорова.

Таблица 2.2.4 − Расчётные данные

Крепость

Частоты ряда распределения

Накопленные частоты

D

Fф FT

 

нити, г

фактические,

теоретические,

фактические,

теоретические,

 

 

 

 

fф

fT

Fф

FT

 

 

 

 

 

 

 

 

 

 

1

2

3

4

5

6

 

120 130

9

5

9

5

4

 

130 140

13

15

22

20

2

 

140 150

27

34

49

54

5 max

150 160

59

52

108

106

2

 

160 170

56

53

164

159

5 max

 

 

 

 

 

 

 

 

59

Продолжение таблицы 2.2.4

170 180

31

37

195

196

1

180 190

17

17

212

213

1

190 200

8

5

220

218

2

Итого

220

218

-

-

-

1. Рассчитаем накопленные частоты Fф и FT по фактическим и теоретическим частотам распределения (таблица 2.2.4, гр. 4 и5)

2. Находим разность между накопленными частотами:

D Fф F 9 5 4; 22 20 2; 49 54 5 и т.д.

3. Определим максимальную разность между накопленными частотами

(таблица 2.2.4, гр.6). Она равна 5.

 

 

 

 

 

 

 

 

4. Вычисляем критерий Колмогорова

D

 

 

 

5

 

0,34

 

 

 

 

 

 

 

 

 

 

220

 

 

n

 

5. По таблице Приложения В находим значение вероятности при

λ=0,34; Р(λ)=0,997.

Это означает, что с вероятностью, близкой к единице, можно утверждать, что гипотеза о нормальном распределении не отвергается, а расхождение эмпирического и теоретического распределений носят случайный характер.

Критерий Ястремского (L) может быть найден на основе следующего

 

 

2

S

 

 

 

соотношения: L

 

 

расч

 

 

 

,

 

 

 

 

 

 

 

2S 4Q

где χ2расч. − критерий Пирсона;

S – число групп (категорий) в эмпирическом распределении; Q – величина, зависящая от числа групп, но при числе групп

меньше 30, не превосходящая 0,6.

Если L 3, то эмпирическое распределение следует избранному теоретическому закону распределения. При L>3 эмпирическое распределение не подчинено предполагаемому теоретическому закону.

Проверим, подчиняется

ли распределение проб по крепости нити

закону нормального распределения

 

 

на основе критерия Ястремского

2расч.=8,79; S=8; Q=0,6): L

 

2расч S

 

 

 

 

 

 

8

 

 

 

0,18

 

 

 

 

 

 

 

 

 

 

 

 

 

8,79

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2S 4Q

 

2 8

4 0,6

 

 

 

 

 

 

 

 

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]