Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Minashkin-TeoriyaStatistiki2008.doc
Скачиваний:
1
Добавлен:
01.07.2025
Размер:
10.68 Mб
Скачать

7.2. Собственно-случайная (простая случайная) выборка

Собственно-случайная выборка заключается в отборе единиц из генеральной сово- купности в целом, без разделения ее на группы, подгруппы или серии отдельных единиц. При этом единицы отбираются в случайном порядке, не зависящем ни от последователь- ности расположения единиц в совокупности, ни от значений их признаков.

Прежде чем производить собственно-случайный отбор, необходимо убедиться, что все без исключения единицы генеральной совокупности имеют абсолютно равные шансы попадания в выборку, в списках или перечне отсутствуют пропуски, игнорирования от- дельных единиц и т.п. Следует также установить четкие границы генеральной совокупно- сти таким образом, чтобы включение или невключение в нее отдельных единиц не вызы- вало сомнений. Так, например, при обследовании торговых предприятий необходимо ука- зать, включит ли генеральная совокупность торговые павильоны, коммерческие палатки, передвижные торговые точки и прочие подобные объекты; при обследовании студентов важно определиться, будут ли приниматься во внимание студенты-заочники, экстерны, учащиеся в магистратуре, лица, находящиеся в академическом отпуске и т.п.

Для проведения отбора единиц в выборочную совокупность используется один из математических алгоритмов, например, метод прямой реализации, включающий сле- дующие этапы:

1. Все единицы генеральной совокупности, расположенные в случайном порядке или ранжированные по какому-либо признаку, нумеруются от 1 до N.

2. С помощью процессора случайных чисел получают n значений в интервале от 1 до N. Если первоначально случайные числа получены в интервале от 0 до 1, их необходи- мо умножить на N и округлить по правилам до целого значения.

3. Из сформированного списка единиц генеральной совокупности отбираются еди-

ницы, соответствующие по номеру полученным случайным числам.

88

ВЫБОРОЧНОЕ НАБЛЮДЕНИЕ

Упрощенным вариантом метода прямой реализации является отбор единиц в выбо- рочную совокупность на основе таблицы случайных чисел. Для проведения отбора мо- гут быть использованы цифры любого столбца данной таблицы, при этом необходимо учитывать объем генеральной совокупности.

Рассмотрим процедуру отбора на основе фрагмента таблицы случайных чисел. Предположим, объем генеральной совокупности составляет 70000 единиц и требуется сформировать выборку объемом 500 единиц, то цифры таблицы следует перегруппиро- вать для получения пятизначных чисел следующим образом:

5489 5583 3156 0835 1988

3522 0935 7877 5665 7020

7555 7579 2550 2487 9477

5759 3554 5080 9074 7001

6303 6895 3371 3196 7231

Для формирования выборки мы должны взять 500 чисел в интервале от 00001 до

70000. Таким образом, нам следует из списка единиц генеральной совокупности отобрать единицы под номером 54895, 35220, 57593 и т.д. При этом номера свыше 70000 (75557,

93578 и подобные) будут проигнорированы.

При проведении бесповторного отбора повторяющиеся номера следует учитывать только один раз. При повторном отборе, если тот или иной номер случайно встретится еще один или более раз, соответствующая этому номеру единица в каждом случае по- вторно включается в выборочную совокупность.

После проведения отбора с использованием какого-либо алгоритма, реализующего принцип случайности, или на основе таблицы случайных чисел, необходимо определить границы генеральных характеристик. Для этого рассчитываются средняя и предельная ошибки выборки.

Средняя ошибка повторной собственно-случайной выборки определяется по формуле:

µ = σ

n

(7.1.)

С учетом выбранного уровня вероятности и соответствующего ему значения t пре-

дельная ошибка повторной собственно-случайной выборки выборки составит:

~x

= t µ~x .

(7.2.)

Тогда можно утверждать, что при заданной вероятности генеральная средняя будет находиться в следующих границах:

~x ~ x ~x + ~ .

(7.3.)

x x

Предположим, в результате выборочного обследования доходов домохозяйств ре- гиона, осуществленного на основе собственно-случайной повторной выборки, получен следующий ряд распределения (табл. 7.1).

Таблица 7.1.

Результаты выборочного обследования доходов домохозяйств региона

Доход,

тыс. руб.

До 5

5-10

10-15

15-20

20

и более

Число

домохозяйств

52

354

475

170

49

89

ВЫБОРОЧНОЕ НАБЛЮДЕНИЕ

Рассмотрим определение границ генеральной средней, в данном примере – сред- него дохода домохозяйства в целом по данному региону, опираясь только на результаты выборочного обследования. Для определения средней ошибки выборки нам необходимо прежде всего рассчитать выборочную среднюю величину и дисперсию изучаемого при- знака (табл. 7.2).

Расчет среднего дохода домохозяйства и дисперсии

Таблица 7.2.

Доход,

тыс. руб.

Число

домохозяйств

f

Середина

интервала

x

xf

x 2 f

До 5

5 – 10

10 – 15

15 – 20

20 и более

52

354

475

170

49

2,5

7,5

12,5

17,5

22,5

130,0

2655,0

5937,5

2975,0

1102,5

325,0

19912,5

74218,75

52062,5

24806,25

Итого

1100

-

12800

171325

~x = 12800 = 11,6;

1100

σ 2 = 171325 11,6 2 = 21,19;

1100

σ = 21,19 = 4,6.

Средняя ошибка выборки составит:

µ~x =

4,6

1100

= 0,14.

Определим предельную ошибку выборки с вероятностью 0,954 (t=2):

~x

= 2 0,14 = 0,28.

Установим границы генеральной средней (тыс. руб.):

11,6 − 0,28 ≤ ≤ 11,6 + 0,28

или

11,32 ≤ x ≤ 11,88.

Таким образом, на основании проведенного выборочного обследования с вероят- ностью 0,954 можно заключить, что средний доход домохозяйства в целом по региону ле- жит в пределах от 11,3 до 11,9 тыс. руб.

При расчете средней ошибки собственно-случайной бесповторной выборки не-

обходимо учитывать поправку на бесповторность отбора:

x

µ~ =

σ 2 n

1 .

(7.4.)

n N

Если предположить, что представленные в табл. 7.1 данные являются результатом

5%-ного бесповторного отбора (следовательно, генеральная совокупность включает 22000

домохозяйств), то средняя ошибка выборки будет несколько меньше:

90

ВЫБОРОЧНОЕ НАБЛЮДЕНИЕ

µ~ =

21,19

1

1100

= 0,135.

x 1100

22000

Соответственно уменьшится и предельная ошибка выборки, что вызовет сужение гра- ниц генеральной средней. Особенно ощутимо влияние поправки на бесповторность отбора при относительно большом проценте выборки.

Мы рассмотрели определение границ генеральной средней. Рассмотрим теперь, как определяются границы генеральной доли, т.е. границы доли единиц, обладающих тем или иным значением признака.

Воспользуемся еще раз данными табл. 7.1 для того, чтобы определить границы доли домохозяйств, доходы которых составляют менее 10 тыс. руб. Согласно результатам об- следования, численность таких домохозяйств составила 52+354=406. Определим выбо- рочную долю и дисперсию:

406

w = = 0,369;

1100

σ

w

2 = w(1 − w) = 0,369 ⋅ 0,631 = 0,2328.

Рассчитаем среднюю ошибку выборки:

0,2328

1

1100

= 0,014.

µw =

1100

 22000

Предельная ошибка выборки с заданной вероятностью составит:

w = 2 ⋅ 0,014 = 0,028.

Определим границы генеральной доли:

0,369 − 0,028 ≤ p ≤ 0,369 + 0,028

или

0,341 ≤ p ≤ 0,397.

Следовательно, с вероятностью 0.954 можно утверждать, что доля домохозяйств, имеющих доходы менее 10 тыс. руб., в целом по данному региону находится в пределах от 34,1 до 39,7%.

Мы рассмотрели определение границ генеральной средней и генеральной доли по результатам уже проведенного выборочного наблюдения, при известном объеме выборки или проценте отбора. На этапе же проектирования выборочного наблюдения именно объ- ем выборочной совокупности и требует определения.

Чем больше объем выборки, тем меньше значения средней и предельной ошибок выборочного наблюдения и, следовательно, тем уже границы генеральной средней и гене- ральной доли. В то же время, необходимо учитывать, что большой объем выборки приводит к удорожанию обследования, увеличению сроков сбора и обработки материалов, требует привлечения дополнительного персонала и соответствующего материально-технического обеспечения. Затраты всех ресурсов на 20-30%-ное выборочное наблюдение уже сопоста- вимы с расходами на сплошное обследование. При этом не следует забывать, что статисти- ческие характеристики, полученные по выборочной совокупности, всегда имеют вероятно- стную основу и всегда будут уступать результатам сплошного наблюдения по точности и надежности. Поэтому при подготовке выборочного наблюдения необходимо определить тот минимально необходимый объем выборки, который обеспечит требуемую точность полу- ченных статистических характеристик при заданном уровне вероятности.

91

ВЫБОРОЧНОЕ НАБЛЮДЕНИЕ

Представим формулу (7.2) следующим образом:

σ

∆ ~x = t .

n

(7.5.)

Отсюда можно вывести формулу для определения необходимого объема собст-

венно-случайной повторной выборки:

t 2σ 2

n = 2 .

~x

(7.6.)

Полученный на основе использования данной формулы результат всегда округ- ляется в большую сторону. Например, если мы получили, что необходимый объем выбор- ки составляет 493,1 единицы, то обследовав 493 единицы мы не достигнем требуемой точности. Поэтому, для достижения желаемого результата обследованием должны быть охвачены 494 единицы. С другой стороны, рассчитанное значение необходимого объема выборки свободно может быть увеличено в большую сторону на несколько единиц. Если мы располагаем необходимыми ресурсами, если по причинам организационного порядка (компактность расположения единиц, фиксированная нагрузка на каждого регистратора и т.п.) мы вполне можем охватить больший объем, то включение в выборочную совокуп- ность 500 или, например, 550 единиц только уменьшит значения полученных случайной и предельной ошибок.

Как видно из формулы (7.6) необходимый объем выборки будет тем больше, чем выше заданный уровень вероятности и чем сильнее варьирует наблюдаемый признак. В то же время повышение допустимой предельной ошибки выборки приводит к снижению не- обходимого ее объема.

Расчет необходимого объема выборки предполагает, что организаторы выборочного наблюдения уже на этапе его проектирования располагают по крайней мере косвенными дан- ными о вариации изучаемых признаков. Источниками таких данных могут служить:

а) результаты исследования данного объекта в предшествующие периоды;

б) результаты исследования аналогичных объектов (жителей других населенных пунктов, предприятий других регионов и т.п.);

в) специально проведенное небольшое по объему выборочное обследование данно-

го объекта, ставяще целью лишь изучение вариации наблюдаемых признаков.

При определении необходимого объема выборки для определения границ гене- ральной доли задача оценки вариации решается значительно проще. Если дисперсия изу- чаемого альтернативного признака неизвестна, то можно использовать ее максимальное возможное значение:

σ

2

w max

= w(1 w) = 0,5(1 0,5) = 0,25.

Например, предприятию связи с вероятностью 0,954 необходимо определить удельный вес телефонный разговоров продолжительностью менее 1 минуты с предельной ошибкой 2%. Сколько разговоров нужно обследовать в порядке собственно-случайного повторного отбора для решения этой задачи?

Для получения ответа на поставленный вопрос воспользуемся формулой (7.6) и бу- дем ориентироваться на максимальную возможную дисперсию доли телефонных разгово- ров такой продолжительности. Расчет приводит к следующему результату:

n = 2

0,252

2

= 2500.

0,02 2

92

ВЫБОРОЧНОЕ НАБЛЮДЕНИЕ

Таким образом, обследованием должны быть охвачены не менее 2500 разговоров на предмет их продолжительности.

Необходимый объем собственно-случайной бесповторной выборки может быть определен по следующей формуле:

t 2σ 2 N

n =

t 2σ 2

.

~x

+ 2 N

(7.7.)

Укажем на одну особенность формулы (7.7). При проведении вычислений объем генеральной совокупности должен быть выражен только в единицах, а не в тысячах или в миллионах единиц. Например, подставив в данную формулу общую численность населе- ния региона, выраженную в тысячах человек, мы не получим правильное значение необ- ходимой численности выборки, также выраженное в тысячах человек, как это иногда бы- вает в других расчетах. Результат вычислений будет неверен.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]