Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
37
Добавлен:
01.05.2014
Размер:
358.91 Кб
Скачать

Глава шестнадцатая.

Стратифицированная и групповая выборки

В предыдущей главе обсуждались основные типы выборок и методы отбора их элементов. Основания статистического вывода, при котором происходит оценка параметра по статистике, иллюстрировались на примере простых случайных выборок. В данной главе мы продолжим обсуждение этих вопросов, что позволит нам познакомиться с двумя новыми типами вероятностных выборок: расслоенной и групповой.

Таблица 16.1

Гипотетическая совокупность

Элемент

Доход, $

Образование (лет)

Подписка на газету

Элемент

Доход, $

Образование (лет)

Подписка на газету

1 А

5600

8

X

11 К

9600

13

X

2 В

6000

9

Y

12 L

10000

13

Y

3 С

6400

11

X

13 М

10400

14

Х

4 D

6800

11

Y

14 N

10800

14

Y

5 Е

7200

11

Х

15 O

11200

15

Х

6 F

7600

12

Y

16 Р

11600

16

Y

7 G

8000

12

Х

17 Q

12000

16

Х

8 Н

8400

12

Y

18 R

12400

17

Y

9 I

8800

12

Х

19 S

12800

18

Х

10 J

9200

12

Y

20 Т

13200

18

Y

Стратифицированная выборка

СТРАТИФИЦИРОВАННАЯ ВЫБОРКА

Вероятностная выборка, формируемая в результате процедуры, состоящей из двух шагов: (1) генеральная совокупность делится на ряд непересекающихся, исчерпывающих ее подмножеств, и (2) в каждом подмножестве или группе производится независимый отбор элементов простых случайных выборок.

Стратифицированная выборка — это вероятностная выборка, для которой характерна следующая двухшаговая процедура:

1. Генеральная(исходная)совокупность делится на ряд непересекающихся, исчерпывающих ее подмножеств.

2. В каждом подмножестве («ли группе производится независимый отбор элементов простых случайных выборок.

Обратите внимание, что в данном определении ничего не говорится о том, какие критерии используются для деления генеральной совокупности на подмножества. Причина в том, что принадлежность выборки к стратифицированному типу определяется отнюдь не этими критериями. Они влияют скорее на представительность данной обследуемой выборки. Стратифицированная выборка — выборка, отбор элементов которой происходит в два этапа, суть которых указана выше. Помните об этом. Это позволит вам отличать стратифицированные выборки от групповых.

Подмножества, на которые подразделяется генеральная совокупность, именуются слоями или частными совокупностями. Данное нами определение требует, чтобы выделяемые подмножества не пересекались и исчерпывали исходную совокупность. Это означает, что каждый элемент совокупности должен входить в один и только один из слоев; при этом процедура распределения должна охватывать все без исключения элементы генеральной совокупности.

Для того чтобы проиллюстрировать сказанное, вернемся к рассматривавшейся в предыдущей главе гипотетической популяции, состоящей из 20 индивидов, представленной еще раз в табл. 16.1. Эта совокупность может быть описана несколькими параметрами, такими как средний уровень доходов, образовательный уровень, часть популяции, подписавшаяся на то или иное издание. Предположим, мы хотим разделить генеральную совокупность на два слоя на основе образовательного уровня. В табл. 16.2 показаны результаты этой процедуры стратификации. Элементы А—J образуют первую страшу или слой (уровень образования соответствует не более чем 12-летнему сроку обучения), элементы К—Т образуют вторую страту или слой (уровень образования соответствует более чем 12-летнему сроку обучения). Число страт не обязательно должно равняться двум. Генеральная совокупность может быть разделена на любое другое количество страт. Мы остановились на числе 2 только потому, что оно позволяет наглядно продемонстрировать технический аспект обсуждаемой процедуры.

На втором этапе должен быть произведен отбор элементов простой случайной выборки из каждой страты. Пусть объем выборок и на сей раз будет равен 2; это означает, что мы должны выбрать по одному элементу из каждой страты (в общем случае количество элементов из того или иного слоя не обязательно должно быть одинаковым).

Процедура отбора элементов внутри стратифицированной выборки ничем не отличается от аналогичной процедуры для простой случайной выборки. Элементам генеральной совокупности каждой страты присваиваются порядковые номера от 1 до 10. Далее для отбора элементов может быть использована таблица случайных чисел. Первый элемент отбирается из 10 элементов первой страты, второй — из 10 элементов второй страты; при этом возможен как повторный «вход» в таблицу случайных чисел, так и продолжение движения по избранной ранее строке или столбцу, которое в любом случае должно продолжаться до появления первого числа от 1 до 10.

ПРОИЗВОДНАЯ СОВОКУПНОСТЬ

Хотя реально может быть отобрана только одна выборка с объемом 2, давайте рассмотрим производную совокупность всех возможных выборок с объемом 2, которые можно сформировать по заданному плану выборочного отбора. Эта производная совокупность и средние каждой выборки приведены в табл. 16.3.

Заметьте, что при заданном плане выборочного отбора возможны только 100 парных комбинаций элементов, тогда как при отборе простой случайной выборки существовало 190 таких вариантов. Причина в том, что при таком виде выборочного наблюдения из каждой страты может быть выбран только один элемент. При формировании же простой случайной выборки, как вы помните, из генеральной совокупности могли быть отобраны любые 2 элемента. В этом отношении стратифицированная выборка отличается от случайной большим числом ограничений. Обратите внимание и на то, что каждый элемент имеет одинаковую вероятность включения в выборку, равную 1 /10, поскольку каждый из них может стать элементом, отбираемым из той или иной" страты; в пределах страты речь идет о простой случайной выборке. Равновероятный отбор элементов может быть присущ и другим способам. Равновероятный отбор является необходимым, но не достаточным условием простого случайного выбора; его необходимо дополнить условием равной вероятности любой возможной комбинации из n элементов.

ВЫБОРОЧНОЕ РАСПРЕДЕЛЕНИЕ

В табл. 16.4 представлена классификация выборочных средних, по величине, а на диаграмме 16.1 показан график этой выборочной статистики. Если вы сравните эту диаграмму с диаграммой 15.5, построенной для простой случайной выборки, то заметите, что распределение оценок при стратифицированной выборке имеет большую концентрацию. Соответственно, мы можем назвать одно из преимуществ стратифицированной выборки: такая выборка обеспечивает большую точность выборочных статистик, нежели простая случайная выборка. Если количественным признаком стратификации будет образование, количество выборочных средних, сильно отклоняющихся от генерального среднего, существенно сократится.

Второй довод в пользу стратифицированных выборок состоит в том, что разделение позволяет обследовать интересующие исследователя характеристики определенных подмножеств. Так, при стратификации можно гарантировать представление лиц с образованием не выше среднего и с образованием выше среднего. Эта возможность приобретает особую значимость при отборе элементов генеральной совокупности, включающей в себя редкие сегменты. Представим, например, что производитель колец с бриллиантами хочет изучить социальный состав потребителей его продукции. Если не будут приняты специальные меры, окажется, что высшие слои общества, составляющие всего около 3 % населения, либо вообще не будут представлены в выборке, либо окажутся представленными недостаточно полно. Тем не менее, производителя ювелирных изделий должен интересовать именно этот немногочисленный сегмент популяции. В маркетинге возможны ситуации, когда поведение популяции, — например, уровень потребления некой продукции — определяется ее небольшим подмножеством. В этих случаях становится критичным адекватное представление этого подмножества в обследуемой выборке. Стратифицированное выборочное наблюдение является одним из вариантов обеспечения названного представления.

Таблица 16.3

Производная популяция всех возможных выборок объема 2 при стратифицированной выборки

k

Пара

Среднее

k

Пара

Среднее

k

Пара

Среднее

k

Пара

Среднее

1

АК

7600

26

СР

9000

51

РК

8600

76

HP

10000

2

АL

7800

27

СQ

9200

52

РЬ

8800

77

HQ

10200

3

АМ

8000

28

СR

9400

53

9000

78

HR

10400

4

АN

8200

29

СS

9600

54

FN

9200

79

HS

10600

5

АО

8400

30

СТ

9800

55

9400

80

HT

10800

6

АР

8600

31

8200

56

FP

9600

81

IK

9200

7

АQ

8800

32

DL

8400

57

FQ

9800

82

IL

9400

8

АR

9000

33

8600

58

FR

10000

83

IM

9600

9

АS

9200

34

DN

8800

59

FS

10200

84

IN

9800

10

АТ

9400

35

DO

9000

60

FT

10400

85

IO

10000

11

ВК

7800

36

9200

61

GK

8800

86

IP

10200

12

ВL

8000

37

DQ

9400

62

GL

9000

87

IQ

10400

13

ВМ

8200

38

DR

9600

63

GM

9200

88

IR

10600

14

ВN

8400

39

DS

9800

64

GN

9400

89

IS

10800

15

ВО

8600

40

10000

65

GO

9600

90

IT

11000

16

ВР

8800

41

ЕК

8400

66

GP

9800

91

JK

9400

17

ВQ

9000

42

ЕL

8600

67

GQ

10000

92

JL

9600

18

ВR

9200

43

ЕМ

8800

68

GR

10200

93

JM

9800

19

ВS

9400

44

ЕN

9000

69

GS

10400

94

JN

10000

20

ВТ

9600

45

ЕО

9200

70

GT

10600

95

JO

10200

21

СК

8000

46

ЕР

9400

71

HK

9000

96

JP

10400

22

СL

8^00

47

ЕQ

9600

72

HL

9200

97

JQ

10600

23

СМ

8480

48

ЕR

9800

73

HM

9400

98

JR

10800

24

СN

8600

49

ЕS

10000

74

HN

9600

99

JS

11000

25

CO

8800

50

ЕТ

10200

75

HO

9800

100

JT

11200

ОЦЕНКА ДОВЕРИТЕЛЬНОГО ИНТЕРВАЛА

При определении доверительного интервала для простой случайной выборки

мы должны задаться тремя величинами:

1. Необходимой степенью достоверности, определяемой выбором значения я.

2. Точечной оценкой генерального среднего, определяемой выборочным средним .

3. Оценкой выборочной ошибки определения выборочного среднего, определяемой среднеквадратической ошибкой среднего при неизвестной дисперсии генеральной совокупности.

Те же три величины необходимы при работе со стратифицированными выборками. Единственное отличие состоит в том, каким образом будут определяться 2 и 3 значения. При стратифицированной выборке оценка генерального среднего и среднеквадратическая ошибка оценки, связанной с этой статистикой, определяются взвешиванием результатов отдельных страт.

Иными словами, исследователь должен исчислить выборочное среднее и выборочную дисперсию для каждой страты. Они должны определяться так же, как прежде, поскольку в каждой из них формируется простая случайная выборка. Среднее для выборки как целого определяется взвешиванием соответствующих средних каждой страты, при котором учитывается относительная доля элементов генеральной совокупности, принадлежащих к той или иной страте. Скажем, если генеральная совокупность разделена на группы так, что одна страта содержит 1/4 всех ее элементов, выборочное среднее этой страты при определении общего выборочного среднего получает весовой коэффициент 0,25. Аналогично, выборочное среднее для страты, содержащей 10% элементов генеральной совокупности, при оценке общего выборочного среднего получает весовой коэффициент 0,10.

Общая среднеквадратическая ошибка среднего определяется несколько сложнее. Здесь вновь используются относительные размеры страт, но, в данном случае, долевые коэффициенты возводятся в квадрат. Например, для страты, содержащей 10% элементов популяции, весовой коэффициент будет равен 0,01. Для определения дисперсии среднего также необходимо учитывать веса дисперсий средних различных страт. Общая среднеквадратическая ошибка среднего будет равна квадратному корню из полученного общего значения дисперсии. Дисперсия среднего для каждой страты определяется так же, как и в случае простой случайной выборки, то есть путем деления выборочной дисперсии этой страты на соответствующий ей объем выборки.

Таблица 16.5

Определение среднего и среднеквадратичной ошибки

оценки для стратифицированной выборки

1 слой

2 слой

Элемент

Доход

Элемент

Доход

B

6000

N

10800

E

7200

S

12800

Среднее:

Дисперсия:

Дисперсия оценки:

Полная выборка

Среднее:

Дисперсия оценки:

Среднеквадратическая ошибка оценки:

В табл. 16.5 дается пример подобной процедуры. Предполагается, что элементы В и Е были случайным образом отобраны из первой страты, а элементы N и S — соответственно из второй страты генеральной совокупности. Поскольку каждая страта содержит по 10 элементов совокупности из 20, при определении общего выборочного среднего выборочное среднее для каждой страты имеет вес 10/20 или 0,5; а дисперсии оценки для каждой страты, соответственно, имеют вес 0,25. При общем выборочном среднем, равном 9200, и среднеквадратической ошибке оценки 583, доверительный интервал 95% (z=1,96) будет находиться в пределах 9200± (1,96) 583 или . Интервал этот интерпретируется так же, как и прежде. Истинное среднее может находиться как внутри этого интервала, так и за его пределами. Однако, поскольку 95 из 100 выстроенных таким образом интервалов будут содержать истинное среднее, мы будем на 95% уверены в том, что истинный средний уровень доходов будет находиться между значениями 8057 и 10343 доллара.

Повышенная точность стратифицированных выборок. Мы уже говорили о том, что стратифицированные выборки позволяют уменьшить ошибку выборочного обследования. При оценке среднего ошибка выборочного обследования определяется величиной среднеквадратической ошибки среднего. Чем меньше, тем меньше ошибка выборочного обследования и, соответственно, тем точнее оценка, на что указывает и сужение доверительного интервала, соответствующего определенной степени достоверности.

Вновь вернемся к табл. 16.1. Общий объем генеральной совокупности и количество элементов в каждой страте совокупности фиксированы. Соответственно, единственным способом уменьшения общей ошибки выборочного обследования является уменьшение дисперсии оценок в каждой страте. Дисперсия оценки для страты, в свою очередь, зависит от изменчивости характеристики в данном слое. Отсюда, точность оценки среднего может быть повышена за счет разделения генеральной совокупности на страты с малой изменчивостью количественного признака или, в идеале, с его послойной гомогенностью.

Исследуемый количественный признак может допускать в пределах генеральной совокупности определенную вариацию. С ней исследователь не может поделать ничего, ибо она является фиксированной характеристикой совокупности. Для генеральной совокупности, представленной в табл. 16.1, примером такой фиксированной вариации может служить вариация уровня доходов. Тем не менее, аналитик может так разделить элементы совокупности на страты, что будет достигнута повышенная точность оценки среднего значения количественного признака. Это разделение должно производиться так, чтобы элементы каждого слоя имели минимальный разброс значений признака, а значения, характерные для любых двух страт, отличались бы друг от друга как можно больше. В нашем случае разделение популяции на людей с образованием не выше среднего и тех, кто имеет выше среднего, должно быть признано удачным, поскольку индивиды, входящие в каждый из двух этих страт, имеют близкий уровень доходов.

В пределе, если исследователю удастся разделить генеральную совокупность так, чтобы элементы каждого слоя имели равные значения количественного признака, ошибка оценки генерального среднего будет равна нулю. Именно так! Оценка генерального среднего в этом случае может быть произведена без ошибки, поскольку межслоевая изменчивость стратифицированной выборки не влияет на среднеквадратическую ошибку оценки.

Мы можем продемонстрировать это положение на простом случае с ограниченным набором значений. Представим, что в генеральной совокупности, состоящей из 1000 элементов, 200 элементов имеют значение 5; 300 — значение 10; 500 — значение 20. Генеральное среднее этой совокупности  = 14, а дисперсия σ2 = 39. Если для оценки этого среднего используется простая случайная выборка объемом n = 3, среднеквадратическая ошибка оценки равна fdsf

и ширина доверительного интервала будет представлять собой ±z, умноженное на 3,61. Теперь представим, что исследователь использовал стратифицированную выборку и сумел разделить популяцию так, что все элементы со значением количественного признака 5 оказались в одном слое, элементы со значением 10 — во втором, и со значением 20 — в третьем. Для получения точной характеристики среднего каждой страты

исследователю достаточно отобрать в каждом слое одноэлементную выборку. При оценке общего среднего, основанной на этих отдельных результатах, среднеквадратическая ошибка равна нулю. Генеральное среднее будет определено точно.

Основа стратификации. Межслоевая изменчивость не влияет на величину среднеквадратической ошибки; критерий деления генеральной совокупности на страты должен определяться именно этим обстоятельством. Значения, принимаемые количественным показателем, будем считать неизвестными, ибо в противном случае не было бы необходимости формирования выборки для оценки их среднего уровня. Таким образом, исследователю следует делить генеральную совокупность в соответствии с одним или несколькими критериями, которые должны быть связаны с обследуемым количественным показателем. Соответственно. в нашем гипотетическом примере деление популяции на слои по образовательному уровню было выбрано совсем не случайно. Как видно из табл. 16.1, существует явная взаимосвязь уровня образования и уровня доходов — чем выше образовательный уровень, тем выше уровень доходов. Подписка же на то или иное издание вряд ли может служить критерием разделения популяции на слои, поскольку она не имеет выраженной связи с уровнем доходов подписчика. Стратифицированная выборка является таковой вовсе не потому, что мы использовали при разделении генеральной совокупности на слои «хороший», а не «плохой» критерий. Выбор критерия повлияет единственно на качество выборки; принадлежность же ее к названному классу будет, как уже отмечалось выше, определяться двумя моментами: (1) разделением генеральной совокупности на подмножества и (2) случайным отбором элементов из каждой страты.

Анализ порядка определения среднеквадратической ошибки может помочь уяснению того, каким должно быть потребное число страт. Поскольку среднеквадратическая ошибка оценки зависит только от изменчивости количественного признака внутри данного слоя, выделяемые страты должны быть максимально гомогенными. Это можно достичь путем деления популяции на большое количество очень малых страт. В нашем примере с уровнем образования дополнительным слоем могло бы стать начальное, высшее, специальное образование и аспирантура. Можно было бы ввести и более тонкую градацию. С другой стороны, существует разумный предел количества страт, который и используется на практике. Во-первых, создание дополнительных слоев может оказаться весьма дорогостоящим, ибо повлечет за собой составление новых выборок с последующим сбором данных и анализом. Во-вторых, существует верхний предел величины вариации, принимаемый во внимание при практической стратификации. Вне зависимости от критерия, в соответствии с которым будет происходить деление генеральной совокупности, определенный уровень вариации не будет приниматься во внимание, что сделает избыточной дополнительную стратификацию.

ПРОПОРЦИОНАЛЬНО И НЕПРОПОРЦИОНАЛЬНО СТРАТИФИЦИРОВАННЫЕ ВЫБОРКИ

Делая предпочтение стратифицированной выборке по отношению к простой случайной, следует находить разумный компромисс между стоимостью и точностью. Хотя стратифицированные выборки обычно дают более точные оценки, они имеют и большую стоимость. Если исследователь все-таки останавливается на стратифицированной выборке, ему надлежит сделать выбор между пропорционально и непропорционально стратифицированными выборками.

ПРОПОРЦИОНАЛЬНО СТРАТИФИЦИРОВАННАЯ ВЫБОРКА

Стратифицированная выборка, в которой межслойное соотношение наблюдений пропорционально относительной доле элементов в каждом слое генеральной совокупности.

НЕПРОПОРЦИОНАЛЬНО СТРАТИФИЦИРОВАННАЯ ВЫБОРКА

Стратифицированная выборка, в которой объем отдельных слоев или подмножеств зависит от объема и изменчивости соответствующих слоев генеральной совокупности; слои с большей изменчивостью количественного признака получают в выборке большее, а слои, близкие к гомогенности, — меньшее представление, нежели в пропорционально стратифицированной выборке.

В пропорционально стратифицированной выборке наблюдения распределены между слоями пропорционально относительной доле элементов в каждом слое генеральной совокупности. Например, страта, содержащая 1/5 часть всех элементов генеральной совокупности, должна быть представлена в общей выборке 1/5 частью наблюдений. Пропорционально стратифицированная выборка была использована нами в примере с образовательным уровнем, т. к. каждый ее слой содержал половину элементов генеральной совокупности и был представлен в выборке одинаковым количеством элементов.

Преимущество пропорционального распределения состоит в том, что исследователю достаточно знать только относительные размеры каждой страты для определения количества выборочных наблюдений, которые должны быть отобраны из каждого слоя для заданного объема выборки. Тем не менее, непропорционально стратифицированная выборка может давать еще более точные результаты. При ее составлении одновременно учитываются два критерия: объем страты и ее изменчивость. При фиксированном объеме выборки слои с большей изменчивостью получают в общей выборке представление, доля которого превышает их относительный размер в генеральной совокупности. И наоборот, страты с высоким уровнем гомогенности получают представление, меньшее пропорционального. Исследовательское окно 16.1 дает описание непропорционально стратифицированной выборки, использованной Нильсеном для определения розничного индекса Нильсена, описанного в главе 8.

Полное изложение того, как должен определяться объем выборки для каждого слоя, увело бы нас слишком далеко в сторону и потребовало бы более серьезного уровня изложения. Тем не менее, имеет смысл дать хотя бы некоторое представление об этой процедуре. Рассмотрим некий крайний случай, страту, имеющую нулевую изменчивость. Поскольку все элементы имеют одинаковое значение количественного признака, достаточно будет произвести одно-единственное наблюдение. Для слоя же с высокой изменчивостью точная оценка среднего слоя будет возможна только на основе большого числа Наблюдений. Мы можем смело предположить, что изменчивость уровня доходов среди подписчиков Newsweek окажется весьма высокой; для подписчиков же светского журнала на глянцевой бумаге Town and Country она будет куда меньшей. В данном случае точность при отборе, критерием которого является пропорциональность отбираемого из данного слоя количества элементов относительной изменчивости обследуемого признака, очевидно, будет выше точности оценки, производимой на основе отбора, которому подлежит пропорциональность относительному объему слоя в генеральной совокупности.

Непропорционально стратифицированная выборка предполагает лучшее знакомство с генеральной совокупностью, чем пропорционально стратифицированная. Для послойного отбора пропорционально внутристратной изменчивости необходимо знать величину относительной изменчивости. Теория формирования выборок — особая область, в которой знание порождает знание. Непропорционально стратифицированные выборки могут дать большую точность результатов, чем пропорционально стратифицированные; однако первый метод наблюдений предполагает возможность оценки относительной вариации количественного признака в слое. Порой предыдущие исследования и опыты позволяют сделать вывод об относительной гомогенности той или иной страты. Иногда при определении объема выборки для каждого сл4я исследователю приходится полагаться на логику или интуицию. Скажем, мы вправе предположить, что для крупных предприятий розничной торговли будет характерна большая изменчивость, чем для малых. Соответственно, при определении розничного индекса Нильсена крупные магазины представлены большей долей.

Соседние файлы в папке Часть 5