Добавил:

Studfiles2 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Санкт-Петербургский государственный электротехнический университет "ЛЭТИ"

Предмет:

Маркетинг

Файл:

Маркетинговые исследования / Часть 5 / Глава 16.doc

Скачиваний:

Добавлен:

01.05.2014

Размер:

358.91 Кб

Скачать

☆

1 / 41 2 3 4 > Следующая >>>

Глава шестнадцатая.

Стратифицированная и групповая выборки

В предыдущей главе обсуждались основные типы выборок и методы отбора их элементов. Основания статистического вывода, при котором происходит оценка параметра по статистике, иллюстрировались на примере простых случайных выборок. В данной главе мы продолжим обсуждение этих вопросов, что позволит нам познакомиться с двумя новыми типами вероятностных выборок: расслоенной и групповой.

Таблица 16.1

Гипотетическая совокупность
Элемент	Доход, $	Образование (лет)	Подписка на газету	Элемент	Доход, $	Образование (лет)	Подписка на газету
1 А	5600	8	X	11 К	9600	13	X
2 В	6000	9	Y	12 L	10000	13	Y
3 С	6400	11	X	13 М	10400	14	Х
4 D	6800	11	Y	14 N	10800	14	Y
5 Е	7200	11	Х	15 O	11200	15	Х
6 F	7600	12	Y	16 Р	11600	16	Y
7 G	8000	12	Х	17 Q	12000	16	Х
8 Н	8400	12	Y	18 R	12400	17	Y
9 I	8800	12	Х	19 S	12800	18	Х
10 J	9200	12	Y	20 Т	13200	18	Y

Стратифицированная выборка

СТРАТИФИЦИРОВАННАЯ ВЫБОРКА

Вероятностная выборка, формируемая в результате процедуры, состоящей из двух шагов: (1) генеральная совокупность делится на ряд непересекающихся, исчерпывающих ее подмножеств, и (2) в каждом подмножестве или группе производится независимый отбор элементов простых случайных выборок.

Стратифицированная выборка — это вероятностная выборка, для которой характерна следующая двухшаговая процедура:

1. Генеральная(исходная)совокупность делится на ряд непересекающихся, исчерпывающих ее подмножеств.

2. В каждом подмножестве («ли группе производится независимый отбор элементов простых случайных выборок.

Обратите внимание, что в данном определении ничего не говорится о том, какие критерии используются для деления генеральной совокупности на подмножества. Причина в том, что принадлежность выборки к стратифицированному типу определяется отнюдь не этими критериями. Они влияют скорее на представительность данной обследуемой выборки. Стратифицированная выборка — выборка, отбор элементов которой происходит в два этапа, суть которых указана выше. Помните об этом. Это позволит вам отличать стратифицированные выборки от групповых.

Подмножества, на которые подразделяется генеральная совокупность, именуются слоями или частными совокупностями. Данное нами определение требует, чтобы выделяемые подмножества не пересекались и исчерпывали исходную совокупность. Это означает, что каждый элемент совокупности должен входить в один и только один из слоев; при этом процедура распределения должна охватывать все без исключения элементы генеральной совокупности.

Для того чтобы проиллюстрировать сказанное, вернемся к рассматривавшейся в предыдущей главе гипотетической популяции, состоящей из 20 индивидов, представленной еще раз в табл. 16.1. Эта совокупность может быть описана несколькими параметрами, такими как средний уровень доходов, образовательный уровень, часть популяции, подписавшаяся на то или иное издание. Предположим, мы хотим разделить генеральную совокупность на два слоя на основе образовательного уровня. В табл. 16.2 показаны результаты этой процедуры стратификации. Элементы А—J образуют первую страшу или слой (уровень образования соответствует не более чем 12-летнему сроку обучения), элементы К—Т образуют вторую страту или слой (уровень образования соответствует более чем 12-летнему сроку обучения). Число страт не обязательно должно равняться двум. Генеральная совокупность может быть разделена на любое другое количество страт. Мы остановились на числе 2 только потому, что оно позволяет наглядно продемонстрировать технический аспект обсуждаемой процедуры.

На втором этапе должен быть произведен отбор элементов простой случайной выборки из каждой страты. Пусть объем выборок и на сей раз будет равен 2; это означает, что мы должны выбрать по одному элементу из каждой страты (в общем случае количество элементов из того или иного слоя не обязательно должно быть одинаковым).

Процедура отбора элементов внутри стратифицированной выборки ничем не отличается от аналогичной процедуры для простой случайной выборки. Элементам генеральной совокупности каждой страты присваиваются порядковые номера от 1 до 10. Далее для отбора элементов может быть использована таблица случайных чисел. Первый элемент отбирается из 10 элементов первой страты, второй — из 10 элементов второй страты; при этом возможен как повторный «вход» в таблицу случайных чисел, так и продолжение движения по избранной ранее строке или столбцу, которое в любом случае должно продолжаться до появления первого числа от 1 до 10.

ПРОИЗВОДНАЯ СОВОКУПНОСТЬ

Хотя реально может быть отобрана только одна выборка с объемом 2, давайте рассмотрим производную совокупность всех возможных выборок с объемом 2, которые можно сформировать по заданному плану выборочного отбора. Эта производная совокупность и средние каждой выборки приведены в табл. 16.3.

Заметьте, что при заданном плане выборочного отбора возможны только 100 парных комбинаций элементов, тогда как при отборе простой случайной выборки существовало 190 таких вариантов. Причина в том, что при таком виде выборочного наблюдения из каждой страты может быть выбран только один элемент. При формировании же простой случайной выборки, как вы помните, из генеральной совокупности могли быть отобраны любые 2 элемента. В этом отношении стратифицированная выборка отличается от случайной большим числом ограничений. Обратите внимание и на то, что каждый элемент имеет одинаковую вероятность включения в выборку, равную 1 /10, поскольку каждый из них может стать элементом, отбираемым из той или иной" страты; в пределах страты речь идет о простой случайной выборке. Равновероятный отбор элементов может быть присущ и другим способам. Равновероятный отбор является необходимым, но не достаточным условием простого случайного выбора; его необходимо дополнить условием равной вероятности любой возможной комбинации из n элементов.

ВЫБОРОЧНОЕ РАСПРЕДЕЛЕНИЕ

В табл. 16.4 представлена классификация выборочных средних, по величине, а на диаграмме 16.1 показан график этой выборочной статистики. Если вы сравните эту диаграмму с диаграммой 15.5, построенной для простой случайной выборки, то заметите, что распределение оценок при стратифицированной выборке имеет большую концентрацию. Соответственно, мы можем назвать одно из преимуществ стратифицированной выборки: такая выборка обеспечивает большую точность выборочных статистик, нежели простая случайная выборка. Если количественным признаком стратификации будет образование, количество выборочных средних, сильно отклоняющихся от генерального среднего, существенно сократится.

Второй довод в пользу стратифицированных выборок состоит в том, что разделение позволяет обследовать интересующие исследователя характеристики определенных подмножеств. Так, при стратификации можно гарантировать представление лиц с образованием не выше среднего и с образованием выше среднего. Эта возможность приобретает особую значимость при отборе элементов генеральной совокупности, включающей в себя редкие сегменты. Представим, например, что производитель колец с бриллиантами хочет изучить социальный состав потребителей его продукции. Если не будут приняты специальные меры, окажется, что высшие слои общества, составляющие всего около 3 % населения, либо вообще не будут представлены в выборке, либо окажутся представленными недостаточно полно. Тем не менее, производителя ювелирных изделий должен интересовать именно этот немногочисленный сегмент популяции. В маркетинге возможны ситуации, когда поведение популяции, — например, уровень потребления некой продукции — определяется ее небольшим подмножеством. В этих случаях становится критичным адекватное представление этого подмножества в обследуемой выборке. Стратифицированное выборочное наблюдение является одним из вариантов обеспечения названного представления.

Таблица 16.3

Производная популяция всех возможных выборок объема 2 при стратифицированной выборки

k	Пара	Среднее	k	Пара	Среднее	k	Пара	Среднее	k	Пара	Среднее
1	АК	7600	26	СР	9000	51	РК	8600	76	HP	10000
2	АL	7800	27	СQ	9200	52	РЬ	8800	77	HQ	10200
3	АМ	8000	28	СR	9400	53	FМ	9000	78	HR	10400
4	АN	8200	29	СS	9600	54	FN	9200	79	HS	10600
5	АО	8400	30	СТ	9800	55	FО	9400	80	HT	10800
6	АР	8600	31	DК	8200	56	FP	9600	81	IK	9200
7	АQ	8800	32	DL	8400	57	FQ	9800	82	IL	9400
8	АR	9000	33	DМ	8600	58	FR	10000	83	IM	9600
9	АS	9200	34	DN	8800	59	FS	10200	84	IN	9800
10	АТ	9400	35	DO	9000	60	FT	10400	85	IO	10000
11	ВК	7800	36	DР	9200	61	GK	8800	86	IP	10200
12	ВL	8000	37	DQ	9400	62	GL	9000	87	IQ	10400
13	ВМ	8200	38	DR	9600	63	GM	9200	88	IR	10600
14	ВN	8400	39	DS	9800	64	GN	9400	89	IS	10800
15	ВО	8600	40	DТ	10000	65	GO	9600	90	IT	11000
16	ВР	8800	41	ЕК	8400	66	GP	9800	91	JK	9400
17	ВQ	9000	42	ЕL	8600	67	GQ	10000	92	JL	9600
18	ВR	9200	43	ЕМ	8800	68	GR	10200	93	JM	9800
19	ВS	9400	44	ЕN	9000	69	GS	10400	94	JN	10000
20	ВТ	9600	45	ЕО	9200	70	GT	10600	95	JO	10200
21	СК	8000	46	ЕР	9400	71	HK	9000	96	JP	10400
22	СL	8^00	47	ЕQ	9600	72	HL	9200	97	JQ	10600
23	СМ	8480	48	ЕR	9800	73	HM	9400	98	JR	10800
24	СN	8600	49	ЕS	10000	74	HN	9600	99	JS	11000
25	CO	8800	50	ЕТ	10200	75	HO	9800	100	JT	11200

ОЦЕНКА ДОВЕРИТЕЛЬНОГО ИНТЕРВАЛА

При определении доверительного интервала для простой случайной выборки

мы должны задаться тремя величинами:

1. Необходимой степенью достоверности, определяемой выбором значения я.

2. Точечной оценкой генерального среднего, определяемой выборочным средним .

3. Оценкой выборочной ошибки определения выборочного среднего, определяемой среднеквадратической ошибкой среднего при неизвестной дисперсии генеральной совокупности.

Те же три величины необходимы при работе со стратифицированными выборками. Единственное отличие состоит в том, каким образом будут определяться 2 и 3 значения. При стратифицированной выборке оценка генерального среднего и среднеквадратическая ошибка оценки, связанной с этой статистикой, определяются взвешиванием результатов отдельных страт.

Иными словами, исследователь должен исчислить выборочное среднее и выборочную дисперсию для каждой страты. Они должны определяться так же, как прежде, поскольку в каждой из них формируется простая случайная выборка. Среднее для выборки как целого определяется взвешиванием соответствующих средних каждой страты, при котором учитывается относительная доля элементов генеральной совокупности, принадлежащих к той или иной страте. Скажем, если генеральная совокупность разделена на группы так, что одна страта содержит 1/4 всех ее элементов, выборочное среднее этой страты при определении общего выборочного среднего получает весовой коэффициент 0,25. Аналогично, выборочное среднее для страты, содержащей 10% элементов генеральной совокупности, при оценке общего выборочного среднего получает весовой коэффициент 0,10.

Общая среднеквадратическая ошибка среднего определяется несколько сложнее. Здесь вновь используются относительные размеры страт, но, в данном случае, долевые коэффициенты возводятся в квадрат. Например, для страты, содержащей 10% элементов популяции, весовой коэффициент будет равен 0,01. Для определения дисперсии среднего также необходимо учитывать веса дисперсий средних различных страт. Общая среднеквадратическая ошибка среднего будет равна квадратному корню из полученного общего значения дисперсии. Дисперсия среднего для каждой страты определяется так же, как и в случае простой случайной выборки, то есть путем деления выборочной дисперсии этой страты на соответствующий ей объем выборки.

Таблица 16.5

Определение среднего и среднеквадратичной ошибки

оценки для стратифицированной выборки

1 слой		2 слой
Элемент	Доход	Элемент	Доход
B	6000	N	10800
E	7200	S	12800
Среднее:
Дисперсия:
Дисперсия оценки:
Полная выборка
Среднее:
Дисперсия оценки:
Среднеквадратическая ошибка оценки:

В табл. 16.5 дается пример подобной процедуры. Предполагается, что элементы В и Е были случайным образом отобраны из первой страты, а элементы N и S — соответственно из второй страты генеральной совокупности. Поскольку каждая страта содержит по 10 элементов совокупности из 20, при определении общего выборочного среднего выборочное среднее для каждой страты имеет вес 10/20 или 0,5; а дисперсии оценки для каждой страты, соответственно, имеют вес 0,25. При общем выборочном среднем, равном 9200, и среднеквадратической ошибке оценки 583, доверительный интервал 95% (z=1,96) будет находиться в пределах 9200± (1,96) 583 или . Интервал этот интерпретируется так же, как и прежде. Истинное среднее может находиться как внутри этого интервала, так и за его пределами. Однако, поскольку 95 из 100 выстроенных таким образом интервалов будут содержать истинное среднее, мы будем на 95% уверены в том, что истинный средний уровень доходов будет находиться между значениями 8057 и 10343 доллара.

Повышенная точность стратифицированных выборок. Мы уже говорили о том, что стратифицированные выборки позволяют уменьшить ошибку выборочного обследования. При оценке среднего ошибка выборочного обследования определяется величиной среднеквадратической ошибки среднего. Чем меньше, тем меньше ошибка выборочного обследования и, соответственно, тем точнее оценка, на что указывает и сужение доверительного интервала, соответствующего определенной степени достоверности.

Вновь вернемся к табл. 16.1. Общий объем генеральной совокупности и количество элементов в каждой страте совокупности фиксированы. Соответственно, единственным способом уменьшения общей ошибки выборочного обследования является уменьшение дисперсии оценок в каждой страте. Дисперсия оценки для страты, в свою очередь, зависит от изменчивости характеристики в данном слое. Отсюда, точность оценки среднего может быть повышена за счет разделения генеральной совокупности на страты с малой изменчивостью количественного признака или, в идеале, с его послойной гомогенностью.

Исследуемый количественный признак может допускать в пределах генеральной совокупности определенную вариацию. С ней исследователь не может поделать ничего, ибо она является фиксированной характеристикой совокупности. Для генеральной совокупности, представленной в табл. 16.1, примером такой фиксированной вариации может служить вариация уровня доходов. Тем не менее, аналитик может так разделить элементы совокупности на страты, что будет достигнута повышенная точность оценки среднего значения количественного признака. Это разделение должно производиться так, чтобы элементы каждого слоя имели минимальный разброс значений признака, а значения, характерные для любых двух страт, отличались бы друг от друга как можно больше. В нашем случае разделение популяции на людей с образованием не выше среднего и тех, кто имеет выше среднего, должно быть признано удачным, поскольку индивиды, входящие в каждый из двух этих страт, имеют близкий уровень доходов.

В пределе, если исследователю удастся разделить генеральную совокупность так, чтобы элементы каждого слоя имели равные значения количественного признака, ошибка оценки генерального среднего будет равна нулю. Именно так! Оценка генерального среднего в этом случае может быть произведена без ошибки, поскольку межслоевая изменчивость стратифицированной выборки не влияет на среднеквадратическую ошибку оценки.

Мы можем продемонстрировать это положение на простом случае с ограниченным набором значений. Представим, что в генеральной совокупности, состоящей из 1000 элементов, 200 элементов имеют значение 5; 300 — значение 10; 500 — значение 20. Генеральное среднее этой совокупности  = 14, а дисперсия σ² = 39. Если для оценки этого среднего используется простая случайная выборка объемом n = 3, среднеквадратическая ошибка оценки равна fdsf

и ширина доверительного интервала будет представлять собой ±z, умноженное на 3,61. Теперь представим, что исследователь использовал стратифицированную выборку и сумел разделить популяцию так, что все элементы со значением количественного признака 5 оказались в одном слое, элементы со значением 10 — во втором, и со значением 20 — в третьем. Для получения точной характеристики среднего каждой страты

исследователю достаточно отобрать в каждом слое одноэлементную выборку. При оценке общего среднего, основанной на этих отдельных результатах, среднеквадратическая ошибка равна нулю. Генеральное среднее будет определено точно.

Основа стратификации. Межслоевая изменчивость не влияет на величину среднеквадратической ошибки; критерий деления генеральной совокупности на страты должен определяться именно этим обстоятельством. Значения, принимаемые количественным показателем, будем считать неизвестными, ибо в противном случае не было бы необходимости формирования выборки для оценки их среднего уровня. Таким образом, исследователю следует делить генеральную совокупность в соответствии с одним или несколькими критериями, которые должны быть связаны с обследуемым количественным показателем. Соответственно. в нашем гипотетическом примере деление популяции на слои по образовательному уровню было выбрано совсем не случайно. Как видно из табл. 16.1, существует явная взаимосвязь уровня образования и уровня доходов — чем выше образовательный уровень, тем выше уровень доходов. Подписка же на то или иное издание вряд ли может служить критерием разделения популяции на слои, поскольку она не имеет выраженной связи с уровнем доходов подписчика. Стратифицированная выборка является таковой вовсе не потому, что мы использовали при разделении генеральной совокупности на слои «хороший», а не «плохой» критерий. Выбор критерия повлияет единственно на качество выборки; принадлежность же ее к названному классу будет, как уже отмечалось выше, определяться двумя моментами: (1) разделением генеральной совокупности на подмножества и (2) случайным отбором элементов из каждой страты.

Анализ порядка определения среднеквадратической ошибки может помочь уяснению того, каким должно быть потребное число страт. Поскольку среднеквадратическая ошибка оценки зависит только от изменчивости количественного признака внутри данного слоя, выделяемые страты должны быть максимально гомогенными. Это можно достичь путем деления популяции на большое количество очень малых страт. В нашем примере с уровнем образования дополнительным слоем могло бы стать начальное, высшее, специальное образование и аспирантура. Можно было бы ввести и более тонкую градацию. С другой стороны, существует разумный предел количества страт, который и используется на практике. Во-первых, создание дополнительных слоев может оказаться весьма дорогостоящим, ибо повлечет за собой составление новых выборок с последующим сбором данных и анализом. Во-вторых, существует верхний предел величины вариации, принимаемый во внимание при практической стратификации. Вне зависимости от критерия, в соответствии с которым будет происходить деление генеральной совокупности, определенный уровень вариации не будет приниматься во внимание, что сделает избыточной дополнительную стратификацию.

ПРОПОРЦИОНАЛЬНО И НЕПРОПОРЦИОНАЛЬНО СТРАТИФИЦИРОВАННЫЕ ВЫБОРКИ

Делая предпочтение стратифицированной выборке по отношению к простой случайной, следует находить разумный компромисс между стоимостью и точностью. Хотя стратифицированные выборки обычно дают более точные оценки, они имеют и большую стоимость. Если исследователь все-таки останавливается на стратифицированной выборке, ему надлежит сделать выбор между пропорционально и непропорционально стратифицированными выборками.

ПРОПОРЦИОНАЛЬНО СТРАТИФИЦИРОВАННАЯ ВЫБОРКА

Стратифицированная выборка, в которой межслойное соотношение наблюдений пропорционально относительной доле элементов в каждом слое генеральной совокупности.

НЕПРОПОРЦИОНАЛЬНО СТРАТИФИЦИРОВАННАЯ ВЫБОРКА

Стратифицированная выборка, в которой объем отдельных слоев или подмножеств зависит от объема и изменчивости соответствующих слоев генеральной совокупности; слои с большей изменчивостью количественного признака получают в выборке большее, а слои, близкие к гомогенности, — меньшее представление, нежели в пропорционально стратифицированной выборке.

В пропорционально стратифицированной выборке наблюдения распределены между слоями пропорционально относительной доле элементов в каждом слое генеральной совокупности. Например, страта, содержащая 1/5 часть всех элементов генеральной совокупности, должна быть представлена в общей выборке 1/5 частью наблюдений. Пропорционально стратифицированная выборка была использована нами в примере с образовательным уровнем, т. к. каждый ее слой содержал половину элементов генеральной совокупности и был представлен в выборке одинаковым количеством элементов.

Преимущество пропорционального распределения состоит в том, что исследователю достаточно знать только относительные размеры каждой страты для определения количества выборочных наблюдений, которые должны быть отобраны из каждого слоя для заданного объема выборки. Тем не менее, непропорционально стратифицированная выборка может давать еще более точные результаты. При ее составлении одновременно учитываются два критерия: объем страты и ее изменчивость. При фиксированном объеме выборки слои с большей изменчивостью получают в общей выборке представление, доля которого превышает их относительный размер в генеральной совокупности. И наоборот, страты с высоким уровнем гомогенности получают представление, меньшее пропорционального. Исследовательское окно 16.1 дает описание непропорционально стратифицированной выборки, использованной Нильсеном для определения розничного индекса Нильсена, описанного в главе 8.

Полное изложение того, как должен определяться объем выборки для каждого слоя, увело бы нас слишком далеко в сторону и потребовало бы более серьезного уровня изложения. Тем не менее, имеет смысл дать хотя бы некоторое представление об этой процедуре. Рассмотрим некий крайний случай, страту, имеющую нулевую изменчивость. Поскольку все элементы имеют одинаковое значение количественного признака, достаточно будет произвести одно-единственное наблюдение. Для слоя же с высокой изменчивостью точная оценка среднего слоя будет возможна только на основе большого числа Наблюдений. Мы можем смело предположить, что изменчивость уровня доходов среди подписчиков Newsweek окажется весьма высокой; для подписчиков же светского журнала на глянцевой бумаге Town and Country она будет куда меньшей. В данном случае точность при отборе, критерием которого является пропорциональность отбираемого из данного слоя количества элементов относительной изменчивости обследуемого признака, очевидно, будет выше точности оценки, производимой на основе отбора, которому подлежит пропорциональность относительному объему слоя в генеральной совокупности.

Непропорционально стратифицированная выборка предполагает лучшее знакомство с генеральной совокупностью, чем пропорционально стратифицированная. Для послойного отбора пропорционально внутристратной изменчивости необходимо знать величину относительной изменчивости. Теория формирования выборок — особая область, в которой знание порождает знание. Непропорционально стратифицированные выборки могут дать большую точность результатов, чем пропорционально стратифицированные; однако первый метод наблюдений предполагает возможность оценки относительной вариации количественного признака в слое. Порой предыдущие исследования и опыты позволяют сделать вывод об относительной гомогенности той или иной страты. Иногда при определении объема выборки для каждого сл4я исследователю приходится полагаться на логику или интуицию. Скажем, мы вправе предположить, что для крупных предприятий розничной торговли будет характерна большая изменчивость, чем для малых. Соответственно, при определении розничного индекса Нильсена крупные магазины представлены большей долей.

1 / 41 2 3 4 > Следующая >>>

Соседние файлы в папке Часть 5

#
01.05.2014526.85 Кб61Глава 15.doc
#
01.05.2014358.91 Кб64Глава 16.doc
#
01.05.2014261.12 Кб64Глава 17.doc
#
01.05.2014445.95 Кб66Глава 18.doc
#
01.05.2014348.16 Кб58ПРИМЕРЫ к части 5.doc