Стратифицированные и пропорциональные выборки
Неопытные исследователи порой путают стратифицированные выборки с квотными. И действительно, у тех и у других есть ряд сходств. В обоих случаях генеральная совокупность делится на сегменты, и элементы отбираются из каждого сегмента. Но между ними существует существенное различие. В стратифицированных выборках элементы выборки выбираются вероятностными методами; что касается элементов квотных выборок, то их отбор обусловлен позицией исследователя. Это отличие приводит к ряду важных следствий. Поскольку элементы стратифицированной выборки отбираются вероятностным методом, исследователь может установить выборочное распределение изучаемой статистики и, соответственно, оценить величину доверительного интервала. При работе с пропорциональной выборкой мы не можем объективно оценить величину ошибки выборочного обследования. Отсюда, мы не можем оценить величину доверительного интервала и определить статистические критерии значимости.
Групповая выборка
Групповые (кластерные) выборки — еще один способ вероятностного выборочного обследования, часто применяемый специалистами. Групповой выборочный отбор в чем-то похож, а чем-то отличается от стратифицированного выборочного отбора. Он предполагает реализацию следующих этапов:
1. Генеральная (исходная) совокупность делится на ряд непересекающихся исчерпывающих ее подмножеств (кластеров).
2. Производится случайный отбор подмножеств.
Если при формировании выборки исследователь использует все элементы генеральной совокупности, входящие в отобранные подмножества, процедура именуется одноступенчатым групповым выборочным отбором. Если же выборка отбирается из этих подмножеств при помощи вероятностного метода, процедура носит название двухступенчатого группового выборочного отбора.
ГРУППОВАЯ ВЫБОРКА
Вероятностная выборка, для которой характерна следующая двухступенчатая процедура: (1) генеральная совокупность делится на ряд непересекающихся исчерпывающих ее подмножеств; (2) производится случайный отбор подмножеств. Если исследователь использует для выборки все элементы выбранных подмножеств, процедура называется одноступенчатой; если же выборка отбирается из этих подмножеств при помощи вероятностного метода, процедура называется двухступенчатой.
СТАТИСТИЧЕСКАЯ ЭФФЕКТИВНОСТЬ
Характеристика, позволяющая производить сравнение планов выборочного обследования; если объем выборки остается неизменным, из двух сравниваемых планов большую статистическую эффективность имеет тот, который обеспечивает меньшую величину среднеквадратической ошибки.
Обратите внимание на сходства и различия групповой и стратифицированной выборки. Хотя в каждом случае генеральная совокупность делится на ряд непересекающихся, исчерпывающих ее подмножеств, в стратифицированной выборке производится отбор элементов из каждого подмножества. При групповой выборке производится отбор подмножеств.
Вспомните, что при стратифицированной выборке генеральная совокупность подразделялась на слои, количественная характеристика внутри которых стремилась к гомогенности. При групповой же выборке необходимо сформировать подобные подмножества, которые, вместе с тем, являлись бы уменьшенной моделью генеральной совокупности. Каждый кластер должен отражать все многообразие элементов исходной совокупности.
В нашем предыдущем примере, где рассматривалась связь образования и уровня доходов, мы отметили, что деление генеральной совокупности на подмножества подписчиков разных изданий для стратифицированного отбора, скорее всего, окажется не очень удачным, так как эта характеристика имеет лишь условную связь с уровнем доходов. Тем не менее, поскольку целью групповой выборки является формирование максимально гетерогенных подмножеств, подписка на то или иное издание может стать хорошей основой для получения этого вида выборки.
Если все подписчики издания Х будут рассматриваться в качестве первого, а все подписчики издания Y — в качестве второго подмножества, можно достаточно уверенно использовать в качестве контрольной выборки для оценки среднего уровня доходов ту или иную группу. Хотя распределение уровня доходов внутри каждого подмножества может отличаться от аналогичного распределения в генеральной совокупности, разброс значений уровня доходов таков, что при оценке среднего уровня доходов и дисперсии этого уровня по элементам любой из двух названных выборок мы можем допустить лишь незначительную ошибку.
На практике кластеры далеко не всегда получаются максимально гетерогенными. Порой определяемые группы оказываются скорее гомогенными, чем гетерогенными по отношению к обследуемому количественному признаку. Начинающие исследователи зачастую ошибочно называют эту процедуру стратифицированной выборкой, поскольку она предполагает формирование гомогенных подмножеств элементов исходной совокупности. Однако никогда не следует забывать, что следующее за ней формирование выборки основано на случайном выборе подмножеств и ясно указывает именно на ее групповой характер, каким бы ни было при этом деление генеральной совокупности на подмножества. Заметим попутно, что с позиций статистической эффективности гомогенные подмножества являют собой менее удачные выборки, чем гетерогенные.
Статистическая эффективность — относительная характеристика, позволяющая сравнивать различные методы выборочного отбора. При неизменном объеме выборки большую статистическую эффективность будет иметь метод, имеющий меньшую среднеквадратическую ошибку. Если, например, обследуемым количественным признаком является среднее, то наиболее статистически эффективной будет выборка, обеспечивающая минимальное значение среднеквадратической ошибки среднего. Групповые выборки обычно менее статистически эффективны, чем аналогичные стратифицированные или даже простые случайные выборки, поскольку значение максимально возможной ошибки для выборки фиксированного размера достигается именно на них.
И, все-таки, несмотря на свою низкую статистическую эффективность, групповая выборка является одним из основных методов крупномасштабного обследования с использованием персонального опроса (особенно опроса на дому). Почему? Да потому что групповая выборка зачастую оказывается более экономически эффективной — стоимость опроса в этом случае ниже, чем при использовании других методов. Это позволяет исследователю рассмотреть с меньшими затратами большую генеральную совокупность. Поскольку групповой метод дает исследователям возможность обследовать выборку куда большего объема, чем при стратифицированном с теми те же расходами, предел погрешности первого типа отбора может оказаться даже меньшим. Иными словами, групповая выборка на деле зачастую оказывается эффективней других форм. Хотя для обеспечения той же точности она требует большего объема выборки и, соответственно, имеет меньшую статистическую эффективность, меньшая стоимость одного наблюдения позволяет расширить выборку настолько, что составляемые на ее основе оценки становятся более точными.
СИСТЕМАТИЧЕСКАЯ ВЫБОРКА
СИСТЕМАТИЧЕСКАЯ ВЫБОРКА
Вид группового выборочного отбора, при котором каждый k-й элемент генеральной совокупности, начиная с элемента, выбранного произвольно, включается в выборку.
Систематическая выборка — один из видов группового выборочного отбора, обеспечивающий возможность простейшего обследования многих генеральных совокупностей. Такая выборка предполагает включение в нее каждого k-го элемента генеральной совокупности, начиная с некоего выбранного произвольно элемента. Рассмотрим в очередной раз гипотетическую совокупность из 20 индивидов и представим, что нам надлежит отобрать из них 5 элементов. Пронумеруем элементы от 1 до 20. Для 20 элементов популяции и объема выборки, равного 5, выборочная доля равна f=n/N=5/20=1/4, то есть должен отбираться один элемент из четырех. Выборочный интервал i=1/f будет равен 4. Это означает, что после произвольно выбранной начальной позиции должен отбираться каждый четвертый элемент. Произвольно выбранная начальная позиция должна находиться в интервале между 1 и (4-1). В общем случае она может определяться при помощи таблицы случайных чисел. Если начальная позиция придется на 1, то в выборку будут отобраны 1-й, 5-й, 9-й, 13-й и 17-й элементы. Если эта позиция придется на двойку, будут отобраны, соответственно, 2-й, 6-й, 10-й, 14-йи 18-й элементы, и так далее.
Систематическая выборка относится к категории групповых одноступенчатых, поскольку используются все элементы выделенных групп, а не некая, возникающая в результате отбора их часть. Подмножества или группы в нашем случае это:
• Группа I: А, Е, I,М, Q.
• Группа II: В, F, ,I, N. R.
• Группа III: С, G, К, О, S.
• Группа IV: D, Н, L, Р, Т.
Для обследования производится случайный выбор одной из этих групп. Естественно, в данном случае выбор этот производится единожды.
Простота формирования систематической выборки очевидна. Сформировать систематическую выборку много проще, нежели, например, простую случайную выборку такого же объема. При работе с систематической выборкой достаточно войти в таблицу случайных чисел только один раз. Помимо прочего, в этом случае не возникает проблема дублирования элементов, осложняющая процесс формирования простой случайной выборки. Случайный выбор начальной позиции разом определяет все элементы совокупности.
В известных случаях систематическая выборка имеет большую репрезентативность, чем простая случайная выборка. Если мы вновь обратимся к нашей гипотетической генеральной совокупности, принятый план группового выборочного обследования позволит нам гарантировать представление сегмента с низким и сегмента с высоким уровнем доходов. Вне зависимости от того, какую из четырех групп мы выберем, одному из элементов будет соответствовать уровень доходов не более $6800, одному — не менее $12 000; оставшиеся же три элемента будут иметь промежуточные значения признака. Простая случайная пятиэлементная выборка может включать, а может и не включать элементы с низким и с высоким показателем уровня доходов.
Сказанное может распространяться и на другие популяции. Скажем, если мы подвергаем выборочному обследованию предприятия розничной торговли, при использовании систематической выборки мы сможем гарантировать представление как мелких, так и крупных магазинов, если только удастся найти правильный критерий разбиения магазинов на группы. Таким критерием может быть уровень продаж за год, торговая площадь и т. п. Возможность представления различных групп определяется возможностью определения размеров торговых точек. Простая случайная выборка, скорее всего, даст неадекватное представление о крупных магазинах, поскольку их количество заметно уступает количеству мелких торговых точек. При этом основная доля продаж, как правило, приходится именно на крупные магазины.
Таким образом, рост репрезентативности систематической выборки по отношению к простой случайной выборке определяется способом группировки объектов генеральной совокупности, сведенных в единый список. В идеальном списке для составления систематической выборки элементы с близкими значениями количественного признака (уровень доходов, уровень продаж и т. п.) должны находиться рядом, а элементы с существенно различающимися значениями признака должны располагаться в разных частях списка.
При использовании систематической выборки существует следующая опасность: если в списке элементов наблюдается естественная периодичность, оценка, производимая на основе такой выборки, сопряжена с серьезными ошибками. Пусть нам известен уровень продаж авиабилетов на каждый день года, и мы хотим проанализировать продажи с точки зрения продолжительности полета. Анализ всех 365 дней года, очевидно, будет весьма дорогостоящим. Предположим, что исследовательского бюджета хватит на обследование 52 дней. Систематическая выборка с выборочным интервалом, равным 7 дням (365+52), очевидно, приведет нас к ошибочным выводам, поскольку будет отражать уровень продаж авиабилетов на рейсы, совершаемые по понедельникам, средам или, например, по воскресеньям. Разумеется, мы вправе рассматривать выборки с иными интервалами и, таким образом, могут быть сняты проблемы, вызванные естественной периодичностью исследуемых данных. Разумеется, правильное задание выборочного интервала возможно только на основе исследования феномена и природы периодичности.
ТЕРРИТОРИАЛЬНАЯ ВЫБОРКА
ВЫБОРОЧНЫЕ ЕДИНИЦЫ
Непересекающиеся подмножества элементов генеральной совокупности.
ТЕРРИТОРИАЛЬНАЯ ВЫБОРКА
Вид группового выборочного отбора, при котором территории или зоны (например, переписные районы, участки) выступают в роли первичных выборочных единиц. Генеральная совокупность делится (обычно с использованием карты) на ряд непересекающихся, исчерпывающих ее подмножеств или территорий, после чего формируется случайная выборка этих территорий. Если в обследовании участвуют все семьи, живущие на выделенных территориях, мы имеем дело с одноступенчатой территориальной выборкой; если же обследуются не все, но лишь отобранные из первичной выборки семьи, обследование называется двухступенчатым.
Любой из планов выборочного обследования, обсуждавшихся до сих пор, предполагает наличие списка элементов генеральной совокупности. Список, идентифицирующий каждый элемент генеральной совокупности, делает возможным составление простых случайных, стратифицированных и систематических выборок. Для составления двух последних типов выборок необходимо иметь в распоряжении и иную дополнительную информацию. Очевидно, для многих обследуемых совокупностей составление названных списков либо невозможно, либо связано с существенными затратами. В таких случаях исследователь может прибегнуть к групповой выборке, для составления которой ему достаточно иметь в распоряжении только списки элементов выделенных групп.
Представим, к примеру, что исследователь хочет оценить определенные характеристики торговых агентов, работающих в промышленном секторе: их заработную плату, отношение к работе, отработанное время и т. п. Разумеется, составление подобного списка — если оно вообще возможно — оказалось бы чрезвычайно трудоемким и дорогостоящим делом. Тем не менее, без него становится невозможным и формирование простой случайной выборки. Составления стратифицированной выборки потребовало бы от исследователя знания ряда дополнительных характеристик торговых агентов (например, уровня их образования или возраста), что позволило бы разбить генеральную совокупность на непересекающиеся исчерпывающие ее подмножества. Если же исследователь прибегнет к процедуре группового выборочного отбора, он сможет использовать в качестве единиц выборки отдельные компании. Исследователю необходимо отобрать несколько фирм из исследуемой им совокупности. Эти фирмы станут первичными выборочными единицами, которые могут быть определены как «элементы или наборы элементов, отбираемые на определенном этапе выборочного обследования». После этого исследователь может скомпилировать списки работников выделенных фирм, что представляется вполне осуществимой задачей. Если обследованию подвергаются все работники выделенных фирм, оно именуется одноступенчатым. Если же исследователь делает выборку работников из общего их списка, обследование называется двухступенчатым. В табл. 16.6 приведены кластеры, которые могут использоваться для отбора различных типов элементов генеральной совокупности.
Таблица 16.6
Группы, которые можно использовать при отборе элементов разного рода
|
Элементы генеральной совокупности |
Возможные группы |
|
Выпускники университетов |
Университеты |
|
Учащиеся начальных классов |
Школы |
|
Фирмы в обрабатывающей промышленности |
Округа Районы Предприятия |
|
Авиапассажиры |
Аэропорты Самолеты |
|
Больные в стационарах |
Больницы |
Тот же принцип лежит в основе и территориального выборочного отбора. Составить точные исчерпывающие списки населения практически невозможно. Во многих городах подобные списки попросту отсутствуют; если же они и существуют, то содержат массу устаревшей недостоверной информации: люди постоянно переезжают, рождаются и умирают, заключают и расторгают браки. Несмотря на отсутствие списков семей, мы можем использовать в качестве относительно точных первичных выборочных единиц отдельные городские районы, представленные на карте. Хотя в этом случае и не учитывается ряд более тонких моментов, общая схема построения выборки оказывается достаточно разумной.
Одноступенчатая территориальная выборка. Предположим, исследователь намеревается оценить количество вина, потребляемого средней чикагской семьей (домохозяйством), и связать этот показатель с ее доходом. Точный список всех семей, проживающих в Чикаго, отсутствует. Телефонный справочник устаревает уже к моменту своего издания; помимо прочего, для него характерны недостатки, о которых говорилось выше. Данную проблему можно решать следующим образом:
1. Произвести простой случайный отбор га городских кварталов из совокупности N кварталов.
2. Определить потребление вина и доходы всех семей, живущих в выделенных кварталах, и распространить выборочный показатель на всю совокупность.
Вероятность включения в выборку той или иной семьи может быть оценена как га/ N. поскольку она совпадает с вероятностью включения в выборку соответствующего квартала. Так как вероятности известны, процедура относится к категории вероятностного выборочного отбора. Правда, в этом случае первичными выборочными единицами выступают не семьи, а кварталы. Причина этого замещения очевидна — мы можем составить по карте список всех кварталов города. Каждый квартал может быть идентифицирован, а наличие их существующей совокупности позволяет произвести подсчет нужной вероятности.
Поскольку каждая семья в выделенном квартале включается в выборку, процедура является одноступенчатой. Заметьте, что квартальное разбиение обеспечивает разделение генеральной совокупности на непересекающиеся исчерпывающие ее подмножества. Обратите внимание и на то, что в статистическом смысле кварталы далеки от идеальности: семьи, проживающие в данном квартале, будут тяготеть не к гетерогенности, но к гомогенности как в отношении потребления вина, так и в отношении уровня доходов. С другой стороны, сбор данных в этом случае потребует весьма небольших затрат, поскольку обследуемые семьи окажутся сконцентрированными в пределах выделенного квартала.
Двухступенчатая территориальная выборка. Отличительной особенностью одноступенчатой территориальной выборки является регистрация и обследование всех семей, проживающих в выделенных кварталах (или иных территориальных единицах). Порою же вместо такого сплошного обследования всех элементов выделенной группы проводится только выборочное их обследование. Необходимо различать два типа двухступенчатой территориальной выборки.
1. Простая двухступенчатая территориальная выборка.
2. Территориальная выборка с вероятностями, пропорциональными объему.
ПРОСТАЯ ДВУХСТУПЕНЧАТАЯ ТЕРРИТОРИАЛЬНАЯ ВЫБОРКА
Вид группового выборочного отбора, при котором из каждой первичной выборочной единицы (например, кварталов) отбирается определенная доля элементов выборки второго уровня (например, семей).
ТЕРРИТОРИАЛЬНАЯ КВОТНАЯ ВЫБОРКА Вид группового выборочного отбора, при котором из каждой первичной выборочной единицы отбирается фиксированное количество элементов второго уровня. Вероятности, относящиеся к отбору каждой первичной единицы, могут изменяться, поскольку они напрямую связаны с относительными размерами первичных единиц.
При простой двухступенчатой территориальной выборке из каждой первичной выборочной единицы (например, кварталов) отбирается определенная доля выборочных единиц второго уровня (например, семей). Рассмотрим совокупность, состоящую из 100 кварталов. Предположим, что в каждом квартале живет по 20 семей. Пусть нам необходимо обследовать 80 семей из 2000. Таким образом, выборочная доля равна
![]()
Существует ряд
способов формирования такой выборки,
например: (1) отбор 10 кварталов и 8 семей
в каждом квартале, (2) отбор 8 кварталов
и 10 семей в каждом квартале, (3) отбор 20
кварталов и 4 семей в каждом квартале
или (4) отбор 4 кварталов и 20 семей в каждом
квартале. Последний вариант, очевидно,
будет представлять одноступенчатую
территориальную выборку, в то время как
первые три будут относиться к категории
двухступенчатых. Вероятность, с которой
могут быть отобраны кварталы, будем
называть квартальной
или первоуровневой
выборочной долей.
Она равна отношению
где
и
—
суть количество кварталов в генеральной
совокупности и в выборке соответственно.
Для первых трех случаев первоуровневые
выборочные доли равны, соответственно:
1/10, 1/12,5и 1/5.
Вероятность отбора
семьи будем называть семейной
выборочной долей
или выборочной
долей второго уровня.
Поскольку выборка должна состоять из
80 семей, выборочная доля второго уровня
отличается для каждого из приведенных
выше вариантов. Эта выборочная доля
равна отношению
,
где
N
— суть количество семей на квартал в
выборке и в генеральной совокупности.
Для первой схемы отбора семейная
выборочная доля равна 8/20 =2/5, для второй
— 10/20 = 1/2 и для третьей, соответственно,
4/20 = 1/5. Обратите внимание на то, что
произведение выборочных долей первого
и второго уровней в любом случае равно
общей выборочной доле 1/25.
Какую же схему следует признать оптимальной? Мы не ставим перед собой задачи серьезного рассмотрения этого вопроса и ограничимся лишь изложением общего принципа. Из соображений экономии при сборе данных выборочная доля второго уровня должна быть высокой. Это означает, что из каждого выделенного квартала следует выбирать большое количество семей, как это было во второй схеме. Из соображений статистической эффективности выборочная доля второго уровня должна быть небольшой, поскольку население квартала предположительно является относительно гомогенным и, соответственно, каждый квартал может быть представлен всего несколькими семьями. Таким образом, статистические соображения свидетельствуют в пользу третьей схемы. Вообще говоря, статистическая теория предлагает найти некий разумный компромисс между этими критериями. Существуют специальные формулы, учитывающие как стоимость сбора данных, так и изменчивость характеристик внутри групп и между группами. Примерное количество семей на квартал должно составлять от 3 до 8. При определении большинства социологических характеристик это количество можно считать близким к оптимуму.
Простая двухступенчатая территориальная выборка весьма эффективна, если количество единиц второго уровня (то есть семья) на единицу первого уровня (то есть квартал) сохраняется примерно равным. Если количество единиц второго уровня существенно отличается друг от друга, простая двухступенчатая выборка может приводить к ошибочным оценкам. Вернемся к нашему примеру. В некоторых кварталах могут находиться многоэтажные здания, где проживают семьи с низким доходом. В богатых же кварталах могут находиться всего несколько домов, в каждом из которых будет проживать по одной семье. То есть количество единиц второго уровня на единицу первого уровня здесь оказывается совершенно различным. Порой эта проблема снимается путем комбинирования различных территорий. Если же такая возможность отсутствует, можно прибегнуть к территориальной квотной выборке.
Таблица 16.7
|
Пример территориальной квотной выборки |
||
|
Квартал |
Количество семей |
Суммарное количество семей |
|
1 |
800 |
800 |
|
2 |
400 |
1200 |
|
3 |
200 |
1400 |
|
4 |
200 |
1600 |
|
5 |
100 |
1700 |
|
6 |
100 |
1800 |
|
7 |
100 |
1900 |
|
8 |
50 |
1950 |
|
9 |
25 |
1975 |
|
10 |
25 |
2000 |
Рассмотрим, к примеру, данные табл. 16.7. Пусть нам необходимо отобрать из генеральной совокупности объемом 2000 семей выборку объемом 20 семей. При территориальной квотной выборке от каждой единицы первого уровня отбирается фиксированное количество единиц второго уровня. Пусть после анализа экономических и статистических критериев количество единиц второго уровня на единицу первого уровня было принято равным 10. Для получения выборки нужного объема (20 единиц) необходимо выбрать две единицы первого уровня. Сама процедура получила свое наименование именно по способу отбора этих единиц первого уровня. Вероятность выбора определенного элемента зависит от объема единицы первого уровня. В данном случае можно прибегнуть к таблице четырехзначных случайных чисел. Для выделения двух обследуемых кварталов можно воспользоваться двумя первыми числами от 1 до 2000. Числа от 1 до 800 будут свидетельствовать о выделении 1 квартала; числа от 801 до 1200 — о выделении второго квартала; числа от 1201 до 1400 — о выделении третьего и так далее.
Вероятность того, что в выборку будет включена любая конкретная семья, остается постоянной, поскольку отличия вероятностей отбора элемента первого уровня компенсируются отличиями вероятностей отбора элемента второго уровня. Рассмотрим, к примеру, два полюса — 1-й и 10-й кварталы. Вероятность выделения квартала 1 равна 800/2000 = 1/2,5, поскольку 800 из возможных 2000 значений случайных чисел приходится именно на этот квартал. Кварталу 10 соответствуют только 25 значений случайных чисел (от 1976 до 2000), соответственно выборочная доля первого уровня для 10 квартала равна 25/2000 =1/80. Поскольку из каждого квартала следует выбрать по 10 семей, выборочная доля второго уровня для первого квартала равна 10/800 = 1/80; для 10 квартала — 10/25 = 1/2,5. При перемножении соответствующих вероятностей первого и второго уровней происходит их компенсация
![]()
Подобное соотношение верно и для других кварталов.
Территориальная квотная выборка является еще одной иллюстрацией того, как информация порождает информацию. Вы можете избежать ошибок, которые были бы присущи простой двухступенчатой территориальной выборке, и сделать оценки, точность которых повышается при возрастании изменчивости количества единиц второго уровня на единицу первого уровня. Цена, которую приходится платить за это, — необходимость детального знания об объемах всех единиц первого уровня. На деле цена эта не столь уж велика, ибо Бюро переписей зафиксировало количество семей на квартал для городов с населением свыше 50000, а также для ряда других урбанизированных зон. К каждому отчету приложена соответствующая карта. Хотя эти данные устаревают, квартальную статистику несложно обновить, обратившись в местную службу электроснабжения или на телефонную станцию. Квартальные данные используются при рассмотрении ряда статистик.
