
- •Глава I
- •Глава II ошибки репрезентативности
- •Глава III случайная выборка
- •Глава IV районированная выборка*
- •Глава V многоступенчатая выборка
- •Метод типичных единиц в многоступенчатой выборке
- •Глава VI неслучайные методы отбора
- •Основные принципы квотного отбора
- •Глава VII формирование объекта исследования
- •Глава VIII
- •Причины смещения результатов почтового опроса
- •Глава IX проблемы многофазной выборки
- •6 И более 4
Метод типичных единиц в многоступенчатой выборке
Социолог чаще всего при отборе гнезд на этих ступенях прибегает к приемам, которые условно можно назвать методом типичных единиц.
Типичные единицы представляют собой объекты, которые могут представлять страты исходя из экспертных оценок по нескольким или даже многим показателям1.
Указанный подход был использован Ю. В. Арутюняном на первой ступени осуществленного им выборочного обследования сельского населения европейской части РСФСР. Из совокупности областей и краев, находящихся в этой части страны, им были отобраны в качестве типических Московская и Калининская области. Краснодарский край и Татарская АССР. Выбор именно этих регионов обосновывался близостью их половозрастной структуры к соответствующим показателям сельского населения европейской части РСФСР [9; 340—341]. Социологи библиотеки им. В. И. Ленина из общего числа небольших городов РСФСР избрали в качестве типичного объекта г. Острогожск Воронежской области. По численности населения в трудоспособном возрасте, доле учащихся и по некоторым другим показателям Острогожск оказался близким к среднему небольшому городу [86].
Метод типичных единиц был использован при выборке основной 'базы в некоторых других исследованиях:
выбор г. Пскова как типичного города в исследованиях бюджета свободного времени, Таганрога — как базы исследования процесса функционирования общественного мнения [170; 55—56], Калининской области — для изучения правосознания населения [155; 19—20].
В упомянутых выше исследованиях типичные единицы выбирались на первых ступенях отбора и представляли собой те или иные территориальные общности (об-
4 Метод типичных единиц сближается, а в определенных условиях и отождествляется с монографическим обследованием. Одновременно этот метод близок неслучайной выборке, в частности квотному отбору и методу доступных единиц [328].
94
ласть или город), на следующих ступенях отбор других единиц осуществлялся в соответствии с принципами случайной выборки.
Вместе с тем проведено значительное число исследований, в которых в качестве типичных единиц выступали не только территориальные общности, но и отдельные предприятия и учреждения (или их отдельные подразделения: цеха и отделы и т.д.). Так, Л. А. Гордон и Э. В. Клопов в каждом из 7 выбранных ими городов избрали в качестве базы исследования по одному предприятию. Далее на каждом предприятии был избран типичный цех и только затем из списков рабочих цеха механическим путем отбирались лица для опроса. В исследовании «Человек и его работа» в качестве типичных единиц выступали предприятия Ленинграда.
Метод типичных единиц с определенных позиций уступает обычной вероятностной выборке, так как лишает исследователя права определять ошибки репрезентативности и доверительные интервалы своих показателей и строго распространять результаты обследования на генеральную совокупность.
Однако в тех ситуациях, когда социолог вынужден ограничиться отбором в качестве баз исследования несколькими объектами, экспертный отбор этих объектов может быть предпочтительнее случайной выборки. Более того, использование современных методов математической статистики (таксономия, факторный анализ, многомерное шкалирование) открывает перспективы совершенствования формальных методов отбора типичных (или «центральных» в своем таксоне) объектов и ограничения деятельности экспертов лишь предварительной стадией анализа. В то же время, в каком бы соотношении не находились применительно к конкретным условиям исследования случайный и неслучайный отбор гнезд из выделенных страт, социолог должен ясно осознавать (сейчас он делает это очень редко) цену, которую он платит за отказ от случайных процедур.
Признавая, что метод типичных единиц на первых ступенях отбора может быть целесообразным, нельзя в то же время одобрить практику, при которой применение этого метода сочетается с отказом от пропорционального представительства выделенных страт. Между тем в очень многих исследованиях, в которых в качестве страт исполь-
95
зуются отрасли и географические зоны, «типичные» предприятия, вузы, школы отбираются из соответствующих страт методом непропорционального отбора, без всякого учета размеров страт (отраслей, регионов), дисперсий и других характеристик. В результате уже на первой ступени отбора возникает своеобразный «коктейль», представляющий причудливые сочетания гнезд разного характера.
Например, если взять за 100% все обследования 1970—1973 гг., в которых на одной из ступеней отбора в качестве гнезд использовались предприятия, то окажется, что предприятия тяжелой промышленности отбирались в 29% случаев совместно с предприятиями легкой промышленности, в 7% — с предприятиями пищевой промышленности, в 6% — с предприятиями сферы обслуживания, в 7% — со строительными и транспортными организациями, в 5% — даже с колхозами и совхозами. Более того, в 7% всех обследований в выборку были включены вместе предприятия тяжелой, легкой и пищевой промышленности, в 6% к этим предприятиям были присоединены предприятия сферы обслуживания и в 5% — строительные организации.
Если бы социолог, отбирая предприятия различных отраслей народного хозяйства, учитывал бы «вес» этих отраслей и при этом распространял полученные результаты только на совокупность всех предприятий этих же отраслей, то тогда формирование выборки из различных предприятий не вызывало бы возражений. Однако именно эти операции при обработке и анализе результатов чаще всего не осуществляются. Не лучше обстоят дела при отборе территориальной единицы. Типичен следующий пример. В одном из исследований жизненных планов молодежи выводы без всякого обоснования опираются на выборку из 19 школ Москвы и Московской области, Вологды и Вологодской области, Хабаровска и Приморского края, Кисловодска и Ставропольского края, поселка Чаква Аджарской АССР [68; 73]. Авторы этого исследования, как и многие другие, считают, что главное— обеспечить представительство в выборке различных страт, а соотношение этих страт является второстепенным фактором1.
4 В качестве других примеров укажем на следующие работы:
[12], [65], [78], [79], [123], [129], [199], [209].
96
Следует заметить, что и в исследованиях за рубежом жесткая реализация требований случайной выборки на первых ступенях отбора стала практиковаться сравнительно недавно. До середины XX в. отбор таких гнезд, как регионы и населенные пункты, осуществлялись экспертным путем 1.
Использование многоступенчатого отбора несет с собой много выгод организатору выборочного исследования. Главная из них — это возможность провести опрос или другой вид обследования в сравнительно небольшом числе населенных пунктов, предприятий, вузов и т. д. Это позволяет обойтись относительно небольшим штатом интервьюеров и, в частности, использовать лиц, работающих на общественных началах или по совместительству. Резко сокращаются затраты на оплату транспорта и командировочные. Немалую роль играет и возможность обойтись без составления громоздких списков единиц обследования.
Организационные преимущества гнездового подхода так велики, что не приходится удивляться тому, что он используется столь широко. Однако социолог, прибегая к гнездовому методу, должен идти на немалые издержки. Дело в том, что многие «естественные» гнезда по своей природе тяготеют к однородности. Очевидно, что школьная или студенческая группа в дневном вузе, как правило, является однородной по возрасту. Среди жителей массивов, построенных предприятиями, велик удельный вес лиц, работающих в одной и той же отрасли народного хозяйства2. А это обстоятельство иногда обесценивает материалы выборочного обследования.
Социолог, опросивший много человек, работающих в одном и том же научно-исследовательском институте и высказавших примерно одинаковые взгляды, из-за того,
2 Эти факты толкают исследователя на отказ от использования «естественных» гнезд в пользу «искусственно» создаваемых гнезд, для которых можно обеспечить высокую дисперсию. Однако эта операция, как правило, является весьма дорогостоящей, и на практике к ней прибегают очень редко [306; 109].
что он «разместил» свою выборку в этом институте и исчерпал свои ресурсы, не мог уже получить сведения о взглядах ученых, работающих в других организациях. Поэтому объем выборки в такой ситуации уже не является таким мерилом репрезентативности исследования, как при проведении собственно-случайного отбора. Иначе говоря, при использовании гнездового подхода уже нельзя пользоваться формулой
картинка
Ошибки выборки при одноступенчатом гнездовом отборе
Вычисление ошибки репрезентативности при использовании гнезд рассмотрим прежде всего для ситуации, когда применяется одноступенчатый гнездовой отбор. В статистической литературе он нередко называется «серийным» [52; 62]. При проектировании такого выборочного обследования составляется список гнезд, например предприятий, вузов, жилых помещений, между которыми распределены все единицы исследования. В отобранных гнездах изучаются все единицы исследования.
Именно такой характер носило выборочное обследование, которое было осуществлено ЦСУ СССР во время переписи 1970 г. по дополнительной к бланку переписи программе, состоящей из 11 вопросов. В выборку было включено 25% всех жилых помещений, в которых опрашивались все проживающие там люди [92; 35—39].
При определении ошибки выборки следует исходить из того, что в качестве отдельной единицы наблюдения выступает, скажем, не рабочий или студент, а предприятие или вуз. И поэтому в знаменатель формулы ошибки случайной выборки (а гнездовая выборка является случайной) приходится включать не общее число опрошенных, а то число предприятий или вузов, где проходил опрос. Очевидно, что первая величина, как правило, намного больше второй, вследствие чего и ошибка гнездового отбора должна, как правило, превосходить ошибку чисто случайного отбора 1.
картинка
же к другим гнездовым средним, чем характеристики отдельных единиц. Это и дает возможность с помощью уменьшения межгрупповой дисперсии в известной мере компенсировать снижение объема выборки, принимаемой в расчет при определении ошибки.
Степень этой компенсации зависит от структуры гнезда: чем она разнообразнее, чем больше в ней разброс признака, тем гнездовая средняя будет ближе к указанным выше величинам, тем будет меньше межгрупповая дисперсия.
Коэффициент внутригнездовой корреляции
Ключевым показателем в гнездовом подходе становится индикатор однородности гнезда, так называемая внутригнездовая корреляция. Этот показатель измеряет близость единиц одного и того же гнезда друг другу. Его исчисление сводится к сравнению каждой единицы гнезда с другой единицей. В качестве непосредственного измерителя близости выступают произведения отклонений индивидуальных значений признака от гнездовой сред-
картинка
только пространственных гнезд, о которых шла речь выше (область, город, предприятие, семья и т. д.), но и временных гнезд. Здесь, в частности, имеются в виду гнезда, возникающие во время опроса одних и тех же единиц в течение определенного периода времени, например в течение 2—3 дней. Так как деятельность людей в отдельные дни взаимозависима (если человек не приобрел, скажем, мяса в понедельник, то вероятность покупки во вторник сильно возрастает), то из-за высокой внутригнездовой корреляции полученная информация частично обесценивается. Потому предлагается в таких случаях уменьшать число дней опроса каждого респондента, но зато увеличивать объем выборки [27; 23].
Сравнение случайной и гнездовой одноступенчатой выборок
Выше отмечалось, что увеличение неоднородности гнезда способствует приближению гнездовой средней к генеральной средней и уменьшению межгнездовой дисперсии. Это компенсирует резкое уменьшение знаменателя в формуле ошибки для случайной выборки. Однако эта компенсация не может быть полной, и случайный отбор при том же объеме конечных единиц дает часто существенно более точные результаты, чем отбор гнездовой.
Поэтому использование формулы для исчисления случайной ошибки выборки к ситуациям, в которых применяется гнездо, является вещью недозволенной. К сожалению, специфика гнездовой выборки очень часто игнорируется многими исследователями1.
Можно утверждать, что проблема гнезда является наименее разработанной в советской социологии из всех вопросов выборки, и поэтому пробелы знаний социолога-практика именно здесь наиболее велики2.
картинка
ку случайной выборки при том же объеме обследования конечных единиц.
Если q равно 1, т. е. внутригнездовая корреляция достигла максимума, эффект гнезда равен М, т. е. величине гнезда. Это происходит от того, что увеличение гнезда в условиях полной идентичности единиц не прибавляет никакой новой информации исследователю, и, по существу, изучение всех единиц гнезда, кроме одной, является полной потерей, и произведенные затраты никак не могут сказаться на величине ошибки.
Если же коэффициент внутригнездовой корреляции равен 0 и элементы гнезда не похожи друг на друга, то эффект гнезда равен 1. В этих условиях применение обоих типов отбора дает одинаковую ошибку.
Прикладная социология, в том числе и отечественная, накопила известный опыт по изучению структуры гнезд и определению в связи с этим эффекта гнезда. Наиболее заметным в этом отношении является исследование, осуществленное А. Г. Волковым [38; 109—112].
При обработке материалов пробной переписи населения он изучил структуру 3 типов гнезд — семей, квартир и счетных участков переписи — по 7 признакам. Вот некоторые из полученных А. Г. Волковым результатов.
Приведенные данные показывают прежде всего, что с переходом от мелких гнезд к крупным коэффициент корреляции заметно снижается.
Кроме того, установлено, что с увеличением общности признака коэффициент растет. Так, коэффициент для семей по признаку «работники промышленности» довольно высокий (0,4 Ь). Он свидетельствует о достаточно большой вероятности того, что если муж работает в промышленности, то и жена трудится там же. Если же взять отдельные занятия, то коэффициент резко снизится, например для инженера он равен всего 0,07, станочника — 0,04 и т. д. На основе сведений о коэффициенте внутригнез-
103
довой корреляции А. Г. Волков определил степень возрастания ошибки выборки для отдельных признаков.
Аналогичные исследования на болгарских материалах провела М. Динева [106; 104—120]. Данные М. Диневой вновь подтвердили отмеченное выше положение об обратной зависимости между размером гнезда и величиной внутригнездовой корреляции.
М. Динева также подсчитала степень снижения точности выборки из-за применения гнезд. Так, если число лиц, отобранных в гнезде, составляет 20, то (применительно к населенному пункту) степень точности снижается в 1,5 раза1.
Ошибка многоступенчатой выборки
Одноступенчатая гнездовая выборка применяется намного реже, чем многоступенчатая. А для последней ошибка выборки еще более отличается от ошибки, возникающей при чисто случайном отборе.
Рассмотрим теперь определение ошибки выборки при многоступенчатом отборе. Этот отбор предполагает, что на всех ступенях (кроме последней) для изучения отбирается только часть гнезда (от). Что касается последней ступени, то отбор сможет распространяться на все единицы гнезда и на часть из них.
Величина ошибки для двухступенчатого и отбора с любым числом ступеней определяется исходя из тех же соображений, согласно которым ошибка случайной выборки может быть расчленена на две компоненты, из которых одна компонента характеризует влияние межгруп-повой дисперсии, вторая — внутригрупповой (без учета проблемы смещенности
картинка
Учитывая чрезвычайную распространенность многоступенчатой гнездовой выборки, можно было бы ожидать, что социолог, если он уже и решился на вычисление ошибок репрезентативности, будет чаще всего прибегать к формуле, позволяющей определить ошибку именно этой выборки. Однако, как правило, дело обстоит иначе, и сплошь и рядом исследователь, применяющий многоступенчатый отбор, исчисляет ошибку чисто случайной выборки.
Применительно к зарубежным исследованиям на это обстоятельство обратили внимание Л. Киш и Э. Шойх. Первый еще в середине 50-х годов проанализировал отчеты тех исследований, которые были опубликованы в годовом комплекте «American Sociological Review». Только в 12—19% случаев ошибки выборки были исчислены правильно [220]. Примерно через 10 лет этот вопрос изучил и Э. Шойх, который пришел к выводу, что ошибки для многоступенчатого отбора исчисляются крайне редко и с большой неточностью [333; 328]1.
Ошибка для многоступенчатой выборки почти не исчисляется и советскими социологами2. Вместо нее нередко определяется ошибка выборки по отношению к совокупности отобранных предприятий, а не к генеральной совокупности.
Именно так поступают авторы книги «Человек и его работа». Они подсчитали ошибки репрезентативности по отношению к совокупности 9 предприятий, на которых обследовалось 70% всех рабочих, попавших в выборку. Оставляя в стороне последнее обстоятельство, заметим, что исчисленные ими ошибки (и это понимали сами авторы) не характеризовали репрезентативность полученных данных к совокупности всех молодых рабочих Ленинграда, которые и были определены в качестве объекта исследования [195; 56—63].
Ленинградские авторы отказались от оценки репре-зентативности выборки по отношению к своему объекту не случайно. Дело в том, что, применяя двухступенчатую выборку, они не применяли случайный отбор на первой ступени, заменив его отбором предприятий на основе экспертных оценок.
Точно так же поступают Л. А. Гордон и Э. В. Клопов в своей книге «Человек после работы» [48; 20—21].
Каковы причины столь редкого вычисления ошибок многоступенчатой выборки? Они отнюдь не сводятся лишь к тому, что социологи-практики имеют об этом способе выборки менее глубокие знания, чем о чисто случайной выборке. Немалую роль играет отсутствие необходимой информации о дисперсии на разных ступенях выборки, а также недостаточная взаимная требовательность социологов друг к другу при оценке уровня репрезентативности показателей.
Очевидна важность серьезного сдвига в этом важном вопросе, активного рассмотрения проблемы гнезда в социологических исследованиях.
Размер гнезда и организация выборки
При применении многоступенчатого отбора возникает чрезвычайно важная проблема учета размера гнезда. Социологическая практика, как правило, оперирует неравными гнездами, так как они в их естественном виде чаще всего как раз и являются таковыми.
Использование неравных гнезд приводит к усложнению статистического анализа, так как в этих условиях
106
ошибки выборки попадают в зависимость не только от колебаний изучаемого признака, но и от разброса величины гнезд.
Размер гнезда является одной из важнейших проблем многоступенчатой выборки по двум причинам. Во-первых, в условиях дифференциации гнезд по размерам необходимо предпринимать специальные операции для сохранения принципов случайной выборки *. Принцип равенства шансов нарушается в тех случаях, когда из не одинаковых по размеру гнезд делается выборка равного объема.
Во-вторых, вопрос о размере гнезда имеет первостепенное значение для организации сбора информации, в частности, для определения величины необходимых затрат на исследование.
Рассмотрим вначале первый аспект проблемы.
Для обеспечения равенства шансов всем единицам совокупности попасть в выборку независимо от размера гнезда можно использовать прием, предполагающий составление списка гнезд с указанием объема каждого гнезда, а также числа всех единиц генеральной совокупности нарастающим итогом. Определив интервал отбора единиц совокупности, исследователь получает возможность выделить гнезда для выборки, причем так, что крупные гнезда (например, предприятия) будут иметь больше шансов попасть в выборки, чем мелкие.
Благодаря этому обстоятельству все единицы совокупности (например, рабочие) независимо от того, являются ли они работниками крупных или мелких предприятий, получают одинаковые шансы оказаться в поле зрения исследователя. Именно этот путь избран авторами методики многоступенчатого районированного отбора, применяемого в выборочных обследованиях ЦСУ СССР.
Как правило, на первой ступени составляются отраслевые списки предприятий и учреждений, обычно в масштабе области или республики. В пределах каждого отраслевого списка предприятия или учреждения располагаются в виде ранжированного ряда в соответствии с одним из избранных критериев (например, средней заработной платой или средней денежной оценкой человеко-дня работы).
В стратифицированном подобным образом списке по каждому предприятию или учреждению указывается численность его работников, а также общая численность работников нарастающим итогом (пропущены условные данные)
Обычно принято считать, что на каждом предприятии следует изучать 20—25 человек (или семей). После того как определяется общий объем выборки, можно установить число предприятий, отбираемых на первой ступени в качестве гнезд.
Если, например, объем выборки для приведенного выше примера составил 100 человек, а объем выборки из гнезда принят равным 20, то число указанных гнезд составит 5. Затем определяется интервал отбора путем деления общего числа всех работников на число предприятий, включаемых в выборку. В нашем примере этот интервал будет равен: 6400/5=1280. Далее, используя значение размера интервала, 'выделяются 'предприятия, где будет происходить отбор самих работников.
В описываемом примере работник под № 1280 (исходя из численности работников нарастающим итогом) находится на предприятии № 3, работник под № 2560 — на предприятии № 5, работник под № 3840 находится также в этом предприятии и т. д. На этих предприятиях и необ-
108
ходимо проводить обследование1. Очевидно, что на предприятии № 5 следует отобрать для выборки не 20, а 40 работников.
Для отбора работников по каждому предприятию, попавшему в выборку, вновь составляются списки, где работники стратифицируются по одному из критериев (например, по квалификации, уровню доходов и т. д.). Из этих списков отбор производится механическим путем.
Можно использовать несколько другую технику отбора. Она предполагает, что наименьшее по размеру гнездо берется за единицу и все остальные гнезда характеризуются числом соответствующих единиц. В нашем примере за единицу измерения естественно принять предприятие с числом рабочих, равным 100. Тогда данные о предприятиях примут следующий вид.(пропущены данные)
Теперь с помощью таблицы случайных чисел выберем несколько двузначных чисел (в зависимости от числа гнезд, включаемых в выборку). Пусть из таблицы оказались извлеченными 25 и 54. Первое число означает, что в выборку попадает предприятие № 5, и второе — № 9. Очевидно, что чем больше интервал в третьем ряду между соседними предприятиями (а этот интервал пропорционален размеру гнезда, находящемуся в каждой паре справа), тем вероятнее, что в выборку попадет то предприятие, размер которого характеризует интервал. Известны модификации этой техники отбора, в частности, разработанные Д. Лахири2.
4 В обследованиях ЦСУ СССР в подобных случаях рекомендуется рассматривать в качестве первой единицы, включаемой в выборку, ту единицу, которая находится в середине интервала, в данном
случае под № 640.
2 Возможна и другая стратегия в условиях сильного колебания размеров гнезд. Она предполагает меняющуюся норму отбора единиц из гнезда. Вначале следует сгруппировать гнезда по размеру и определить удельный вес каждой группы гнезд. Этот показатель необходим для того, чтобы установить, как распределяется общее число отбираемых гнезд между гнездами разного размера. Затем можно подсчитать объем выборки из гнезд различного размера в соответствии с равенством Р=Р<-Ро-, где Р—доля выборки в генеральной совокупности, Pi—удельный вес гнезд данного типа, Рц—доля выборки из гнезда.
109
При проектировании многоступенчатого исследования его организатор обладает значительной свободой действий в определении того, какими гнездами он намерен оперировать — крупными или мелкими; отбирать большое число гнезд с небольшой нормой отбора из каждого гнезда или же ориентироваться на включение в выборку небольшого числа гнезд с высокой нормой отбора.
Рассмотрим первый аспект проблемы. Крупные гнезда, как отмечалось выше, имеют более высокую дисперсию и потому, при прочих равных условиях, имеют преимущества над мелкими. К тому же использование крупных гнезд сопровождается меньшими транспортными расходами и затратами времени, чем выделение мелких гнезд, Однако применение крупных гнезд требует чаще всего выделения внутри гнезд новых стадий отбора, что усложняет проведение исследования и увеличивает общую ошибку выборки за счет ошибок, возникающих на новых ступенях. Еще более важным является то обстоятельство, что мелкие гнезда можно разместить на более обширной территории и учесть в большой мере специфику различных регионов.
Организатору исследования приходится на основе конкретной информации .взвешивать все приведенные плюсы и минусы и принимать решение, пользуясь чаще всего эвристическими соображениями.
В лучшем положении он находится при решении второй задачи — определить число гнезд и норму отбора из каждого гнезда1. Очевидно, что поиск оптимального соотношения числа гнезд и объема выборки из гнезда при-
1 Специальную проблему составляют экстремальные гнезда по сравнению с размерами большинства гнезд: очень большие и очень маленькие.
Необходимые гнезда иногда состоят из труднодоступных единиц. Во всесоюзных исследованиях, например, в качестве отдельной страты выделяются районы Крайнего Севера, каждый из которых является относительно труднодоступным гнездом (большое расстояние от центра исследования, а также расстояния, отделяющие отдельные населенные пункты друг от друга, сложные климатические условия и т. д.). Стоимость опроса отдельных респондентов в этих районах может быть настолько высокой, что иногда приходится идти на отказ от пропорционального представительства этих гнезд и соответствующей страты в выборке. В ряде случаев, когда число небольших гнезд относительно велико, возникает целесообразность их объединения и в формировании нового промежуточного объекта исследования, из которого уже непосредственно происходит отбор единиц наблюдения.
110
картинка
Эффективное использование многоступенчатой гнездовой районированной выборки — самой распространенной разновидности выборочного обследования в социологии — требует решения множества проблем. Огромное влияние оказывают цели исследования, выделяемые ресурсы, сроки представления результатов. Нужны еще немалые усилия для того, чтобы при проектировании выборки все аспекты этого вида выборки максимально учитывались.
111