
Вероятностные выборки
Исследователь может определить вероятность включения в вероятностную выборку любого элемента популяции, поскольку отбор ее элементов осуществляется на основе некоего объективного процесса и не зависит от прихотей и пристрастий исследователя или регистратора. Поскольку процедура отбора элементов объективна, исследователь может оценить достоверность полученных результатов, что было невозможно в случае детерминированных выборок, сколь бы тщательным ни был отбор элементов последних.
Не следует думать, что вероятностные выборки всегда репрезентативнее детерминированных. На деле, более репрезентативной может оказаться и детерминированная выборка. Преимущество вероятностных выборок состоит в том, что они позволяют оценить возможную ошибку выборочного обследования. Если же исследователь работает с детерминированной выборкой, он не имеет объективного метода оценки ее адекватности целям исследования.
Простая случайная выборка
Большинство людей так или иначе сталкивается с простыми случайными выборками, либо учась на статистических курсах, либо читая о результатах соответствующих исследований в газетах или журналах. В простой случайной выборке каждый элемент, включаемый в выборку, обладает одной и той же заданной вероятностью попадания в число исследуемых элементов, и любая комбинация элементов исходной популяции может потенциально стать выборкой. Например, если мы захотим составить простую случайную выборку всех студентов, числящихся в определенном колледже, нам достаточно будет составить список всех студентов, присвоить каждой значащейся в нем фамилии свой номер и с помощью компьютера произвести случайный отбор заданного количества элементов.
ГЕНЕРАЛЬНАЯ СОВОКУПНОСТЬ
ГЕНЕРАЛЬНАЯ СОВОКУПНОСТЬ
Совокупность элементов, удовлетворяющих неким заданным условиям; именуется также изучаемой совокупностью.
ПАРАМЕТР
Определенная характеристика или показатель генеральной или изучаемой совокупности.
Генеральной совокупностью или изучаемой совокупностью называется совокупность, из которой производится отбор. Эта совокупность (популяция) может быть описана рядом определенных параметров, являющихся характеристиками генеральной совокупности, каждая из которых представляет собой определенный количественный показатель, отличающий одну совокупность от другой. Представьте, что исследуемой генеральной совокупностью является все взрослое население Цинциннати. Для описания этой совокупности может быть использован ряд параметров:
средний возраст, доля населения с высшим образованием, уровень доходов и так далее. Обратите внимание на то, что все эти показатели имеют определенное значение. Разумеется, мы можем рассчитать их, проведя полную перепись изучаемой совокупности. Обычно же мы опираемся не на ценз, а на отбираемую нами выборку и используем полученные при выборочном наблюдении значения для определения искомых параметров совокупности.
Проиллюстрируем сказанное примером гипотетической совокупности, состоящей из 20 человек, приведенным в табл. 15.1. Работа с небольшой гипотетической совокупностью, подобной этой, имеет ряд преимуществ. Во-первых, небольшой объем выборки дает возможность легко вычислить параметры совокупности, которые могут использоваться для ее описания. Во-вторых, этот объем позволяет понять, что может произойти при принятии того или иного плана выборочного контроля. Обе эти особенности делают простым сравнение результатов выборки с «истинным» и в данном случае известным значением совокупности, чего нельзя сказать о типичной ситуации, при которой действительное значение совокупности неизвестно. Сравнение оценки с «истинным» значением приобретает в этом случае особую наглядность.
Таблица 15.1
Гипотетическая совокупность |
|||||||
Элемент |
Доход (в долларах) |
Образование (лет) |
Подписка на газету |
Элемент |
Доход (в долларах) |
Образование (лет) |
Подписка на газету |
1 А |
5600 |
8 |
X |
11 К |
9600 |
13 |
X |
2 В |
6000 |
9 |
Y |
12 L |
10000 |
13 |
Y |
З С |
6400 |
11 |
X |
13 М |
10400 |
14. |
Х |
4 D |
6800 |
11 |
Y |
14 N |
10800 |
14 |
Y |
5 Е |
7200 |
11 |
X |
15 O |
11200 |
15 |
Х |
6 F |
7600 |
12 |
Y |
16 Р |
11600 |
16 |
Y |
7 G |
8000 |
12 |
X |
17 Q |
12000 |
16 |
Х |
8 Н |
8400 |
12 |
Y |
18 R |
12400 |
17 |
Y |
9 I |
8800 |
12 |
Х |
19 S |
12800 |
18 |
Х |
10. J |
9200 |
12 |
Y |
20 Т |
13200 |
18 |
Y |
Предположим, мы хотим оценить по двум случайно выбранным элементам средний доход лиц, входящих в исходную совокупность. Средний доход будет ее параметром. Для оценки этого среднего значения, обозначаемого нами как , мы должны разделить сумму всех значений на их количество сумма элементов совокупности количество элементов
В
нашем случае вычисления дают
Другим параметром, который может использоваться для описания уровня доходов данной совокупности, будет дисперсия генеральной совокупности, определяющая разброс доходов. Для определения дисперсии генеральной совокупности мы должны вычислить отклонение каждой величины от среднего значения, сложить квадраты всех отклонений и разделить полученную сумму на количество слагаемых. Обозначим σ2 дисперсию генеральной совокупности.
Тогда
ПРОИЗВОДНАЯ СОВОКУПНОСТЬ
ПРОИЗВОДНАЯ СОВОКУПНОСТЬ
Совокупность всех возможных различимых выборок, которые могут быть выделены из генеральной совокупности по заданному плану выборочного контроля.
СТАТИСТИКА
Характеристика или показатель выборки.
Производная совокупность состоит из всех возможных выборок, которые могут быть выделены из генеральной совокупности по заданному плану выборочного контроля. Значение статистики, используемое для оценки определенного параметра, зависит от выборки, определяемой планом. Различные выборки дают различные статистики или оценки одного и того же параметра совокупности.
Рассмотрим производную совокупность всех возможных выборок, которые могут быть выделены из нашей гипотетической генеральной совокупности, состоящей из 20 индивидов, по плану выборочного контроля, предполагающему, что выборка объемом n=2 может быть получена путем случайного бесповторного отбора.
Предположим на время, что данные по каждой единице совокупности — в нашем случае это имя и доход индивида — записываются на диск, после чего диски опускаются в кувшин и перемешиваются. Исследователь извлекает из кувшина один диск, списывает с него информацию и откладывает этот диск в сторону. То же самое он делает и со вторым диском, извлекаемым им или ею из кувшина. Затем исследователь возвращает оба диска в кувшин, перемешивает его содержимое и повторяет ту же последовательность действий. В табл. 15.2 показаны возможные исходы названной процедуры. Для 20 дисков возможны 190 таких парных комбинаций.
Для каждой комбинации можно вычислить среднюю величину дохода. Скажем, для выборки AB (k = 1)
На рис. 15.4 показаны оценка среднего дохода по всей генеральной совокупности и величина ошибки для каждой оценки для выборок k =25, 62, 108, 147 и 189.
Прежде чем приступать к рассмотрению зависимости между выборочным средним доходом (статистикой) и генеральным средним доходом (параметром, требующим оценки), скажем несколько слов о производной совокупности. Во-первых, на практике мы не занимаемся составлением совокупностей такого рода. Это потребовало бы слишком большой траты времени и сил. Практик ограничивается составлением всего одной выборки нужного объема. Исследователь же пользуется концепцией производной совокупности и связанным с ней понятием выборочного распределения при формулировании итоговых выводов. Как — будет показано ниже.
Во-вторых, следует помнить о том, что производная совокупность определяется как совокупность всех возможных различных выборок, которые могут быть выделены из генеральной совокупности по заданному плану выборочного контроля. При изменении любой
Таблица 15.2
Производная совокупность всех возможных выборок объемом n=2 (пар) с простым случайным отбором
|
Выборка |
|
Выборка |
|
Выборка |
|
Выборка |
|||||||
k |
пара |
среднее |
k |
пара |
среднее |
k |
пара |
среднее |
k |
пара |
среднее |
|||
1 |
АВ |
5800 |
51 |
CQ |
9200 |
101 |
GI |
8400 |
151 |
KQ |
10800 |
|||
2 |
АС |
6000 |
52 |
CR |
9400 |
102 |
GJ |
8600 |
152 |
KR |
11000 |
|||
3 |
АD |
6200 |
53 |
CS |
9600 |
103 |
GK |
8800 |
153 |
KS |
11200 |
|||
4 |
АЕ |
6400 |
54 |
CT |
9800 |
104 |
GL |
9000 |
154 |
KT |
11400 |
|||
5 |
АF |
6600 |
55 |
DE |
7000 |
105 |
GM |
9200 |
155 |
LM |
10200 |
|||
6 |
АG |
6800 |
56 |
DF |
7200 |
106 |
GN |
9400 |
156 |
LN |
10400 |
|||
7 |
АН |
7000 |
57 |
DG |
7400 |
107 |
GO |
9600 |
157 |
LO |
10600 |
|||
8 |
АI |
7200 |
58 |
DH |
7600 |
108 |
GP |
9800 |
158 |
LP |
10800 |
|||
9 |
АJ |
7400 |
59 |
DI |
7800 |
109 |
GQ |
10000 |
159 |
LQ |
11000 |
|||
10 |
АК |
7600 |
60 |
DJ |
8000 |
110 |
GR |
10200 |
160 |
LR |
11200 |
|||
11 |
АL |
7800 |
61 |
DK |
8200 |
111 |
GS |
10400 |
161 |
LS |
11400 |
|||
12 |
АМ |
8000 |
62 |
DL |
8400 |
112 |
GT |
10600 |
162 |
LT |
11600 |
|||
13 |
АN |
8200 |
63 |
DM |
8600 |
113 |
HI |
8600 |
163 |
MN |
10600 |
|||
14 |
АО |
8400 |
64 |
DN |
8800 |
114 |
HJ |
8800 |
164 |
MO |
10800 |
|||
15 |
АР |
8600 |
65 |
DO |
9000 |
115 |
HK |
9000 |
165 |
MP |
11000 |
|||
16 |
АQ |
8800 |
66 |
DP |
9200 |
116 |
HL |
9200 |
166 |
MQ |
11200 |
|||
17 |
АR |
9000 |
67 |
DQ |
9400 |
117 |
HM |
9400 |
167 |
MR |
11400 |
|||
18 |
АS |
9200 |
68 |
DR |
9600 |
118 |
HN |
9600 |
168 |
MS |
11600 |
|||
19 |
АТ |
9400 |
69 |
DS |
9800 |
119 |
HO |
9800 |
169 |
MT |
11800 |
|||
20 |
ВС |
6200 |
70 |
DT |
10000 |
120 |
HP |
10000 |
170 |
NO |
11000 |
|||
21 |
ВD |
6400 |
71 |
EF |
7400 |
121 |
HQ |
10200 |
171 |
NP |
11200 |
|||
22 |
ВЕ |
6600 |
72 |
EG |
7600 |
122 |
HR |
10400 |
172 |
NQ |
11400 |
|||
23 |
ВF |
6800 |
73 |
EH |
7800 |
123 |
HS |
10600 |
173 |
NR |
11600 |
|||
24 |
ВG |
7000 |
74 |
EI |
8000 |
124 |
HT |
10800 |
174 |
NS |
11800 |
|||
25 |
ВН |
7200 |
75 |
EJ |
8200 |
125 |
IJ |
9000 |
175 |
NT |
12000 |
|||
26 |
ВI |
7400 |
76 |
EK |
8400 |
126 |
IK |
9200 |
176 |
OP |
11400 |
|||
27 |
ВJ |
7600 |
77 |
EL |
8600 |
127 |
IL |
9400 |
177 |
OQ |
11600 |
|||
28 |
ВК |
7800 |
78 |
EM |
8800 |
128 |
IM |
9600 |
178 |
OR |
11800 |
|||
29 |
ВL |
8000 |
79 |
EN |
9000 |
129 |
IN |
9800 |
179 |
OS |
12000 |
|||
30 |
ВМ |
8200 |
80 |
EO |
9200 |
130 |
IO |
10000 |
180 |
OT |
12200 |
|||
31 |
ВN |
8400 |
81 |
EP |
9400 |
131 |
IP |
10200 |
181 |
PQ |
11800 |
|||
32 |
ВО |
8600 |
82 |
EQ |
9600 |
132 |
IQ |
10400 |
182 |
PR |
12000 |
|||
33 |
ВР |
8800 |
83 |
ER |
9800 |
133 |
IR |
10600 |
183 |
PS |
12200 |
|||
34 |
BQ |
9000 |
84 |
ES |
10000 |
134 |
IS |
10800 |
184 |
PT |
12400 |
|||
35 |
ВR |
9200 |
85 |
ET |
10200 |
135 |
IT |
11000 |
185 |
QR |
12200 |
|||
36 |
ВS |
9400 |
86 |
FG |
7800 |
136 |
JK |
9400 |
186 |
QS |
12400 |
|||
37 |
ВТ |
9600 |
87 |
FH |
8000 |
137' |
JL |
9600 |
187 |
QT |
12600 |
|||
38 |
CD |
6600 |
88 |
FI |
8200 |
138 |
JM |
9800 |
188 |
RS |
12600 |
|||
39 |
СЕ |
6800 |
89 |
FJ |
8400 |
139 |
JN |
10000 |
189 |
RT |
12800 |
|||
40 |
СF |
7000 |
90 |
FK |
8600 |
140 |
JO |
10200 |
190 |
ST |
13000
|
|||
41 |
CG |
7200 |
91 |
FL |
8800 |
141 |
JP |
10400 |
|
|
|
|||
42 |
CH |
7400 |
92 |
FM |
9000 |
142 |
JQ |
10600 |
|
|
|
|||
43 |
CI |
7600 |
93 |
FN |
9200 |
143 |
JR |
10800 |
|
|
|
|||
44 |
CJ |
7800 |
94 |
FO |
9400 |
144 |
JS |
11000 |
|
|
|
|||
45 |
CK |
8000 |
95 |
FP |
9600 |
145 |
JT |
11200 |
|
|
|
|||
46 |
CL |
8200 |
96 |
FQ |
9800 |
146 |
KL |
9800 |
|
|
|
|||
47 |
CM |
8400 |
97 |
FR |
10000 |
147 |
KM |
10000 |
|
|
|
|||
48 |
CN |
8600 |
98 |
FS |
10200 |
148 |
KN |
10200 |
|
|
|
|||
49 |
CO |
8800 |
99 |
FT |
10400 |
149 |
KO |
10400 |
|
|
|
|||
50 |
СР |
9000 |
100 |
GH |
8200 |
150 |
KP |
10600 |
|
|
|
части плана выборочного контроля производная совокупность также изменяется. Так, если при выборе дисков исследователь будет возвращав в кувшин первый из вынимаемых дисков прежде, чем вынуть второй, производная совокупность будет включать выборки АА, ВВ и так далее. Если объем бесповторных выборок будет равен 3, а не 2, появятся выборки типа АВС, причем их будет 1140, а не 190, как это было в предыдущем случае. При изменении простого случайного отбора на любой иной метод определения элементов выборки производная популяция также изменяется.
Следует помнить и о том, что отбор выборки заданного объема из генеральной совокупности равносилен выбору одного элемента (1 из 190 дисков) из производной популяции. Этот факт подлежит многим статистическим выводам.
ВЫБОРОЧНОЕ СРЕДНЕЕ И ГЕНЕРАЛЬНОЕ СРЕДНЕЕ
Вправе ли мы приравнивать выборочное среднее значению истинного среднего генеральной совокупности? В любом случае мы исходим из того, что они взаимосвязаны, иначе мы не смогли бы использовать выборочное значение для оценки значения генерального. Но сколь большой может быть совершаемая нами при этом ошибка?
Давайте сложим все выборочные средние, содержащиеся в табл. 15.2, и разделим полученную сумму на количество выборок, то есть давайте усредним средние. Нами будет получен следующий результат
Он совпадает со средним значением генеральной совокупности. Говорят, что в таком случае мы имеем дело с несмещенной статистикой. Статистика называется несмещенной, если ее среднее значение оказывается равным оцениваемому параметру генеральной совокупности. Заметьте, что речь здесь не идет о некоем частном значении. Частная оценка может быть весьма далека от истинного значения, — возьмите, к примеру, выборки АВ или SТ. В некоторых случаях истинное значение генеральной совокупности может оказаться недостижимым при рассмотрении любой возможной выборки, пусть статистика и будет при этом несмещенной. В нашем случае это не так: целый ряд возможных выборок — например АТ — дает выборочное среднее, равное истинному среднему генеральной совокупности.
Имеет смысл рассмотреть распределение этих выборочных оценок, и в особенности зависимость между этим разбросом оценок и дисперсией уровня доходов в генеральной совокупности. Мы уже видели, что для определения дисперсии значений признака генеральной совокупности необходимо найти отклонение каждого значения от среднего, возвести эти отклонения в квадрат, суммировать квадраты и разделить полученную сумму на количество слагаемых.
Дисперсия среднего значения уровня доходов может быть определена таким же образом. То есть мы можем найти ее, определив отклонения каждого среднего от их общего среднего, суммировав квадраты отклонений и разделив полученную сумму на количество слагаемых.
Мы можем определить дисперсию среднего значения уровня доходов и иным образом, используя для этого дисперсию значений уровня доходов в генеральной совокупности, поскольку между двумя этими величинами существует прямая связь. Если быть точным, в тех случаях, когда выборка представляет лишь малую часть генеральной совокупности, дисперсия выборочного среднего равняется дисперсии генеральной совокупности, поделенной на объем выборки,
где
— дисперсия среднего выборочного
значения уровня доходов,
— дисперсия
уровня доходов в генеральной совокупности,
n
— объем выборки.
ВЫБОРОЧНОЕ РАСПРЕДЕЛЕНИЕ
Распределение значений определенной статистики, исчисленной для всех возможных различимых выборок, которые могут быть выделены из генеральной совокупности по данному плану выборочного контроля.
Теперь сравним распределение результатов с распределением количественного признака в генеральной совокупности. Рис. 15.5 демонстрирует, что распределение количественного признака в генеральной совокупности, показанное на поле А, является многовершинным — каждое из 20 значений появляется только раз — и симметричным относительно истинного среднего генеральной совокупности, равного 9400. Распределение оценок, показанное на поле В, основывается на данных табл. 15.3, которая, в свою очередь, составлялась путем отнесения значений из табл. 15.2 к той или иной группе в зависимости от их величины с последующим подсчетом их количества в группе. Поле В — традиционная гистограмма, рассматриваемая в самом начале изучения курса статистики, которая представляет выборочное распределение статистики. Заметим попутно следующее:
понятие выборочного распределения является наиважнейшим понятием статистики, это краеугольный камень построения статистических выводов. По известному выборочному распределению исследуемой статистики возможно сделать вывод о соответствующем параметре генеральной совокупности. Если же известно только то, что выборочная оценка изменяется от выборки к выборке, но сам характер этого изменения неизвестен, определение ошибки выборочного обследования, связанного с этой оценкой, становится невозможным. Поскольку выборочное распределение оценки описывает ее изменение от выборки к выборке, оно обеспечивает основу для определения достоверности выборочной оценки. Именно по этой причине план вероятностной выборки столь важен для статистического вывода. По известным вероятностям включения в выборку каждого элемента совокупности интервьюеры могут найти выборочное распределение различных статистик. Исследователи опираются именно на эти распределения — будь это выборочное среднее, доля выборки, выборочная дисперсия или какая-то иная статистика — при распространении результата выборочного наблюдения на генеральную совокупность. Заметьте также, что для выборок с объемом 2 распределение выборочных средних является одновершинным и симметричным относительно истинного среднего.
Итак, мы показали, что:
1. Среднее значение всех возможных выборочных средних равно генеральному среднему.
2. Дисперсия выборочных средних определенным образом связана с генеральной дисперсией.
3. Распределение выборочных средних является одновершинным, в то время как распределение значений количественного признака в генеральной совокупности является многовершинным.
ЦЕНТРАЛЬНАЯ ПРЕДЕЛЬНАЯ ТЕОРЕМА
Теорема,
говорящая о том, что для простых случайных
выборок объемом n,
выделенных из генеральной совокупности
с генеральным средним
и дисперсией
,
при больших n
распределение выборочного среднего х
приближается к нормальному с центром,
равным ,
и с дисперсией
/n.
Точность названного приближения
возрастает с возрастанием n.
Центральная
предельная теорема.
Одновершинное распределение оценок
может рассматриваться как проявление
центральной
предельной теоремы,
утверждающей, что для простых случайных
выборок объемом n,
выделенных из генеральной совокупности
с истинным средним
и дисперсией
,
для больших n
распределение
выборочных средних
приближается к нормальному с центром,
равным истинному среднему, и дисперсией,
равной отношению дисперсии генеральной
совокупности к объему выборки, то есть
Приближение это становится все более точным по мере роста n. Помните об этом. Вне зависимости от вида генеральной совокупности распределение выборочных средних будет нормальным для выборок достаточно большого объема. Что же следует понимать под достаточно большим объемом? Если распределение значений количественного признака генеральной совокупности является нормальным, тогда нормальным будет и распределение выборочных средних для выборок объемом n=1. Если распределение переменной (количественного признака) симметрично, но ненормально, выборки весьма малого объема дадут нормальное распределение выборочных средних. Если же распределение количественного признака генеральной совокупности имеет выраженную асимметрию, возникает потребность в выборках большего объема.
И все-таки, распределение выборочного среднего может быть принято нормальным только в тех случаях, когда мы имеем дело с выборкой достаточного объема. Для того чтобы строить заключения, используя нормальную кривую, вовсе не обязательно исходить из условия нормальности распределения значении количественного признака генеральной совокупности. Мы, скорее, опираемся на центральную предельную теорему и в зависимости от популяционного распределения определяем такой объем выборки, который позволял бы работать с нормальной кривой. К счастью, нормальное распределение статистики обеспечивается выборками сравнительно небольшого объема.
Таблица 15.3
Классификация оценок по размеру
Выборочное среднее (в долларах) |
Количество выборок |
6000 или менее |
2 |
От 6100 до 6600 |
7 |
От 6700 до 7200 |
11 |
От 7300 до 7800 |
16 |
От 7900 до 8400 |
20 |
От 8500 до 9000 |
25 |
От 9100 до 9600 |
28 |
От 9700 до 10 200 |
25 |
От 10 300 до 10800 |
20 |
От 10 900 до 11 400 |
16 |
От 11 500 до 12 000 |
11 |
От 12 100 до 12600 |
7 |
От 12 700 и выше |
2 |
Оценки доверительного интервала. Может ли сказанное выше помочь нам при принятии определенных заключений о генеральном среднем? Ведь на практике мы производим отбор только одной, а не всех возможных выборок заданного объема и на основе полученных данных делаем определенные заключения, касающиеся целевой группы. Как же это происходит?
Как известно, при
нормальном распределении некий процент
всех наблюдений имеет определенное
среднеквадратическое (или стандартное)
отклонение; скажем, 95% наблюдений
укладывается в
.
Нормальное распределение выборочных
средних, к которому может быть приложена
центральная предельная теорема, в этом
смысле не является исключением. Среднее
такого выборочного распределения равно
генеральному среднему ,
а его среднеквадратическое отклонение
носит название среднеквадратической
ошибки среднего
.
Оказывается, что
• 68,26 % выборочных
средних отклоняются от генерального
среднего не более чем на
• 95,45 % выборочных
средних отклоняются от генерального
среднего не более чем на
• 99,73 % выборочных
средних отклоняются от генерального
среднего не более чем на
то есть, определенная
доля выборочных средних в зависимости
от выбранной величины z
будет заключена в интервале
,
определяемом величиной г. Это выражение
может быть переписано в виде неравенства
или
(15.1)
тем самым выборочное среднее с определенной вероятностью находится в интервале, границами которого являются сумма и разность среднего значения распределения и некоего числа среднеквадратических отклонений. Это неравенство может быть преобразовано к виду
(15.2)
Если соотношение 15.1 соблюдается, например, в 95% случаев (z = 1,96), то в 95% случаев соблюдается и соотношение 15.2. В тех случаях, когда заключение основывается на единичном выборочном среднем, мы используем выражение 15.2.
Важно помнить, что выражение 15.2 не говорит о том, что интервал, соответствующий данной выборке, непременно должен включать в себя генеральное среднее. Интервал имеет отношение скорее к процедуре отбора. Интервал, выстроенный вокруг единичного среднего, может включать и может не включать в себя истинное среднее совокупности. Наша уверенность в правильности сделанных заключений основывается на том, что 95% всех интервалов, построенных нами по избранному плану выборочного обследования, будет содержать истинное среднее. Мы полагаем, что наша выборка относится именно к этим 95%.
Для того чтобы проиллюстрировать это важное положение, представим на миг, что распределение выборочных средних для выборок с объемом n=2 в нашем гипотетическом примере было нормальным. Табл. 15.4 наглядно иллюстрирует исход для первых 10 из возможных 190 выборок, которые могут быть отобраны по заданному плану. Заметьте, что только 7 из 10 интервалов включают генеральное или истинное среднее. Уверенность в правильности заключения обусловлена не некоей частной оценкой, но именно процедурой оценки. Процедура же эта такова, что для 100 выборок, для которых будут исчислены выборочное среднее и доверительный интервал, в 95 случаях интервал этот будет включать истинное генеральное значение. Точность данной выборки определяется процедурой, посредством которой осуществлялось формирование выборки. Репрезентативный план выборочного обследования не гарантирует репрезентативности всех выборок. Процедуры статистического вывода основываются на репрезентативности плана выборочного наблюдения, именно поэтому для вероятностных выборок эта процедура столь критична. Вероятностные выборки позволяют оценивать точность результатов как близость производимых оценок истинному значению. Чем больше среднеквадратическая ошибка статистики, тем выше степень разброса оценок и тем ниже точность процедуры.
Кого-то может смутить то обстоятельство, что доверительный уровень имеет отношение к процедуре, а не к частному выборочному значению, однако следует помнить, что величина доверительного уровня оценки генерального значения может регулироваться исследователем. Если вы не хотите рисковать и боитесь, что один из пяти выбранных вами из ста выборочных интервалов может не включать в себя генеральное значение, вы можете избрать вариант 99% доверительного интервала, при котором лишь один из ста выборочных интервалов не включает генеральное среднее. Далее, если вы сможете увеличить объем выборки, вы увеличите степень достоверности результата, обеспечивая нужную точность оценки генерального значения. Более подробно мы будем говорить об этом в главе 17.
Описываемая нами
процедура имеет еще одну составляющую,
которая может вызывать известное
смущение. При оценке доверительного
интервала используются три величины:
х, z
и
Выборочное среднее
вычисляется поданным выборки, z
выбирается исходя из потребного
доверительного уровня. Но как же быть
со среднеквадратической ошибкой среднего
?
Она равна
=σ/
, и потому для ее определения нам
необходимо задаться среднеквадратическим
отклонением количественного признака
генеральной совокупности, то есть σ.
Что же делать в тех случаях, когда
среднеквадратическое отклонение σ
неизвестно? Такая проблема не возникает
по двум причинам. Во-первых, обычно для
большинства количественных признаков,
используемых в маркетинговых исследованиях,
вариация изменяется куда медленнее
уровня. Соответственно, если исследование
проводится повторно, мы можем использовать
при расчетах прежнее значение ст.
Во-вторых, коль скоро сформирована
выборка и получены данные, мы можем
оценить дисперсию генеральной
совокупности, определив выборочную
дисперсию. Дисперсия несмещенной выборки
ŝ2
определяется как
Для определения
выборочной дисперсии мы прежде всего
должны найти выборочное среднее. Затем
находятся разности между каждым из
значений выборки и выборочным средним;
эти разности возводятся в квадрат,
суммируются и делятся на число, равное
количеству выборочных наблюдений минус
единица. Выборочная дисперсия не только
обеспечивает оценку генеральной
дисперсии, но может использоваться и
для оценки среднеквадратической ошибки
среднего. Когда генеральная дисперсия
σ 2
известна, известна также и среднеквадратическая
ошибка
,поскольку
=
σ/
.
Когда же генеральная дисперсия неизвестна,
среднеквадратическая ошибка среднего
может лишь оцениваться. Оценка эта
задается
,
которая равна среднеквадратическому
отклонению выборки, поделенному на
квадратный корень из объема выборки,
то есть ŝ/
.
Оценка определяется аналогично тому,
как определялось истинное значение, но
вместо генерального среднеквадратического
отклонения в расчетную формулу
подставляется среднеквадратическое
отклонение выборки. Так, скажем, для
выборки АВ с выборочным средним 5800
Верхний предел
Таблица 15.4
Доверительные интервалы для первых десяти выборок для случая
нормального распределения выборочных средних.
Доверительный интервал |
|||||
Номер выборки |
Пара |
Среднее |
Нижний предел |
Верхний предел |
= 9400 (вертикаль) |
1 |
AB |
5800 |
2689 |
8911 |
|
2 |
AC |
6000 |
2889 |
9111 |
|
3 |
AD |
6200 |
3089 |
9311 |
|
4 |
AE |
6400 |
3289 |
9511 |
|
5 |
AF |
6600 |
3489 |
9711 |
|
6 |
AG |
6800 |
3689 |
9911 |
|
7 |
AH |
7000 |
3889 |
10111 |
|
8 |
AI |
7200 |
4089 |
10311 |
|
9 |
AJ |
7400 |
4289 |
10511 |
|
10 |
AK |
7600 |
4489 |
10711 |
|
Соответственно,
ŝ = 283, а
,
и 95 % интервал теперь
что меньше прежнего значения.
В табл. 15.5 сведены расчетные формулы для различных средних и дисперсий, о которых говорилось в настоящей главе.
Формирование простои случайной выборки. В нашем примере отбор элементов выборки осуществлялся с помощью кувшина, в котором находились все элементы исходной совокупности. Это позволило нам наглядно представить понятия производной совокупности и выборочного распределения. Применять же подобный метод на практике мы не рекомендуем, ибо при этом повышается вероятность ошибки. Диски могут отличаться и размерами, и фактурой, что в известных случаях может приводить к предпочтению одних дисков другим. Отбор участников вьетнамской кампании, осуществлявшийся при помощи лотереи, может служить примером ошибки подобного рода. Отбор осуществлялся путем вытягивания дисков с датами рождения из большого барабана. Телевидение транслировало эту процедуру на всю страну. К несчастью, диски загружались в барабан систематическим образом: первыми шли январские, последними — декабрьские даты. Хотя барабан и подвергался интенсивному раскручиванию, декабрьские даты выпадали куда чаще январских. Впоследствии процедура эта была пересмотрена таким образом, что вероятность подобных систематических ошибок была существенно снижена.
Предпочтительный метод формирования простой случайной выборки основан на использовании таблицы случайных чисел. Использование такой таблицы предполагает следующую последовательность шагов. Во-первых, элементам генеральной совокупности должны быть присвоены последовательные номера от 1 до N; в нашей гипотетической совокупности элементу А будет присвоен номер 1, элементу В — номер 2 и так далее. Во-вторых, количество разрядов таблицы случайных чисел должно быть таким же, как у номера N. Для N = 20 будут использоваться двузначные числа; для N между 100 и 999 — трехзначные числа и так далее. В-третьих, начальная позиция должна определяться случайным образом. Мы можем раскрыть соответствующую таблицу случайных чисел и, закрыв глаза, что называется, ткнуть в нее пальцем. Поскольку числа в таблице случайных чисел следуют в случайном порядке, начальная позиция не имеет особого значения. И наконец, мы можем двигаться в любом произвольно выбранном направлении — вверх, вниз или поперек — отбирая те элементы, номера которых будут соответствовать случайным числам из таблицы.
Таблица 15.5
Символы и формулы определения средних и дисперсий для простых случайных выборок
|
среднее |
дисперсия |
Популяция |
|
|
Выборка |
|
|
Производная совокупность выборочных средств |
Среднее значение = неизвестному генеральному среднему |
|
Возможна и альтернативная стратегия, при которой в качестве основы для отбора будет использована компьютерная программа, генерирующая случайные числа. Хотя появившиеся в последнее время публикации свидетельствуют о том, что числа, генерированные подобными программами, не вполне случайны, что может определенным образом проявляться при построении сложных математических моделей, их возможно использовать для большинства прикладных маркетинговых исследований.
Заметим еще раз, что простая случайная выборка требует составления последовательного нумерованного списка элементов генеральной совокупности. Иными словами, каждый член исходной совокупности должен быть идентифицирован. Для некоторых совокупностей сделать это не составляет труда, например при исследовании 500 крупнейших американских корпораций, список которых приведен в журнале Fortune. Список этот уже составлен, поэтому формирование простой случайной выборки в данном случат не составит труда. Для иных же исходных совокупностей (например, для всех семей, живущих в определенном городе) составление общего списка крайне затруднительно, что понуждает исследователей прибегать к иным схемам выборочного обследования.
Резюме
УЧЕБНАЯ ЦЕЛЬ 1
Ясно различать понятия ценза и выборки. Полная перепись совокупности (популяции) называется цензом. Выборка — часть совокупности, сформированная из отобранных элементов.
УЧЕБНАЯ ЦЕЛЬ 2
Знать сущность и последовательность шести этапов, реализуемых исследователями для получения выборочной совокупности.
Процесс формирования выборки делится на шесть этапов: (1) задание популяции, (2) определение основы выборки, (3) выбор процедуры отбора, (4) определение объема выборки, (5) отбор элементов выборки и (6) обследование отобранных элементов.
УЧЕБНАЯ ЦЕЛЬ 3 Определять основу выборки. Основа выборки — перечень элементов, из которых будет производиться выборка.
УЧЕБНАЯ ЦЕЛЬ 4
Объяснять, в чем состоит отличие вероятностной и детерминированной выборки.
В вероятностную выборку каждый член совокупности может включаться с некой заданной ненулевой вероятностью. Вероятности включения в выборку тех или иных членов совокупности могут отличаться друг от друга, но вероятность включения в нее каждого элемента известна.
Для детерминированных выборок оценка вероятности включения любого элемента в выборку становится невозможной. Гарантировать репрезентативность такой выборки нельзя. Все детерминированные выборки основаны, скорее, на частной позиции, суждении или предпочтении. Подобные предпочтения порой могут давать хорошие оценки характеристик совокупности, однако не существует способа объективного определения соответствия выборки поставленной задаче.
УЧЕБНАЯ ЦЕЛЬ 5
Различать выборку фиксированного объема и последовательные выборки.
При работе с выборками фиксированного объема объем выборки определяется до начала обследования и анализу результатов предшествует сбор всех потребных данных. В последовательной выборке количество отбираемых элементов заранее неизвестно, оно
определяется на основании серии последовательных решений.
УЧЕБНАЯ ЦЕЛЬ 6
Объяснить, что представляет собой преднамеренная выборка, и описать как сильные, так и слабые ее стороны.
Элементы преднамеренной выборки отбираются вручную, они представляются исследователю отвечающими целям обследования. Предполагается, что отбираемые элементы могут дать полноценное представление об изучаемой популяции.
Пока исследователь находится на начальных этапах проработки проблемы, когда определяются перспективы и возможные ограничения планируемого обследования, использование преднамеренной выборки может быть очень эффективным. Но ни в коем случае нельзя забывать о слабых сторонах выборки этого типа, поскольку она же может быть использована исследователем и при описательных или при каузальных
исследованиях, что не замедлит сказаться на качестве их результатов.
УЧЕБНАЯ ЦЕЛЬ 7
Определять пропорциональную выборку. Пропорциональная выборка отбирается таким образом, что доля элементов выборки, обладающих определенными характеристиками, примерно соответствует доле таких же элементов в обследуемой популяции; для этого каждому счетчику задается квота, определяющая характеристики населения, с которым он или она должны контактировать.
УЧЕБНАЯ ЦЕЛЬ 8
Объяснить, чем является параметр в процедуре выборочного контроля.
Параметр — определенная характеристика или показатель генеральной или изучаемой совокупности;
определенный количественный показатель, отличающий одну совокупность от другой.
УЧЕБНАЯ ЦЕЛЬ 9
Объяснить, что такое производная совокупность. Производная совокупность состоит из всех возможных выборок, которые могут быть выделены из генеральной совокупности по заданному плану выборочного контроля.
УЧЕБНАЯ ЦЕЛЬ 10
Объяснить, почему понятие выборочного распределения является важнейшим понятием статистики.
Понятие выборочного распределения — это краеугольный камень построения статистических выводов. По известному выборочному распределению исследуемой статистики возможно сделать вывод о соответствующем параметре генеральной совокупности. Если же известно только то, что выборочная оценка изменяется от выборки к выборке, но сам характер этого изменения неизвестен, определение ошибки выборочного обследования, связанного с этой оценкой, становится невозможным. Поскольку выборочное распределение оценки описывает ее изменение от выборки к выборке, оно обеспечивает основу для определения достоверности выборочной оценки.