Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
52
Добавлен:
01.05.2014
Размер:
526.85 Кб
Скачать

Вероятностные выборки

Исследователь может определить вероятность включения в вероятностную выборку любого элемента популяции, поскольку отбор ее элементов осуществляется на основе некоего объективного процесса и не зависит от прихотей и пристрастий исследователя или регистратора. Поскольку процедура отбора элементов объективна, исследователь может оценить достоверность полученных результатов, что было невозможно в случае детерминированных выборок, сколь бы тщательным ни был отбор элементов последних.

Не следует думать, что вероятностные выборки всегда репрезентативнее детерминированных. На деле, более репрезентативной может оказаться и детерминированная выборка. Преимущество вероятностных выборок состоит в том, что они позволяют оценить возможную ошибку выборочного обследования. Если же исследователь работает с детерминированной выборкой, он не имеет объективного метода оценки ее адекватности целям исследования.

Простая случайная выборка

Большинство людей так или иначе сталкивается с простыми случайными выборками, либо учась на статистических курсах, либо читая о результатах соответствующих исследований в газетах или журналах. В простой случайной выборке каждый элемент, включаемый в выборку, обладает одной и той же заданной вероятностью попадания в число исследуемых элементов, и любая комбинация элементов исходной популяции может потенциально стать выборкой. Например, если мы захотим составить простую случайную выборку всех студентов, числящихся в определенном колледже, нам достаточно будет составить список всех студентов, присвоить каждой значащейся в нем фамилии свой номер и с помощью компьютера произвести случайный отбор заданного количества элементов.

ГЕНЕРАЛЬНАЯ СОВОКУПНОСТЬ

ГЕНЕРАЛЬНАЯ СОВОКУПНОСТЬ

Совокупность элементов, удовлетворяющих неким заданным условиям; именуется также изучаемой совокупностью.

ПАРАМЕТР

Определенная характеристика или показатель генеральной или изучаемой совокупности.

Генеральной совокупностью или изучаемой совокупностью называется совокупность, из которой производится отбор. Эта совокупность (популяция) может быть описана рядом определенных параметров, являющихся характеристиками генеральной совокупности, каждая из которых представляет собой определенный количественный показатель, отличающий одну совокупность от другой. Представьте, что исследуемой генеральной совокупностью является все взрослое население Цинциннати. Для описания этой совокупности может быть использован ряд параметров:

средний возраст, доля населения с высшим образованием, уровень доходов и так далее. Обратите внимание на то, что все эти показатели имеют определенное значение. Разумеется, мы можем рассчитать их, проведя полную перепись изучаемой совокупности. Обычно же мы опираемся не на ценз, а на отбираемую нами выборку и используем полученные при выборочном наблюдении значения для определения искомых параметров совокупности.

Проиллюстрируем сказанное примером гипотетической совокупности, состоящей из 20 человек, приведенным в табл. 15.1. Работа с небольшой гипотетической совокупностью, подобной этой, имеет ряд преимуществ. Во-первых, небольшой объем выборки дает возможность легко вычислить параметры совокупности, которые могут использоваться для ее описания. Во-вторых, этот объем позволяет понять, что может произойти при принятии того или иного плана выборочного контроля. Обе эти особенности делают простым сравнение результатов выборки с «истинным» и в данном случае известным значением совокупности, чего нельзя сказать о типичной ситуации, при которой действительное значение совокупности неизвестно. Сравнение оценки с «истинным» значением приобретает в этом случае особую наглядность.

Таблица 15.1

Гипотетическая совокупность

Элемент

Доход (в долларах)

Образование (лет)

Подписка на газету

Элемент

Доход (в долларах)

Образование

(лет)

Подписка на газету

1 А

5600

8

X

11 К

9600

13

X

2 В

6000

9

Y

12 L

10000

13

Y

З С

6400

11

X

13 М

10400

14.

Х

4 D

6800

11

Y

14 N

10800

14

Y

5 Е

7200

11

X

15 O

11200

15

Х

6 F

7600

12

Y

16 Р

11600

16

Y

7 G

8000

12

X

17 Q

12000

16

Х

8 Н

8400

12

Y

18 R

12400

17

Y

9 I

8800

12

Х

19 S

12800

18

Х

10. J

9200

12

Y

20 Т

13200

18

Y

Предположим, мы хотим оценить по двум случайно выбранным элементам средний доход лиц, входящих в исходную совокупность. Средний доход будет ее параметром. Для оценки этого среднего значения, обозначаемого нами как , мы должны разделить сумму всех значений на их количество сумма элементов совокупности количество элементов

В нашем случае вычисления дают

Другим параметром, который может использоваться для описания уровня доходов данной совокупности, будет дисперсия генеральной совокупности, определяющая разброс доходов. Для определения дисперсии генеральной совокупности мы должны вычислить отклонение каждой величины от среднего значения, сложить квадраты всех отклонений и разделить полученную сумму на количество слагаемых. Обозначим σ2 дисперсию генеральной совокупности.

Тогда

ПРОИЗВОДНАЯ СОВОКУПНОСТЬ

ПРОИЗВОДНАЯ СОВОКУПНОСТЬ

Совокупность всех возможных различимых выборок, которые могут быть выделены из генеральной совокупности по заданному плану выборочного контроля.

СТАТИСТИКА

Характеристика или показатель выборки.

Производная совокупность состоит из всех возможных выборок, которые могут быть выделены из генеральной совокупности по заданному плану выборочного контроля. Значение статистики, используемое для оценки определенного параметра, зависит от выборки, определяемой планом. Различные выборки дают различные статистики или оценки одного и того же параметра совокупности.

Рассмотрим производную совокупность всех возможных выборок, которые могут быть выделены из нашей гипотетической генеральной совокупности, состоящей из 20 индивидов, по плану выборочного контроля, предполагающему, что выборка объемом n=2 может быть получена путем случайного бесповторного отбора.

Предположим на время, что данные по каждой единице совокупности — в нашем случае это имя и доход индивида — записываются на диск, после чего диски опускаются в кувшин и перемешиваются. Исследователь извлекает из кувшина один диск, списывает с него информацию и откладывает этот диск в сторону. То же самое он делает и со вторым диском, извлекаемым им или ею из кувшина. Затем исследователь возвращает оба диска в кувшин, перемешивает его содержимое и повторяет ту же последовательность действий. В табл. 15.2 показаны возможные исходы названной процедуры. Для 20 дисков возможны 190 таких парных комбинаций.

Для каждой комбинации можно вычислить среднюю величину дохода. Скажем, для выборки AB (k = 1)

На рис. 15.4 показаны оценка среднего дохода по всей генеральной совокупности и величина ошибки для каждой оценки для выборок k =25, 62, 108, 147 и 189.

Прежде чем приступать к рассмотрению зависимости между выборочным средним доходом (статистикой) и генеральным средним доходом (параметром, требующим оценки), скажем несколько слов о производной совокупности. Во-первых, на практике мы не занимаемся составлением совокупностей такого рода. Это потребовало бы слишком большой траты времени и сил. Практик ограничивается составлением всего одной выборки нужного объема. Исследователь же пользуется концепцией производной совокупности и связанным с ней понятием выборочного распределения при формулировании итоговых выводов. Как — будет показано ниже.

Во-вторых, следует помнить о том, что производная совокупность определяется как совокупность всех возможных различных выборок, которые могут быть выделены из генеральной совокупности по заданному плану выборочного контроля. При изменении любой

Таблица 15.2

Производная совокупность всех возможных выборок объемом n=2 (пар) с простым случайным отбором

Выборка

Выборка

Выборка

Выборка

k

пара

среднее

k

пара

среднее

k

пара

среднее

k

пара

среднее

1

АВ

5800

51

CQ

9200

101

GI

8400

151

KQ

10800

2

АС

6000

52

CR

9400

102

GJ

8600

152

KR

11000

3

АD

6200

53

CS

9600

103

GK

8800

153

KS

11200

4

АЕ

6400

54

CT

9800

104

GL

9000

154

KT

11400

5

АF

6600

55

DE

7000

105

GM

9200

155

LM

10200

6

АG

6800

56

DF

7200

106

GN

9400

156

LN

10400

7

АН

7000

57

DG

7400

107

GO

9600

157

LO

10600

8

АI

7200

58

DH

7600

108

GP

9800

158

LP

10800

9

АJ

7400

59

DI

7800

109

GQ

10000

159

LQ

11000

10

АК

7600

60

DJ

8000

110

GR

10200

160

LR

11200

11

АL

7800

61

DK

8200

111

GS

10400

161

LS

11400

12

АМ

8000

62

DL

8400

112

GT

10600

162

LT

11600

13

АN

8200

63

DM

8600

113

HI

8600

163

MN

10600

14

АО

8400

64

DN

8800

114

HJ

8800

164

MO

10800

15

АР

8600

65

DO

9000

115

HK

9000

165

MP

11000

16

АQ

8800

66

DP

9200

116

HL

9200

166

MQ

11200

17

АR

9000

67

DQ

9400

117

HM

9400

167

MR

11400

18

АS

9200

68

DR

9600

118

HN

9600

168

MS

11600

19

АТ

9400

69

DS

9800

119

HO

9800

169

MT

11800

20

ВС

6200

70

DT

10000

120

HP

10000

170

NO

11000

21

ВD

6400

71

EF

7400

121

HQ

10200

171

NP

11200

22

ВЕ

6600

72

EG

7600

122

HR

10400

172

NQ

11400

23

ВF

6800

73

EH

7800

123

HS

10600

173

NR

11600

24

ВG

7000

74

EI

8000

124

HT

10800

174

NS

11800

25

ВН

7200

75

EJ

8200

125

IJ

9000

175

NT

12000

26

ВI

7400

76

EK

8400

126

IK

9200

176

OP

11400

27

ВJ

7600

77

EL

8600

127

IL

9400

177

OQ

11600

28

ВК

7800

78

EM

8800

128

IM

9600

178

OR

11800

29

ВL

8000

79

EN

9000

129

IN

9800

179

OS

12000

30

ВМ

8200

80

EO

9200

130

IO

10000

180

OT

12200

31

ВN

8400

81

EP

9400

131

IP

10200

181

PQ

11800

32

ВО

8600

82

EQ

9600

132

IQ

10400

182

PR

12000

33

ВР

8800

83

ER

9800

133

IR

10600

183

PS

12200

34

BQ

9000

84

ES

10000

134

IS

10800

184

PT

12400

35

ВR

9200

85

ET

10200

135

IT

11000

185

QR

12200

36

ВS

9400

86

FG

7800

136

JK

9400

186

QS

12400

37

ВТ

9600

87

FH

8000

137'

JL

9600

187

QT

12600

38

CD

6600

88

FI

8200

138

JM

9800

188

RS

12600

39

СЕ

6800

89

FJ

8400

139

JN

10000

189

RT

12800

40

СF

7000

90

FK

8600

140

JO

10200

190

ST

13000

41

CG

7200

91

FL

8800

141

JP

10400

42

CH

7400

92

FM

9000

142

JQ

10600

43

CI

7600

93

FN

9200

143

JR

10800

44

CJ

7800

94

FO

9400

144

JS

11000

45

CK

8000

95

FP

9600

145

JT

11200

46

CL

8200

96

FQ

9800

146

KL

9800

47

CM

8400

97

FR

10000

147

KM

10000

48

CN

8600

98

FS

10200

148

KN

10200

49

CO

8800

99

FT

10400

149

KO

10400

50

СР

9000

100

GH

8200

150

KP

10600

части плана выборочного контроля производная совокупность также изменяется. Так, если при выборе дисков исследователь будет возвращав в кувшин первый из вынимаемых дисков прежде, чем вынуть второй, производная совокупность будет включать выборки АА, ВВ и так далее. Если объем бесповторных выборок будет равен 3, а не 2, появятся выборки типа АВС, причем их будет 1140, а не 190, как это было в предыдущем случае. При изменении простого случайного отбора на любой иной метод определения элементов выборки производная популяция также изменяется.

Следует помнить и о том, что отбор выборки заданного объема из генеральной совокупности равносилен выбору одного элемента (1 из 190 дисков) из производной популяции. Этот факт подлежит многим статистическим выводам.

ВЫБОРОЧНОЕ СРЕДНЕЕ И ГЕНЕРАЛЬНОЕ СРЕДНЕЕ

Вправе ли мы приравнивать выборочное среднее значению истинного среднего генеральной совокупности? В любом случае мы исходим из того, что они взаимосвязаны, иначе мы не смогли бы использовать выборочное значение для оценки значения генерального. Но сколь большой может быть совершаемая нами при этом ошибка?

Давайте сложим все выборочные средние, содержащиеся в табл. 15.2, и разделим полученную сумму на количество выборок, то есть давайте усредним средние. Нами будет получен следующий результат

Он совпадает со средним значением генеральной совокупности. Говорят, что в таком случае мы имеем дело с несмещенной статистикой. Статистика называется несмещенной, если ее среднее значение оказывается равным оцениваемому параметру генеральной совокупности. Заметьте, что речь здесь не идет о некоем частном значении. Частная оценка может быть весьма далека от истинного значения, — возьмите, к примеру, выборки АВ или SТ. В некоторых случаях истинное значение генеральной совокупности может оказаться недостижимым при рассмотрении любой возможной выборки, пусть статистика и будет при этом несмещенной. В нашем случае это не так: целый ряд возможных выборок — например АТ — дает выборочное среднее, равное истинному среднему генеральной совокупности.

Имеет смысл рассмотреть распределение этих выборочных оценок, и в особенности зависимость между этим разбросом оценок и дисперсией уровня доходов в генеральной совокупности. Мы уже видели, что для определения дисперсии значений признака генеральной совокупности необходимо найти отклонение каждого значения от среднего, возвести эти отклонения в квадрат, суммировать квадраты и разделить полученную сумму на количество слагаемых.

Дисперсия среднего значения уровня доходов может быть определена таким же образом. То есть мы можем найти ее, определив отклонения каждого среднего от их общего среднего, суммировав квадраты отклонений и разделив полученную сумму на количество слагаемых.

Мы можем определить дисперсию среднего значения уровня доходов и иным образом, используя для этого дисперсию значений уровня доходов в генеральной совокупности, поскольку между двумя этими ве­личинами существует прямая связь. Если быть точным, в тех случаях, когда выборка представляет лишь малую часть генеральной совокупности, дисперсия выборочного среднего равняется дисперсии генеральной совокупности, поделенной на объем выборки,

где — дисперсия среднего выборочного значения уровня доходов, дисперсия уровня доходов в генеральной совокупности, n — объем выборки.

ВЫБОРОЧНОЕ РАСПРЕДЕЛЕНИЕ

Распределение значений определенной статистики, исчисленной для всех возможных различимых выборок, которые могут быть выделены из генеральной совокупности по данному плану выборочного контроля.

Теперь сравним распределение результатов с распределением количественного признака в генеральной совокупности. Рис. 15.5 демонстрирует, что распределение количественного признака в генеральной совокупности, показанное на поле А, является многовершинным — каждое из 20 значений появляется только раз — и симметричным относительно истинного среднего генеральной совокупности, равного 9400. Распределение оценок, показанное на поле В, основывается на данных табл. 15.3, которая, в свою очередь, составлялась путем отнесения значений из табл. 15.2 к той или иной группе в зависимости от их величины с последующим подсчетом их количества в группе. Поле В — традиционная гистограмма, рассматриваемая в самом начале изучения курса статистики, которая представляет выборочное распределение статистики. Заметим попутно следующее:

понятие выборочного распределения является наиважнейшим понятием статистики, это краеугольный камень построения статистических выводов. По известному выборочному распределению исследуемой статистики возможно сделать вывод о соответствующем параметре генеральной совокупности. Если же известно только то, что выборочная оценка изменяется от выборки к выборке, но сам характер этого изменения неизвестен, определение ошибки выборочного обследования, связанного с этой оценкой, становится невозможным. Поскольку выборочное распределение оценки описывает ее изменение от выборки к выборке, оно обеспечивает основу для определения достоверности выборочной оценки. Именно по этой причине план вероятностной выборки столь важен для статистического вывода. По известным вероятностям включения в выборку каждого элемента совокупности интервьюеры могут найти выборочное распределение различных статистик. Исследователи опираются именно на эти распределения — будь это выборочное среднее, доля выборки, выборочная дисперсия или какая-то иная статистика — при распространении результата выборочного наблюдения на генеральную совокупность. Заметьте также, что для выборок с объемом 2 распределение выборочных средних является одновершинным и симметричным относительно истинного среднего.

Итак, мы показали, что:

1. Среднее значение всех возможных выборочных средних равно генеральному среднему.

2. Дисперсия выборочных средних определенным образом связана с генеральной дисперсией.

3. Распределение выборочных средних является одновершинным, в то время как распределение значений количественного признака в генеральной совокупности является многовершинным.

ЦЕНТРАЛЬНАЯ ПРЕДЕЛЬНАЯ ТЕОРЕМА

Теорема, говорящая о том, что для простых случайных выборок объемом n, выделенных из генеральной совокупности с генеральным средним и дисперсией , при больших n распределение выборочного среднего х приближается к нормальному с центром, равным , и с дисперсией /n. Точность названного приближения возрастает с возрастанием n.

Центральная предельная теорема. Одновершинное распределение оценок может рассматриваться как проявление центральной предельной теоремы, утверждающей, что для простых случайных выборок объемом n, выделенных из генеральной совокупности с истинным средним  и дисперсией , для больших n распределение выборочных средних приближается к нормальному с центром, равным истинному среднему, и дисперсией, равной отношению дисперсии генеральной совокупности к объему выборки, то есть

Приближение это становится все более точным по мере роста n. Помните об этом. Вне зависимости от вида генеральной совокупности распределение выборочных средних будет нормальным для выборок достаточно большого объема. Что же следует понимать под достаточно большим объемом? Если распределение значений количественного признака генеральной совокупности является нормальным, тогда нормальным будет и распределение выборочных средних для выборок объемом n=1. Если распределение переменной (количественного признака) симметрично, но ненормально, выборки весьма малого объема дадут нормальное распределение выборочных средних. Если же распределение количественного признака генеральной совокупности имеет выраженную асимметрию, возникает потребность в выборках большего объема.

И все-таки, распределение выборочного среднего может быть принято нормальным только в тех случаях, когда мы имеем дело с выборкой достаточного объема. Для того чтобы строить заключения, используя нормальную кривую, вовсе не обязательно исходить из условия нормальности распределения значении количественного признака генеральной совокупности. Мы, скорее, опираемся на центральную предельную теорему и в зависимости от популяционного распределения определяем такой объем выборки, который позволял бы работать с нормальной кривой. К счастью, нормальное распределение статистики обеспечивается выборками сравнительно небольшого объема.

Таблица 15.3

Классификация оценок по размеру

Выборочное среднее (в долларах)

Количество выборок

6000 или менее

2

От 6100 до 6600

7

От 6700 до 7200

11

От 7300 до 7800

16

От 7900 до 8400

20

От 8500 до 9000

25

От 9100 до 9600

28

От 9700 до 10 200

25

От 10 300 до 10800

20

От 10 900 до 11 400

16

От 11 500 до 12 000

11

От 12 100 до 12600

7

От 12 700 и выше

2

Оценки доверительного интервала. Может ли сказанное выше помочь нам при принятии определенных заключений о генеральном среднем? Ведь на практике мы производим отбор только одной, а не всех возможных выборок заданного объема и на основе полученных данных делаем определенные заключения, касающиеся целевой группы. Как же это происходит?

Как известно, при нормальном распределении некий процент всех наблюдений имеет определенное среднеквадратическое (или стандартное) отклонение; скажем, 95% наблюдений укладывается в . Нормальное распределение выборочных средних, к которому может быть приложена центральная предельная теорема, в этом смысле не является исключением. Среднее такого выборочного распределения равно генеральному среднему , а его среднеквадратическое отклонение носит название среднеквадратической ошибки среднего . Оказывается, что

• 68,26 % выборочных средних отклоняются от генерального среднего не более чем на

• 95,45 % выборочных средних отклоняются от генерального среднего не более чем на

• 99,73 % выборочных средних отклоняются от генерального среднего не более чем на

то есть, определенная доля выборочных средних в зависимости от выбранной величины z будет заключена в интервале , определяемом величиной г. Это выражение может быть переписано в виде неравенства

или

(15.1)

тем самым выборочное среднее с определенной вероятностью находится в интервале, границами которого являются сумма и разность среднего значения распределения и некоего числа среднеквадратических отклонений. Это неравенство может быть преобразовано к виду

(15.2)

Если соотношение 15.1 соблюдается, например, в 95% случаев (z = 1,96), то в 95% случаев соблюдается и соотношение 15.2. В тех случаях, когда заключение основывается на единичном выборочном среднем, мы используем выражение 15.2.

Важно помнить, что выражение 15.2 не говорит о том, что интервал, соответствующий данной выборке, непременно должен включать в себя генеральное среднее. Интервал имеет отношение скорее к процедуре отбора. Интервал, выстроенный вокруг единичного среднего, может включать и может не включать в себя истинное среднее совокупности. Наша уверенность в правильности сделанных заключений основывается на том, что 95% всех интервалов, построенных нами по избранному плану выборочного обследования, будет содержать истинное среднее. Мы полагаем, что наша выборка относится именно к этим 95%.

Для того чтобы проиллюстрировать это важное положение, представим на миг, что распределение выборочных средних для выборок с объемом n=2 в нашем гипотетическом примере было нормальным. Табл. 15.4 наглядно иллюстрирует исход для первых 10 из возможных 190 выборок, которые могут быть отобраны по заданному плану. Заметьте, что только 7 из 10 интервалов включают генеральное или истинное среднее. Уверенность в правильности заключения обусловлена не некоей частной оценкой, но именно процедурой оценки. Процедура же эта такова, что для 100 выборок, для которых будут исчислены выборочное среднее и доверительный интервал, в 95 случаях интервал этот будет включать истинное генеральное значение. Точность данной выборки определяется процедурой, посредством которой осуществлялось формирование выборки. Репрезентативный план выборочного обследования не гарантирует репрезентативности всех выборок. Процедуры статистического вывода основываются на репрезентативности плана выборочного наблюдения, именно поэтому для вероятностных выборок эта процедура столь критична. Вероятностные выборки позволяют оценивать точность результатов как близость производимых оценок истинному значению. Чем больше среднеквадратическая ошибка статистики, тем выше степень разброса оценок и тем ниже точность процедуры.

Кого-то может смутить то обстоятельство, что доверительный уровень имеет отношение к процедуре, а не к частному выборочному значению, однако следует помнить, что величина доверительного уровня оценки генерального значения может регулироваться иссле­дователем. Если вы не хотите рисковать и боитесь, что один из пяти выбранных вами из ста выборочных интервалов может не включать в себя генеральное значение, вы можете избрать вариант 99% доверительного интервала, при котором лишь один из ста выборочных интервалов не включает генеральное среднее. Далее, если вы сможете увеличить объем выборки, вы увеличите степень достоверности результата, обеспечивая нужную точность оценки генерального значения. Более подробно мы будем говорить об этом в главе 17.

Описываемая нами процедура имеет еще одну составляющую, которая может вызывать известное смущение. При оценке доверительного интервала используются три величины: х, z и Выборочное среднее вычисляется поданным выборки, z выбирается исходя из потребного доверительного уровня. Но как же быть со среднеквадратической ошибкой среднего ? Она равна =σ/ , и потому для ее определения нам необходимо задаться среднеквадратическим отклонением количественного признака генеральной совокупности, то есть σ. Что же делать в тех случаях, когда среднеквадратическое отклонение σ неизвестно? Такая проблема не возникает по двум причинам. Во-первых, обычно для большинства количественных признаков, используемых в маркетинговых исследованиях, вариация изменяется куда медленнее уровня. Соответственно, если исследование проводится повторно, мы можем использовать при расчетах прежнее значение ст. Во-вторых, коль скоро сформирована выборка и получены данные, мы можем оценить дисперсию генеральной совокупности, определив выборочную дисперсию. Дисперсия несмещенной выборки ŝ2 определяется как

Для определения выборочной дисперсии мы прежде всего должны найти выборочное среднее. Затем находятся разности между каждым из значений выборки и выборочным средним; эти разности возводятся в квадрат, суммируются и делятся на число, равное количеству выборочных наблюдений минус единица. Выборочная дисперсия не только обеспечивает оценку генеральной дисперсии, но может использоваться и для оценки среднеквадратической ошибки среднего. Когда генеральная дисперсия σ 2 известна, известна также и среднеквадратическая ошибка ,поскольку = σ/. Когда же генеральная дисперсия неизвестна, среднеквадратическая ошибка среднего может лишь оцениваться. Оценка эта задается , которая равна среднеквадратическому отклонению выборки, поделенному на квадратный корень из объема выборки, то есть ŝ/. Оценка определяется аналогично тому, как определялось истинное значение, но вместо генерального среднеквадратического отклонения в расчетную формулу подставляется среднеквадратическое отклонение выборки. Так, скажем, для выборки АВ с выборочным средним 5800 Верхний предел

Таблица 15.4

Доверительные интервалы для первых десяти выборок для случая

нормального распределения выборочных средних.

Доверительный интервал

Номер выборки

Пара

Среднее

Нижний предел

Верхний предел

 = 9400 (вертикаль)

1

AB

5800

2689

8911

2

AC

6000

2889

9111

3

AD

6200

3089

9311

4

AE

6400

3289

9511

5

AF

6600

3489

9711

6

AG

6800

3689

9911

7

AH

7000

3889

10111

8

AI

7200

4089

10311

9

AJ

7400

4289

10511

10

AK

7600

4489

10711

Соответственно, ŝ = 283, а , и 95 % интервал теперь

что меньше прежнего значения.

В табл. 15.5 сведены расчетные формулы для различных средних и дисперсий, о которых говорилось в настоящей главе.

Формирование простои случайной выборки. В нашем примере отбор элементов выборки осуществлялся с помощью кувшина, в котором находились все элементы исходной совокупности. Это позволило нам нагляд­но представить понятия производной совокупности и выборочного распределения. Применять же подобный метод на практике мы не рекомендуем, ибо при этом повышается вероятность ошибки. Диски могут отличаться и размерами, и фактурой, что в известных случаях может приводить к предпочтению одних дисков другим. Отбор участников вьетнамской кампании, осуществлявшийся при помощи лотереи, может служить примером ошибки подобного рода. Отбор осуществлялся путем вытягивания дисков с датами рождения из большого барабана. Телевидение транслировало эту процедуру на всю страну. К несчастью, диски загружались в барабан систематическим образом: первыми шли январские, последними — декабрьские даты. Хотя барабан и подвергался интенсивному раскручиванию, декабрьские даты выпадали куда чаще январских. Впоследствии процедура эта была пересмотрена таким образом, что вероятность подобных систематических ошибок была существенно снижена.

Предпочтительный метод формирования простой случайной выборки основан на использовании таблицы случайных чисел. Использование такой таблицы предполагает следующую последовательность шагов. Во-первых, элементам генеральной совокупности должны быть присвоены последовательные номера от 1 до N; в нашей гипотетической совокупности элементу А будет присвоен номер 1, элементу В — номер 2 и так далее. Во-вторых, количество разрядов таблицы случайных чисел должно быть таким же, как у номера N. Для N = 20 будут использоваться двузначные числа; для N между 100 и 999 — трехзначные числа и так далее. В-третьих, начальная позиция должна определяться случайным образом. Мы можем раскрыть соответствующую таблицу случайных чисел и, закрыв глаза, что называется, ткнуть в нее пальцем. Поскольку числа в таблице случайных чисел следуют в случайном порядке, начальная позиция не имеет особого значения. И наконец, мы можем двигаться в любом произвольно выбранном направлении — вверх, вниз или поперек — отбирая те элементы, номера которых будут соответствовать случайным числам из таблицы.

Таблица 15.5

Символы и формулы определения средних и дисперсий для простых случайных выборок

среднее

дисперсия

Популяция

Выборка

Производная совокупность выборочных средств

Среднее значение = неизвестному генеральному среднему

(при неизвестной генеральной n-дисперсии)

(при неизвестной n-генеральной дисперсии)

Возможна и альтернативная стратегия, при которой в качестве основы для отбора будет использована компьютерная программа, генерирующая случайные числа. Хотя появившиеся в последнее время публикации свидетельствуют о том, что числа, генерированные подобными программами, не вполне случайны, что может определенным образом проявляться при построении сложных математических моделей, их возможно использовать для большинства прикладных маркетинговых исследований.

Заметим еще раз, что простая случайная выборка требует составления последовательного нумерованного списка элементов генеральной совокупности. Иными словами, каждый член исходной совокупности должен быть идентифицирован. Для некоторых совокупностей сделать это не составляет труда, например при исследовании 500 крупнейших американских корпораций, список которых приведен в журнале Fortune. Список этот уже составлен, поэтому формирование простой случайной выборки в данном случат не составит труда. Для иных же исходных совокупностей (например, для всех семей, живущих в определенном городе) составление общего списка крайне затруднительно, что понуждает исследователей прибегать к иным схемам выборочного обследования.

Резюме

УЧЕБНАЯ ЦЕЛЬ 1

Ясно различать понятия ценза и выборки. Полная перепись совокупности (популяции) называется цензом. Выборка — часть совокупности, сформированная из отобранных элементов.

УЧЕБНАЯ ЦЕЛЬ 2

Знать сущность и последовательность шести этапов, реализуемых исследователями для получения выборочной совокупности.

Процесс формирования выборки делится на шесть этапов: (1) задание популяции, (2) определение основы выборки, (3) выбор процедуры отбора, (4) определение объема выборки, (5) отбор элементов выборки и (6) обследование отобранных элементов.

УЧЕБНАЯ ЦЕЛЬ 3 Определять основу выборки. Основа выборки — перечень элементов, из которых будет производиться выборка.

УЧЕБНАЯ ЦЕЛЬ 4

Объяснять, в чем состоит отличие вероятностной и детерминированной выборки.

В вероятностную выборку каждый член совокупности может включаться с некой заданной ненулевой вероятностью. Вероятности включения в выборку тех или иных членов совокупности могут отличаться друг от друга, но вероятность включения в нее каждого элемента известна.

Для детерминированных выборок оценка вероятности включения любого элемента в выборку становится невозможной. Гарантировать репрезентативность такой выборки нельзя. Все детерминированные выборки основаны, скорее, на частной позиции, суждении или предпочтении. Подобные предпочтения порой могут давать хорошие оценки характеристик совокупности, однако не существует способа объективного определения соответствия выборки поставленной задаче.

УЧЕБНАЯ ЦЕЛЬ 5

Различать выборку фиксированного объема и последовательные выборки.

При работе с выборками фиксированного объема объем выборки определяется до начала обследования и анализу результатов предшествует сбор всех потребных данных. В последовательной выборке количество отбираемых элементов заранее неизвестно, оно

определяется на основании серии последовательных решений.

УЧЕБНАЯ ЦЕЛЬ 6

Объяснить, что представляет собой преднамеренная выборка, и описать как сильные, так и слабые ее стороны.

Элементы преднамеренной выборки отбираются вручную, они представляются исследователю отвечающими целям обследования. Предполагается, что отбираемые элементы могут дать полноценное представление об изучаемой популяции.

Пока исследователь находится на начальных этапах проработки проблемы, когда определяются перспективы и возможные ограничения планируемого обследования, использование преднамеренной выборки может быть очень эффективным. Но ни в коем случае нельзя забывать о слабых сторонах выборки этого типа, поскольку она же может быть использована исследователем и при описательных или при каузальных

исследованиях, что не замедлит сказаться на качестве их результатов.

УЧЕБНАЯ ЦЕЛЬ 7

Определять пропорциональную выборку. Пропорциональная выборка отбирается таким образом, что доля элементов выборки, обладающих определенными характеристиками, примерно соответствует доле таких же элементов в обследуемой популяции; для этого каждому счетчику задается квота, определяющая характеристики населения, с которым он или она должны контактировать.

УЧЕБНАЯ ЦЕЛЬ 8

Объяснить, чем является параметр в процедуре выборочного контроля.

Параметр — определенная характеристика или показатель генеральной или изучаемой совокупности;

определенный количественный показатель, отличающий одну совокупность от другой.

УЧЕБНАЯ ЦЕЛЬ 9

Объяснить, что такое производная совокупность. Производная совокупность состоит из всех возможных выборок, которые могут быть выделены из генеральной совокупности по заданному плану выборочного контроля.

УЧЕБНАЯ ЦЕЛЬ 10

Объяснить, почему понятие выборочного распределения является важнейшим понятием статистики.

Понятие выборочного распределения — это краеугольный камень построения статистических выводов. По известному выборочному распределению исследуемой статистики возможно сделать вывод о соответствующем параметре генеральной совокупности. Если же известно только то, что выборочная оценка изменяется от выборки к выборке, но сам характер этого изменения неизвестен, определение ошибки выборочного обследования, связанного с этой оценкой, становится невозможным. Поскольку выборочное распределение оценки описывает ее изменение от выборки к выборке, оно обеспечивает основу для определения достоверности выборочной оценки.

Соседние файлы в папке Часть 5