
§ 2. Критерии для средних
Критерий для средней малой выборки. На прошлой встрече мы рассмотрели критерий для среднего значения большой выборки. Напомним постановку этой задачи. По данным выборки получено среднее значение признака х (размер надела).
1) Проверяется гипотеза о том, что данная выборка получена из генеральной совокупности со средним значением Хг.с.. 2) В качестве меры отклонения выборочного среднего, от генерального берется нормированное отклонение t=(х—Хг.с.)/ (где — средняя ошибка выборки, а — среднее квадратическое отклонение). Величина t является статистической характеристикой. 3) Подсчитывается ее фактическое значение tф. 4) Выбирается уровень значимости а (обычно а = 0,05; 0,1; 0,025; 0,01). 5) По заданному уровню значимости а и таблице находится tкр и строится критическая область испытуемой гипотезы. 6) При попадании tф в эту область гипотеза отклоняется.
Сохраним эту схему и при дальнейшем изложении основных критериев. В частности, построим критерий для проверки гипотезы о среднем значении малой выборки. Этот критерий будет отличаться от рассмотренного своей статистической характеристикой. Известно, что для малых выборок в формулу средней ошибки выборки подставляется не выборки, а величина S (оценка среднего квадратичного отклонения генеральной совокупности):
,
где пi
—
частота значения xi;
,
k
—
число вариант признака X;
п —
объем выборки.
Значение S отличается от а тем, что вместо n содержит в знаменателе п—1.
Следовательно, статистической характеристикой гипотезы о среднем значении Хг.с по данным малой выборки является нормированное отклонение t:
,
где S
вычисляется по формуле вышеуказанной
формуле. Величина t
подчиняется
уже не нормальному распределению, а
распределению Стьюдента с k
степенями
свободы, где k
= n—1.
С увеличением k
это
распределение приближается к нормальному,
поэтому при n>30
проверку гипотезы о среднем значении
в генеральной совокупности производят
так, как говорилось ранее, пользуясь
таблицей нормального распределения.
При n30
надо использовать таблицу распределения
Стьюдента, в которой по заданным уровню
значимости а и числу степеней свободы
k
= n—1
находят значение tкр..
Пример 2. Пользуясь схемой проверки гипотез, проверим гипотезу о среднем на примере. По 16 уездам черноземной полосы получен средний размер оброка (руб. сер. на муж. душу) в конце XVIII в., равный 4,6 руб. Величина S подсчитана по выше указанной формуле и равна 1,7 руб.
1) Сначала сформулируем испытуемую гипотезу. Пусть такой гипотезой является гипотеза о том, что средний размер оброка для черноземной полосы равен 4 руб.: Н0: Хг с=4.
2) В качестве статистической характеристики берем t, вычисленное с учетом средней ошибки S.
3)
Определим
4) В качестве а выберем 0,05 или 5%. При этом значении а мы согласны на риск ошибочно отклонить правильную гипотезу в 5 случаях из 100
5) Найдем tKp по таблице приложения, причем сначала допустим, что проводится двусторонняя проверка, т.е. гипотеза Н0 отклоняется, если выборочное среднее сильно отклоняется от Хг.с. как в положительную, так и в отрицательною сторону В таком случае по а = 0,05 и k=16—1 = 15 в таблице найдем tкр = 2,13 Значит, критической области принадлежат те значения t, которые по абсолютному значению превосходят 2,13
5) Так как tф = 1,4<2,13, гипотеза не отклоняется.
При неотклонении гипотезы возможна ошибка второго рода, т.е. ситуация, когда неверная испытуемая гипотеза не отклоняется Вычисление вероятности ошибки второго рода () требует построения альтернативной гипотезы и часто весьма трудоемко. Подчеркнем лишь то, что вероятность ошибки второго рода тем меньше, чем «дальше» альтернативная гипотеза от испытуемой и чем больше объем выборки
Малая вероятность ошибки второго рода и соответственно большая мощность критерия позволяют утверждать, что неотклонение гипотезы равносильно ее справедливости.
Критерий для разности средних значений. Нередко возникает необходимость сравнения двух генеральных совокупностей путем сравнения выборок из этих совокупностей Допустим, что имеются две выборки объемом п1 и п2 со средними значениями х1 и х2
Мы утверждаем, что эти выборки принадлежат генеральным совокупностям, в которых средние значения совпадают, а наблюдаемое различие между х1 и х2 объясняется случайными причинами. При этом обычно предполагается, что генеральные дисперсии этих совокупностей равны (12= 22)
Пример 3 Вернемся к предыдущему примеру. Размер оброка в выборке 16 уездов черноземной полосы равен 4,6 руб (S=1,7 руб). Допустим, что по 16 уездам нечерноземной полосы размер оброка равен 3 руб (S = l,26 руб). Требуется проверить, равны ли средние размеры оброка в черноземной и нечерноземной зонах в целом.
1) Сформулируем испытуемую гипотезу: различие между выборочными средними случайно, т.е. Н0:Х1 г.с.=Х2 г.с.
2) В
качестве статистической характеристики
снова используется величина t,
имеющая
распределение Стьюдента. В данном случае
,
где х1
и
х2
— выборочные средние, п1
и
n2
— объемы выборок, S
— оценка неизвестного нам значения
в генеральных совокупностях по малым
выборкам (напомним, что предполагается
1=2).
,
где k1
и k2
— числа степеней свободы в выборках,
S1
и S2
— значения, полученные по вышеуказанной
формуле.
Если S1 и S2 предварительно не подсчитаны, то для вычисления S удобнее пользоваться следующей формулой
3) Рассчитаем tф
Для этого сначала вычислим S по формуле =1,5
Следовательно, tф по формуле = 3
4) Выберем а = 0,05
5) По таблице распределения Стьюдента для а = 0,05 и k=k1+k2=30 найдем tкр = 2,04
6) Видно, что tф значительно превышает критическое значение, и гипотеза о том, что размеры оброка в черноземной и нечерноземной полосах были одинаковы, отклоняется.
Заметим, что в случае больших выборок в качестве статистической характеристики можно использовать нормированное отклонение t.
,
где n
= n1+n2,
—
оценка неизвестного значения среднего
квадратического отклонения в генеральной
совокупности по большим выборкам
,
1
и 2
— средние квадратические отклонения
для больших выборок. Если 1
и 2
заранее не подсчитаны, то вместо этой
формулы можно использовать следующую
формулу
.
Когда мы используем формулы для больших
выборок, то используем при подсчете
нормированного отклонения t
таблицы для нормального распределения.
Иногда,
хотя довольно редко, значения 1
и 2
в генеральных совокупностях бывают
известны. Тогда формула
приобретает следующий вид
.
Ограничения при использовании распределения Стыодента t. Мы говорили о том, что величина t, используемая при проверке гипотез о средних значениях малых выборок, имеет распределение Стьюдента. Однако это верно не всегда. Для того чтобы использовать это распределение, необходимо, чтобы соблюдались следующие условия: 1) чтобы значения хi признака были независимы, 2) чтобы распределение этого признака в генеральной совокупности было нормально, 3) кроме того, для проверки гипотезы о равенстве средних — чтобы дисперсии генеральных совокупностей были равны.
Первое из этих требований обычно выполняется, а второе и третье можно проверить с помощью специальных критериев, которые будут рассмотрены в следующих параграфах.