- •Выборочное наблюдение
- •1. Общая характеристика выборочного наблюдения
- •Основные этапы выборочного наблюдения:
- •2. Ошибки выборки при собственно случайном отборе Виды случайного отбора
- •Ошибки выборки при случайном повторном отборе
- •Ошибки выборки при случайном бесповторном отборе
- •3. Основные способы формирования выборочной совокупности
- •4. Определение необходимой численности выборки
- •5. Малая выборка
- •6. Распространение результатов выборочного наблюдения на генеральную совокупность
- •7. Общие понятия и схема статистической проверки гипотез
- •8. Проверка гипотез о средней и о доле Гипотезы о средней
- •Гипотезы о доле
- •9. Практика применения выборочного метода наблюдения
- •Список использованной литературы
2. Ошибки выборки при собственно случайном отборе Виды случайного отбора
Теоретические основы выборочного метода, первоначально разработанные применительно к собственно случайному отбору, используют и для определения ошибок выборки при других способах наблюдения.
Рассмотрим наиболее простой способ формирования выборочной совокупности — собственно случайный отбор.
Собственно случайный отбор может быть повторным и бесповторным. При повторном отборе каждая единица, отобранная в случайном порядке из генеральной совокупности, после проведения наблюдения возвращается в эту совокупность и может быть вновь подвергнута обследованию. На практике такой способ отбора встречается редко. Гораздо более распространен собственно случайный бесповторный отбор, при котором обследованные единицы в генеральную совокупность не возвращаются и не могут быть обследованы повторно. При повторном отборе вероятность попадания в выборку для каждой единицы генеральной совокупности остается неизменной. При бесповторном отборе она меняется, но для всех единиц, оставшихся в генеральной совокупности после отбора из нее нескольких единиц, вероятность попадания в выборку одинакова.
Для обеспечения случайности отбора используются разные способы. Если параметры генеральной совокупности известны и все ее единицы могут быть пронумерованы, то случайный отбор обеспечивается с помощью жребия. При большом объеме совокупности выборка может осуществляться с использованием таблиц случайных чисел. Такие таблицы представляют собой набор четырех- или пятизначных чисел. Если число единиц в генеральной совокупности трехзначное, то из любого столбца или строки таблицы последовательно выписывают столько чисел, сколько единиц в выборочной совокупности. От каждого числа отбрасывают первую или последнюю цифру (или две цифры, если таблицы состоят из пятизначных чисел). Затем отбирают числа, не превышающие число единиц в генеральной совокупности.
Пример. В первом столбце таблицы случайных чисел содержатся числа: 5489, 3522, 7555, 5759, 6303 и т.д. Предположим, что генеральная совокупность состоит из 600 единиц. При этом в соответствии с программой выборки должно быть обследовано 30 единиц. Номера единиц, попавших в выборку: 489, 522, 555, 303 и т.д. Единицы с номером 759 в генеральной совокупности нет, поэтому в выписанные порядковые номера единиц наблюдения это число не попадает.
Ошибки выборки при случайном повторном отборе
Ошибка выборки для средней. Основные свойства выборочной совокупности, сформированной методом собственно случайного повторного отбора, рассмотрим на следующем примере.
Пример. Из генеральной совокупности (например, студенты I курса, данные о возрасте которых приведены в табл. 2.1) с числом единиц N = 4 методом собственно случайного повторного отбора осуществлена выборка, объем которой равен 2 единицам, т.е. n = 2.
Таблица 2.1
Порядковый номер студента |
1 |
2 |
3 |
4 |
Возраст xi, лет |
16 |
17 |
17 |
18 |
Результаты всех возможных испытаний представлены в табл. 2.2
Таблица 2.2
Номера отобранных единиц |
Выборочная средняя
|
Номера отобранных единиц |
Выборочная средняя
|
1 и 1 |
16,0 |
3 и 1 |
16,5 |
1и 2 |
16,5 |
3 и 2 |
17,0 |
1 и 3 |
16,5 |
3 и 3 |
17,0 |
1 и 4 |
17,0 |
3 и 4 |
17,5 |
2 и 1 |
16,5 |
4 и 1 |
17,0 |
2 и 2 |
17,0 |
4 и 2 |
17,5 |
2 и 3 |
17,0 |
4 и 3 |
17,5 |
2 и 4 |
17,5 |
4 и 4 |
18,0 |
В генеральной совокупности средний возраст студентов
лет,
Дисперсия изучаемого признака
На основе результатов расчета и можно построить распределение полученных значений выборочных средних (табл. 2.3).
Таблица 2.3
i |
Средний возраст студентов в выборке, лет
|
Отклонение выборочной средней от генеральной средней
|
Частота появления i-го значения выборочной средней
|
Вероятность появления i-го значения выборочной средней
|
1 |
2 |
3 |
4 |
5 |
1 |
16,0 |
-1,0 |
1 |
0,0625 |
2 |
16,5 |
-0,5 |
4 |
0,2500 |
3 |
17,0 |
0,0 |
6 |
0,3750 |
4 |
17,5 |
0,5 |
4 |
0,2500 |
5 |
18,0 |
1,0 |
1 |
0,0625 |
Итого |
- |
16 |
1,0000 |
|
Вероятности появления различных значений выборочной средней, равные вероятностям соответствующего отклонения выборочной средней от генеральной средней, неодинаковы. Чем больше отклонение выборочной характеристики от генеральной, тем меньше вероятность его появления. Наиболее часто оценка, полученная на основе выборки, совпадает с соответствующей характеристикой генеральной совокупности. В приведенном примере вероятность появления в выборке среднего возраста студентов, равного 17 годам, наиболее велика (p3 = 0,3750). Рассчитаем математическое ожидание выборочной средней:
16,0·0,0625+16,5·0,25+17,0·0,375+17,5·0,25+18,0·0,0625=17
лет.
Таким
образом,
,
т.е. выборочная средняя является
несмещенной оценкой генеральной средней.
Аналогичный результат можно получить,
используя вместо вероятности p1 частоту
появления соответствующих значений
выборочных средних:
лет.
Отклонение выборочной средней от генеральной равно нулю лишь в 6 выборках из 16. В остальных случаях значения выборочной и генеральной средней не совпадают, при этом вероятность появления наибольшего по абсолютной величине отклонения, равного единице, минимальна. Таким образом, существует предел, к которому стремится отклонение выборочной средней от генеральной.
Рассчитаем среднюю величину этих отклонений. Учитывая, что сумма отклонений, взятая в абсолютном выражении, равна нулю, указанную среднюю рассчитаем как среднее квадратическое отклонение:
Так как
,
то
Полученная величина μ называется средней ошибкой выборки. Средняя ошибка выборки — это среднее квадратическое отклонение всех возможных значений выборочной средней от генеральной средней, т.е. от своего математического ожидания.
Дисперсия возможных значений выборочной средней
В
математической статистике доказано,
что эта величина в n раз меньше дисперсии
в генеральной совокупности. В данном
примере дисперсия в генеральной
совокупности
,
а объем выборки n = 2, тогда
Следовательно, средняя выборка может быть определена по формуле:
При собственно случайном повторном отборе средняя ошибка выборки зависит от:
вариации изучаемого признака в генеральной совокупности;
объема выборки.
Чем больше вариация признака, тем больше ошибка выборки. Для ее уменьшения необходимо увеличить объем выборочной совокупности.
В
действительности решается обратная
задача: на основе выборочных данных
делается вывод о некоторых характеристиках
генеральной совокупности. Согласно
правилу сложения дисперсий дисперсия
в генеральной совокупности
может
быть представлена как сумма двух
слагаемых: средней величины из отклонений
отдельных значений от выборочных средних
и
средней величины из отклонений выборочных
средних от генеральной средней
, т.е.
Учитывая, что
,
,
а
,
получаем
,
или
где
- средняя дисперсия выборочных
совокупностей.
Следовательно,
В таком случае средняя ошибка выборки
(2.1)
Так как все возможные значения дисперсии в выборочной совокупности неизвестны, при нахождении средней ошибки выборки вместо в формуле (1) используют дисперсию конкретной выборки . При такой замене велика вероятность малой погрешности. При достаточно большом объеме выборочной совокупности в формуле (2.1) вместо (n – 1) можно использовать величину n. Таким образом, средняя ошибка выборки при собственно случайном повторном отборе будет рассчитываться по формуле:
(2.2)
Учитывая,
что на основе выборочного обследования
нельзя точно оценить изучаемый параметр
генеральной совокупности, необходимо
найти пределы, в которых он находится.
В конкретной выборке разность
может
быть больше, меньше или равна µ. Каждое
из отклонений
от
µ имеет определенную вероятность. При
выборочном обследовании реальное
значение
в генеральной совокупности неизвестно.
Зная среднюю ошибку выборки, с определенной
вероятностью можно оценить отклонение
выборочной средней от генеральной и
установить пределы, в которых находится
изучаемый параметр (в данном случае
средняя) в генеральной совокупности.
Отклонение выборочной характеристики
от генеральной называется предельной
ошибкой выборки
Δ. Она определяется в долях средней
ошибки с заданной вероятностью, т.е.
Δ = t µ (2.3)
где t - коэффициент доверия, зависящий от вероятности, с которой определяется предельная ошибка выборки.
Вероятность появления определенной ошибки выборки находят с помощью теорем теории вероятностей. Согласно теореме П.Л. Чебышёва, при достаточно большом объеме выборки и ограниченной дисперсии генеральной совокупности вероятность того, что разность между выборочной средней и генеральной средней будет сколь угодно мала, близка к единице:
при
.
A.M. Ляпунов доказал, что независимо от характера распределения генеральной совокупности при увеличении объема выборки распределение вероятностей появления того или иного значения выборочной средней приближается к нормальному распределению. (Это так называемая центральная предельная теорема.) Следовательно, вероятность отклонения выборочной средней от генеральной средней, т.е. вероятность появления заданной предельной ошибки, также подчиняется указанному закону и может быть найдена как функция от t с помощью интеграла вероятностей Лапласа:
,
где
- нормированное отклонение выборочной
средней от генеральной средней.
Значения интеграла Лапласа для разных t рассчитаны и приводятся в специальных таблицах (см. Приложение 1).
Поясним графически процедуру нахождения вероятности t-кратного отклонения генеральной средней от выборочной (рис.2.1).
Вероятность t-кратного отклонения
.
Рис. 2.1. Кривая нормального распределения
Площадь,
ограниченная кривой нормального
распределения и осью абсцисс, равна
суммарной вероятности возникновения
различных отклонений
от
,
т.е. равна 1. Заштрихованная часть (см.
рис. 2.1), которая находится в пределах
от - 1 до +1, равна 0,683, т.е. с вероятностью
68,3% можно гарантировать, что отклонение
генеральной средней от выборочной не
превысит однократной средней ошибки
выборки. С этой вероятностью можно
утверждать, что среднее значение признака
в генеральной совокупности находится
в пределах
.
Вероятность
того, что отклонение средней в генеральной
совокупности от выборочной средней не
выйдет за пределы 2µ (т.е. t = 2), равна
0,954, а вероятность того, что оно не выйдет
за пределы 3µ, — соответственно 0,997.
Таким образом, зная среднее значение
признака в выборке, можно почти достоверно
утверждать, что в генеральной совокупности
соответствующее значение будет находиться
в пределах
.
На практике доверительная вероятность
принимается чаще всего на уровне 0,95 или
0,99. Соответствующие значения коэффициента
доверия равны 1,96 и 2,58 (см. Приложение
1).
Пользуясь приведенными рассуждениями, можно определить вероятность только верхнего или нижнего предела для искомой характеристики генеральной совокупности. Например, вероятность того, что средняя в генеральной совокупности не превысит
,
будет равна
.
Ошибка выборки для доли. Для того чтобы на основе результатов выборочного наблюдения найти долю единиц, обладающих изучаемым признаком в генеральной совокупности, используют формулы, аналогичные приведенным ранее. Дисперсия для доли в генеральной совокупности равна произведению pq, где р -доля единиц, обладающих изучаемым признаком в генеральной совокупности, a q =1 – р - доля единиц, не обладающих изучаемым признаком. Так как наблюдение выборочное и величины p и q неизвестны, в формуле средней ошибки выборки используются соответствующие значения, полученные на основе выборочного обследования. Средняя ошибка выборки для доли при собственно случайном повторном отборе рассчитывается по формуле
,
(2.4)
где w – доля единиц, обладающих изучаемым признаком в выборочной совокупности;
(1 – w)- доля единиц в выборке, не обладающих изучаемым признаком.
Предельная ошибка выборки в этом случае определяется так же, как и для средней: Δ = t µ.
Частный
случай теоремы П.Л. Чебышёва для доли
доказан Я. Бернулли: при
достаточно большом объеме выборки
вероятность того, что расхождение между
долями единиц, обладающих изучаемым
признаком, в выборочной и генеральной
совокупности будет сколь угодно малым,
стремится к единице. При
этом распределение вероятностей
различных отклонений доли в выборочной
совокупности от доли в генеральной
также подчиняется нормальному закону.
Зная долю в выборочной совокупности, с
соответствующей вероятностью можно
гарантировать, что доля в генеральной
совокупности не выйдет за пределы
.
