
Ошибки выборки
Разность
между характеристикой выборки
и генеральной совокупности а
называются ошибками
репрезентативности
(полными ошибками выборки). Изучение
этих ошибок является главной целью
математической теории выборочного
метода. Прибавим и отнимем
к ошибке выборки
=
+
↓ ↓ ↓
полная систематическая случайная
ошибка ошибка ошибка
выборки
Задача
математической статистики: предусмотреть
возможность возникновения систематических
ошибок и добиться их ликвидации или
сведения к минимуму. Если
– несмещенная оценка параметра а,
то систематическая оценка равна нулю.
Например, для
систематическую ошибку учли, введя
.
Случайные
ошибки – такие, которые являются
результатом взаимодействия большого
числа незначительных в отдельности
факторов и имеют в каждом отдельном
случае различные значения. Случайная
ошибка всегда есть и отлична от нуля,
среднее ее значение, вообще говоря,
равно нулю. Гаусс изучал случайные
ошибки и обнаружил, что они подчиняются
закону нормального распределения.
Рассматривают различные характеристики
случайных величин: средние, средние
квадратические, вероятностные, предельные.
В качестве примера рассмотрим
.
Будем рассматривать
как случайную величину.
Средней
квадратической ошибкой
называется среднее квадратическое
отклонение средней
.
Отметим,
что
различно при повторной (с возвратом) и
бесповторной (без возврата) выборках.
В практике обычно встречается бесповторная
выборка. Можно показать, что
для
повторной выборки и
для
бесповторной выборки, где n
– объем выборки, а N
– объем генеральной совокупности.
Анализ
последних двух формул позволяет сказать,
что точность выборки зависит от
,
от объема n
и от величины
,
которая в повторной выборке равна
единице. Когда объем выборки N
(а
в практике чаще всего n
не
превышает 10 % от N),
то при этом условии
и
,
а
.
Если
,
то
.
Поэтому различие между средними
квадратическими погрешностями в
повторной и бесповторной выборках
практического значения не имеют. Учитывая
это, можно полагать, что точность
выборочной средней обратно пропорционально
.
Все это означает, что небольшое увеличение
объема выборки n
почти
не изменяет точности. Найденные
выражаются через
,
величина которого обычно неизвестна.
Поэтому, на практике пользуются вместо
величиной
.
Итак,
для
повторной выборки,
для
бесповторной выборки.
Средней
ошибкой выборки называют
,
где
есть среднее значение модулей отклонений
выборки
.
Оказывается,
что
.
Вероятной ошибкой называют
.
Так
как случайные ошибки подчиняются
нормальному распределению, то можно
вести речь об аналоге правила трех сигм
(предельная ошибка выборки): с вероятностью
можно утверждать, что
.
Метод произведений
Этот
метод есть не что иное, как метод моментов,
но просчитанных не для вариант
,
а для условных вариант
(метод нахождения
изложен в п. 4). Метод произведений
применяется для равноотстоящих вариант
.
Поэтому, если
не является равностоящими, то надо в
выборке перейти к равноотстоящим
вариантам. Для этого выполняют следующие
процедуры.
1.
В ранжированном вариационном ряде (1),
(2) надо перейти к равноотстоящем вариантам
,
если
не являются равноотстоящими, что обычно
бывает на практике. Для этого размах
варьирования
делят на несколько частичных интервалов
.
Число частичных интервалов произвольно
(обычно оно равно
).
На практике в каждый частичный интервал
должно попасть не менее 6–8 вариант
.
Предполагаемая лабораторная работа
является учебной, цель ее – изучить
суть выборочного метода и последнее
требование относительно числа
первоначальных вариант
в частичных интервалах не будет соблюдено,
так как число первоначальных вариант
в заданиях невелико.
2. Находят
середины частичных интервалов, которые
и образуют последовательность
равноотстоящих вариант
.
3. В
качестве новой частоты
полученной равноотстоящей варианты
принимают общее число первоначальных
вариант, попавших в соответствующий
частичный интервал. При этом, если
некоторая первоначальная варианта
одновременно является концом i-го
и началом (i+1)-го
частичных интервалов, то ее частота
примерно поровну распределяется между
i-м
и (i
+1)-м частичными интервалами.
Замечание 1. Если для равноотстоящих вариант в реальных задачах встречаются малозначащие разряды, то соседние интервалы объединяются в один. Этого в данной лабораторной работе не требуется, так как в ней n невелико.
Замечание 2. Замена первоначальных вариант серединами частичных интервалов сопровождается ошибками. Однако эти ошибки будут в основном погашаться, поскольку они имеют разные знаки. Этот метод позволяет упростить вычисления.
Пример 1. В выборке перейти к равноотстоящим вариантам.
|
1 |
1,03 |
1,05 |
1,06 |
1,08 |
1,10 |
1,12 |
1,15 |
1,16 |
1,19 |
1,20 |
1,23 |
1,25 |
1,26 |
1,29 |
1,30 |
|
1 |
3 |
6 |
4 |
2 |
4 |
3 |
6 |
5 |
2 |
3 |
4 |
8 |
4 |
4 |
6 |
2+2
2+1
n = 1 + 3 + 6 + 4 + 2 + 4 + 3 + 6 + 5 + 2 + 3 + 4 + 8 + 4 + 4 + 6 = 65
R = 1,30 – 1 = 0,3
Разобьем интервал (1;1,3) на три интервала.
|
1,05 |
1,15 |
1,25 |
|
(1,00; 1,10) |
(1,10; 1,20) |
(1,20; 1,30) |
|
1 + 3 + 6 + 4 + 2 + 2 = 18 |
2 + 3 + 6 + 5 + 2 + 2 = 20 |
1 + 4 + 8 + 4 + 4 + 6 = 27 |
4.
От вариант равноотстоящих
переходим к условным вариантам
,
где h
–
шаг, т. е. разность между двумя соседними
вариантами
,
с
– «ложный нуль». Это обычная замена
переменного. Вообще, в качестве с
можно взять любую варианту
,
обычно берут варианту, у которой
максимальная частота. Подчеркнем, что
варианте принятой в качестве ложного
нуля, соответствует условная варианта,
равная нулю.
Пример 2. В выборке равноотстоящих вариант перейти к условным вариантам .
|
10,2 |
10,4 |
10,6 |
10,8 |
1 |
11,2 |
11,4 |
11,6 |
11,8 |
12 |
|
2 |
3 |
8 |
13 |
3 5 |
20 |
12 |
10 |
6 |
1 |
|
–4 |
–3 |
–2 |
–1 |
0 |
1 |
2 |
3 |
4 |
5 |
5. Вычисляем
условные эмпирические моменты порядка
k
для равноотстоящих вариант
,
соответствующих выборкам (1), (2), обозначим
их
.
В частности,
откуда следует
.
(3)
Можно показать, что
.
(4)
Метод
произведений вычисления
и
сводится к обработке таблицы для
равноотстоящих вариант
.
Если
– неравноотстоящие, то их заменяют на
.
Первый столбец – варианты равноотстоящие
,
второй – частоты
,
третий –
,
четвертый
,
пятый
,
шестой –
.
Последний столбец является контролем
верности составления таблицы, так как
.
Пример
3. По
данным выборки равноотстоящих вариант
просчитать
оценки числовых характеристик
и среднеквадратическую ошибку
выборки, если она сделана из генеральной
совокупности объема N
=
1000.
|
|
|
|
|
|
10,2 |
2 |
–4 |
–8 |
32 |
18 |
10,4 |
3 |
–3 |
–9 |
27 |
12 |
10,6 |
8 |
–2 |
–16 |
32 |
8 |
10,8 |
13 |
–1 |
–13 |
13 |
0 |
с = 11,0 |
25 |
0 |
0 |
0 |
25 |
11,2 |
20 |
1 |
20 |
20 |
80 |
11,4 |
12 |
2 |
24 |
48 |
108 |
11,6 |
10 |
3 |
30 |
90 |
160 |
11,8 |
6 |
4 |
24 |
96 |
150 |
12,0 |
1 |
5 |
5 |
25 |
36 |
|
|
|
|
|
|
Контроль счета: 383 + 2 ∙ 57 + 100 = 597
h = 10,4 – 10,2 = 0,2, c = 11
= 0,57 ∙ 0,2 + 11 = 1,114
= [3,83 – 0,572] ∙ 0,22 = 0,14
Если n < 30, то надо заменить на .
Замечание.
Использование
условных вариант
упрощает счет, так как
– маленькие числа и числа разных знаков.
Конечно, оценки
можно считать и не переходя к условным
вариантам, как это было изложено в методе
моментов.