
- •Элементы математической статистики
- •1.1. Предмет и задачи математической статистики Генеральная и выборочная совокупность. Выборочный метод.
- •1.2. Способы отбора статистического материала
- •1.3. Статистическое распределение. Геометрическое изображение
- •1.4. Эмпирическая функция распределения
- •1.5. Выборочные характеристики статистического распределения
- •3. Выборочное среднее квадратическое отклонение.
- •1.6. Статистические оценки параметров распределения
- •1.7. Доверительные интервалы и доверительные вероятности
- •1.8. Оценка существенности различий выборочных средних
- •1.10. Выводы
1.4. Эмпирическая функция распределения
Определение. Эмпирической функцией распределения выборки называется функция
(2)
где п – объем выборки, пх – число значений признака, меньших чем х, т. е. тех, для которых хi < х.
Функции F*(х) в теории вероятностей отвечает интегральная функция распределения F(х).
Функция F*(х) отличается от интегральной функции распределения F(х) тем, что при составлении F*(х) вместо вероятности события Р(X<х) вычисляется относительная частота события Р*(Х<х).
1.5. Выборочные характеристики статистического распределения
Пусть имеется выборка объема n со значениями признака х1 х2, х3, ..., хk. Построим статистическое распределение.
Таблица 4
xi |
x1 |
x2 |
x3 |
… |
xk |
ni |
n1 |
n2 |
n3 |
… |
nk |
Для того чтобы охарактеризовать наиболее существенные свойства этого распределения, так же как и в теории вероятностей, используют средние показатели или, как их называют, выборочные числовые характеристики. Рассмотрим некоторые из них.
1.
Выборочная средняя
.При
наличии повторяющихся
значений признака
,(3)
где п
— объем
выборки, хi
ni
взяты из
табл. 4. Выборочная средняя
изменяется при переходе от одной выборки
к другой, поэтому в силу случайного
отбора является случайной величиной.
Если дано
распределение непрерывной случайной
величины, то вместо хi
берут середину интервала (xi,
…, xi+1),
т.е.
.
Для упрощения вычисления выборочных характеристик удобно перейти от данных значений признака x1|, х2, х3,...,хk к условным значениям и1, и2,. и3,..., uk—по формуле
,(4)
т. е. ввести
вспомогательную величину
,
где С–новое
начало отсчета, обычно это значение
признака с наибольшей частотой, h
– масштаб.
Можно показать,
что при переходе к условным значениям
признака по формуле зависимость,
связывающая
и
,
имеет вид
(5)
Действительно,
Пример. Дано статистическое распределение:
Таблица 5
хi |
1 |
3 |
5 |
7 |
9 |
11 |
ni |
2 |
8 |
15 |
14 |
7 |
4 |
Найти
.
Решение. Перейдем к условным значениям признака, приняв за C значение с наибольшей частотой, т. е. С=5. Далее находим h = xi-xi-1 = 2.
Имеем
Составляем распределение условных значений признака.
Таблица 6
ui |
–2 |
–1 |
0 |
1 |
2 |
3 |
ni |
2 |
8 |
15 |
14 |
7 |
4 |
Находим
Особенно выгодно применять формулу (4), если значения признака велики.
2.
Выборочная и исправленная дисперсия.
Одна
числовая
характеристика
не дает
полного представления о статистическом
распределении. В агрономической и
зоотехнической практике, как и в других
сферах производства, при анализе
результатов существенным для выводов
является характеристика рассеяния
значений признака относительно выборочной
средней. Отклонение отдельных значений
от выборочной средней бывает значительным
и с этим нельзя не считаться.
Составим таблицу
отклонений
,
указывая
соответствующие частоты.
Таблица 7
|
|
|
|
… |
|
ni |
n1 |
n2 |
n3 |
… |
nk |
Найдем среднее
значение отклонений
.
Имеем
Следовательно,
среднее значение отклонения
равно нулю, и поэтому непригодно для
характеристики рассеяния признака. Для
того чтобы освободиться от знака
отклонения и при этом сделать влияние
больших отклонений «более ощутимыми»,
их возводят в квадрат и находят среднее
значение. Полученную характеристику
называютвыборочной
дисперсией и
обозначают
.
Итак,
или
(5)
Определение. Выборочной дисперсией называется среднее арифметическое значение квадратов отклонений признака от выборочной средней.
Пример. Урожайность двух сортов А и В пшеницы, возделываемых на трех участках с одинаковыми условиями роста и развития, характеризуется следующими таблицами:
сорт А сорт В
X, ц |
18 |
19 |
20 |
|
Y, ц |
17 |
19 ' |
22 |
Площадь, га |
15 |
25 |
15 |
Площадь, га |
20 |
20 |
|
Найти дисперсии значений признака обоих сортов.
Решение. Вычислим XB, YB, DX, DY. Находим
Как видим, дисперсия Dy как мера рассеяния или разброса урожайности сорта В относительно среднего значения YB в случае примерно одинаковых площадей больше, чем Dy, а это явление нежелательное. Из двух сортов лучшим является тот, урожайность которого более устойчива. По данным опыта сорт А предпочтительнее сорта В.
Для вычисления выборочной дисперсии используют следующую формулу:
(6)
т. е. дисперсия равна разности между средним значением квадрата и квадратом выборочной средней.
Действительно,
Для облегчения вычисления дисперсии используют следующие свойства:
1°. Дисперсия не изменится, если все значения признака увеличить (уменьшить) на постоянное число.
2°. При умножении значений признака на постоянное число h ≠ 0 дисперсия умножается на h2.
Выборочная
дисперсия, как это показано в более
подробных курсах (например, [4]), имеет
систематическую ошибку, приводящую к
уменьшению дисперсии. Чтобы это устранить,
вводят поправку, умножая DB,
на
.
В результате получают исправленную
дисперсию
(7)
или
(8)
На практике часто вместо этой формулы используют другую, ей равносильную, а именно:
(9)
При малых выборках S ощутимо отличается от DB, например, при n = 2 имеем S2=2DB. С возрастанием n исправленная дисперсия S2DB. Уже при n = 30 дисперсии S2 и DB различаются на 3%.