
- •Оглавление
- •Предисловие
- •Задачи математической статистики
- •Генеральная и выборочная совокупности
- •Статистическое распределение выборки
- •Графическое изображение статистического распределения выборки
- •Эмпирическая функция распределения
- •Числовые характеристики статистического распределения выборки
- •Точечные оценки параметров распределения
- •Свойства статистических оценок
- •Доверительные интервалы
- •Доверительный интервал для математического ожидания нормально распределенной генеральной совокупности при известном среднем квадратическом отклонении
- •Доверительный интервал для математического ожидания нормально распределенной генеральной совокупности при неизвестном среднем квадратическом отклонении
- •Понятие о проверке статистических гипотез о законе распределения генеральной совокупности
- •Корреляционная зависимость. Выборочный коэффициент корреляции. Линейная корреляция. Выборочное линейное уравнение регрессии
- •Сборник задач по курсу «Теория вероятностей и математическая статистика»
- •Примерный список вопросов для подготовки к зачету
- •Список литературы (обязательной и дополнительной) Основная литература
- •Дополнительная литература
- •Справочные издания
- •Интернет-ресурсы
- •Электронные издания
- •Словарь терминов
Статистическое распределение выборки
Для большей прозрачности вводимых ниже общих понятий начнем с примера. В большом городе проводится исследование детей определенного возраста по проблемам стоматологии. Изучается с.в. Х – количество больных зубов у наугад выбранного ребенка требуемого возраста. Если мы сумеем найти такие числовые характеристики этой с.в. как математическое ожидание и среднее квадратическое отклонение, то узнаем среднее число больных зубов у детей данного возраста, а также поймем, имеют ли подавляющая часть детей число больных зубов, близкое к среднему, или разброс в количестве больных зубов достаточно велик. Понятно, что такие данные помогут осознать наличие проблемы и ее остроту.
Итак, для изучаемой с.в. Х (количество больных зубов у наугад выбранного ребенка требуемого возраста) генеральной совокупностью являются все дети города данного возраста (это в данном случае и есть та «однородная совокупность объектов»). Понятно, что провести сплошное исследование (исследовать всех детей города) слишком сложно (да и не нужно), то сделана выборка объема n=100, т.е. отобрано 100 детей для обследования. У каждого из них пересчитали больные зубы, после чего с.в. Х на каждом из детей приняла некоторое значение (число больных зубов у ребенка). Допустим, что 7 детей не имеют больных зубов. Это значит, что с.в. Х значение х1=0 приняла n1=7 раз. Далее, пусть с.в. Х значение х2=1 приняла n2=5 раз, … , значение х33=32 приняла n33=0 раз (не оказалось детей, у которых больны все зубы). Таким образом, в результате проведения таких экспериментов мы получили два набора чисел: {x1, x2, … , x33}={0, 1, … , 32} – значения, которые принимала с.в. Х на выборке, {n1, n2, … , n33}={7, 5, … , 0} – количество объектов из выборки, на которых с.в. приняла то или иное значение (причем, очевидно, что должно выполняться: 7+ 5+ … + 0 =100, т.е. n1 + n2 + …+ n33 = n (объему выборки). Все эти наборы чисел имеют в математической статистике свое название. Перейдем к общему случаю.
Пусть некоторый признак генеральной совокупности описывается с.в. Х. Из генеральной совокупности сделана выборка объема n, на которой с.в. Х приняла следующие значения: х1 (n1 раз), х2 (n2 раз), …. , хk (nk раз), так что
n1 + n2 + …+ n33=n .
Числа x1,
x2,
… , xk
называются
вариантами.
Обычно варианты выписываются в
возрастающем порядке. Запись вариант
в возрастающем порядке называется
ранжированием.
Последовательность вариант, записанная
в возрастающем порядке, называется
вариационным
рядом. Числа
n1
, n2
, …. , nk
называются
частотами,
а их отношения к объему выборки n
называются относительными
частотами
:
.
Из условияn1
+ n2
+ …+
n33=n
легко получить, что относительные
частоты удовлетворяют соотношению:
w1 + w2 + … + wk = 1 .
xi |
x1 |
x2 |
… |
xk |
wi |
w1 |
w2 |
… |
wk |
xi |
x1 |
x2 |
… |
xk |
ni |
n1 |
n2 |
… |
nk |
или
Пример. При тестировании группа студентов получила следующие оценки: 2, 5, 3, 2, 4, 2, 5, 2, 3, 2. Найти статистическое распределение выборки.
Решение. Посчитав число вариант, получим, что объем выборки n=10. Пересчитав количество каждых оценок, получим статистическое распределения частот и относительных частот:
xi |
2 |
3 |
4 |
5 |
ni |
5 |
2 |
1 |
2 |
xi |
2 |
3 |
4 |
5 |
wi |
0.5 |
0.2 |
0.1 |
0.2 |
Если исследуемая
с.в. Х
является непрерывной, возможные значения
которой заполняют числовой отрезок
[a,b]
(либо число вариант слишком велико), то
строится не дискретный, а так называемый
интервальный
статистический ряд
. Для этого отрезок [a,b]
разбивается точками
а0(=а),
а1,
а2,
… , аk(=b)
на некоторое
число k
равных интервалов длины h=(b−a)/k:
[a0
, a1),
[a1
, a2),
… , [ak-2
, ak−1),
[ak−1
, аk]
. Затем считают частоты − число вариант,
попавших в каждый из интервалов:
n1
, n2
, …. , nk
, либо
относительные частоты
.
Интервальный статистический ряд частот
или относительных частот записывают в
виде таблицы:
xi |
[a0,a1) |
[a1,a2) |
… |
[ak−1,ak] |
wi |
w1 |
w2 |
… |
wk |
xi |
[a0,a1) |
[a1,a2) |
… |
[ak−1,ak] |
ni |
n1 |
n2 |
… |
nk |
или
Если исследуется дискретная с.в., то для построения интервального ряда в качестве числа а берут минимальную варианту, а в качестве числа b – максимальную: а=х1, b=xk (если исходные варианты были ранжированы). Рекомендуемое число k разбиений интервала можно вычислить, например, по формуле Стерджерса:
.