
Статистика _Овсянникова (исправленный)
.pdf
где выборочную среднюю xB найдем также по упрощенной формуле
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
m |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
xB = |
∑uini |
k + А. |
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
i=1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
Составим расчетную таблицу для нахождения необходимых |
|||||||||||||||||||||||||||||||||||||||
сумм при с =11 и k = 4 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Таблица 3.4 |
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||
Стаж рабо- |
|
|
Середина |
Количество |
|
|
|
xi − А |
|
xi |
− А |
|
x |
− А 2 |
||||||||||||||||||||||||||
ты по специ- |
|
интервала |
студентов |
|
ui = |
|
|
|
|
|
|
|
ni |
|
i |
|
ni |
|||||||||||||||||||||||
|
k |
|
|
k |
|
|||||||||||||||||||||||||||||||||||
|
|
|
|
k |
||||||||||||||||||||||||||||||||||||
альности |
|
|
|
|
|
|
xi |
|
|
|
|
ni |
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||
1-5 |
|
|
|
|
|
|
|
|
|
3 |
|
|
|
|
15 |
|
|
|
|
|
-2 |
|
|
|
-30 |
|
|
60 |
||||||||||||
5-9 |
|
|
|
|
|
|
|
|
|
7 |
|
|
|
|
20 |
|
|
|
|
|
-1 |
|
|
|
-20 |
|
|
20 |
||||||||||||
9-13 |
|
|
|
|
|
11 |
|
|
|
|
45 |
|
|
|
|
|
0 |
|
|
|
0 |
|
|
|
|
0 |
|
|||||||||||||
13-17 |
|
|
|
|
|
15 |
|
|
|
|
12 |
|
|
|
|
|
1 |
|
|
|
12 |
|
|
|
12 |
|||||||||||||||
17-21 |
|
|
|
|
|
19 |
|
|
|
|
|
8 |
|
|
|
|
|
2 |
|
|
|
16 |
|
|
|
32 |
||||||||||||||
Сумма |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
100 |
|
|
|
|
|
|
|
|
|
|
-22 |
|
|
124 |
|||||||||||
|
Тогда выборочная средняя |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
m |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
xB = |
∑uini |
k + А = |
−22 |
4 +11 ≈10,12 (лет). |
|
|
|
|
|
|||||||||||||||||||||||
|
|
|
|
|
|
|
|
i=1 |
|
|
|
|
|
|||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
100 |
|
|
|
|
|
||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
Выборочная дисперсия |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||
|
|
|
|
|
|
|
|
m |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
∑ui2ni |
|
|
|
|
|
|
|
|
124 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
|
|
|
|
σB2 |
= |
i =1 |
|
|
|
k 2 −(xB − А)2 |
= |
42 |
−(10,12 −11)2 |
≈19,07 . |
|
|
|||||||||||||||||||||||
|
|
|
|
|
|
n |
|
|
100 |
|
|
|||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
Тогда средняя квадратическая ошибка |
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||||||
|
|
|
|
′ |
|
σ 2 |
|
|
n |
|
19,07 |
|
|
|
|
100 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
σ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||
|
|
≈ |
B |
1− |
|
|
|
|
= |
|
|
1 |
− |
|
|
|
|
|
= |
0,181165 |
≈ 0,426 (лет). |
|
||||||||||||||||||
x |
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||||||||||||||
|
N |
100 |
|
|
|
|
|
|
||||||||||||||||||||||||||||||||
|
|
|
|
|
|
n |
|
|
|
|
|
|
2000 |
|
|
|
|
|
|
|
|
|
|
|
|
|
40

Тогда предельная ошибка выборки δ = t σ x′ = 2,96 0,426 ≈1,26 . Искомые границы:
xB −δ ≤ xo ≤ xB +δ ,
10,12 −1,26 ≤ xo ≤10,12 +1,26 ,
8,86 ≤ xo ≤11,38 ,
то есть с вероятностью 0,997 можно утверждать, что средний стаж работы по специальности всех студентов вуза изменяется в пределах от 8,86 лет до 11,38 лет.
Ответ: с вероятностью 0,997 можно утверждать, что средний стаж работы по специальности всех студентов вуза заключен в пределах 8,86 ≤ xo ≤11,38 лет
Задание 2, а2. Найти границы, в которых с вероятностью 0,9708 заключена доля всех студентов вуза, стаж работы которых по специальности не более 9 лет.
Решение 2, а2. Найдем выборочную долю студентов (по исходным данным табл. 9, стаж работы которых по специальности не более 9 лет:
ω = 15100+20 = 10035 = 0,35 .
Доля студентов вуза, стаж работы которых по специальности не более 9 лет, будет заключена в границах
ω −δ ≤ p ≤ω +δ ,
где предельная ошибка выборки δ = t σω′. В данном случае в качест-
ве средней квадратической ошибки σ выбираем σω′ (см. табл. 3.1), так как оценивается генеральная доля и выборка бесповторная.
Так как по условию доверительная вероятность P = 0,9708 , то значение t найдем по таблице значений функции Лапласа (приложение 2 в настоящих методических указаниях или в книгах [1] или
41

[5]) из условия |
Φ(t) = |
P |
, то есть |
Φ(t) = |
0,9708 |
= 0,4854 . По таблице |
|
2 |
2 |
||||||
|
|
|
|
|
находим t = 2,18 .
Так как по условию выборка бесповторная и оценивается ге-
неральная доля, то среднюю квадратическую ошибку выборки σω′ согласно табл. 6 найдем по формуле
|
|
′ |
|
ω(1 −ω) |
|
n |
|
||
|
|
|
|
|
|||||
σω |
= |
n |
1 |
− |
|
|
, |
||
|
|||||||||
|
|
|
|
|
|
N |
|
где n =100 – объем выборки,
N = 2000 – объем генеральной совокупности, ω = 0,35 – выборочная доля.
Таким образом,
|
|
′ |
|
0,35(1 −0,35) |
|
100 |
|
|
||
|
|
|
|
|
||||||
σω |
= |
|
1 |
− |
|
|
≈ 0,046 . |
|||
100 |
2000 |
|||||||||
|
|
|
|
|
|
|
|
Тогда предельная ошибка выборки δ = t σω′ = 2,18 0,046 ≈ 0,10 . Искомые границы:
ω −δ ≤ p ≤ω +δ ,
0,35 −0,1 ≤ p ≤ 0,35 + 0,1, 0,25 ≤ p ≤ 0,45 ,
то есть с вероятностью 0,9708 можно утверждать, что доля студентов всего вуза, стаж работы которых по специальности не более 9 лет, заключена в пределах от 0,25 до 0,45 (или составляет от 25% до
45%).
Ответ: доля студентов всего вуза, стаж работы которых по специальности не более 9 лет, заключена в пределах 0,25 ≤ p ≤ 0,45 с вероятностью 0,9708.
42

Задание 2, б1. Каким должен быть объем выборки, чтобы границы, найденные в пункте а1, гарантировать с вероятностью
0,9964?
Решение 2, б1. Так как в a1, оценивалась генеральная средняя и выборка бесповторная, то искомый объем выборки согласно табл. 3.2 найдем по формуле:
n′x = nx +N , nx N
где N = 2000 – объем генеральной совокупности;
= t2σ 2
nx δ 2B – объем повторной выборки (согласно табл. 3.2).
По условию имеем (из а1)): σB2 = DB =19,07 , δ =1,26 .
Так как по условию доверительная вероятность P = 0,9964 , то значение t найдем по таблице значений функции Лапласа (приложение 2 в настоящих методических указаниях или в книгах [1] или
[5]) из условия Φ(t) = |
P |
, |
то есть Φ(t) = 0,9964 = 0,4982 |
. По таблице |
|||||
|
|||||||||
|
|
2 |
|
|
|
2 |
|
||
находим t = 2,92 . |
|
|
|
|
|
|
|
|
|
Тогда объем повторной выборки составит |
|
||||||||
n |
x |
= t2σB2 = |
2,922 19,07 |
=102,4 ≈103 чел. |
|
||||
|
|
δ 2 |
1,262 |
|
|
||||
Тогда объем бесповторной выборки |
|
||||||||
n′x = |
nx N |
= |
103 2000 |
= 97,95 ≈ 98 чел. |
|
||||
nx + N |
|
|
|||||||
|
|
|
103 +2000 |
|
|
Ответ: для того, чтобы гарантировать с вероятностью 0,9964 границы, найденные в пункте а1, объем бесповторной выборки должен составлять 98 студентов.
43

Задание 2 б2. Каким должен быть объем выборки, чтобы границы, найденные в пункте а2, гарантировать с вероятностью
0,996?
Решение 2, б2. Так как в a2 оценивалась генеральная доля и выборка бесповторная, то искомый объем выборки согласно таблицы 3.2 найдем по формуле:
nω′ = nnω+NN ,
ω
где N = 2000 – объем генеральной совокупности;
nω = t2ω(δ12−ω) – объем повторной выборки (согласно табл. 3.2).
По условию имеем (из а2): ω = 0,35 , δ = 0,1.
Так как по условию доверительная вероятность P = 0,996 , то значение t найдем по таблице значений функции Лапласа (приложение 2 в настоящих методических указаниях или в книгах [1], [5])
из условия |
Φ(t) = |
P |
|
, то есть Φ(t) = 0,996 = 0,498 |
. По таблице нахо- |
|||
|
|
|||||||
|
2 |
|
|
2 |
|
|||
дим t = 2,88. |
|
|
|
|
|
|
||
Тогда объем повторной выборки составит |
|
|||||||
n |
= t2ω(1 −ω) = 2,882 0,35 (1 −0,35) =188,7 ≈189 чел. |
|||||||
ω |
δ 2 |
|
|
0,12 |
|
|
||
|
|
|
|
|
||||
Объем бесповторной выборки |
|
|||||||
|
nω′ = |
|
nω N |
= |
189 2000 |
=172,7 ≈173 чел. |
||
|
nω + N |
|
||||||
|
|
|
189 +2000 |
|
|
Ответ: для того, чтобы гарантировать с вероятностью 0,996 границы найденные в пункте а2 объем бесповторной выборки должен составлять 173 студента.
44

Задание 2 в1. Найти вероятность того, что средний стаж работы по специальности всех студентов вуза отличается от среднего их стажа в выборки не более чем на 1 год (по абсолютной величине).
Решение 2 в1. Так как по условию задачи оценивается генеральная средняя (x0 ) и выборка бесповторная, то для нахождения искомой вероятности применим формулу (3.1) в следующем виде:
|
|
|
|
|
|
|
δ |
|
|
|
||
P( |
x |
− x |
|
|
≤ δ )= 2Φ |
|
|
|
, |
|||
|
|
|
|
|
|
|
||||||
|
0 |
|
B |
|
|
|
|
|
|
′ |
||
|
|
|
σ |
|
||||||||
|
|
|
|
|
|
x |
|
|
|
где по условию δ =1. В качестве средней квадратической ошибки
σ выбираем σ x′(см. табл. 3.1), так как оценивается генеральная средняя и выборка бесповторная. Средняя квадратическая ошибка
найдена в 2а1 и равна |
|
|
|
′ |
≈ 0,426 . |
|
|
|
|
|||||
σ |
|
|
|
|
||||||||||
|
x |
|
|
|
|
|||||||||
Тогда искомая вероятность будет равна |
|
|
||||||||||||
|
|
|
|
|
|
|
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
P( |
x0 − xB |
≤1)= 2 Φ |
|
|
= 2 |
Φ(2,34) |
= 2 |
0,4904 |
= 0,9808 . |
|||||
0,426 |
||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
Ответ: вероятность того, что средний стаж работы по специальности всех студентов вуза отличается от среднего их стажа в выборки не более чем на 1 год (по абсолютной величине), равна
0,9808.
Задание 2 в2. Найти вероятность того, что доля студентов в вузе, имеющих стаж работы не менее 13 лет отличается от выборочной доли таких же студентов не более чем на 2 года (по абсолютной величине).
Решение 2 в2. Так как по условию задачи оценивается генеральная доля (p) и выборка бесповторная, то для нахождения искомой вероятности применим формулу (1) в следующем виде:
45

|
|
|
|
δ |
|
|
|
|
P( |
p −ω |
≤ δ )= 2Φ |
|
|
|
, |
||
|
|
|
|
|||||
|
|
|
|
|
|
′ |
||
|
|
σω |
||||||
|
|
|
|
|
|
где по условию δ = 2 . В качестве средней квадратической ошибки
σ выбираем σω′ (см. таблицу 3.1), так как оценивается генеральная доля и выборка бесповторная. Среднюю квадратическую ошибку выборки согласно таблицы 6 найдем по формуле:
|
|
′ |
|
ω(1−ω) |
|
n |
|
||
|
|
|
|
|
|||||
σω |
= |
n |
1 |
− |
|
|
, |
||
|
|||||||||
|
|
|
|
|
|
N |
|
где n =100 – объем выборки,
N = 2000 – объем генеральной совокупности.
Найдем (по исходным данным таблицы 3.3) выборочную долю (ω) студентов, имеющих стаж работы по специальности не менее 13 лет
ω = 12100+8 = 10020 = 0,2 .
Таким образом, средняя квадратическая ошибка выборки примет вид
|
|
|
ω (1 |
−ω) |
|
n |
= |
0,2 (1− |
0,2) |
− |
100 |
|
= 0,039 . |
|||
σω = |
− |
|||||||||||||||
n |
1 |
|
|
|
1 |
|
|
|||||||||
|
100 |
2000 |
||||||||||||||
|
|
|
|
|
N |
|
|
|
|
|
Тогда искомая вероятность будет равна
|
|
|
|
2 |
|
|
|
|
|
|
|
||||
P( |
p −0,2 |
|
≤ 2)= 2 Φ |
|
|
= 2 Φ(51,2) |
= 2 0,5 =1. |
|
0,039 |
||||||
|
|
|
|
|
|
|
|
|
|
|
|
Ответ: вероятность того, что доля студентов в вузе, имеющих стаж работы не менее 13 лет, отличается от выборочной доли таких же студентов не более чем на 2 года (по абсолютной величине) равна 1.
46

Тема 4.
СТАТИСТИЧЕСКАЯ ПРОВЕРКА ГИПОТЕЗ. КРИТЕРИЙ χ 2 ПИРСОНА
Во всяком статистическом распределении неизбежно присутствуют элементы случайности, связанные с тем, что число наблюдений ограничено, что произведены именно те, а не другие опыты, давшие именно те, а не другие результаты. Только при очень большом числе наблюдений эти элементы случайности сглаживаются, и случайное явление обнаруживает в полной мере присущую ему закономерность. На практике мы почти никогда не имеем дела с таким большим числом наблюдений и вынуждены считаться с тем, что любому статистическому распределению свойственны в большей или меньшей мере черты случайности. Поэтому при обработке статистического материала часто приходится решать вопрос о том, как подобрать для данного статистического ряда теоретическую кривую распределения, выражающую лишь существенные черты статистического материала, но не случайности, связанные с недостаточным объемом экспериментальных данных. Такая задача называется зада-
чей выравнивания (сглаживания) статистических рядов.
Задача выравнивания заключается в том, чтобы подобрать теоретическую плавную кривую распределения, с той или иной точки зрения наилучшим образом описывающую данное статистическое распределение (рис. 4.1).
Задача о наилучшем выравнивании статистических рядов, как и вообще задача о наилучшем аналитическом представлении эмпи-
47

рических функций, есть задача в значительной мере неопределенная, и решение ее зависит от того, что условиться считать «наилучшим». Например, при сглаживании эмпирических зависимостей очень часто исходят из так называемого принципа или метода наименьших квадратов, считая, что наилучшим приближением к эмпирической зависимости в данном классе функций является та-
кое, при котором сумма квадратов отклонений обращается в минимум. При этом вопрос о том, в каком именно классе функций следует искать наилучшее приближение, решается уже не из математических соображений, а из соображений, связанных с физикой решаемой задачи, с учетом характера полученной эмпирической кривой и степени точности произведенных наблюдений. Часто принципиальный характер функции, выражающей исследуемую зависимость, известен заранее из теоретических соображений, из опыта же требуется получить лишь некоторые численные параметры, входящие в выражение функции; именно эти параметры подбираются с помощью метода наименьших квадратов.
Аналогично обстоит дело и с задачей выравнивания статистических рядов. Как правило, принципиальный вид теоретической кривой выбирается заранее из соображений, связанных с существом задачи, а в некоторых случаях просто с внешним видом статистического распределения (гистограммы).
Рисунок 4.1.
48

Аналитическое выражение выбранной кривой распределения зависит от некоторых параметров; задача выравнивания статистического ряда переходит в задачу рационального выбора тех значений параметров, при которых соответствие между статистическим и теоретическим распределениями оказывается наилучшим.
Предположим, например, что исследуемая величина X есть ошибка измерения, возникающая в результате суммирования воздействий множества независимых элементарных ошибок; тогда из теоретических соображений можно считать, что величина X подчиняется нормальному закону:
f (x)= |
|
1 |
e− |
(x−a)2 |
|
|
|
2σ2 |
(4.1) |
||||
σ |
2π |
|||||
|
|
|
|
и задача выравнивания переходит в задачу о рациональном выборе параметров a и σ в выражении (4.1).
Бывают случаи, когда заранее известно, что величина X распределяется статистически приблизительно равномерно на некотором интервале; тогда можно поставить задачу о рациональном выборе параметров того закона равномерной плотности
|
1 |
,приα < x < β, |
f (x)= |
|
|
β −α |
0,приα > x или β < x,
которым можно наилучшим образом заменить (выровнять) заданное статистическое распределение.
По внешнему виду гистограммы, может быть выдвинуто предположение о показательном законе распределения, тогда можно поставить задачу о рациональном выборе параметров закона Пуассона:
|
-λx |
, при x > 0, |
f (x)= λe |
|
|
0, |
|
при x < 0. |
49