1674
.pdfПо аналогии с формулой (108) рассчитываем несмещенную оценку среднего квадратического отклонения: S S2 9,06 3,01;
3) согласно ранее введенным обозначениям при определении доверительного интервала для математического ожидания имеем α<а<β. При этом α=xb – δ; β=xb + δ.
В рассматриваемом примере неизвестно среднее квадратическое отклонение (известна только его оценка), поэтому воспользуемся форму-
лой (116): δ=tγ· |
S |
|
. Здесь |
tγ = t[(1-γ),(n-1)] = t (0,05 , 9). |
|
|
|
|
|||
|
|||||
|
|
n |
|
По таблице критериев Стьюдента (прил. 3) находим t(0,05 ; 9) = 2,26. Отсюда получим 2,26 3,0110 2,18. Тогда α = xb – δ = 2,2 – 2,18 = 0,02;
β=xb + δ = 2,2 + 2,18 = 4,38. Окончательно имеем 0,02 < а < 4,38.
При определении границ доверительного интервала для оценки среднего квадратического отклонения воспользуемся формулой (120):
|
|
|
n 1 |
|
|
n 1 |
|||||
S |
|
|
|
|
; S |
|
|
|
|
; |
|
|
|
1 |
|
|
|
1 |
|
||||
|
2 |
|
2 |
|
|||||||
|
|
|
,n 1 |
|
|
,n 1 |
|||||
2 |
2 |
||||||||||
|
|
|
|
|
|
|
2 |
|
2 |
1 |
|
|
|
2 |
|
2 |
1 |
|
||
1 |
|
|
|
|
,n 1 |
; |
|
2 |
|
|
|
|
,n 1 . |
|
2 |
|
2 |
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
Величины 12 и 22 находим по прил.4.
12 |
2 |
1 0,95 |
|
|
|
|
2(0,025;9) 19,0; |
||||||||||||
|
|
|
|
|
|
|
|
,10 1 |
|||||||||||
|
|
2 |
|
|
|||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
1 0,95 |
|
2(0,975;9) 2,7. |
|
||||||||||||||
12 |
2 |
|
|
|
|
|
|
|
|
,10 1 |
|
||||||||
|
2 |
|
|
|
|
|
|||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
Тогда получим 3,01 |
|
|
9 |
|
|
|
2,06; |
3,01 |
9 |
|
|
5,5. |
|||||||
19 |
|
|
|
|
|||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
2,7 |
|
|
|
Окончательно имеем следующий доверительный интервал для среднего квадратичного отклонения: 2,06 < σ <5,5.
Для более глубокого понимания рассматриваемого вопроса разберем пример, в котором известно среднее квадратичное отклонение, т.е. задано по условию задачи.
Пример. Определить доверительный интервал с надежностью 0,95 для оценки неизвестного математического ожидания признака, распределенного по закону Гаусса, если известно, что σ = 8; xb =21,6, а n=81.
Решение. Для определения величины отклонения σ воспользуемся
89
формулой (112): t t |
|
|
. |
|
|
|
|
||
|
|
n |
Находим t |
из условия, что 2Ф(t) = γ = 0,95; |
Ф(t) = 0,475. |
|
8 |
|
|
|||
По |
прил. |
2 находим t = 1,96. Тогда |
получим 1,96 |
|
|
|
|||
|
|
|
|||||||
81 |
|||||||||
|
8 |
|
|
|
|
||||
1,96 |
1,74. |
|
|
|
|
|
|||
|
|
|
|
|
|
||||
9 |
|
|
|
|
|
|
|
На этом основании имеем α = 21,6 – 1,74 = 19,86; β = 21,6 + 1,74 = 23,34.
Тогда доверительный интервал для математического ожидания полу-
чим 19,86 < а < 23,34.
2.5. Линейная корреляция
Зависимость между X и Y можно описать в виде выборочного уравнения прямой линии регрессии, которое имеет следующий вид:
y |
|
|
y |
r |
|
y |
(x |
x |
), |
(124) |
|
|
|||||||||
|
x |
|
|
b |
|
x |
|
где x– выборочное среднее признака X; y– выборочное среднее признака
Y; σx, σy – выборочные средние квадратичные отклонения признака X и Y соответственно; yx – условная средняя; rb – выборочный коэффициент корреляции, который определяется по формуле
|
|
|
|
|
|
|
|
nij |
|
|
|
|
|
xi yj n xb yb |
|
||
r |
i j |
|
. |
(125) |
|
|
|
||||
b |
|
n x y |
|
||
|
|
|
|
Рассмотрим конкретный пример.
Пример. Найти выборочное уравнение прямой линии регрессии Y на X по данным, приведенным в табл.12.
|
|
Корреляционная таблица |
|
Таблица 12 |
||
|
|
|
|
|||
|
|
|
|
|
|
|
y |
|
|
x |
|
|
|
10 |
20 |
30 |
|
40 |
50 |
|
|
|
|||||
20 |
5 |
10 |
|
|
|
|
25 |
|
7 |
15 |
|
2 |
|
30 |
|
|
30 |
|
4 |
10 |
35 |
|
|
|
|
5 |
2 |
40 |
|
|
|
|
6 |
4 |
Обычно корреляционная таблица заполняется так, как показано в приведенной таблице, т.е. нули в ней опускаются (не пишутся).
90
Величина nij показывает, сколько наблюдений было признака x соответственно с признаком y.
В рассматриваемом примере имеем
n11=5; |
n12=10; |
n13=0; |
n14=0; |
n15=0; |
n21=0; |
n22=7; |
n23=15; |
n24=2; |
n25=0; |
n31=0; |
n32=0; |
n33=30; |
n34=4; |
n35=10; |
n41=0; |
n42=0; |
n43=0; |
п44=5; |
n45=2; |
n51=0; |
n52=0; |
n53=0; |
n54=6; |
n55=4. |
Запишем вариационные ряды для признаков X и Y, сложив значения nij по столбцам и строкам соответственно ( табл. 13 и 14).
|
|
|
|
|
|
|
Таблица 13 |
|
|
Вариационный ряд признака X |
|
|
|||
|
|
|
|
|
|
|
|
xi |
10 |
|
20 |
30 |
|
40 |
50 |
ni |
5 |
|
17 |
45 |
|
17 |
16 |
|
|
|
|
|
|
|
Таблица 14 |
|
|
|
Вариационный ряд признака Y |
|
|
||
|
|
|
|
|
|
|
|
yj |
20 |
|
25 |
30 |
|
35 |
40 |
nj |
15 |
|
24 |
44 |
|
7 |
10 |
Определим объем выборки:
n nij ni nj 5+17 +45 +17 +16 =15 +24 +44 +7+10 = 100.
i |
j |
i |
j |
Определим все выборочные величины, которые необходимы для расчета коэффициента корреляции rb:
|
|
|
|
|
ni xi |
|
10 5 20 17 30 45 40 17 50 16 |
|
|
|
|
|||||||||||
|
|
|
x |
|
i 1 |
|
|
|
|
|
32,2; |
|||||||||||
|
|
|
|
|
|
|
|
|
|
|||||||||||||
|
|
|
b |
n |
|
|
|
|
|
100 |
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
ni xi2 |
|
10 |
2 |
5 20 |
2 |
17 30 |
2 |
45 40 |
2 |
17 50 |
2 |
16 |
|
|||||||
x |
b |
i 1 |
|
|
|
|
|
|
|
|
1150; |
|||||||||||
|
|
|
|
|
|
|
|
100 |
|
|
|
|
|
|||||||||
|
|
|
|
n |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Db xb2 (xb)2=1150 – (32,2)2 = 1150 – 1036,8 = 113,16;
x Dx 113,16 10,64;
91
|
|
|
|
nj |
yj |
20 15 25 24 30 44 35 7 40 10 |
|
|
||
|
|
y |
b |
j 1 |
|
|
|
28,65; |
||
|
|
n |
|
|
100 |
|||||
|
|
|
|
|
|
|
|
|
||
|
|
|
nj y2j |
|
202 |
15 252 24 302 44 352 7 402 10 |
|
|||
y |
b2 |
j 1 |
|
|
851,75; |
|||||
|
n |
|
|
|||||||
|
|
|
|
|
|
|
100 |
|
|
Db yb2 (yb)2 =851,75 – (28,65)2 = 851,75 – 820,82 = 30,92;
y Dy 30,92 5,56;
nij xi yi = 5·20·10 + 10·20·20 + 7·25·20 + 15·25·30 + 2·25·40 +
i j
+30·30·30 ++ 4·30·40 + 10·30·50 + 5·35·40 + 2·35·50 + 6·40·40 + 4·40·50 = =136700.
Определяем выборочный коэффициент корреляции по формуле (125):
rb 136700 100·32,2·28,65 7,51. 100·10,64·5,56
Подставляя расчетные величины в формулу (124), имеем
yx 28,65 7,51 5,56 (x 32,2). 10,64
Таким образом, имеем следующее уравнение линейной регрессии:
yx 3,92x 97,72 ,
которое является математической зависимостью между признаками X и Y, полученной на основе обработки статистических данных методами корреляционного анализа.
2.6. Сравнение двух средних генеральных совокупностей, дисперсии которых известны
Пусть будут заданы n и m – независимые выборки больших объемов (n > 30 и m > 30), по которым найдены соответствующие выборочные xb и
yb . При этом заданы генеральные дисперсии Dx и Dy.
Правило 1. Для того чтобы при заданном уровне значимости α проверить нулевую гипотезу Н0: M(X)=M(Y) о равенстве математических ожиданий (генеральных средних) двух генеральных совокупностей, распределенных нормально, с известными дисперсиями при конкурирующей гипо-
92
тезе Н1: M(X)≠M(Y), необходимо вычислить наблюденное значение критерия
Zнабл |
|
x |
b |
y |
b |
|
|
(126) |
|
|
|
|
|
|
|
||
Dx n Dy |
|
|||||||
|
|
m |
и по таблице функций Лапласа (см. прил. 2) определить критическую точку Zкр из следующего равенства:
Ф(Zкр ) |
1 |
. |
(127) |
|
|||
2 |
|
|
Если Zнабл < Zкр, то нет оснований отвергать нулевую гипотезу. В противном случае нулевую гипотезу отвергают.
Правило 2. При конкурирующей гипотезе Н1: M(X)>M(Y) находят критическую точку Zкр из равенства
Ф(Zкр ) |
1 2 |
. |
(128) |
|
|||
2 |
|
|
Если Zнабл < Zкр, то нет оснований отвергать нулевую гипотезу. Если Zнабл Zкр, то нулевую гипотезу отвергают.
Правило 3. При конкурирующей гипотезе Н1: M(X)<M(Y) находят «вспомогательную точку» Zкр (по правилу 2). Если Zнабл > Zкр, то нет оснований отвергать нулевую гипотезу. Если Zнабл Zкр, то нулевую гипотезу отвергают.
Рассмотрим конкретный пример.
Пример. Пусть будут заданы две независимые выборки, извлеченные из нормальных генеральных совокупностей. Заданы объемы выборки, n = 50 и m = 70, выборочные средние xb =150 и yb =140, генеральные дис-
персии Dx=90 и Dy=100. При уровне значимости α=0,01 проверить нулевую гипотезу Н0: M(X)=M(Y) при конкурирующей гипотезе Н1: M(X)≠M(Y).
Решение.
Вычисляем наблюденное значение критерия
Zнабл |
|
x |
b |
y |
b |
|
|
|
|
150 140 |
||
|
|
|
|
|
|
|
|
|
5,56. |
|||
|
|
|
|
|
|
|
|
|
|
|||
Dx n Dy |
|
|
||||||||||
|
|
m |
90 50 100 70 |
Находим критическую точку из равенства
Φ(Zкр) 1 1 0,01 0,495. 2 2
По таблице функций Лапласа (см. прил. 2) определить критическую точку Zкр=2,58. Имеем Zнабл > Zкр,т.е. 5,56 > 2,58. На этом основании отвергаем нулевую гипотезу, поскольку исследуемые выборочные средние различаются значимо.
93
2.7. Проверка гипотезы о законе распределения непрерывной случайной величины
Весь диапазон изменения непрерывной случайной величины разбивается на подынтервалы, а затем определяется количество измерений, попавших в каждый подынтервал ni. Эти данные, как правило, представляются в виде табл.15.
|
Статистическое распределение выборки |
|
Таблица 15 |
||||
|
|
|
|||||
|
|
|
|
|
|
|
|
Интервалы |
x1 – x2 |
x2 – x3 |
… |
xi – xi+1 |
|
… |
xn-1 – xn |
Частоты ni |
n1 |
n2 |
… |
ni |
|
… |
nk |
На основе этих данных исследователь строит гистограмму частот либо относительных частот и по ее виду определяет приблизительно закон распределения, которому возможно, подчиняется изучаемая случайная величина, ориентируясь при этом по виду выравнивающей кривой.
Wi/h
Wi/h
Wi/h
x
x |
x |
а) |
б) |
в) |
Рис. 32. Примеры гистограмм наиболее часто встречающихся законов распределения случайной величины:
а– нормальное распределение; б – показательное распределение;
в– равномерное распределение
Вкачестве примеров на рис.32 приведены наиболее часто встречающиеся законы распределения случайной величины. Так, на рис.32,а приведена гистограмма, по виду которой можно предположить, что случайная величина, положенная в основу построения этой гистограммы, вероятнее всего, распределена по закону Гаусса или, иначе, подчинена нормальному закону распределения, поскольку ее выравнивающая кривая близка по своей форме к кривой Гаусса. На рис. 32,б – предположительно показательное распределение, поскольку здесь выравнивающая кривая напоминает ги-
94
перболу, а на рис.32,в – равномерное распределение (выравнивающая в виде прямой линии, параллельной оси абсцисс).
Выравнивающую кривую проводят через середины ступенек гистограммы (см. рис. 32,а, б) либо как среднюю линию между ступеньками гистограммы (см. рис. 32,в).
Для проверки гипотезы о законе распределения случайной величины необходимо определить следующие параметры:
|
xi – середина i-го подынтервала, |
|
||
|
xi |
xi xi 1 |
; |
(129) |
|
|
|||
|
2 |
|
|
n1i – теоретическая частота попадания случайной величины в i-й по-
дынтервал,
n1 |
n |
p , |
(130) |
i |
i |
i |
|
где pi – вероятность попадания случайной величины X в подынтервал (xi, xi+1), т.е. pi=p(xi < X < xi+1);
n – объем выборки,
n ni ; |
(131) |
i |
|
2 – наблюдённое значение критерия Пирсона,
набл2 |
S |
(n n1) |
2 |
|
|
|
|
i |
i |
|
, |
(132) |
|
|
1 |
|
||||
|
i 1 |
|
ni |
|
|
|
где S – количество немалочисленных подынтервалов, в которых ni ≥ 5. Если это правило не выдерживается, то малочисленные подытервалы либо объединяют, либо присоединяют к ближайшим соседним подынтервалам;
K – число степеней свободы выборки,
K = S – r – 1, |
(133) |
где r – число параметров, оцениваемых по выборке. Оно различно при рассмотрении различных гипотез.
Если задан (либо принят) уровень значимости α и определено число степеней свободы выборки K, то по прил. 4 определяют табулированное значение критерия Пирсона:
кр2 |
2( ,K). |
(134) |
Если набл2 2( ,K), то нет оснований для того, чтобы отвергать гипотезу о выдвинутом законе распределения. В противном случае гипотеза отвергается.
Вероятности попадания случайной величины X в подынтервал (xi, xi+1) определяются по-разному при выдвижении различных гипотез, а именно:
95
1. Пусть выдвинута гипотеза о нормальном распределении изучаемой случайной величины. Тогда
pi = Ф(Zi+1) – Ф(Zi) , |
(135) |
где Zi – нормированная нормально распределенная случайная величина, которая определяется по формуле
Zi |
|
xi |
x |
b |
, |
(136) |
|
|
|
||||
|
|
b |
|
причем считают, что Z1=-∞; ZS+1=+∞. Для того чтобы можно было использовать формулы (135) и (136), предварительно необходимо определить выборочное среднее xb и выборочное среднее квадратическое отклонение b для нормального закона распределения. Поскольку в этом случае будут определяться два параметра выборки (xb и b ), то r=2.
2. Допустим, после построения гистограммы есть основание выдвинуть гипотезу о показательном законе распределения изучаемой случайной величины. Тогда
p e xi |
e xi 1 . |
(137) |
i |
|
|
Здесь также необходимо определить xb , а затем найти оценку неизвестно-
го параметра показательного распределения.
|
1 |
. |
(138) |
|
xb
Вэтом случае r = 1.
3.Предположим, что изучаемая случайная величина подчинена равномерному распределению. Тогда
|
pi= c (xi+1 – xi), |
(139) |
||||||
где |
c 1 (b a); |
(140) |
||||||
|
a |
x |
b |
|
|
b ; |
(141) |
|
|
3 |
|||||||
|
b |
x |
b |
|
3 |
b . |
(142) |
В этом случае необходимо предварительно определить xb и b , т.е. r = 2. Здесь следует заметить, что x1 заменяется на а, а x S+1 на b. Во всех рассмотренных случаях при расчетах xb и b в качестве элемента выбор-
ки берут середину подынтервалов.
В качестве упражнения по вышеприведенному материалу рассмотрим следующий пример.
Пример. Выдвинуть гипотезу о законе распределения и проверить ее по критерию согласия Пирсона при уровне значимости 0,05, если эмпириче-
96
ское распределение задано в виде последовательности подынтервалов и соответствующих им частот (табл.16).
|
|
|
|
|
Исходные данные |
|
|
|
|
Таблица 16 |
||
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
Пара- |
|
|
|
|
Подынтервалы |
|
|
|
|
|||
метры |
|
|
|
|
|
|
|
|
|
|
|
|
1 |
2 |
|
3 |
4 |
5 |
|
6 |
|
7 |
|||
xi |
0 |
6 |
|
12 |
18 |
24 |
|
30 |
|
36 |
||
xi+1 |
6 |
12 |
|
18 |
24 |
30 |
|
36 |
|
42 |
||
ni |
6 |
13 |
|
21 |
23 |
19 |
|
12 |
|
6 |
||
ni/h |
1 |
2 |
1 |
|
3,5 |
3,83 |
3 |
1 |
|
2 |
|
1 |
|
|
|||||||||||
|
|
6 |
|
|
|
6 |
|
|
|
|
Причем в этой таблице заданы только подынтервалы и соответствующие им частоты, строка ni h вычисляется дополнительно и заносится в эту таблицу для построения гистограммы (рис. 33).
Решение. На основании табл.16 строим гистограмму (рис. 33), используя строку ni h, где h xi 1 xi 6 0 6.
5 |
|
|
|
|
|
|
|
ni/h |
|
|
|
|
|
|
|
4 |
|
|
|
|
|
|
|
3 |
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
1 |
|
|
|
|
|
|
|
0 |
|
|
|
|
|
|
|
0 |
6 |
12 |
18 |
24 |
30 |
36 |
x |
|
Рис. 33. Гистограмма частот |
|
|
|
По виду выравнивающей кривой (см. рис.33) выдвигаем гипотезу о нормальном законе распределения изучаемой случайной величины.
Найдем n ni 100. Необходимо определить два параметра выбор-
ки (xb и b), т.е. r=2.
Запишем вариационный ряд (табл.17), в котором каждый подынтервал должна представить его середина (129): xi xi xi 1 /2.
|
|
|
Вариационный ряд |
|
|
Таблица 17 |
||
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
xi |
3 |
9 |
15 |
21 |
27 |
33 |
|
39 |
ni |
6 |
13 |
21 |
23 |
19 |
12 |
|
6 |
97
Определяем среднее выборки xb и выборочное среднее квадратов xb2 :
|
|
|
|
|
|
ni |
xi |
|
|
|
3 6 9 13 15 21 21 23 27 19 33 12 39 6 |
|
|
|
|
|||||||||||
|
|
|
x |
b |
i |
|
|
|
|
20,76; |
||||||||||||||||
|
|
|
n |
|
|
|
|
|||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
100 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
xi2 ni |
|
|
2 |
|
2 |
|
2 |
2 |
2 |
|
2 |
|
|
2 |
|
|
|||||
|
x |
b2 |
i |
|
|
3 |
|
|
6 9 |
|
13 15 |
|
21 21 23 27 |
|
19 33 |
|
12 39 |
|
6 |
|
||||||
|
|
|
|
|
|
|
|
|
|
|
100 |
|
|
|
|
|
|
|
||||||||
=520,2. |
n |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Находим выборочную дисперсию: Db xb2 xb 2 520,2 20,76 2
89,22.
Определяем среднее квадратичное отклонение выборки: b Db =
=89,22 9,45.
Все необходимые вычисления произведем по вышеприведенным формулам, а результаты расчетов занесем в табл. 18.
Таблица 18
Результаты расчетов
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
|
n |
n1 2 |
|
S |
x |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
i |
i |
|
|
x |
n |
i |
Z |
i |
Z |
i+1 |
Ф(Z ) |
Ф(Z |
i+1 |
) |
p |
i |
n |
|
|
|
|
|||
|
|
|
||||||||||||||||||
|
|
i+1 |
|
|
|
|
i |
|
|
|
i |
|
|
ni1 |
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
2 |
3 |
|
4 |
5 |
|
6 |
7 |
8 |
|
9 |
10 |
|
|
11 |
|
||||
1 |
0 |
6 |
6 |
|
19 |
-∞ |
-0,90 |
-0,0500 |
-0,3160 |
0,1840 |
18,40 |
|
0,019 |
|
||||||
2 |
6 |
12 |
13 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3 |
12 |
18 |
21 |
-0,90 |
-0,29 |
-0,3160 |
-0,1141 |
0,2019 |
20,19 |
|
0,032 |
|
||||||||
4 |
18 |
24 |
23 |
-0,29 |
0,34 |
-0,1141 |
0,1331 |
0,2472 |
24,72 |
|
0,120 |
|
||||||||
5 |
24 |
30 |
19 |
0,34 |
0,98 |
0,1331 |
0,3440 |
0,2110 |
21,10 |
|
0,209 |
|
||||||||
6 |
30 |
36 |
12 |
|
18 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
7 |
36 |
42 |
6 |
|
|
0,98 |
+∞ |
0,3440 |
0,5000 |
0,1560 |
15,60 |
|
0,369 |
|
По формуле (136) определяем Zi и Z i+1. Чтобы не приводить здесь всех расчетов по этим параметрам, рассмотрим определение этих величин на примере четвертого интервала. Так,
Z4 |
|
x4 |
x |
b |
|
|
18 20,76 |
0,29, |
b |
|
|||||||
|
|
9,45 |
|
которая занесена в третью строку (первые два подынтервала объединены по причине их малочисленности) столбца Zi.
Z5 x5 xb 24 20,76 0,34,b 9,45
98