
Прикладная математическая статистика.-4
.pdf
41
Тема 4. Дисперсионный анализ данных
Цель занятия:
Практическое проведение дисперсионного анализа выборочных данных
Содержание занятия:
1)Однофакторный параметрический анализ
2)Однофакторный непараметрический анализ
сравнении теоретической и эмпирической функций распределения вероятностей
3)Двухфакторный параметрический дисперсионный анализ
4)Двухфакторный непараметрический дисперсионный анализ
4.1. Однофакторный параметрический анализ
Рассмотрим влияние фактора А на исследуемый процесс X , принимающего
k различных |
значений — уровней фактора. На каждом i -м уровне |
|
производится ni |
наблюдений, результаты которых занесены в таблицу 4.1. |
|
Результат каждого наблюдения может быть представлен в виде модели: |
|
|
|
x ji = µ + αi + e ji , i = 1,..., n , |
(1) |
где – суммарный эффект во всех опытах; αi – эффект фактора A на i -м
уровне; e ji – ошибка определения x ji на i -м уровне.
Таблица 4.1. Форма представления экспериментальных данных однофакторной модели
|
Номер |
|
|
Уровни фактора A |
|
||
|
Наблюдения |
|
A1 |
A2 |
Ai |
|
Ak |
|
|
|
|
|
|
|
|
1 |
|
x |
x12 |
x1i |
|
x1k |
|
|
|
|
11 |
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
x21 |
x |
x2i |
|
x2 k |
|
|
|
|
|
22 |
|
|
|
|
|
|
|
|
|
|
|
|
…. |
…. |
…. |
…. |
|
…. |
|
|
|
|
|
|
|
|
|
|
j |
x j1 |
x j 2 |
x ji |
|
x jk |
|
|
…. |
…. |
….. |
….. |
|
….. |
|
|
|
|
|
|
|
|
|
|
n |
xn 1 |
xn 2 |
xn i |
|
xn k |
|
|
|
|
1 |
2 |
i |
|
k |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
42 |
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
Средние |
|
x1 |
|
x2 |
|
xi |
|
xk |
||||
значения по |
|
|
|
|
|
|
|
|
|
|
|
|
уровням |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Предположим, что наблюдения на i -м фиксированном уровне фактора нормально распределены относительно среднего значения (µ + αi ) с общей
дисперсией σ2 . Общее число опытов
k |
|
N = ∑ ni . |
(2) |
i=1 |
|
Следует установить, оказывает ли влияние фактор |
A на исследуемый |
процесс X . Сформулируем гипотезу H0 о том, что расхождение наблюдений в
сериях опытов для различных уровней факторов можно объяснить только случайными причинами. На статистическом языке это предположение означает, что все данные таблицы xij принадлежат одному и тому же
распределению.
Осуществим проверку нулевой гипотезы равенства средних значений на различных уровнях фактора A :
H0 : m1 = m2 = ... = mk = m .
Наиболее часто расчет проводится при равном числе опытов на каждом уровне A , т.е. n1 = n2 = ... = nk = n . При этом общее число наблюдений
N = k × n .
Среднее значение результатов наблюдений на i -м уровне:
|
|
|
|
|
n |
|
|
|
|
|
|||
|
|
|
|
∑ x ji |
|
Ai |
|
|
|
||||
|
|
i = |
j =1 |
= |
|
|
|
|
|||||
|
x |
. |
(3) |
||||||||||
|
|
|
|
|
|
||||||||
|
|
|
|
|
n |
|
n |
|
|
|
|||
Общее среднее значение для всей выборки из N наблюдений: |
|
||||||||||||
|
|
|
1 |
k |
1 |
|
k n |
|
|||||
|
|
= |
∑ |
|
i = |
|
∑∑ x ji . |
|
|||||
|
x |
x |
(4) |
||||||||||
|
k |
|
N |
|
|||||||||
|
|
|
i=1 |
|
|
i=1 j =1 |
|
Выборочная дисперсия на каждом уровне:
|
1 |
n |
1 |
n |
|||
si2 = |
∑( x ji − |
x |
i )2 = |
∑ x2ji |
|||
|
|
||||||
|
n − 1 j =1 |
n −1 j =1 |
|||||
|
|
|
|
|
|
|
Общая выборочная дисперсия:
|
1 |
|
n |
2 |
|
||
− |
|
|
∑ x ji |
. |
(5) |
||
n |
|||||||
|
|
j =1 |
|
|
|
||
|
|
|
|
|
|
1 |
|
k |
n |
|
|
1 |
k |
n |
|
1 |
|
k |
n |
2 |
|
|
|
|
|
|
|
|
|
|||||||||||||
s02 = |
|
|
∑∑( x ji − x)2 = |
|
∑∑ x2ji |
− |
|
|
∑∑ x ji |
|
. |
(6) |
||||||
|
|
|
N |
|||||||||||||||
|
N − 1 i=1 j =1 |
N − 1 i=1 j =1 |
|
|
i=1 |
j =1 |
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
Если |
между |
дисперсиями |
s2 |
нет |
значимых |
различий |
|
(однородность |
||||||||||
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
|
|
дисперсий |
s2 |
определяется по критерию Кохрена), |
то для оценки дисперсии, |
|||||||||||||||
|
i |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
характеризующей фактор случайности, можно использовать выборочную дисперсию

43
|
1 |
k |
1 |
k n |
|
1 |
k |
|
n |
2 |
|
||
sсл2 = |
∑ si2 = |
∑∑ x2ji |
− |
∑ |
∑ x ji |
|
(7) |
||||||
k |
|
|
|||||||||||
|
i=1 |
k (n −1) i=1 j =1 |
|
n i=1 |
|
j =1 |
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
с числом степеней свободы v = k (n − 1) = N − k .
Введем теперь оценку дисперсии sA2 , характеризующей изменение средних xi , связанное с влиянием фактора A :
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n |
|
k |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
sA2 = |
|
∑( |
|
i |
− |
|
)2 . |
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
x |
x |
|
|
(8) |
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
k − 1 i=1 |
|
|
|
|
|
|
|
|
|
|
|||||
с числом степеней свободы v = k − 1. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||
Если дисперсия |
s |
2 |
|
значимо |
отличается |
от |
s2 |
|
|
|
то |
нулевая |
гипотеза |
|||||||||||||||||
|
|
|
|
|
|
|
A |
|
|
|
|
|
|
|
|
|
|
|
|
|
сл |
|
|
|
|
|
|
|
||
H0 : m1 = m2 = ... = mk |
= m |
отвергается |
и |
|
влияние |
|
|
|
фактора |
A |
считается |
|||||||||||||||||||
существенным. Так |
|
как |
альтернативой |
|
к |
|
H |
0 |
:s2 |
|
является |
неравенство |
||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
сл |
|
|
|
|
|||
H |
1 |
: σ2 > s2 , |
для |
проверки |
гипотезы |
применяется |
|
|
|
односторонний |
критерий |
|||||||||||||||||||
|
A |
сл |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Фишера: влияние A считается значимым, если |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||||
|
|
|
F = |
sA2 |
> F |
(v |
, v |
), |
v |
= k −1; |
v |
= N − k = k |
(n −1) . |
|
(9 |
|||||||||||||||
|
|
|
|
|
||||||||||||||||||||||||||
|
|
|
|
|
s2 |
|
q |
1 |
2 |
|
1 |
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
сл |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
) |
|
|
Если |
отношение |
|
sA2 |
|
≤ F (v , v ) , то влияние |
фактора |
A следует считать |
|||||||||||||||||||||
|
|
|
|
|
|
|||||||||||||||||||||||||
|
|
|
|
|
|
|
|
s2 |
|
q |
1 |
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
сл |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
незначимым. |
При |
этом |
общая |
дисперсия |
s2 |
связана |
только |
с |
фактором |
|||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0 |
|
|
|
|
|
|
|
|
|
|
|
|
случайности.
При значимости влияния фактора A , т.е. при значимости различия между m1 = m2 = ... = mk = m , можно выяснить, какие именно средние mi различны. Для
этого используют критерии Стьюдента или ранговый критерий Дункана.
При интерпретации результатов дисперсионного анализа со случайными уровнями фактора обычно интересуются не проверкой гипотез относительно средних, а оценкой компонент дисперсии.
Пример 1.
Имеем наблюдения — оценки успеваемости студентов за выполнение лабораторных работ, которые проставляются с точностью до одного знака после запятой. Число лабораторных работ равно 5, число студентов — 8 (подгруппа). Требуется установить, влияет ли номер лабораторной работы на оценки студентов, т.е. одинаковы ли по сложности лабораторные работы.
Решение. Предположим, что плотность распределения оценок соответствует нормальному закону распределения. Исходные данные и расчеты приведены ниже (табл. 4.2).
Таблица 4.2
Исходные данные к примеру 1

|
|
|
|
|
|
44 |
|
|
|
|
|
|
|
|
|
|
|
Наблюдения |
Уровни фактора |
А (лабораторные |
||||||
(студенты) |
работы) |
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
1-я |
2-я |
3-я |
|
4-я |
5-я |
|
|
|
|
|
|
|
|
|
1 |
4,0 |
3,5 |
4,3 |
|
4,0 |
5,0 |
||
|
|
|
|
|
|
|
|
|
2 |
|
4,5 |
4,6 |
5,0 |
|
4,7 |
4,0 |
|
|
|
|
|
|
|
|
|
|
3 |
|
3,0 |
3,5 |
4,0 |
|
3,6 |
3,0 |
|
|
|
|
|
|
|
|
|
|
4 |
|
4,3 |
4,0 |
4,4 |
|
4,5 |
4,0 |
|
|
|
|
|
|
|
|
|
|
5 |
|
5,0 |
4,5 |
4,0 |
|
4,5 |
5,0 |
|
|
|
|
|
|
|
|
|
|
6 |
|
3,5 |
3,3 |
3,0 |
|
4,0 |
3,5 |
|
|
|
|
|
|
|
|
|
|
7 |
|
2,0 |
3,0 |
2,5 |
|
3,5 |
3,0 |
|
|
|
|
|
|
|
|
|
|
8 |
|
4,7 |
4,0 |
4,0 |
|
4,5 |
4,2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
3,88 |
3,80 |
3,90 |
|
4,16 |
3,96 |
|
xi |
|
||||||
|
|
|
|
|
|
|
||
2 |
0,99 |
0,33 |
0,63 |
|
0,21 |
0.61 |
||
si |
|
|
|
|
|
|
Выдвинем нулевую гипотезу о том, что фактор А (номер лабораторной работы) не влияет на оценки, т.е. H0 : m1 = m2 = ... = mk = m . Сделаем необходимые вычисления:
•среднее значение всей выборки определим по формуле (4):
|
|
1 |
n |
|||
|
= |
∑ |
|
i = 3, 94 ; |
||
x |
x |
|||||
k |
||||||
|
|
i=1 |
•дисперсию, характеризующую фактор случайности, по формуле (7):
|
1 |
n |
|
sсл2 − |
∑ si2 = 0, 55 ; |
||
k |
|||
|
i=1 |
•дисперсию фактора А — по формуле (11):
|
n |
k |
|||||
sA2 = |
∑( |
x |
i − |
x |
)2 = 0,15 ; |
||
|
|||||||
|
n − 1 i=1 |
Так как расчетное значение критерия
F= sA2 = 0, 27 < F0,05 (4, 35) = 2, 65 ,
sсл2
то гипотеза H0 не отвергается, следовательно, номер лабораторной работы не влияет на оценки.►

45
4.2 Однофакторный непараметрический анализ
Анализ на основе критерия Краскела-Уоллеса (произвольные альтернативы)
Этот метод используется, когда невозможно сказать что-либо определенное об альтернативах H0 , так как он свободен от распределения. Заменим наблюдения
x ji их рангами rji , упорядочивая всю совокупность { x ji } в порядке возрастания.
Затем для каждой обработки i (уровня фактора, столбца таблицы) надо вычислить суммарный и средний ранги:
ni |
|
|
|
1 |
ni |
|
|
Ri = ∑ rji |
и |
R |
i = |
∑ rji . |
(13) |
||
ni |
|||||||
j =1 |
|
|
|
j =1 |
|
Если между столбцами нет систематических различий, то средние ранги Ri , не должны значительно отличаться от среднего, рассчитанного по всей совокупности
|
N + 1 |
||
{rji } . Значение последнего R = |
|
. Здесь N — общее число наблюдений. |
|
2 |
|||
|
|
k
N= ∑ ni .
i=1
|
Вычислим |
|
|
|
|
|
|
|
|
2 |
для каждого уровня фактора |
||||
|
|
|
|
|
|
|
|||||||||
|
величины дисперсий (Ri − R) |
|
|||||||||||||
|
|
|
M + 1 |
|
|
|
|
M + 1 |
|
|
|
||||
|
|
|
|
||||||||||||
Ri − |
|
|
|
,..., Rk − |
|
|
. |
|
|
||||||
|
|
|
|
|
|
||||||||||
|
2 |
|
|
|
2 |
|
|
|
|
Эти значения при H0 в совокупности
общую характеристику, разумно учесть разных обработок (уровней факторов) и чистой случайности величину
должны быть небольшими. Составляя
различия в числе наблюдений для взять в качестве меры отступления от
|
|
|
|
12 |
|
n |
|
|
|
N + 1 |
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|||||
|
H = |
|
|
|
|
∑ ni Ri − |
|
|
. |
|
(14) |
||||
|
|
|
|
2 |
|
|
|||||||||
|
|
N ( N + 1) i=1 |
|
|
|
|
|
|
|||||||
Эта величина называется статистикой Краскела-Уоллеса |
|
|
|||||||||||||
12 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Множитель |
|
|
присутствует в качестве нормировочного для обеспечения |
||||||||||||
N ( N + 1) |
|
||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
сходимости распределения |
статистики |
H и |
|
χ2 с числом степеней |
свободы |
||||||||||
v = k − 1. Гипотеза H |
0 |
отвергается при уровне значимости q ; если H |
набл |
> χ2 (v) , |
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
q |
то фактор считается значимым.
Если среди x ji есть совпадающие значения, то при ранжировании и переходе к rji надо использовать средние ранги (например, если 2 значения (5 и 5) занимают ранги 11, 12, то средний ранг (11,5) надо присвоить им обоим). Если совпадений много, рекомендуется использовать модифицированную форму статистики H ′ :

46
H ′ = |
|
H |
, |
(15) |
|
|
|||
m |
|
|||
|
1 − ∑Tj |
/( N 3 − N ) |
|
|
|
j =1 |
|
|
|
где m — число групп совпадающих наблюдений; T |
j |
= t 3 |
− t |
j |
( t |
j |
— число |
|
j |
|
|
|
|||
совпадающих наблюдений в группе j ). |
|
|
|
|
|
|
|
♦ Пример 2.
Для выяснения влияния денежного стимулирования на производительность труда шести однородным группам из 5 человек были предложены задания одинаковой трудности. Задания предлагались каждому испытуемому независимо от остальных. Группы отличались величиной денежного вознаграждения за решаемую задачу. Данные (число решаемых задач) приведены в таблице 3.
|
|
|
|
|
Таблица 4.3 |
|
|
|
Исходные данные к примеру 2 (первая цифра – |
это наблюдение x ji , вторая |
|||||||
цифра (маленькая)– это порядковый номер). |
|
|
||||||
|
|
|
|
|
|
|
|
|
Наблю |
|
|
Уровни |
|
|
|
|
|
|
Гр. 1 |
Гр. 2 |
Гр. 3 |
Гр. 4 |
|
Гр. 5 |
Гр. 6 |
|
|
|
|
|
|
|
|
|
|
1 |
10-5 |
8-2 |
12-9 |
12-10 |
|
24-27 |
19-24 |
|
|
|
|
|
|
|
|
|
|
2 |
11-7 |
10-6 |
17-20 |
15-14 |
|
16-19 |
18-22 |
|
|
|
|
|
|
|
|
|
|
3 |
9-3 |
16-15 |
14-13 |
16-17 |
|
22-26 |
27-30 |
|
|
|
|
|
|
|
|
|
|
4 |
7-1 |
13-12 |
9-4 |
16-18 |
|
18-21 |
25-29 |
|
|
|
|
|
|
|
|
|
|
5 |
13-11 |
12-8 |
16-16 |
19-23 |
|
20-25 |
24-28 |
|
|
|
|
|
|
|
|
|
|
Решение. Проверим гипотезу Н0 об отсутствии эффектов обработки (отсутствии влияния денежного вознаграждения). Поскольку закон распределения x ji
неизвестен, воспользуемся ранговыми критериями.
В связи с наличием совпадений необходимо воспользоваться средними
рангами. Так, |
x ji = 10 встречается дважды и при упорядочении x ji занимает 5-е и |
||||||||
6-е места. Поэтому средний ранг x ji |
= 10 равен 5,5. В результате ранжирования |
||||||||
получаем таблицу (табл. 4.4). |
|
|
|
|
|||||
|
|
|
|
|
|
Таблица 4.4 |
|
|
|
Ранжированные данные |
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
Наблюдения |
|
|
|
Уровни |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Гр. 1 |
Гр. 2 |
Гр.З |
|
Гр. 4 |
Гр. 5 |
Гр. 6 |
|
|
|
|
|
|
|
|
|
|
|
1 |
|
5,5 |
2 |
9 |
|
9 |
27,5 |
23,5 |
|
|
|
|
|
|
|
|
|
|
|
2 |
|
7 |
5,5 |
20 |
|
14 |
17 |
21,5 |
|
|
|
|
|
|
|
|
|
|
|
3 |
|
3,5 |
17 |
13 |
|
17 |
26 |
30 |
|
|
|
|
|
|
|
|
|
|
|

|
|
|
|
|
|
47 |
|
|
|
|
|
|
|
|
|
|
|
4 |
|
1 |
11,5 |
3,5 |
17 |
21,5 |
29 |
|
|
|
|
|
|
|
|
|
|
5 |
|
11,5 |
9 |
17 |
23,5 |
25 |
27,5 |
|
|
|
|
|
|
|
|
|
|
|
Ri |
28,5 |
45 |
62,5 |
80,5 |
117 |
131,5 |
|
|
|
|
5,7 |
9 |
12,5 |
16,1 |
23,4 |
26,3 |
|
Ri |
|||||||
|
|
|
|
|
|
|
В двух нижних строках приведены суммы рангов Ri и средние ранги Ri по столбцам. Вычислим статистику Краскела - Уоллеса при общем числе наблюдений
N = 30 , числе опытов при |
каждом |
значении |
|
фактора n j = 5, j = 1, 2,..., 6 . |
|||||||
Подставляя эти значения, получим |
|
|
|
|
|
|
|
|
|||
|
|
12 |
|
n |
|
|
31 |
|
2 |
||
|
|
|
|
|
|||||||
H = |
|
|
|
∑5 |
R |
i − |
|
|
= 21, 077 |
||
|
(30 |
+ 1) |
|
|
|||||||
30 |
i=1 |
|
|
2 |
|
|
|
||||
Величина H имеет распределение |
χ2 . |
По таблицам распределения χ2 для |
степеней свободы v = k − 1 находим, что минимальный уровень значимости q чуть больше 0,001, что слишком мало, чтобы принять гипотезу H0 .
Для учета влияния совпадений в {x ji } можно воспользоваться статистикой H ′ .
В нашем случае 8 групп совпадающих наблюдений: 9,9; 10,10; 12,12,12; 13,13; 16,16,16,16,16; 18,18; 19,19; 24,24.
T = 23 |
− 2 = 6; T = 23 |
− 2 = 6; T = 33 |
− 3 = 24 ; |
||
1 |
|
2 |
|
3 |
|
T = 6; T = 53 − 5 = 120; T = 6; T = 6; T = 6 . |
|||||
4 |
5 |
|
6 |
7 |
8 |
H ′ = |
|
21, 077 |
|
= 21, 219 . |
|
|
|
|
|
||
|
m |
|
|
||
|
1 − |
∑Tj /(303 − 30) |
|
|
|
|
|
j =1 |
|
|
|
Так как скорректированное значение H ′ мало отличается от H , мы можем |
|||||
отвергнуть гипотезу H0 |
при минимальном уровне значимости q = 0, 001.► |
Анализ на основе критерия Джонкхиера (альтернативы с упорядочением)
Нередко исследователю заранее известно, что имеющиеся группы результатов упорядочены по возрастанию влияния фактора. Пусть первый столбец таблицы
{x ji } соответствует наименьшему уровню, а последний — наибольшему. В таких
случаях критерий Джонкхиера более чувствителен (более мощный) в сравнении с упорядоченным влиянием фактора.
Рассмотрим сначала случай, когда сравниваются только 2 способа обработки (2 уровня фактора). Фактически речь идет тогда об однородности двух выборок. Для проверки этой гипотезы рассмотрим статистику Манна-Уитни.
Пусть имеем 2 выборки: x1, x2 ,...., xm и y1, y2 ,..., yn . Положим

48
|
0, |
если xi |
> y j ; |
|||
|
|
1 |
|
|
|
|
|
|
|
|
|
||
ϕ( xi , y j |
) = |
|
, |
если xi |
= y j ; |
|
2 |
||||||
|
|
|
|
< y j . |
||
|
1, |
если xi |
||||
|
|
|
|
|
|
Статистика Манна-Уитни:
m n
U = ∑∑ϕ( xi , y j ) .
i=1 i=1
(16)
(17)
Обратившись теперь к общему случаю, когда сравниваются k способов обработки ( k уровней), поступим следующим способом. Для каждой пары уровней u и v , где 1 ≤ u < v ≤ k , составим по выборкам с номерами u и v статистики Манна-Уитни:
|
|
|
|
|
|
|
|
m n |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
U (u, v) = ∑∑ϕ( xi , y j ) . |
|
|
|
|
|
|
(18) |
||||||||||
|
|
|
|
|
|
|
|
i=1 i=1 |
|
|
|
|
|
|
|
|
|
|
|
|
Получим U (1, 2), U (1, 3),...,U (1, k ), U (2, 3),...,U (2, k ),...,U (k −1, k ) . |
|
|
||||||||||||||||||
Определим |
статистику |
Джонкхиера |
|
I |
как |
I = ∑U (u, v) |
для |
1 ≤ u < v ≤ k . |
||||||||||||
Свидетельством против |
H0 (в пользу альтернативы) служат большие значения |
|||||||||||||||||||
статистики |
I , полученные в эксперименте. |
Для больших объемов выборок в |
||||||||||||||||||
отношении статистики I |
действует нормальное распределение I N (MI , DI ) , с |
|||||||||||||||||||
математическим ожиданием и дисперсией |
|
|
|
|
|
|
|
|
||||||||||||
|
|
|
|
|
|
|
|
|
1 |
|
k |
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
MI = |
|
N 2 − ∑ n j , |
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
1 |
4 |
|
i=1 |
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
k |
|
|
|
|
|
||||
|
|
|
DI = |
|
N 2 (2N + 3) − ∑ n2j |
(2n j + 3) , |
|
|
(19) |
|||||||||||
|
72 |
|
|
|||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
j =1 |
|
|
|
|
|
|
||
где n j – количество наблюдений в каждом уровне; |
|
|
|
|
|
|
||||||||||||||
N — общий объем наблюдений; |
|
|
|
|
|
|
|
|
|
|
|
|||||||||
Свидетельством против H0 |
(в пользу альтернативы) служат большие значения |
|||||||||||||||||||
статистики |
I * = |
I − MI |
, |
полученные |
в |
эксперименте, в |
сравнении |
с P - |
||||||||||||
|
|
|
||||||||||||||||||
DI |
||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
процентными точками |
нормального |
распределения |
Φ(I * ) = P |
(табличные |
||||||||||||||||
значения нормированной |
|
функции |
|
Лапласа). |
|
Тогда |
q −1 − P |
— |
уровень |
значимости, уровень принятия гипотезы H0 .
Пример 3
Для условия, изложенного в примере 2, решим задачу, используя критерий Джонкхиера.
Решение. Заметим, что в данном примере предлагается монотонное изменение стимулирования для оценки влияния на производительность. Поэтому оправдано применение критерия Джонкхиера. Выберем в качестве альтернативы к H0
49
утверждение, что чем выше уровень стимулирования, тем выше производительность. Для вычисления статистики I найдем значения статистик Манна-Уитни [для всех комбинаций u и v , где 1 ≤ u < v ≤ k .
Результаты расчета:
U (1, 2) = ϕ( x4 , y1 ) + (ϕ( x1 , y2 ) + ϕ( x3 , y2 ) + ϕ( x4 , y2 )) +
+(ϕ( x1, y3 ) + ϕ( x2 , y3 ) + ϕ( x3 , y3 ) + ϕ( x4 , y3 ) + ϕ( x5 , y3 )) +
+(ϕ( x1, y4 ) + ϕ( x2 , y4 ) + ϕ( x3 , y4 ) + ϕ( x4 , y4 ) + ϕ( x5 , y4 )) +
+(ϕ( x1, y5 ) + ϕ( x2 , y5 ) + ϕ( x3 , y5 ) + ϕ( x4 , y5 )) = 17.
U (1, 3) = (ϕ( x1, y1 ) + ϕ( x2 , y1 ) + ϕ( x3 , y1 ) + ϕ( x4 , y1 )) +
+(ϕ( x1, y2 ) + ϕ( x2 , y2 ) + ϕ( x3 , y2 ) + ϕ( x4 , y2 ) + ϕ( x5 , y2 ) ) +
+(ϕ( x1, y3 ) + ϕ( x2 , y3 ) + ϕ( x3 , y3 ) + ϕ( x4 , y3 ) + ϕ( x5 , y3 )) +
+(ϕ( x3 , y4 ) + ϕ( x4 , y4 )) +
+(ϕ( x1, y5 ) + ϕ( x2 , y5 ) + ϕ( x3 , y5 ) + ϕ( x4 , y5 ) + ϕ( x5 , y5 )) = 20, 5.
U (1, 4) = (ϕ( x1, y1 ) + ϕ( x2 , y1 ) + ϕ( x3 , y1 ) + ϕ( x4 , y1 )) +
+(ϕ( x1 , y2 ) + ϕ( x2 , y2 ) + ϕ( x3 , y2 ) + ϕ( x4 , y2 ) + ϕ( x5 , y2 )) +
+(ϕ( x1 , y3 ) + ϕ( x2 , y3 ) + ϕ( x3 , y3 ) + ϕ( x4 , y3 ) + ϕ( x5 , y3 )) +
+(ϕ( x1 , y4 ) + ϕ( x2 , y4 ) + ϕ( x3 , y4 ) + ϕ( x4 , y4 ) + ϕ( x5 , y4 )) +
+(ϕ( x1, y5 ) + ϕ( x2 , y5 ) + ϕ( x3 , y5 ) + ϕ( x4 , y5 ) + ϕ( x5 , y5 )) = 24.
U (1, 5) = (ϕ( x1 , y1 ) + ϕ( x2 , y1 ) + ϕ( x3 , y1 ) + ϕ( x4 , y1 ) + ϕ( x5 , y1 ) ) +
+(ϕ( x1 , y2 ) + ϕ( x2 , y2 ) + ϕ( x3 , y2 ) + ϕ( x4 , y2 ) + ϕ( x5 , y2 )) +
+(ϕ( x1 , y3 ) + ϕ( x2 , y3 ) + ϕ( x3 , y3 ) + ϕ( x4 , y3 ) + ϕ( x5 , y3 )) +
+(ϕ( x1 , y4 ) + ϕ( x2 , y4 ) + ϕ( x3 , y4 ) + ϕ( x4 , y4 ) + ϕ( x5 , y4 )) +
+(ϕ( x1, y5 ) + ϕ( x2 , y5 ) + ϕ( x3 , y5 ) + ϕ( x4 , y5 ) + ϕ( x5 , y5 )) = 25.
U (1, 6) = (ϕ( x1, y1 ) + ϕ( x2 , y1 ) + ϕ( x3 , y1 ) + ϕ( x4 , y1 ) + ϕ( x5 , y1 )) +
+(ϕ( x1 , y2 ) + ϕ( x2 , y2 ) + ϕ( x3 , y2 ) + ϕ( x4 , y2 ) + ϕ( x5 , y2 )) +
+(ϕ( x1 , y3 ) + ϕ( x2 , y3 ) + ϕ( x3 , y3 ) + ϕ( x4 , y3 ) + ϕ( x5 , y3 )) +
+(ϕ( x1 , y4 ) + ϕ( x2 , y4 ) + ϕ( x3 , y4 ) + ϕ( x4 , y4 ) + ϕ( x5 , y4 )) +
+(ϕ( x1, y5 ) + ϕ( x2 , y5 ) + ϕ( x3 , y5 ) + ϕ( x4 , y5 ) + ϕ( x5 , y5 )) = 25.
U (2, 3) = 17; |
U (3, 4) = 16, 5; U (4, 5) = 22; U (5, 6) = 18; |
U (2, 4) = 20, 5; |
U (3, 5) = 23, 5; U (4, 6) = 23, 5; |
U (2, 5) = 24,5; |
; |
U (3, 6) = 25; |
|
U (2, 6) = 25 |
|
Отсюда I = ∑U (u, v) = 327 .

50
Для нахождения минимального уровня значимости воспользуемся нормальной величиной I * :
|
|
1 |
k |
|
|
||
|
|
MI = |
|
302 |
− ∑5 = 217, 5 . |
||
|
|
|
|||||
1 |
4 |
i=1 |
|
|
|||
|
|
|
k |
|
|||
DI = |
|
302 (2 30 + 3) − ∑52 |
(2 5 + 3) = 760, 4 . |
||||
|
|||||||
72 |
|
|
|
j =1 |
|
|
I * = 327 − 217.5 = 4, 3
760, 4
Φ(4, 3) = 0,99998; q = 1-0,99998 = 2 10-5
Заметим, что мы получили более значительный результат ( q = 2 10-5 ) по сравнению с критерием Краскела-У ол-леса ( q = 1 10−3 ), так как минимальный уровень значимости понизился на 2 порядка.►
4.3. Двухфакторный анализ
Иногда в однофакторной модели влияние интересующего нас фактора не проявляется, хотя такое влияние должно быть. Причиной этого может быть большой внутригрупповой разброс, на фоне которого действие фактора остаётся незаметным. Очень часто этот разброс вызван не только случайными причинами, но и действиями еще одного фактора. Если мы в состоянии указать такой фактор, то можно попытаться включить его в модель, чтобы уменьшить статистическую неоднородность наблюдений. Конечно, не всегда удается поправить дело введением мешающего фактора и переходом к двухфакторной схеме. Иногда приходится рассматривать трехфакторные и более сложные модели. Замысел во всех этих случаях остается прежним.
Назовём фактор A (рис. 1) главным, B — мешающим. Пусть фактор A принимает k значений, а мешающий — n значений. Фактор B разбивает все
группы наблюдений (столбцы таблицы {x ji } ) на блоки.
Рис. 6.1. Двухфакторная модель
Каждый блок соответствует определенному уровню фактора B . В частном случае таблица содержит n × k наблюдений (по одному в клетке). Отличие этой таблицы от однофакторной в том, что наблюдения в любом столбце не являются однородными, если влияние мешающего фактора значимо (табл. 6.3).
Таблица 4.3
Форма представления экспериментальных данных двухфакторной модели