
Пиотровский
.pdfдая. В выборке Л^ лингвистический признак L может рассматривать-
ся |
в |
качестве |
случайной |
величины |
X, |
имеющей |
значения |
|||||
хъ х2, |
..., xit |
..., хп, |
а в выборке N2 |
он выступает в качестве случай- |
||||||||
ной величины Y, |
принимающей значения уи t/2, |
yt |
уп- |
|||||||||
|
Поскольку |
случайные |
величины X |
и |
У |
и их |
значения |
|||||
(хи |
х2 |
Xi, |
..., |
хп), (уи у2 |
уи |
Уп) представляют один и тот |
||||||
же лингвистический признак L, для проверки |
той |
или |
иной гипо- |
|||||||||
тезы |
можно |
использовать |
отношения |
упорядоченности типа |
||||||||
Xi |
|
Уг, Xt |
> |
yt. |
|
На анализе этих отношений строятся два поряд- |
||||||
ковых |
критерия — |
к р и т е р и й |
з н а к о в |
и |
к р и т е р и й |
Ви л к о к с о н а .
2.Критерий знаков. Подсчет появлений лингвистического при-
знака А в каждой из п порций выборок Л^ и N2 дает два ряда независимых частот:
Х\, Х2, ..., Xi, ..., хп\ yi, у2, ..., У{, .., Уп»
где частоты, принадлежащие первой и второй выборкам, образуют
пары (хъ y j , (х2, у2), ..., (xh г/г), ..., (Xni Уп)-
Далее составляются разности
zx |
= |
хх — у,, га |
= х2 — |
у2, |
Zt = Xi — |
yi, |
...,z„ |
= хп |
— |
уп, |
которые являются |
случайными |
величинами. |
|
|
|
|
|
|||
Zi |
Исключив из |
анализа |
возможность равенства xt = yt |
(т. |
е. |
|||||
= |
0; обоснование этого |
приема см. в [61, |
с. |
321 |
и сл.]), |
будем |
рассматривать соотношение числа положительных значений гг (суммы плюсов), равного т, с количеством отрицательных значений
Zi (числом |
минусов), равным п — т. Величина т рассматривается |
в качестве |
численного значения критерия знаков. |
Сформулируем сначала нулевую гипотезу Н0, которая утверждает, что в каждой i-й паре порций величины X и Y являются независимыми и одинаково распределенными, а вероятность того, что разность Zi = xt — yt будет положительной, равна вероятности того, что эта разность окажется отрицательной, т. е.
Р ^ > 0) = Р (Zi < 0) = 1/2,
с учетом того, что Р (г( = 0) = 0. Напротив, согласно альтернативной гипотезе Ну различия между xt и yt являются значимыми, или иными словами,
Р (zt > 0) Ф Р (zt < 0).
Чтобы решить, какую из двух гипотез следует принять, необ" ходимо опытное значение критерия знаков сопоставить с грани" цами доверительного интервала для числа плюсов. Эти границы* характеризуемые уровнем существенности (уровнем значимости' а = q, определяются исходя из следующих соображений.
Вероятность того, что п разностей zt дадут т плюсов, описысывается биномиальным распределением вида
Рп |
(т) = С? (—)т |
f 1 — L ) " - m |
2! |
. J - . |
(9.3) |
|||
" |
w |
\ 2 ) \ |
2 / |
т \ ( п - т ) I |
2" |
v |
' |
310
Дальнейшая процедура проверки гипотезы Н0 зависит от того
каким уровнем значимости — о д н о с т о р о н н и м |
(ч/2) |
или |
|||
д в у с т о р о н н и м (q) — мы будем |
пользоваться. |
|
|
||
Рассмотрим сначала |
одностронний |
уровень значимости. |
Если |
||
справедливо равенство |
(9.3), |
то вероятность события, |
состоящего |
||
в том, что среди всех zlt |
z2 |
zn количество положительных zt, |
равное т, окажется больше некоторого граничного числа т, составит
Рп(т>т)= |
2 |
/>„(«) = 2 |
"Г" |
<9'4) |
|
т=т |
т=*т |
|
|
Одновременно вероятность события, заключающегося в том, что среди всех zv z2, ..., zn число положительных zit равное т, будет меньше граничного т, есть
|
т |
т |
|
Рп(т<т)^ |
2 Рп(»г)=2 |
' |
( 9 ' 5 ) |
|
т = 0 |
т = О |
|
Возьмем теперь величину т в качестве наименьшего |
количества |
||
положительных Z;, т. е. числа, для которого равенство (9.4) еще не |
превосходит некоторой вероятности а/2. Тогда гипотезу Н0 мы будем
отвергать в тех случаях, когда число положительных |
zt окажется |
||||
больше, |
чем т. При |
этом вероятность отвергнуть |
гипотезу Н0, |
||
когда она правильна, не превзойдет вероятности q/2. |
|
|
|||
Мы будем отвергать гипотезу Н0 и тогда, когда т |
< . т . И в этом |
||||
случае |
вероятность отвергнуть |
гипотезу # 0 , когда она |
правильна, |
||
не превышает вероятности V2. |
|
|
|
||
Оба эти правила, взятые порознь, представляют собой одно- |
|||||
сторонний критерий |
знаков. |
|
|
|
|
При двустороннем |
критерии |
задаются как верхняя, |
так и ниж- |
няя границы доверительного интервала. При этом гипотеза Я0 отвергается не только тогда, когда т — количество положительных zt превышает границу т, нб также и тогда, когда число отрицательных zjt равное п — т, оказывается ниже границы т. Если границы
m и т остались теми же, что и при одностороннем критерии, то уро-
вень |
значимости |
двустороннего критерия равен 2 • q/2 = q. Зна- |
чения |
границ для одностороннего и двустороннего критерия знаков |
|
см. в |
табл. VIII |
на стр. 370—372. |
Теперь, пользуясь описанным математическим аппаратом, проверим лингвистическую гипотезу, согласно которой две достаточно большие, взятые наугад из одной и той же разновидности языка текстовые выборки окажутся идентичными относительно употребляемой данной разновидности лексики. Если проверка этой гипотезы с помощью критерия знаков дает положительный результат, то это позволит предполагать, что в указанных выборках употребление лексики подчиняется некоторой вероятностной норме.
311
Для проверки указанной гипотезы |
используем |
статистику |
600 словоформ в двух случайно выбранных английских |
газетных |
|
текстах, по 100 тыс. словоупотреблений каждый. |
|
|
В качестве образца осуществим полную |
проверку гипотезы # 0 |
об идентичности этих выборок относительно словоформы govern-
ment 'правительство'. |
|
|
|
|
|
Т а б л и ц а |
9.2 |
||||||||
|
|
|
|
|
|
|
|
|
|
|
|||||
|
Проверка гипотезы об |
идентичности |
двух выборок |
|
|
||||||||||
английского публицистического текста относительно существительного |
|||||||||||||||
|
|
|
|
|
government |
'правительство' |
|
|
|
|
|
||||
|
Порции |
|
|
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
||
I и |
II |
выборок |
|||||||||||||
|
|
|
|
|
|
|
|
|
|
||||||
Частоты F\ |
= |
xt |
1 |
3 |
12 |
2 |
14 |
3 |
12 |
5 |
8 |
4 |
|||
в |
I выборке |
|
|||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|||||
Частоты f " |
= |
yi |
2 |
4 |
1 |
7 |
1 |
6 |
3 |
10 |
5 |
8 |
|||
во |
II |
выборке |
|
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|||||
|
Разности |
|
—1 |
—1 |
11 |
—5 13 |
- 3 |
9 |
—5 |
3 |
—4 |
||||
|
|
|
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
Продолжение |
табл. |
9.2 |
||||
|
Порции |
|
|
11 |
12 |
13 |
14 |
15 |
16 |
17 |
18 |
19 |
20 |
||
I и |
II |
выборок |
|||||||||||||
|
|
|
|
|
|
|
|
|
|
||||||
Частоты F\ = |
xt |
7 |
3 |
6 |
10 |
5 |
3 |
4 |
9 |
4 |
8 |
||||
в |
I |
выборке |
|
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|||||
Частоты Fjl |
= |
yt |
14 |
1 |
4 |
10 |
13 |
7 |
8 |
6 |
7 |
3 |
|||
во |
II |
выборке |
|
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|||||
|
Разности |
|
—7 2 2 0 —8 —4 4 3 — 3 |
5 |
|||||||||||
Zi = |
Xi — |
yi |
|
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|||||
Каждая |
из рассматриваемых |
выборок разделена |
на 20 порций, |
в которых определены частоты употребления government (см. вторую и третью строки табл. 9.2); в четвертой строке помещены разности zt = F\ — F". Всего имеем 10 плюсов, 9 минусов, а в 14-й
порции zM = 0; исключив |
последний |
случай |
из рассмотрения, |
||
получаем т *= 10, п = |
19. |
|
|
|
|
С |
помощью табл. |
VIII |
убедимся, что при уровне значимости |
||
q = |
0,05 полученное |
нами |
из опыта |
значение |
критерия знаков |
т = |
10 попадает внутрь доверительного интервала (т = 5, т = 14). |
Это говорит о том, что расхождения в частотах qovernment по обеим - выборкам несущественны, т. е. рассматриваемая словоформа имеет в обеих выборках постоянную вероятность. Аналогичным образом
312
исследовано употребление остальных 588 именных, глагольных, адвербиальных и служебных словоформ в английских публицистических текстах [32 а, с. 28]. Выяснилось, что только 4 словоформы —• busy 'сыщик', refused 'отказал' сап 'могут', by 'при, около' дают для критерия знаков такие значения, которые выходят за пределы 5%-ного доверительного интервала. Иными словами, только 0,7% обследованных словоформ обнаруживают неустойчивость своих вероятностей: остальные 99,3% словоформ имеют постоянные вероятности, что является косвенным указанием нормативности их употребления.
3. iZ-критерий Вилкоксона. Подобно критерию знаков, критерий Вилкоксона используется для проверки гипотез о несущественности расхождения двух лингвистических выборок, а в нашем случае для проверки гипотезы о нормативности. Строится этот критерий следующим образом. Пусть независимые выборки Nx и N2 разбиты соответственно на пх и на п2 порций, причем интересующий нас лингвистический элемент встретился в i-й порции первой выборки xi раз, а в i-й порции выборки N2 он встретился yt раз. Расположим теперь все значения хг и yt в одну строку в порядке возрастания численных значений х и у, не обращая внимания на индексы. В результате мы получаем смешанный вариационный ряд. Инверсией называется случай, когда у располагается перед х независимо от точного положения xt и уг в вариационном ряде.
Так, например, последовательность
у у х у х у х х
содержит 13 инверсий, поскольку первый хдает 2, второй 3, третий и четвертый по 4 инверсии. Полная сумма U числа инверсий в вариационном ряде есть случайная величина, численное значение которой, установленное в результате опыта, и является критерием Вилкоксона. Теперь попытаемся выяснить, о чем говорит численное значение U: когда оно требует принять, а когда отвергнуть проверяемую нулевую гипотезу?
Согласно критерию Вилкоксона, нулевая гипотеза должна быть отвергнута, если количество инверсий U выходит за некоторыз пределы и и и (где н < ы ) , зависящие от уровня значимости й. При этом оказывается, что если нулевая гипотеза верна, то случайная величина U имеет, как показал Б. Л. ван дер Варден [61, с. 336], распределение вероятностей с математическим ожиданием
и дисперсией
D (U) = о* (U) = |
(ni + 4- О- |
Показано [61, с. 337], что если пх > 3 и пх + пъ > 20, то это распределение с достаточной точностью может считаться нормальным. Последнее обстоятельство позволяет определить пределы и, и,
313
если уровень |
значимости <? задан. |
Введем нормированное |
укло- |
|||||||
нение |
|
|
|
wj |
и-М(Ц) |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
тогда |
|
|
u-M(U) |
- |
|
l-M(U) |
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
г = - = |
o(t/) |
, г — |
c ( U ) |
. |
|
|
||
В силу вышесказанного случайная величина Z имеет нормаль- |
||||||||||
ное распределение |
с |
параметрами: |
математическое |
ожидание О |
||||||
и дисперсия |
1. |
|
|
|
|
|
|
|
|
|
Уровень |
значимости |
q есть не что иное, как |
вероятность |
того, |
||||||
что вследствие случайных колебаний величина U выйдет за пределы |
||||||||||
U и и, a Z — за пределы г и г . Обычно выбирают г = |
— г. Тогда |
|||||||||
связь между и, |
и и q может быть найдена из очевидных соотношений: |
|||||||||
|
|
|
|
|
г |
|
|
|
|
|
|
|
<, = |
1 |
L_ |
Г |
dz = |
1 - 2Ф (г), |
|
(9.6) |
|
|
|
|
|
У 2я J |
|
|
|
|
|
|
|
|
|
|
у |
о |
|
|
|
|
|
|
|
|
|
|
= |
|
|
|
|
(9.7) |
где Ф (г) — известный интеграл вероятностей. Таким образом, при заданном <1 соотношение (9.7) определяет г (см. табл. III на стр. 365 и табл. VI на стр. 369). _ По значениям пъ п2, z можно легко определить пределы и и и:
u = - w ( U ) + M ( U ) = - - z \ f 3 | i - ( n 1 + „2 + D + -2L2L, (9.8)
Ji=h(U) + M(U) = -z У ^ ( п 1 |
+ |
п2+ 1) + - ^ - |
(9.9) |
Если выбрать уровень значимости |
q = |
0,05 (двустороннее ог- |
раничение), то это означает, что при справедливости нулевой гипотезы из 100 значений критерия Вилкоксона в среднем лишь пять
могут выходить за пределы и и и. Если же q = |
0,01, то за пределы |
|
и и и может выходить лишь одно значение. |
|
|
С помощью табл. VI мы |
убеждаемся, что |
если q = 0,05, то |
z = 1,85, а если q = 0,01, тог |
= 2,58. Эти значения г говорят о том, |
что выбранные нами уровни значимости хорошо согласуются с известным правилом «трех сигм», которое утверждает, что если некоторая случайная величина уклоняется на опыте от своего математического ожидания на величину, превышающую Зо (при этом как раз г ^ 3), то это происходит, как правило, за счет неслучайног0 воздействия на нее каких-то существенных факторов или за счет изменения условий наблюдения этой величины. Последнее прин-
314
ципиально меняет характер распределения вероятностей случайной величины.
С помощью критерия Вилкоксона можно проверить гипотезу об устойчивости вероятности словоформы government в английских публицистических текстах.
Снова возьмем две выборки Ny и Ыг |
из английских газетных тек- |
|||
стов. Каждую выборку |
разобьем на 20 порций, а в каждой порции |
|||
определим |
частоту |
употребления |
контрольной |
словоформы |
(см. табл. |
9.2). |
|
|
|
Расположим теперь все значения F\ — xt и Fli = yt в порядке возрастания численных значений F, не обращая внимания на верхние и нижние индексы. В тех случаях, когда величины F\ = F\l, вопрос об их взаимном расположении решается путем жеребьевки. Исходя из этих условий, получаем следующий вариационный вид:
|
|
СИ |
|
CI |
СП |
CII |
|
CI |
|
/лI |
/л |
|
/л |
CII |
1 |
/л |
|
/Л |
СИ |
|
|
|||||||
|
|
' |
II |
1 |
1' |
' |
S' |
' |
12' |
1 4> |
1 |
1> 1 е> |
' |
16' |
' 7' |
2> ' |
12' |
1 20' |
|
|
||||||||
|
/Л |
/Л |
|
ГЦ |
/Л |
' |
ГЦ |
' |
С1 |
' |
ГЦ |
' |
CI |
|
С1 |
ГЦ |
ГЦ |
ГЦ |
г[ |
|
||||||||
|
1 |
10> |
19' |
1 |
%> |
1 |
17» |
|
13' |
|
S' |
0> |
15' ' |
13' |
' |
О' |
|
18' |
J 4' |
J tl' |
|
|||||||
CII |
CII |
|
CI |
|
CII |
|
CII |
' |
CI |
' |
|
CI |
|
CI |
|
|
СИ |
CII |
' |
CI |
1 |
CI |
CII |
Cil |
CI |
|||
' |
16> |
* 19' 1 |
|
20' 1 |
10' |
1 17' |
II |
|
18' |
' 14' |
* 8> ' 14' |
3' |
7> 1 |
15> 1 |
11> J |
|
||||||||||||
|
В обозначениях J; И у |
этот вариационный |
ряд выглядит так: |
|||||||||||||||||||||||||
у, |
х, |
у, |
у, |
|
х, |
у, х, |
X у, |
|
х, |
х, |
у, |
х, |
х, |
у, |
|
|
х, |
у, |
х, |
х, у, |
у, у, |
х, |
||||||
|
|
|
|
|
|
У, У, X, у, |
у, |
X, X, X, у, |
|
у, |
X, X, у, |
у, |
X. |
|
|
|
||||||||||||
|
По описанной |
|
выше |
методике |
|
подсчитаем |
число |
инверсий: |
« = 1 + 3 4 - 4 + 4 4 - 5 |
+ 5 + 6 + 6 + 7 + 8 + 9 + 9 + 1 2 + |
|||||||
|
+ |
14 + |
16 + |
16 + |
16 + |
18 + |
18 + |
20 = 197. |
В |
нашем |
эксперименте |
п1 — п2 = |
20, |
поэтому условия |
|||
> |
3 и + |
ri2 ^ |
20 выполнены; найдем математическое ожидание |
|||||
и дисперсию: |
|
|
|
|
|
|
|
|
|
|
|
М ( ^ = ^ |
- = |
^ . |
= 200; |
|
|
|
|
|
|
' |
2 |
2 |
• |
|
|
|
= |
- ^ C h + " 2 + D = j / ^ 4 1 = 3 7 . |
В соответствии с выражениями (9.8) и (9.9) 5%-ные доверительные пределы для критерия Вилкоксона в нашем случае таковы:
и = 200 — 1,96 • 37 » 127;~ы = 200 + 1,96 • 37 « 273.
Нетрудно заметить, что число инверсий и = 197 контрольного слова government попадает в только что указанный доверительный интервал. Это дает право с уверенностью в 95% утверждать, что расхождения между распределениями в обеих выборках имеют случайный, нелингвистический характер, а само употребление этой словоформы подчинено некоторой норме.
315
Исследование с помощью критерия Вилкоксона остальных 599 словоформ [32а, с. 16 — 26] показало, что только 16 словоформ (began, city, continue, economy, greater, in, (information, mother, movement, outside, plans, real, that, through, whose, yet) дают значения Вилкоксона, выходящие за 5%-ные доверительные пределы.
Между тем нулевая гипотеза оставалась бы справедливой, если бы таких случаев было тридцать. На основании этого можно сделать вывод, что словоформы в английских публицистических текстах имеют устойчивые распределения Р (F). Если в этих текстах и встречаются лингвистические единицы с неустойчивыми распределениями,
то вклад таких единиц не превышает ^16 • 100% = 2,7%.
§ 3. Проверка гипотез о характере расхождений статистических характеристик языков, функциональных
стилей и подъязыков с помощью параметрических критериев
При рассмотрении лексикологических, фонологических и грамматических проблем, связанных с сопоставлением различных языков, подъязыков и функциональных стилей, приходится сравнивать абсолютные и относительные частоты употребления лингвистических единиц в разных стилях, подъязыках, художественных произведениях. Все эти оценки и сопоставления осуществляются путем проверки гипотезы о существенности расхождения между соответствующими параметрами распределений интересующей исследователя лингвистической единицы.
1. Может ли средняя длина словоформы быть статистической
характеристикой стиля и языка? Пусть имеется генеральная лингвистическая совокупность, элементы которой распределены нормально и характеризуются математическим ожиданием М (X) = ц. На основе выборочных наблюдений внутри этой совокупности получено значение средней арифметической х, не совпадающее точно со значением ц. Необходимо решить вопрос о существенности расхождения величин х и ц..
Решение этой задачи сводится к проверке нулевой гипотезы # 0 , состоящей в допущении, что расхождения между х и ц. несущественны, т. е. что х — р.. В этом случае альтернативная гипотеза Ну
заключается в утверждении, что х Ф ц.
Выбор критерия и статистической характеристики для проверки гипотез зависит от того, известно или неизвестно нам среднее квадратическое отклонение от.
Чаще всего величина от остается неизвестной. В этом случае в качестве статистической характеристики выбирается не случайная величина х, а величина
t = Z=}LYN, |
(9.10) |
s |
|
316
имеющая распределение Стьюдента с v = N — 1 степенями свободы
(см. гл. 8 , 1 2 , п. 3 и § 3 , п. |
1). |
|
Исходя из рассуждений § 1, п. 2, имеем критическую область |
||
значений характеристики |
t с нижней границей |
где q = а — |
заданный уровень значимости*. Тогда областью приемлемости
гипотезы Я0 |
служат абсолютные значения | / | < |
v , а вероят- |
|
ность принятия этой гипотезы равна |
|
||
|
< / „ . v = 1 - а = 1 - < |
|
|
Вероятность же отвержения гипотезы Я0 и принятия |
альтернатив- |
||
ной гипотезы |
в этом случае |
составляет |
|
|
f |
N |
|
при двусторонней критической области и |
|
||
|
|
= |
J L |
|
|
|
2 |
для каждой из односторонних критических областей.
Проверка гипотезы Н0 о несущественности расхождения величин
* и р. сводится к следующему:
а) определению по заданному уровню значимости и количеству степеней свободы v = N — 1 величины v;
б) вычислению по формуле (9.10) статистической характеристики (\ в) сравнению величин t и
Сам же критерий принятия или отвержения нулевой гипотезы формулируется таким образом:
а) при | |
< |
v гипотеза Н0 принимается как правдоподобная, |
при этом |
утверждается, что опытная средняя х и математическое |
ожидание р. = М (х) статистически неразличимы (т. е. если различия между ними и наблюдаются, то они вызваны несущественными причинами);
б) при |i| |
гипотеза Н0 отвергается и принимается аль- |
|
тернативная |
гипотеза Н и утверждающая, что расхождения между |
|
х и р. = |
М |
(х) не могут рассматриваться как незначительные ста- |
тистические |
флуктуации, а вызваны существенными лингвисти- |
|
ческими |
причинами. |
Описанная процедура проверки нулевой гипотезы носит название / - к р и т е р и я , или критерия Стьюдента.
* Поскольку проверка статистических гипотез основывается иа выборе критической области, определяемой уровнем существенности, при рассмотрении наших гипотез мы будем исходить не из надежности р, а из уровня значимости q, учитывая при этом, что г = г^ и t = .
317
Если для генеральной лингвистической совокупности известно не только математическое ожидание М (х) — ц интересующего нас элемента, но и среднее квадратическое отклонение а, то в качестве статистической характеристики следует брать не t, а значение
(9.11)
Дальнейший ход решения задачи точно совпадает с операциями
сценки |
нулевой |
гипотезы с |
помощью |
^-критерия: |
сначала по за- |
||||
данному |
уровню |
значимости |
q с помощью |
табл. VI |
на |
стр. 369 |
|||
определяют значение г^, |
служащее нижней |
границей критической |
|||||||
области, |
после чего находят |
значение |
г. Если | z | |
^ |
г^, |
то гипо- |
|||
тезу Н0 |
о несущественности |
расхождений х и р. следует отвергнуть |
|||||||
и принять альтернативную гипотезу |
если же |z| < |
|
z^, то нулевая |
||||||
гипотеза |
Н0 принимается |
и разность | Х — (х| рассматривается как |
|||||||
случайная статистическая |
флуктуация. |
|
|
|
|
|
|||
Описанная процедура |
называется Z - к р и т е р и е м |
проверки |
|||||||
статистических гипотез, или критерием нормального |
закона. |
||||||||
В гл. |
7 (см. § 4, п. 4) была выдвинута гипотеза о нормальности |
распределения средних длин словоформ в языках мира. Если эта гипотеза подтвердится (ср. п. 2, § 1), то можно считать, что расхождения между средними длинами словоформ по отдельным языкам несущественны.
Но значит ли это, что такая несущественность расхождения между языками мира будет наблюдаться и при сравнении средних длин словоформ одного функционального стиля?
Чтс бы ответить на этот вопрос, рассмотрим расхождения между средней длиной словоформы в научно-технической и деловой речи шести славянских языков, равной 6,13 буквы при стандарте 0,43, с одной стороны, и средней длиной словоформы в указанных стилях всех языков мира, которая равна примерно 7 буквам, — с другой
[7, |
с. 2041. |
|
|
|
|
|
|
|
|
Допустим, |
что |
средние |
длины |
словоформ в языках |
мира по |
||
интересующим |
нас |
стилям |
распределены |
нормально, |
причем |
|||
М |
(х) — ц = |
7, одновременно* = |
6,13, a s |
= 0,43. |
Пусть гипо- |
|||
теза Н0 состоит в том, что средняя длина славянской |
словоформы |
практически соответствует средней длине словоформы в языках ми-
ра, |
т. е. |
хсл |
= |
ц. |
|
|
|
Проверим нашу гипотезу с помощью /-критерия. Для этого, |
|||||
учитывая, |
что |
V = N — 1 = 6 — 1 = 5 , |
воспользуемся табл. VI, |
|||
по которой найдем нижнюю границу критической |
области ^о,05; 5 = |
|||||
= |
2,57. Затем определим значение |
|
|
|||
|
/ = |
^ л - ц |
y j j = 6 , 1 3 - 7 , 0 у _ _ М 7 _ |
. 2 4 5 = — 4 95 . |
||
|
|
|
s |
0,43 |
0,43 |
|
318
Неравенство | / | > /о,о5;5 свидетельствует о том, что значение нашей статистической характеристики t, с помощью которой мы проверяем гипотезу о несущественности расхождений средних длин, попадает в критическую область, в связи с чем эта гипотеза должна быть отвергнута.
Пповерим эту гипотезу с помощью Z-критерия, полагая при
этом, что s = а = 0,43.
Для этого с помощью табл. VI находим нижнюю границу критической области, равную z0 о5 = 1,96, с которой сопоставляем абсолютное значение z, вычисленное с помощью соотношения
( S i . i l ):
i i i i z l y T - —®i®L -2,45= —4.95.
0,43 |
0,43 |
Здесь снова имеем неравенство |
| г | > z005 , свидетельствующее |
о том, что значение статистической характеристики г опять попадает в критическую область.
Таким образом, и в том и в другом случае гипотеза Н0 о несущественности различия между средней длиной словоформы в славянских деловых и научно-технических текстах и средней длиной словоформы в аналогичных текстах языков мира должна быть отвергнута. Более правдоподобной оказывается альтернативная гипотеза #!, согласно которой расхождение между хсл и [х = М (X ) является существенным.
Это расхождение можно отнести, вероятно, за счет двух причин. Во-первых, славянские языки используют флективно-аналитическую технику оформления именных форм, составляющих значительную часть деловых и научно-технических текстов во всех языках. Такая техника не дает столь значительного удлинения основы, как агглютинация в тюркских, финноугорских и других языках, занимающих значительную статистическую долю во взятой нами выборке языков. Во-вторых, славянские языки в отличие от немецкого и некоторых финноугорских языков сравнительно мало пользуются словосложением при образовании научно-технических и администра- тивно-деловых терминов.
2. Существенны ли расхождения значений избыточности в разговорной, беллетристической и деловой речи? Избыточность является информационной характеристикой, в которой обобщаются различные статистико-дистрибутивные свойства текста (см. гл. 5, § 5, п. 6). Поэтому при сопоставительном изучении стилей или других разновидностей языка важно знать, относится ли наблюдаемое расхождение в значениях избыточности двух стилей к существенному или несущественному. Сопоставление этих значений можно осуществить, проверяя с помощью параметрических критериев гипотезы о несущественности расхождения двух средних. Рассмотрим математическую схему проверки такой гипотезы.
Пусть имеются две нормально распределенные случайные и независимые лингвистические выборки достаточно большого объема:
319