
Пиотровский
.pdfВ случае нормального распределения приходится учитывать уже т р и связи: связь, образующуюся при суммировании наблюдаемых частот, и связи, содержащиеся в величинах х и s, соответ-
ственно |
оценивающих М (X) и а. Таким образом, в этом случае |
v = N |
— 3. |
Однако если при сопоставлении нормального распределения с выборочным величины х и s оказываются уже известными до опыта, то тогда должна быть учтена всего лишь одна связь, образующаяся при суммировании наблюдаемых частот. В связи с этим здесь число степеней свободы v = N — 1.
Рис. 59 |
|
Итак, число степеней свободы определяется |
из разности |
v — N — I, |
(8.20) |
где N — число наблюдений (сведений), а I — число линейных связей, налагающихся на эти наблюдения при данной статистической процедуре.
От числа степеней свободы зависит вид кривых %2 распределения. Как видно из рис. 59, эти кривые асимметричны, причем степень асимметрии уменьшается с увеличением числа степеней свободы.
При v -»- оо график х2 совпадает с кривой нормального |
распреде- |
|
ления. |
|
|
При |
определении доверительных интервалов для |
величин |
D (X) = |
а2 и а используется выборочная дисперсия s2, связанная |
|
с величинами а2 и следующей зависимостью: |
|
|
|
s2 = a2 x2/v, |
(8.21) |
причем v |
= N — 1. |
|
LS0
Распределение-s* подробно описано в работе [61, с. 139— 1441. Отметим лишь, что оно имеет параметры
М (s2) = a2, D (?) = 2а4/v.
Поскольку при v оо распределение х2 асимптотически приближается к нормальному, при этих условиях распределение s2 также должно приближаться к нормальному распределению.
Переходя к определению доверительного интервала для аа и а, перепишем равенство (8.21) в виде
X2 = v s 2 / a 2 . |
(8.22) |
Теперь, задав |
надежность |
|>, найдем |
в таблице распределения |
||
X2 такие две численные границы |
и хЬ Для которых выполнялось бы |
||||
соотношение |
|
|
|
|
|
|
Р (х? < v s 2 / o 2 < г\) |
= р. |
- |
(8.23) |
|
Границы Xi и |
Хг можно выбрать бесконечным числом |
способов: |
они могут быть сдвинуты по оси абсцисс (рис. 60) влево или вправо
на любую величину, лишь бы число %2 = |
vsVa2 |
находилось внутри |
|
интервала (%2, %г) |
и значение р оставалось бы неизменным. |
||
Чтобы фиксировать положение границ |
%1 и |
вводят односто- |
|
ронний критерий значимости, согласно которому |
|||
W |
< х ? ) = W > х?) |
= |
. |
При этом условии надежность наших рассуждений остается равной р. Действительно,
Р (Xf < vs2/ a2 < %l) = 1 - Р (X2 < X I ) - Р (X2 ^ XI) =
281
Преобразуя выражение, |
стоящее в левой части равенства |
(8.24), таким образом, что |
|
Р (vs2/x2 < |
<т2< vs2/x?) = t>, |
мы получаем с надежностью р доверительный интервал для дисперсии а2, имеющий нижнюю границу
|
2H |
2 |
/xS |
(8.25) |
|
и верхнюю границу |
a * = |
vs |
|||
a2e* = |
vsa/x?. |
(8.26) |
|||
|
|||||
Границы доверительного интервала для среднего квадратиче-'" |
|||||
ского отклонения соответственно равны |
|
||||
и |
^ = к V s/Xa |
(8.27) |
|||
|
_ |
|
|
||
|
o I - K v s / X p |
(8.28) |
|||
Для нахождения |
значений |
х! |
и "/X следует |
воспользоваться |
|
табл. V на стр. 368. |
Столбцы этой |
таблицы указывают (1 + р)/2 |
|||
и (1 — р)/2, а строки — число степеней свободы. Нужные значения |
|||||
односторонних границ Xi и Ха |
находятся на пересечении строк |
и столбцов. Подставив эти значения в формулы (8.25) — (8.28),
получаем |
верхнюю |
и |
нижнюю оценки неизвестных параметров |
|
D(X) |
= |
АГ и Y d |
(X) |
» a. |
2. |
Определение |
существенности расхождения частот глагола |
в украинской драме и поэзии с использованием интервальной оценки.
Решая вопрос о существенности статистических расхождений между украинской драмой и прозой [см. столбец (9) табл. 8.1 на стр. 275], мы пользовались точечной оценкой среднего квадратического отклонения. Как уже говорилось, эта оценка не дает сведений о том, как далеко отстоит от наблюдаемого стандарта s или s среднее квадратическое а. Поэтому в тех случаях, когда сопоставляемые лингвистические признаки дают близкие средние частоты F = х, как это имеет место при сравнении употребительности глаголов в украинской драме и прозе, использование точечных оценок а может привести к ошибочным лингвистическим выводам. В связи с этим снова обратимся к вычислению доверительного интервала для средних частот глагола в украинских жанрах украинской прозы, пользуясь
при этом не |
точечными, |
а интервальными оценками среднего квад- |
||||||||||||||
ратического |
a |
(х). |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
По условию задачи, имеем для драматических текстов v = |
60 — |
|||||||||||||||
— 1 = 59, |
F |
= х |
= |
90,5, s(x) |
|
- 1,98, |
а для поэтических v = |
|||||||||
«= 50 — |
1 = |
49, F |
— ~х =» 82,1, |
s(xj |
= |
1,48. И в том, и в другом |
||||||||||
случае » |
= |
0,95, откуда |
|
(1 — |
р)/2 = |
0,025, |
|
(1 + Р)/2 = |
0,975. |
|||||||
Учитывая, что для драмы v = |
59, из табл. V находим |
|
||||||||||||||
|
|
|
X? = |
1 + |
p)/2;v = |
Х§, |
975 |
; 59 = |
39 |
6 |
6- |
|
||||
|
|
|
X( |
|
|
|
> |
|
||||||||
|
|
|
X| = |
X ? 1 - W / » ! V |
= Х В , 0 2 5 ; |
59 =82,18. |
|
282
Соответственно для поэзии, где v |
= 49, имеем |
Х? = ХО2.975: 49 = 31>56, |
XS-X8.0»; 49 = 70,22. |
Таким образом, нижняя и верхняя границы доверительного
интервала для о в драматических текстах составляют |
|
||
о'и = 1,98 j/59/82,18= 1,68; |
о'а = |
1,98/59/39,66 = |
2,43, |
а для поэзии эти границы равны |
|
|
|
а ^ = 1,48/49/70,22= 1,24; |
а* = |
1,48/49/31,56 = |
1,84. |
Из табл. 8.1 и рис. 58 видно, что хотя при точечной оценке а доверительный интервал употребительности глагола в поэзии не накладывается на доверительный интервал глагола в драме, верхняя граница первого интервала очень близко подходит к нижней границе второго.
Теперь посмотрим, сохраняется ли этот разрыв между доверительными интервалами при использовании интервальной оценки а. Для этого определим нижнюю границу р,* доверительного интервала F — х глагола в драме и верхнюю границу аналогичного интервала в поэзии. Само собой разумеется, 4TQ и в том, и в другом случае следует пользоваться верхней границей интервальной оценки среднего квадратического о*в. Тогда для драматических текстов получаем
Цн = X — Zptr; = 90,5 — 1,96 • 2,43 = 85,73,
адля поэзии соответственно имеем
р; = 82,1 + 1,96 • 1,86 = 85,71.
Полученные результаты показывают, что нижняя часть доверительного интервала F = х глаголов в украинской драме по существу соприкасается с верхней частью соответствующего доверительного интервала в поэзии. Поэтому благоразумнее воздержаться от сделанного с надежностью в 95% вывода § 2, п. 4 о том, что частота глаголов может рассматриваться в качестве статистикостилистического параметра, надежно отграничивающего язык украинской драмы от языка поэзии.
§ 4. Доверительные интервалы для вероятности качественного лингвистического признака
В лингвистической практике постоянно приходится применять интервальную оценку вероятности отдельных единиц — фонем, графем, слогов, морфем, словоформ и т. д. При осуществлении этой оценки интересующая нас лингвистическая единица, например глагольная словоформа, рассматривается в виде качественного альтернативного признака А. Все остальные лингвистические единицы (в нашем случае — все неглагольные словоформы) квалифицируются здесь как качественный признак А, т. е. не А.
283
В гл. 6 (см. § 1, п. 3) было показано, что вероятность р альтернативной величины А имеет биномиальное распределение. Однако определение интервальной оценки р при биномиальном распределении этой вероятности связано с громоздкими расчетами, опирающимися на довольно сложный математический аппарат. Чтобы обойти эти затруднения, пользуются более простыми приемами определения интервальной оценки р.
1. Интервальная оценка вероятности р с помощью нормального распределения. Пусть вероятность р альтернативного лингвистического признака А не слишком близка к нулю и к единице, а число наблюдений N достаточно велико (такая ситуация имеет обычно место при статистических исследованиях в области грамматики, фонетики и фонологии). Вероятность р неизвестна, и ее нужно оценить через получаемую в опыте частость / FIN.
В гл. 6 (см. § 4) было показано, что распределение величины f близко к нормальному Теоретически можно предполагать, что па-
раметрами этого распределения |
служат величины |
||
М (F/N) |
= М([) — р |
и а(/)=» |
Vp(\-p)/N |
(см. гл. 6, § 3, п. 4) |
При бесконечном увеличении числа испытаний |
(т. е. объема выборки) предельным распределением нормированной частости
|
|
MU)-I |
|
|
p-t |
|
|
° |
|
Vp(\-p)IN |
|
является нормальное |
распределение |
|
|||
|
|
( | ^ | < г р |
) = |
2Ф(г) = Р, |
|
где |
Zp — величина, значение |
которой соответствует |
|||
надежности t> при v = o o (см. табл. VI |
на стр. 369). |
||||
От |
неравенства |
|
|
|
|
|
|
I |
— |
< z p |
|
|
|
I |
° |
|
|
перейдем к двойному |
неравенству |
|
|
'8.29)
заданной
(8.30)
~гр<(Р |
— /)/о<гр, |
или |
f—azp<p<f+azpt |
где
o=Vp(l-p)/N. (8.31)
Заменив в (8.31) вероятность р на полученное из опыта значение частости / и следуя рассуждениям п. 2, § 2, приходим к доверительному интервалу вероятности, который имеет вид
f-zpV!(.\-f)lN<p<f |
+ z p V f ( \ - f ) l N < |
(8.32) |
|
При этом нижняя оценка параметра р равна |
|
||
pa — f — z p V f ( l — |
— f—e> |
(8.33) |
284
а верхняя составляет |
|
pl = f + z p V f ( l - f ) / N = f + z, |
(8.34) |
где величина е указывает на погрешность при определении доверительного интервала дляр:
z p V f ( l - f ) / N = zpo = e. |
(8.35) |
Применим только что описанную процедуру к конкретной |
линг- |
вистической задаче. |
|
В молдавском публицистическом тексте длиной в 200 тыс. сло- |
|
воупотреблений встретилось 31286 глагольных форм [7, с. |
159]. |
Нужно с надежностью в 95% определить доверительные границы вероятности появления во взятом тексте глагольного словоупотребления.
Здесь N = 200000, F = 31286, f = |
FIN = 0,1564. По табл. VI |
||||||
находим, |
что zp — 1,96 при £ = |
0,95 и при v = оо; затем по фор- |
|||||
муле (8.35) определим |
погрешность |
|
|
||||
|
|
е = 1,96 К |
0,1564-0,8436/200 000 «0,0016. |
|
|||
Подставляя все эти данные в равенства (8.33) и (8.34), |
получаем |
||||||
значения |
|
|
|
|
|
|
|
р'а |
0 |
1564 — 0,0016 = 0,1548, |
pi = |
0,1564 + 0,0016 = |
0,1580 |
||
нижней |
|
и верхней |
границ доверительного интервала, в |
котором |
|||
с надежностью в 95% |
находится'истинна я вероятность молдавских |
||||||
глагольных словоупотреблений. |
|
|
|
||||
Приближенная |
оценка вероятности р с помощью опытной час- |
||||||
тости / |
всегда связана с ошибкой, величина которой тем |
больше, |
чем меньше объем выборки. Более точную интервальную оценку
можно получить, решая неравенство (8.30) относительно |
р. Для |
этого указанное неравенство запишем в виде |
|
p-f<zpVp{l-p)lN. |
(8.36) |
Затем обе части неравенства возведем в квадрат и перенесем все его члены в левую часть:
(8.37)
Приравняв левую часть неравенства нулю и решая квадратное уравнение относительно р, получаем
Pi = Рн = |
W + 4 |
(8.38) |
|
|
|
Nf+ у |
гр V*t |
~ f)+ T 4 |
|
|
(8.39) |
285
Используем только что описанную методику для вычисления более точных интервальных оценок вероятности появления глагольных словоупотреблений в молдавских публицистических тек-
стах.
Подставляя числовые значения в формулы (8.38) и (8.39), имеем
. |
_ 200 000-0,1564 + |
0,5-3,8416—1,96 У |
200 000-0,1564-0,84+0,25-3,8416 |
|
||||
Р " |
~ |
|
200000+ |
3,8416 |
|
|
|
|
= |
3 1 2 8 1 , 9 2 - 1 , 9 6 1 / 2 6 3 8 8 , 7 7 = |
31281,92 - 318,34 |
^ |
30963,58 |
Q 1 5 4 g |
|
||
~ |
200003,8416 |
|
200003,8416 |
|
200003,84 ~ |
' |
' |
|
|
» _ 31281,92+318,34 _ |
31600,26 ^ |
Q |
j 5 g 0 |
|
|
||
|
Р в ~ |
200003,84 |
_ |
200003,84 ~ |
|
' |
|
|
Следовательно,
0,1548 < р < 0,1580.
Нетрудно заметить, что этот доверительный интервал несколько шире интервала, полученного по приближенной оценке. Это происходит потому, что улучшенная оценка дает меньшую погрешность по сравнению с приближенной. Расхождение между обеими оценками становится особенно заметным при малых выборках лингвистических единиц.
2. Интервальная оценка вероятности р для малых выборок. При малых N приближенные оценки вероятности р дают заметные ошибки, связанные с заменой неизвестного р опытным /, а также с переходом от дискретного биномиального к непрерывному нормальному распределению. Чтобы уменьшить эти ошибки, используются различные поправочные пригмы.
Один из приемов со:тоит в том, что в левую и правую части двойного неравенства (8.32) вводят поправочный член 1/(2 N), в связи с чем доверительный интервал р записывается следующим образом:
f - l l ( 2 N ) - z P V f (1 -/)/А/ < р < / + 1/(2.V) + z P V f ( 1 - f ) / N .
(8.40)
Используем указанный прием для решения следующей лингвистической задачи. Из русского прозаического текста взята выборка в 50 словоупотреблений, в которой обнаружено 20 именных форм. Необходимо определить доверительные границы вероятности р при надежности в 95%.
Здесь N = 50, f = 0,4, р = 0,95 и zp = 1,96. Подставив эти величины в формулу (8.40), получим
р*и = 0,4 — 0,01 — 1,961/0,4 (1-0,4)/50 = 0,2442 « 0 , 2 4 , pi = 0,4 + 0,01 + 1,96 У OA (1 — 0,4)/50 = 0,5572 ж 0,56.
Другой прием заключается в том, что величина г^ в формуле
(8.32) заменяется на |
в распределении Стьюдента, а вместо |
286
Vf (1 —f)W используют |
величину Vf (1 — f)/(N — 1). |
В этом |
|
случае доверительный интервал для р принимает вид |
|
||
f-tpy \/rYZT<P<f |
+ <*.v |
|
(8.41) |
Нижняя граница оценки равна |
|
|
|
рн = f-t9,v |
Vf{l—f)l(N— |
1), |
(8.42) |
а верхняя составляет |
|
|
|
pl = f + tp.v Vf ( ! - / ) / ( N |
- 1 ) . |
(8.43) |
Используем этот прием для определения доверительного интервала вероятности именных форм в только что рассмотренном примере.
Здесь f = 0,4, р = 0,95, v = 20 — 1 = 19, /o,95;i9 = 2,09. Подставив эти значения в формулы (8.42) и (8.43), получим для ниж-
ней границы
pi = 0,40 — 2,09 /0,4(1 — 0,4)/49 = 0,40 — 0,1463 = 0,2537 «0,25,
а для верхней границы р'в = 0,40 + 0,1463 = 0,5463 да 0,55.
Легко заметить, что оба приема дают практически одни и те же оценки границ доверительного интервала.
Из сказанного не следует, что удовлетворительную интервальную оценку вероятности р можно получить при любом значении N. При очень малых объемах выборки даже самые сильные приемы оценки вероятности не дают удовлетворительного' результата. В этом легко может убедиться читатель, взяв выборку в 5 словоупот-
реблений и задавшись целью определить при Р = 0,95 доверитель- |
|||
ный интервал вероятности появления существительных |
при |
усло- |
|
вии, что их в этой выборке было всего 3 (т. е. 60%). При |
этом |
выяс- |
|
няется, что доверительный интервал |
здесь имеет вид —0,08 < |
р < |
|
< 1,28, перекрывая таким образом |
весь возможный диапазон |
рас- |
положения истинной доли именных словоупотреблений в тексте. Это еще раз говорит о том, что построения «процентной» лингвистики, не учитывающие объема выборки и других важных понятий статистики, не всегда дают достаточное количество содержательной информации.
Все рассмотренные приемы интервальной оценки для вероятности р могут быть распространены и на логнормальное распределение.
3. Интервальная оценка вероятности редких лингвистических событий. До сих пор мы рассматривали случаи, когда вероятность лингвистической единицы достаточно велика. Такая ситуация типична для фонетико-фонологических и грамматических исследований. Однако при лексикологических исследованиях вероятности
287
словоформ, слов и словосочетаний обычно очень малы. Распределения их вероятностей чаще всего подчиняются распределению Пуассона.
Поэтому доверительный интервал вероятности лексических единиц следует устанавливать не на основе нормального приближения, которое может привести к значительным ошибкам, а путем приме-
нения |
пуассоновского |
приближения. |
|
|
||
Для |
нахождения |
оценки |
р |
сначала нужно |
оценить |
параметр |
% через число появлений события F — NF, причем число всех ис- |
||||||
пытаний N на оценку К не влияет, оно может быть неизвестно, |
||||||
нужно лишь быть уверенным, что N велико. Распределение слу- |
||||||
чайных величин F в распределении Пуассона оказывается тесно свя- |
||||||
занным с распределением %2 |
[7, с . 1641. Это |
и дает |
возмож- |
|||
ность получить доверительную оценку для X. |
|
|
||||
Нижняя граница доверительного интервала пуассоновской ве- |
||||||
роятности задается выражением |
|
|
||||
|
|
= |
|
v „ |
|
(8.44) |
где vx — число степеней свободы, равное 2 (F + |
1), а верхняя гра- |
|||||
ница определяется из выражения |
|
|
||||
|
|
1 |
«2 |
|
(8.45) |
|
|
|
2N |
Х 2 |
( 1 - р ) / 2 ; V,. |
|
|
|
|
|
|
|
|
|
где число степеней свободы va |
= |
2 F. |
|
|
||
Решим следующую задачу. |
Из латышских научно-технических |
текстов взята выборка в 300 тыс. словоупотреблений, в которой слово aizgrieznis 'кран' встретилось 3 раза. Определить доверительные границы пуассоновой вероятности указанного слова при надежности Р =» 0,95.
|
Здесь N = |
300000, F = 3, Р = |
0,95, vr = 8, v2 |
= 6. С помощью |
||
табл. V (см. стр. 368) находим граничные значения: |
||||||
|
|
^ ( l + Р ) / 2 ; V, =ХО,975; |
8 = |
2 , 1 8 , |
|
|
|
|
^ ( l - * > ) / 2 ; V, = Хо,025; |
6 = |
14,40. |
|
|
|
Подставляя |
все необходимые |
значения |
в выражения (8.44) |
||
и (8.45), получаем значения |
|
|
|
|
||
р2 |
2-300000 |
2,18 = 0,0000036, |
р! |
|
! |
14,40 = 0,000024 |
^ |
|
и |
2 - 300000 |
|
нижней и верхней границ доверительного интервала, в котором заключена вероятность латышского слова aizgrieznis.
Методика интервальной оценки пуассоновой вероятности может быть применена также и к вероятностям, получаемым из лингвистических распределений Чебанова — Фукса и Фукса — Гачечи-
ладзе.
68
§ 5. Оценка функции генерального распределения по данным лингво-статистического наблюдения
В предыдущих параграфах была рассмотрена первая задача, связанная с переходом от статистической модели текста к скрытой от прямого наблюдения вероятностной схеме его построения. Решение указанной задачи заключалось в оценке неизвестных параметров распределения генеральной лингвистической совокупности.
Теперь обратимся ко второй задаче, состоящей в том, чтобы по опытным данным оценить неизвестную функцию распределения непрерывной случайной лингвистической величины X. Решение этой задачи сводится к определению того доверительного интервала, в котором находятся значения теоретической функции, соответствующие определенным значениям аргумента. Этот доверительный интервал определяется по отдельным опытным данным без какого бы то ни было обращения к параметрам функции, которые остаются, как правило, нам неизвестными.
1. Доверительный интервал функции генерального распреде- ления. При оценке неизвестной функции используются следующие рассуждения. Предположим, что в результате исследования текстовой выборки получена последовательность лингвистических единиц, упорядоченная в порядке возрастания номеров их извлечений из текста:
*г, х „ ..., xN. |
(8.46) |
Величины Xt можно рассматривать в качестве значений некоторой конкретной случайной лингвистической величины X.
Последовательность (8.46) может быть описана с помощью интегральной функции эмпирического распределения накопленных частостей, соответствующих значениям xt:
Вместе с тем можно предположить, что имеется теоретический интегральный закон
F (х) - Р (X < *,) = рЧ,
описывающий распределение значений рассматриваемой непрерывной случайной величины X в генеральной лингвистической совокупности. Вид этого закона нам неизвестен, и какой-либо дополнительной информацией о его свойствах, кроме свойства непрерывности, мы не располагаем.
Оценка теоретического закона F (х) эмпирической функцией осуществляется, как и в случаях с неизвестными параметрами, при заданной надежности Р и точности е. При этом доверительный интервал закона F (х) имеет вид
Fn(X) — в < F (х) < Fn(X) + е.
Ю З а к . 1287 |
289 |