Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Пиотровский

.pdf
Скачиваний:
175
Добавлен:
06.06.2015
Размер:
9.13 Mб
Скачать

В случае нормального распределения приходится учитывать уже т р и связи: связь, образующуюся при суммировании наблюдаемых частот, и связи, содержащиеся в величинах х и s, соответ-

ственно

оценивающих М (X) и а. Таким образом, в этом случае

v = N

— 3.

Однако если при сопоставлении нормального распределения с выборочным величины х и s оказываются уже известными до опыта, то тогда должна быть учтена всего лишь одна связь, образующаяся при суммировании наблюдаемых частот. В связи с этим здесь число степеней свободы v = N — 1.

Рис. 59

 

Итак, число степеней свободы определяется

из разности

v — N — I,

(8.20)

где N — число наблюдений (сведений), а I — число линейных связей, налагающихся на эти наблюдения при данной статистической процедуре.

От числа степеней свободы зависит вид кривых %2 распределения. Как видно из рис. 59, эти кривые асимметричны, причем степень асимметрии уменьшается с увеличением числа степеней свободы.

При v -»- оо график х2 совпадает с кривой нормального

распреде-

ления.

 

 

При

определении доверительных интервалов для

величин

D (X) =

а2 и а используется выборочная дисперсия s2, связанная

с величинами а2 и следующей зависимостью:

 

 

s2 = a2 x2/v,

(8.21)

причем v

= N — 1.

 

LS0

Распределение-s* подробно описано в работе [61, с. 139— 1441. Отметим лишь, что оно имеет параметры

М (s2) = a2, D (?) = 2а4/v.

Поскольку при v оо распределение х2 асимптотически приближается к нормальному, при этих условиях распределение s2 также должно приближаться к нормальному распределению.

Переходя к определению доверительного интервала для аа и а, перепишем равенство (8.21) в виде

X2 = v s 2 / a 2 .

(8.22)

Теперь, задав

надежность

|>, найдем

в таблице распределения

X2 такие две численные границы

и хЬ Для которых выполнялось бы

соотношение

 

 

 

 

 

 

Р (х? < v s 2 / o 2 < г\)

= р.

-

(8.23)

Границы Xi и

Хг можно выбрать бесконечным числом

способов:

они могут быть сдвинуты по оси абсцисс (рис. 60) влево или вправо

на любую величину, лишь бы число %2 =

vsVa2

находилось внутри

интервала (%2, %г)

и значение р оставалось бы неизменным.

Чтобы фиксировать положение границ

%1 и

вводят односто-

ронний критерий значимости, согласно которому

W

< х ? ) = W > х?)

=

.

При этом условии надежность наших рассуждений остается равной р. Действительно,

Р (Xf < vs2/ a2 < %l) = 1 - Р (X2 < X I ) - Р (X2 ^ XI) =

281

Преобразуя выражение,

стоящее в левой части равенства

(8.24), таким образом, что

 

Р (vs2/x2 <

2< vs2/x?) = t>,

мы получаем с надежностью р доверительный интервал для дисперсии а2, имеющий нижнюю границу

 

2H

2

/xS

(8.25)

и верхнюю границу

a * =

vs

a2e* =

vsa/x?.

(8.26)

 

Границы доверительного интервала для среднего квадратиче-'"

ского отклонения соответственно равны

 

и

^ = к V s/Xa

(8.27)

 

_

 

 

 

o I - K v s / X p

(8.28)

Для нахождения

значений

х!

и "/X следует

воспользоваться

табл. V на стр. 368.

Столбцы этой

таблицы указывают (1 + р)/2

и (1 — р)/2, а строки — число степеней свободы. Нужные значения

односторонних границ Xi и Ха

находятся на пересечении строк

и столбцов. Подставив эти значения в формулы (8.25) — (8.28),

получаем

верхнюю

и

нижнюю оценки неизвестных параметров

D(X)

=

АГ и Y d

(X)

» a.

2.

Определение

существенности расхождения частот глагола

в украинской драме и поэзии с использованием интервальной оценки.

Решая вопрос о существенности статистических расхождений между украинской драмой и прозой [см. столбец (9) табл. 8.1 на стр. 275], мы пользовались точечной оценкой среднего квадратического отклонения. Как уже говорилось, эта оценка не дает сведений о том, как далеко отстоит от наблюдаемого стандарта s или s среднее квадратическое а. Поэтому в тех случаях, когда сопоставляемые лингвистические признаки дают близкие средние частоты F = х, как это имеет место при сравнении употребительности глаголов в украинской драме и прозе, использование точечных оценок а может привести к ошибочным лингвистическим выводам. В связи с этим снова обратимся к вычислению доверительного интервала для средних частот глагола в украинских жанрах украинской прозы, пользуясь

при этом не

точечными,

а интервальными оценками среднего квад-

ратического

a

(х).

 

 

 

 

 

 

 

 

 

 

 

 

 

По условию задачи, имеем для драматических текстов v =

60 —

— 1 = 59,

F

= х

=

90,5, s(x)

 

- 1,98,

а для поэтических v =

«= 50 —

1 =

49, F

=» 82,1,

s(xj

=

1,48. И в том, и в другом

случае »

=

0,95, откуда

 

(1 —

р)/2 =

0,025,

 

(1 + Р)/2 =

0,975.

Учитывая, что для драмы v =

59, из табл. V находим

 

 

 

 

X? =

1 +

p)/2;v =

Х§,

975

; 59 =

39

6

6-

 

 

 

 

X(

 

 

 

>

 

 

 

 

X| =

X ? 1 - W / » ! V

= Х В , 0 2 5 ;

59 =82,18.

 

282

Соответственно для поэзии, где v

= 49, имеем

Х? = ХО2.975: 49 = 31>56,

XS-X8.0»; 49 = 70,22.

Таким образом, нижняя и верхняя границы доверительного

интервала для о в драматических текстах составляют

 

о'и = 1,98 j/59/82,18= 1,68;

о'а =

1,98/59/39,66 =

2,43,

а для поэзии эти границы равны

 

 

 

а ^ = 1,48/49/70,22= 1,24;

а* =

1,48/49/31,56 =

1,84.

Из табл. 8.1 и рис. 58 видно, что хотя при точечной оценке а доверительный интервал употребительности глагола в поэзии не накладывается на доверительный интервал глагола в драме, верхняя граница первого интервала очень близко подходит к нижней границе второго.

Теперь посмотрим, сохраняется ли этот разрыв между доверительными интервалами при использовании интервальной оценки а. Для этого определим нижнюю границу р,* доверительного интервала F — х глагола в драме и верхнюю границу аналогичного интервала в поэзии. Само собой разумеется, 4TQ и в том, и в другом случае следует пользоваться верхней границей интервальной оценки среднего квадратического о*в. Тогда для драматических текстов получаем

Цн = X — Zptr; = 90,5 — 1,96 • 2,43 = 85,73,

адля поэзии соответственно имеем

р; = 82,1 + 1,96 • 1,86 = 85,71.

Полученные результаты показывают, что нижняя часть доверительного интервала F = х глаголов в украинской драме по существу соприкасается с верхней частью соответствующего доверительного интервала в поэзии. Поэтому благоразумнее воздержаться от сделанного с надежностью в 95% вывода § 2, п. 4 о том, что частота глаголов может рассматриваться в качестве статистикостилистического параметра, надежно отграничивающего язык украинской драмы от языка поэзии.

§ 4. Доверительные интервалы для вероятности качественного лингвистического признака

В лингвистической практике постоянно приходится применять интервальную оценку вероятности отдельных единиц — фонем, графем, слогов, морфем, словоформ и т. д. При осуществлении этой оценки интересующая нас лингвистическая единица, например глагольная словоформа, рассматривается в виде качественного альтернативного признака А. Все остальные лингвистические единицы (в нашем случае — все неглагольные словоформы) квалифицируются здесь как качественный признак А, т. е. не А.

283

В гл. 6 (см. § 1, п. 3) было показано, что вероятность р альтернативной величины А имеет биномиальное распределение. Однако определение интервальной оценки р при биномиальном распределении этой вероятности связано с громоздкими расчетами, опирающимися на довольно сложный математический аппарат. Чтобы обойти эти затруднения, пользуются более простыми приемами определения интервальной оценки р.

1. Интервальная оценка вероятности р с помощью нормального распределения. Пусть вероятность р альтернативного лингвистического признака А не слишком близка к нулю и к единице, а число наблюдений N достаточно велико (такая ситуация имеет обычно место при статистических исследованиях в области грамматики, фонетики и фонологии). Вероятность р неизвестна, и ее нужно оценить через получаемую в опыте частость / FIN.

В гл. 6 (см. § 4) было показано, что распределение величины f близко к нормальному Теоретически можно предполагать, что па-

раметрами этого распределения

служат величины

М (F/N)

= М([) — р

и а(/)=»

Vp(\-p)/N

(см. гл. 6, § 3, п. 4)

При бесконечном увеличении числа испытаний

(т. е. объема выборки) предельным распределением нормированной частости

 

 

MU)-I

 

 

p-t

 

 

°

 

Vp(\-p)IN

является нормальное

распределение

 

 

 

( | ^ | < г р

) =

2Ф(г) = Р,

где

Zp — величина, значение

которой соответствует

надежности t> при v = o o (см. табл. VI

на стр. 369).

От

неравенства

 

 

 

 

 

 

I

< z p

 

 

 

I

°

 

 

перейдем к двойному

неравенству

 

 

'8.29)

заданной

(8.30)

р<(Р

— /)/о<гр,

или

f—azp<p<f+azpt

где

o=Vp(l-p)/N. (8.31)

Заменив в (8.31) вероятность р на полученное из опыта значение частости / и следуя рассуждениям п. 2, § 2, приходим к доверительному интервалу вероятности, который имеет вид

f-zpV!(.\-f)lN<p<f

+ z p V f ( \ - f ) l N <

(8.32)

При этом нижняя оценка параметра р равна

 

pa — f — z p V f ( l —

— f—e>

(8.33)

284

а верхняя составляет

 

pl = f + z p V f ( l - f ) / N = f + z,

(8.34)

где величина е указывает на погрешность при определении доверительного интервала дляр:

z p V f ( l - f ) / N = zpo = e.

(8.35)

Применим только что описанную процедуру к конкретной

линг-

вистической задаче.

 

В молдавском публицистическом тексте длиной в 200 тыс. сло-

воупотреблений встретилось 31286 глагольных форм [7, с.

159].

Нужно с надежностью в 95% определить доверительные границы вероятности появления во взятом тексте глагольного словоупотребления.

Здесь N = 200000, F = 31286, f =

FIN = 0,1564. По табл. VI

находим,

что zp — 1,96 при £ =

0,95 и при v = оо; затем по фор-

муле (8.35) определим

погрешность

 

 

 

 

е = 1,96 К

0,1564-0,8436/200 000 «0,0016.

 

Подставляя все эти данные в равенства (8.33) и (8.34),

получаем

значения

 

 

 

 

 

 

р'а

0

1564 — 0,0016 = 0,1548,

pi =

0,1564 + 0,0016 =

0,1580

нижней

 

и верхней

границ доверительного интервала, в

котором

с надежностью в 95%

находится'истинна я вероятность молдавских

глагольных словоупотреблений.

 

 

 

Приближенная

оценка вероятности р с помощью опытной час-

тости /

всегда связана с ошибкой, величина которой тем

больше,

чем меньше объем выборки. Более точную интервальную оценку

можно получить, решая неравенство (8.30) относительно

р. Для

этого указанное неравенство запишем в виде

 

p-f<zpVp{l-p)lN.

(8.36)

Затем обе части неравенства возведем в квадрат и перенесем все его члены в левую часть:

(8.37)

Приравняв левую часть неравенства нулю и решая квадратное уравнение относительно р, получаем

Pi = Рн =

W + 4

(8.38)

 

 

Nf+ у

гр V*t

~ f)+ T 4

 

 

(8.39)

285

Используем только что описанную методику для вычисления более точных интервальных оценок вероятности появления глагольных словоупотреблений в молдавских публицистических тек-

стах.

Подставляя числовые значения в формулы (8.38) и (8.39), имеем

.

_ 200 000-0,1564 +

0,5-3,8416—1,96 У

200 000-0,1564-0,84+0,25-3,8416

 

Р "

~

 

200000+

3,8416

 

 

 

 

=

3 1 2 8 1 , 9 2 - 1 , 9 6 1 / 2 6 3 8 8 , 7 7 =

31281,92 - 318,34

^

30963,58

Q 1 5 4 g

 

~

200003,8416

 

200003,8416

 

200003,84 ~

'

'

 

» _ 31281,92+318,34 _

31600,26 ^

Q

j 5 g 0

 

 

 

Р в ~

200003,84

_

200003,84 ~

 

'

 

 

Следовательно,

0,1548 < р < 0,1580.

Нетрудно заметить, что этот доверительный интервал несколько шире интервала, полученного по приближенной оценке. Это происходит потому, что улучшенная оценка дает меньшую погрешность по сравнению с приближенной. Расхождение между обеими оценками становится особенно заметным при малых выборках лингвистических единиц.

2. Интервальная оценка вероятности р для малых выборок. При малых N приближенные оценки вероятности р дают заметные ошибки, связанные с заменой неизвестного р опытным /, а также с переходом от дискретного биномиального к непрерывному нормальному распределению. Чтобы уменьшить эти ошибки, используются различные поправочные пригмы.

Один из приемов со:тоит в том, что в левую и правую части двойного неравенства (8.32) вводят поправочный член 1/(2 N), в связи с чем доверительный интервал р записывается следующим образом:

f - l l ( 2 N ) - z P V f (1 -/)/А/ < р < / + 1/(2.V) + z P V f ( 1 - f ) / N .

(8.40)

Используем указанный прием для решения следующей лингвистической задачи. Из русского прозаического текста взята выборка в 50 словоупотреблений, в которой обнаружено 20 именных форм. Необходимо определить доверительные границы вероятности р при надежности в 95%.

Здесь N = 50, f = 0,4, р = 0,95 и zp = 1,96. Подставив эти величины в формулу (8.40), получим

р*и = 0,4 — 0,01 — 1,961/0,4 (1-0,4)/50 = 0,2442 « 0 , 2 4 , pi = 0,4 + 0,01 + 1,96 У OA (1 — 0,4)/50 = 0,5572 ж 0,56.

Другой прием заключается в том, что величина г^ в формуле

(8.32) заменяется на

в распределении Стьюдента, а вместо

286

Vf (1 —f)W используют

величину Vf (1 — f)/(N — 1).

В этом

случае доверительный интервал для р принимает вид

 

f-tpy \/rYZT<P<f

+ <*.v

 

(8.41)

Нижняя граница оценки равна

 

 

рн = f-t9,v

Vf{l—f)l(N

1),

(8.42)

а верхняя составляет

 

 

 

pl = f + tp.v Vf ( ! - / ) / ( N

- 1 ) .

(8.43)

Используем этот прием для определения доверительного интервала вероятности именных форм в только что рассмотренном примере.

Здесь f = 0,4, р = 0,95, v = 20 — 1 = 19, /o,95;i9 = 2,09. Подставив эти значения в формулы (8.42) и (8.43), получим для ниж-

ней границы

pi = 0,40 — 2,09 /0,4(1 — 0,4)/49 = 0,40 — 0,1463 = 0,2537 «0,25,

а для верхней границы р'в = 0,40 + 0,1463 = 0,5463 да 0,55.

Легко заметить, что оба приема дают практически одни и те же оценки границ доверительного интервала.

Из сказанного не следует, что удовлетворительную интервальную оценку вероятности р можно получить при любом значении N. При очень малых объемах выборки даже самые сильные приемы оценки вероятности не дают удовлетворительного' результата. В этом легко может убедиться читатель, взяв выборку в 5 словоупот-

реблений и задавшись целью определить при Р = 0,95 доверитель-

ный интервал вероятности появления существительных

при

усло-

вии, что их в этой выборке было всего 3 (т. е. 60%). При

этом

выяс-

няется, что доверительный интервал

здесь имеет вид —0,08 <

р <

< 1,28, перекрывая таким образом

весь возможный диапазон

рас-

положения истинной доли именных словоупотреблений в тексте. Это еще раз говорит о том, что построения «процентной» лингвистики, не учитывающие объема выборки и других важных понятий статистики, не всегда дают достаточное количество содержательной информации.

Все рассмотренные приемы интервальной оценки для вероятности р могут быть распространены и на логнормальное распределение.

3. Интервальная оценка вероятности редких лингвистических событий. До сих пор мы рассматривали случаи, когда вероятность лингвистической единицы достаточно велика. Такая ситуация типична для фонетико-фонологических и грамматических исследований. Однако при лексикологических исследованиях вероятности

287

словоформ, слов и словосочетаний обычно очень малы. Распределения их вероятностей чаще всего подчиняются распределению Пуассона.

Поэтому доверительный интервал вероятности лексических единиц следует устанавливать не на основе нормального приближения, которое может привести к значительным ошибкам, а путем приме-

нения

пуассоновского

приближения.

 

 

Для

нахождения

оценки

р

сначала нужно

оценить

параметр

% через число появлений события F — NF, причем число всех ис-

пытаний N на оценку К не влияет, оно может быть неизвестно,

нужно лишь быть уверенным, что N велико. Распределение слу-

чайных величин F в распределении Пуассона оказывается тесно свя-

занным с распределением %2

[7, с . 1641. Это

и дает

возмож-

ность получить доверительную оценку для X.

 

 

Нижняя граница доверительного интервала пуассоновской ве-

роятности задается выражением

 

 

 

 

=

 

v

 

(8.44)

где vx — число степеней свободы, равное 2 (F +

1), а верхняя гра-

ница определяется из выражения

 

 

 

 

1

«2

 

(8.45)

 

 

2N

Х 2

( 1 - р ) / 2 ; V,.

 

 

 

 

 

 

 

где число степеней свободы va

=

2 F.

 

 

Решим следующую задачу.

Из латышских научно-технических

текстов взята выборка в 300 тыс. словоупотреблений, в которой слово aizgrieznis 'кран' встретилось 3 раза. Определить доверительные границы пуассоновой вероятности указанного слова при надежности Р =» 0,95.

 

Здесь N =

300000, F = 3, Р =

0,95, vr = 8, v2

= 6. С помощью

табл. V (см. стр. 368) находим граничные значения:

 

 

^ ( l + Р ) / 2 ; V, =ХО,975;

8 =

2 , 1 8 ,

 

 

 

^ ( l - * > ) / 2 ; V, = Хо,025;

6 =

14,40.

 

 

Подставляя

все необходимые

значения

в выражения (8.44)

и (8.45), получаем значения

 

 

 

 

р2

2-300000

2,18 = 0,0000036,

р!

 

!

14,40 = 0,000024

^

 

и

2 - 300000

 

нижней и верхней границ доверительного интервала, в котором заключена вероятность латышского слова aizgrieznis.

Методика интервальной оценки пуассоновой вероятности может быть применена также и к вероятностям, получаемым из лингвистических распределений Чебанова — Фукса и Фукса — Гачечи-

ладзе.

68

§ 5. Оценка функции генерального распределения по данным лингво-статистического наблюдения

В предыдущих параграфах была рассмотрена первая задача, связанная с переходом от статистической модели текста к скрытой от прямого наблюдения вероятностной схеме его построения. Решение указанной задачи заключалось в оценке неизвестных параметров распределения генеральной лингвистической совокупности.

Теперь обратимся ко второй задаче, состоящей в том, чтобы по опытным данным оценить неизвестную функцию распределения непрерывной случайной лингвистической величины X. Решение этой задачи сводится к определению того доверительного интервала, в котором находятся значения теоретической функции, соответствующие определенным значениям аргумента. Этот доверительный интервал определяется по отдельным опытным данным без какого бы то ни было обращения к параметрам функции, которые остаются, как правило, нам неизвестными.

1. Доверительный интервал функции генерального распреде- ления. При оценке неизвестной функции используются следующие рассуждения. Предположим, что в результате исследования текстовой выборки получена последовательность лингвистических единиц, упорядоченная в порядке возрастания номеров их извлечений из текста:

*г, х „ ..., xN.

(8.46)

Величины Xt можно рассматривать в качестве значений некоторой конкретной случайной лингвистической величины X.

Последовательность (8.46) может быть описана с помощью интегральной функции эмпирического распределения накопленных частостей, соответствующих значениям xt:

Вместе с тем можно предположить, что имеется теоретический интегральный закон

F (х) - Р (X < *,) = рЧ,

описывающий распределение значений рассматриваемой непрерывной случайной величины X в генеральной лингвистической совокупности. Вид этого закона нам неизвестен, и какой-либо дополнительной информацией о его свойствах, кроме свойства непрерывности, мы не располагаем.

Оценка теоретического закона F (х) эмпирической функцией осуществляется, как и в случаях с неизвестными параметрами, при заданной надежности Р и точности е. При этом доверительный интервал закона F (х) имеет вид

Fn(X) в < F (х) < Fn(X) + е.

Ю З а к . 1287

289