
Пиотровский
.pdfпутем извлечения квадратного корня из дисперсии, в результате чего получается среднее квадратическое отклонение-.
а = у Т Щ ) . |
(6-37> |
Величина ст имеет ту же размерность, что и математическое ожидание случайной величины. Это дает возможность оценивать степень вариации в данном распределении с помощью коэффициента вариации'.
|
|
|
V (о) = — — |
100%. |
|
|
(6.38) |
||
|
|
|
|
М(Х) |
|
|
|
|
|
Дисперсия характеризуется |
следующими |
свойствами: |
|
||||||
1. |
Дисперсия |
постоянной равна нулю, |
т. е. |
|
|
|
|||
|
|
|
D (С) = |
0. |
|
|
|
(6.39) |
|
2. |
Постоянную |
можно вынести |
за |
знак |
дисперсии, |
возведя ее |
|||
в квадрат, т. е. |
|
D (СХ) |
= C2D(X). |
|
|
(6.40) |
|||
|
|
|
|
|
|||||
3. |
Увеличение |
(уменьшение) |
случайной величины на |
одну |
и ту |
||||
же постоянную |
величину С не изменяет |
дисперсии, т. е. |
|
|
|||||
|
|
|
D (X + |
С) = |
D (X). |
|
|
(6.41) |
|
4. |
Дисперсия |
случайной величины |
равна математическому |
ожи- |
данию квадрата случайной величины без квадрата ее математического ожидания, т. е.
|
D (X) = М (X2) — [М (X)]2. |
|
(6.42) |
||
5. Дисперсия |
суммы конечного числа попарно |
независимых |
слу- |
||
чайных величин |
равна |
сумме их |
дисперсий, т. е. |
|
|
D (Хх + Х2 |
+ ... + Х„) = |
D (XJ + D (Х2) + |
... + D (Хп). |
||
|
|
|
|
(6.43) |
|
Дисперсия и математическое ожидание, с которыми мы только |
|||||
что познакомились, |
являются |
частными случаями понятия |
м о- _ |
ме н т а , т. е. характеристики вида распределения. Существует несколько видов моментов. .
Моментом h-го порядка случайной величины X называется мате- |
|||
матическое ожидание h-й степени отклонений |
случайной |
величины |
|
от постоянной а, выступающей в качестве произвольно |
фиксирован- |
||
ного начала отсчета, так называемого условного |
нуля. |
|
|
При решении вероятностных лингвистических задач обычно |
|||
используются моменты первых пяти порядков |
(h — 0, |
1, |
2, 3, 4): |
vo (а) — М(Х—а)0 = 1 |
момент |
нулевого |
порядка)} |
||
\ { ( а ) = |
М(Х—А) |
» |
первого |
» |
) |
v2 (а) = |
М(Х—а)2 |
» |
второго |
» |
) |
V3 (а) = |
М(Х—а)3 |
» |
третьего |
» |
) |
vi(a) = |
M(X—a)i |
» |
четвертого » |
). |
180
Если а = 0, то момент называется начальным и записывается
в общем виде так:
vh=*M(Xh).
Запишем выражения для начальных моментов первых пяти порядков:
v0 |
— M(X°) = l |
(начальный |
момент |
нулевого |
порядка); |
||
vl |
= M(X) |
( |
» |
» |
первого |
» |
|
v2 = М(Х2) |
( |
» |
» |
второго |
» |
); |
|
Уз = Л1('Хэ) |
( |
» |
» |
третьего |
» |
|
|
v4 |
= yW(X4/) |
С |
» |
» |
четвертого |
» |
). |
Нетрудно заметить, что начальный момент первого порядка есть не что иное, как математическое ожидание случайной величины X.
Если в качестве начала отсчета взято математическое ожидание случайной величины, т. е. если а — М (X), то момент называется центральным. В общем виде центральный момент записывается так:
|
|
ц„ = М IX — М (Х)1\ |
|
|
(6.44) |
|||
Между центральными и начальными моментами существует |
пря- |
|||||||
мая связь, |
передаваемая |
следующей |
зависимостью: |
|
|
|||
= |
( - 1 ) h - d C U h r d v d + |
( - \ ) b - H h - \ ) v \ . |
(6.45) |
|||||
|
йГ= 2 |
|
|
|
|
|
|
|
Из соотношения (6.45) получаем выражения для первых пяти |
||||||||
центральных моментов: |
|
|
|
|
|
|
||
|
|
ц0 = 1 (центральный |
момент |
нулевого порядка |
||||
|
|
р.! = 0 ( |
« |
« |
первого |
« |
|
|
р.л = у2 —v? |
( |
« |
« |
второго |
« |
) |
||
^з —v 3—3va v1 + 2v? |
( |
« |
« |
третьего |
« |
) |
||
|a4 = v4—4v3vx + 6v4vf—3vi (« |
« |
четвертого |
« |
) |
||||
Центральный момент первого порядка, равный нулю, представ- |
||||||||
ляет собой математическое ожидание случайной величины |
X |
при |
||||||
условии, что а = |
М (X). |
|
|
|
|
|
||
Центральный момент второго порядка является дисперсией |
||||||||
случайной |
величины: |
|
|
|
|
|
|
|
ц2 = |
v2 - |
V? = |
м |
(X2) - [М (Х)12 = D (X) = а2. |
(6.46) |
Отношение центрального момента h-го порядка к h-й степени среднего квадратического отклонения <г называется нормированным моментом. В общем виде нормированный момент записывается следующим образом:
Рb = H/(V^)h |
= V'hl°h- |
6.47? |
181
Для нормированных моментов первых четырех порядков имеем:
Pi |
= |
о |
Р а |
~ |
F . |
ps «=» ps'cr |
||
р4 |
е= |л4/а4 |
(нормированный |
момент первого порядка)-, |
||||
( |
« |
« |
второго |
« |
); |
( |
« |
« |
третьего |
« |
); |
( |
« |
« |
четвертого |
« |
). |
|
Нормированный момент третьего порядка, называющийся |
иног- |
||||||||||||||||||
да |
коэффициентом |
асимметрии, |
|
характеризует |
|
«скошенность» |
||||||||||||||
распределения. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
Если |
распределение |
симметрично |
относительно |
|
а =* М (X), |
||||||||||||||
то |
центральный момент |
третьего |
порядка цз (как |
и |
|
вообще |
все |
|||||||||||||
|
|
|
|
|
|
|
|
центральные |
моменты |
нечет- |
||||||||||
|
|
|
|
|
|
|
|
ных |
порядков) |
|
равен |
нулю, |
||||||||
|
|
|
|
|
|
|
|
в |
связи |
|
с |
чем |
|
коэффициент |
||||||
|
|
|
|
|
|
|
|
асимметрии |
|
р3 |
= |
jli з/cr3 = 0. |
||||||||
|
|
|
|
|
|
|
|
|
Если же р з > 0 , |
то график |
||||||||||
|
|
|
|
|
|
|
|
распределения характеризует- |
||||||||||||
|
|
|
|
|
|
|
|
ся |
правосторонней |
|
(положи- |
|||||||||
|
|
|
|
|
|
|
|
тельной) скошенностью. |
При |
|||||||||||
|
|
|
|
|
|
|
г |
Рз < |
0 |
имеем |
левостороннюю |
|||||||||
|
|
|
|
|
|
|
|
(отрицательную) скошенность. |
||||||||||||
|
|
|
|
|
|
|
|
|
Четвертый |
|
|
нормирован- |
||||||||
|
|
|
|
|
|
|
|
ный |
момент |
|
используется |
|||||||||
|
|
|
|
|
|
|
|
в |
качестве |
|
характеристики |
|||||||||
|
|
|
|
|
|
|
|
«крутизны» |
|
(островершинно- |
||||||||||
|
|
|
|
|
|
|
|
сти |
или |
|
плосковершинности). |
|||||||||
|
|
|
|
|
|
|
|
Для наиболее важного с точ- |
||||||||||||
|
|
|
|
|
|
|
|
ки зрения лингвистики рас- |
||||||||||||
|
|
|
|
|
|
|
|
пределения |
— |
|
нормального |
|||||||||
|
|
|
|
|
|
|
|
распределения (см. ниже, § 3, |
||||||||||||
|
|
|
|
|
|
|
|
п. |
|
4) — выполняется |
равен- |
|||||||||
|
|
|
|
|
|
|
|
ство |
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
3000 Гц |
|
р |
4 |
= |
|
4 |
4 |
= |
3. |
(6.48) |
||||
|
|
|
1000 |
2000 |
|
|
[х /ог |
|||||||||||||
|
|
|
5) |
|
|
|
|
Для |
|
распределений, |
от- |
|||||||||
|
|
|
Рис. |
42 |
|
|
|
личающихся |
от |
|
нормально- |
|||||||||
|
|
|
|
|
|
|
|
го |
|
более |
острой |
вершиной, |
||||||||
р4 |
> 3; напротив, |
распределения |
с |
более |
плоскими |
вершинами |
||||||||||||||
(или имеющие «выемку» в центре) дают р4 < 3. |
|
|
|
рис. |
42. |
|||||||||||||||
|
Понятия |
«скошенности» |
и «крутизны» |
иллюстрирует |
||||||||||||||||
На рис. 42, |
а изображена эталонная кривая нормального распреде- |
|||||||||||||||||||
ления, а |
на рис. 42, б — кривые |
распределения |
относительных |
|||||||||||||||||
частот значений (в Гц) первых трех формант (Ft, |
F*, |
F*) |
русских |
|||||||||||||||||
гласнвк. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Наряду с четвертым нормированным моментом для измерения |
|||||||||||||||||||
крутизны |
распределения используется |
величина |
|
|
|
|
|
|
|
|||||||||||
|
|
|
|
|
£ « р 4 - |
3, |
|
|
|
|
|
|
|
|
|
|
|
[(6.49) |
||
называемая |
эксцессом (или |
куртозисом). |
|
|
|
|
|
|
|
|
|
|
|
182
Наиболее важными |
при описании распределений, использую- |
|||||
щихся в |
языкознании, |
являются следующие |
моменты: |
vx = |
||
= М |
(X) |
= а, |
= D (X) ~ оа, р3, р4. |
|
|
|
§ |
3. Законы |
распределения, моделирующие |
образование |
|||
|
|
|
языковых единиц текста |
|
|
|
В теории вероятностей известны десятки законов распределения |
||||||
случайной |
величины. Задача квантитативной лингвистики |
состоит |
в том, чтобы найти среди них такие законы, которые могли бы выступать в качестве наиболее адекватных математических моделей порождения текста и составляющих его языковых единиц.
1. Биномиальное распределение. Исходной схемой при построении многих законов распределений является уже знакомое нам биномиальное распределение
P(x) = CxNp*qN-\
которое характеризуется следующими параметрами:
а) математическим ожиданием (начальным моментом первого
порядка) |
|
|
|
|
|
М(Х) |
= Np; |
(6.50) |
|
. б) дисперсией (центральным моментом второго порядка) |
||||
D(X) |
= |
Npq |
(6.51) |
|
и средним квадратическим |
отклонением |
(6.52) |
||
|
a = |
|
VNpq\ |
|
|
|
|
||
в) коэффициентом асимметрии |
|
|
||
Рз = |
(q—p)/VNpq) |
(6.53) |
||
г) четвертым нормированным |
моментом |
|
||
Pi = (\-bpq |
|
+ Wpq)l{Npq) |
(6.54) |
|
и соответственно эксцессом |
|
|
|
|
£ — р4 — 3 = ( 1 — 6pq)/(Npq). |
(6.55) |
|||
Если частость f = X/N, |
так же как и случайная |
величина, рас- |
пределена по биномиальному закону, то значения математического ожидания, дисперсии и среднего квадрэтического отклонения таковы:
|
(6.57) |
• ( f ) — v ^ f 1 - |
( 6 -5 8 ) |
183
Как уже говорилось, это распределение может быть использовано при описании употребления фонем, графем и их классов, а также грамматических категорий при условии, что величины N ъ х не очень велики. Однако в конкретных лингвистических задачах эти условия обычно не соблюдаются, поэтому вместо биномиального распределения приходится использовать другие аппроксимирующие его распределения.
2. Распределение редких лингвистических единиц (распределение Пуассона). Будем рассматривать последовательные появления интересующей нас языковой единицы А в тексте Т в качестве потока лингвистических событий. Примерами такого потока могут служить последовательные появления в русском связном тексте слова море в различных его формах, или словоформы моря, или словосочетания у самого синего моря и т. п.
Поток лингвистических событий называется простейшим в том случае, когда выполняются следующие условия:
1) если разбить текст Т на N отрезков равной длины, то вероятность появления лингвистических событий в отрезке t = TIN зависит только от длины этого отрезка (но не от начала отсчета). Это условие позволяет оперировать вероятностью Р (х) того, что в лю-
бом отрезке t лингвистическая единица А появится ровно х раз
(х = 0, 1, 2, ...);
2)вероятность появления лингвистической единицы А практически не зависит от того, сколько раз употреблялась единица А до этого в тексте и употреблялась ли она вообще. Такое предположение оказывается вполне корректным для редких лингвистических единиц, поскольку валентности этих единиц распространяются не более чем на семь значащих шагов (обычно словоформ) текста [23, с.58];
3)вероятность наступления двух и более лингвистических событий в бесконечно малом отрезке текста t есть бесконечно малая величина более высокого порядка, чем величина t. Например, разбив текст иа равные отрезки длиной в десять букв каждый, мы можем считать ничтожно малой вероятностью появление в одном отрезке двух словоформ моря-,
4)при дальнейшем уменьшении отрезка t вероятность наступления одного лингвистического события убывает пропорционально длине t. Таким образом, чем меньше интервал, тем меньше, вследствие малости интервала, вероятность появления лингвистической единицы А.
Из всего сказанного |
следует, что неограниченное |
уменьшение |
р и / пропорционально |
неограниченному увеличению |
N. В связи |
с этим произведение вероятности р и числа отрезков N (объема выборки), представляющее собой математическое ожидание случайной величины, является постоянным:
М (X) = Np = К.
Отсюда р = K/N. Подставляя это значение в формулу биномиальной вероятности [см. соотношение (6.1)], получим
184
Xх |
Л |
ь у |
N |
N—\ |
N—x+l |
xl |
[ |
NJ |
N |
N |
N |
где |
|
|
|
|
|
04)" 1, |
|
|
|
|
lim |
|
= |
|
lim |
|
|
|
|
N-+<x>\ |
NJ |
N — m |
N-t.oo |
|
||
а |
|
|
|
(m — 0, 1,..., x — 1) |
составляет |
|||
предел каждого члена — ^ — |
||||||||
- |
N — m _ |
, |
|
|
|
|
|
|
lim |
1- |
|
|
|
|
|
|
|
Л/ч-оо N |
получаем |
|
|
|
|
|
|
|
|
В итоге |
|
|
|
|
|
|
|
|
|
|
lim PN |
(X) |
Xх |
|
|
|
или |
|
N-l-OO |
|
* ! |
|
|
||
|
|
|
|
|
|
|
||
|
|
|
P(x, |
X)= — |
e~K |
(6.59) |
||
|
|
|
|
|
|
x\ |
|
|
|
Это и есть формула распределения |
Пуассона, использующаяся |
для описания употребления редких лингвистических единиц. Единственным параметром этого распределения является величина К,
В лингвистических приложениях |
К есть среднее |
число употребле- |
||
ний интересующего нас языкового |
элемента в тексте. Аргумент х — |
|||
обычно |
это число |
употреблений |
лингвистической |
единицы — при- |
нимает |
значения |
0, 1, 2, ... . |
|
|
Аналитическое выражение распределения вероятностей Р (х, К) показано в табл. 6.6.
X |
0 |
1 |
| |
2 |
|
е - * |
|
т |
е |
|
|
|
|
|
Т а б л и ц а |
6.6 |
|
... |
' |
1 - |
N |
... |
|
|
|
||
... |
xl |
... |
|
... |
|
Nl |
6 |
|
186 Распределение Пуассона характеризуется следующими параметрами:
а) математическим ожиданием (начальным моментом первого порядка), дисперсией (центральным моментом второго порядка), а также центральным моментом третьего порядка, равными i :
М (X)=D |
(X) = цз = К, |
(6.60) |
и среднеквадратическим отклонением
а = ^ Щ Х ) = У Х ; |
(6.61) |
б) коэффициентом асимметрии |
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
р8 |
= К/ (/X) 3 |
= |
|
|
|
|
|
|
|
(6.62) |
||||
в) четвертым нормированным |
моментом |
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
р4 |
= (ЗА, + |
1)Д |
|
|
|
|
|
|
|
(6.63) |
||||
и эксцессом, |
равным |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
Е = МЗД.+ 1) |
• |
3 = Т |
|
|
|
|
|
|
(6.64) |
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
При |
малых |
значе- |
||||
|
|
|
|
|
|
|
|
|
|
|
ниях |
А. |
распределение |
|||||
|
|
|
|
|
|
|
|
|
|
|
сосредоточено |
|
вблизи |
|||||
|
|
|
|
|
|
|
|
|
|
|
начала |
координат. |
С |
|||||
|
|
|
|
|
|
|
|
|
|
|
ростом |
А, оно |
|
приобре- |
||||
|
|
|
|
|
|
|
|
|
|
|
тает |
колоколообразную |
||||||
|
|
|
|
|
|
|
|
|
|
|
форму с правосторонней |
|||||||
|
|
|
|
|
|
|
|
|
|
|
скошенностью |
(рис. 43). |
||||||
|
|
|
|
|
|
|
|
|
|
|
При больших |
значениях |
||||||
|
|
|
|
|
|
|
|
|
|
|
параметра |
|
А, (А, ^ |
10) |
||||
|
|
|
|
|
|
|
|
|
|
|
распределение |
|
Пуассо- |
|||||
|
|
|
|
|
|
|
|
|
|
|
на |
приобретает |
форму |
|||||
|
|
|
|
|
|
|
|
|
|
|
нормального |
распреде- |
||||||
|
|
|
|
|
|
|
|
|
|
|
ления при М (X) = |
А, и |
||||||
Рис. |
43. |
Распределение Пуассона |
при различ- |
D (X) |
= а2 = |
I. |
|
|||||||||||
|
Как |
и |
при |
биноми- |
||||||||||||||
|
|
ных значениях параметра К: |
|
|
|
альном |
распределении, |
|||||||||||
|
|
• кривые |
распределения |
Пуассона |
||||||||||||||
при |
А,=0,5; 1,0; |
4,0; |
о |
|
о |
о |
|
кривая |
вычисление |
вероятно- |
||||||||
распределения |
вероятностей появления |
в |
не- |
стей |
|
пуассоновского |
||||||||||||
мецком |
тексте |
сегмента |
Ada(3 |
die |
(Х= 1,17) |
распределения |
удобно |
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
начинать с определения |
|||||||
моды х0 |
и соответствующей |
ему |
модальной |
вероятности Р (х0, А). |
||||||||||||||
Рассмотрим в этой связи поведение аргумента х в |
|
нашем |
распреде- |
|||||||||||||||
лении. Из равенства |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
Р(х, |
А) |
|
Xх е~Чх\ |
|
|
|
|
|
|
(6.65) |
||||
|
|
|
Р(х—1, |
X) |
Xх-1 |
е~х1(х- • 1 ) ! |
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|||||||||
видно, что если х > А,, то Р |
(х, А,) < |
Р (х — 1, А,); если |
же х < |
А,, |
||||||||||||||
то Р (х, |
%)> |
Р (х — 1, А,); |
наконец, |
если |
х = |
|
то Р |
(х, А,) = |
||||||||||
—Р (х— 1, Я). Ясно также, что Р |
(х, А,) возрастает при увеличении х |
|||||||||||||||||
от нуля до х0 |
= Ш и* убывает при дальнейшем росте х. |
В том слу- |
||||||||||||||||
чае, |
когда Я является |
целым числом, |
Р (х, |
А,) имеет два |
модальных |
|||||||||||||
значения: при х0 |
— А. и |
при |
хо — А, — 1; в том |
же |
случае, когда |
|||||||||||||
% — дробное |
число, Р |
(х, К) имеет одно |
модальное |
значение |
при |
х0 «в Ш.
* Символом [А,] обозначена целая часть значения к.
186
Определив таким образом модальное значение х0 = М , найдем его вероятность по формуле
Р(х0> |
= |
(6.66) |
|
*ol |
Wt |
Вычисление остальных вероятностей осуществляется по рекуррентным формулам, вытекающим из (6.65):
при х < х0
Р(х0-1, к) = ^ Р ( х 0 , %),
(6.67»)
Р(х0-2, X)=*L=1/>(*0_1,
при X >
*о+1
(6.676)
Р(* 0 + 2, А,) = *о+2
В лингвистике, как уже говорилось, используется бесповторное статистическое исследование, при котором текст разбивается на S выборок (серий), каждая длиной в N лингвистических элементов. При этом бывает необходимо определить теоретически ожидаемое число серий STX, в которых лингвистический элемент А появится ровно х раз.
Пользуясь рассуждениями, приведенными в п. 3 § 1 относительно биномиального распределения, нетрудно показать, что
STX = SP (х, 7,) = S Jх\L е~\ |
(6.68) |
где S выступает-в качестве коэффициента пропорциональности, связывающего величины SJ и Р (х, к), а
Рассмотрим в связи с этим следующий пример. В немецких публицистических текстах осуществлена выборка 100 серий по 1000 трехсловных сегментов. Используя данные, приведенные в табл. 6.7, определим теоретическое пуассоновское распределение вероятностей появления сегментов Adap der (начало дополнительного придаточного предложения с существительным в начальной позиции) в одной серии и теоретическое количество серий STX, содержащих поО, 1,2,...
таких сегментов.
137
|
|
|
|
|
|
Т а б л и ц а 6.7 |
|
Пуассоновское |
распределение |
вероятностей |
появления |
сегмента |
|||
|
A da(5 der |
в немецких |
публицистических текстах |
||||
Число появ- |
Эмпирические |
Теоретически |
ST |
Частость |
Вероятность |
||
|
частоты |
ожидаемое |
X |
|
|||
лений события |
появления |
число выборок |
округленное |
-S |
Р{х, |
||
X |
выборок |
Sx |
|
|
до целых |
|
|
|
|
|
|
|
чисел |
|
|
0 |
32 |
|
31,04 |
|
31 |
0 , 3 2 |
0,3103 |
1 |
38 |
|
36,28 |
|
36 |
0 , 3 8 |
0,3628 |
2 |
19 |
|
21,24 |
|
21 |
0,19 |
0,2123 |
3 |
5 |
|
8 , 2 8 |
|
8 |
0 , 0 5 |
0,0828 |
4 |
4 |
|
2 , 4 2 |
|
3 |
0 , 0 4 |
0,0242 |
5 |
2 |
|
0,57 |
|
1 |
0 , 0 2 |
0,0057 |
Суммы |
100 |
|
|
|
100 |
1,00 |
0,9981 |
Сначала |
вычислим значение X: |
|
|
|
|
|||
% |
|
= |
( 0 . 3 2 + 1-38 + 2-19 + 3 - 5 + 4 - 4 + 5-2) = |
|||||
|
= |
100 |
(38 + 3 8 + 1 5 + 1 6 + 1 0 ) = |
— = 1,17. |
- |
|||
|
|
|
^ |
^ |
7 |
100 |
|
|
Модальное значение |
равно целой части значения X, т. е. еди- |
|||||||
нице.--Значение Р |
(х0, X) будем искать с помощью табл. I, |
помещен- |
ной в Приложении (см. стр. 362, 363). В этой таблице значения |
ве- |
|||||
роятности, соответствующей X = |
1,17 |
и х = |
1, нет. Поэтому, обра- |
|||
щаемся к. интерполяции. Для этого |
берем |
значения |
Р (1; 1,1) |
= |
||
= 0,36616 и Р (1; |
1,2) = 0,36143; тогда искомая вероятность |
|
||||
Р(1; |
1,17) = 0,36143+ 0 - 3 6 6 1 6 - 0 , 3 6 1 4 3 > 3 |
= |
|
|||
v |
|
|
10 |
|
|
|
|
= 0 36143 + |
0 0 4 7 3 |
- 3 = 0.3628. |
|
|
|
|
|
Ю |
|
|
|
|
После этого, используя рекуррентные формулы (6.67), так, как это показано в п. 3 § 1, находим по табл. I остальные значения Р (х, X). Затем, с помощью выражения (6.68) получаем значения S[t которые также приведены в нашей таблице.
Степень близости теоретического и эмпирического распределений, приведенных в табл. 6.7, мы рассмотрим ниже.
В разделе, посвященном биномиальному распределению, уже говорилось о том, что как с прикладной, так и с теоретико-языко- ведческой точки зрения важно уметь определять вероятность появления лингвистического элемента от а до b раз. В этом случае имеем
х = а- |
х = а |
188
Весь ход решения этой задачи и ее частные случаи аналогичны процессу решения, описанному в п. 7 § 1 с той лишь разницей, что биномиальные вероятности заменяются пуассоновскими.
Таким же способом определяется вероятность появления редкого лингвистического события хотя бы один раз. Она равна
Р (х > 1, Л) = 1 — Р (х = О, X) = 1 — е \ |
(6.69) |
Отсюда по схеме, описанной в п. 8 § 1, рассчитывается объем выборки N, необходимый для того, чтобы обеспечить с заданной ве-
роятностью появление хотя бы один раз |
определенного лингвисти- |
|
ческого элемента. |
|
|
С этой целью приведем выражение (6.69) к виду |
|
|
е»р = 1 - Р (х > 1, X), |
|
|
а затем, прологарифмировав обе части |
и произведя |
необходимые |
преобразования, получим |
|
|
N= ' g f - P ^ l , |
Ш . |
(6.70) |
Р Ige |
|
|
Используя приведенные выше числовые характеристики словоформы напряжение, определим объем текста, необходимый для того, чтобы указанная словоформа с вероятностью в 90% появилась в нем хотя бы один раз (предполагается, что в данном случае имеет место
распределение Пуассона). |
|
|
|
|
Применяя |
соотношение |
(6.70), находим |
|
|
N = |
ig ( 1 - 0 , 9 0 ) = |
'SO. Ю |
^ |
- 1 |
|
0,0023 lg е |
- 0 , 0 0 2 3 - 0 , 4 4 |
|
— 0,001 |
Заметим, что объем необходимой выборки здесь тот же, что и в том случае, когда мы предполагали, что словоформа напряжение имеет биномиальное распределение (ср. § 1, п. 8).
3. Распределения, описывающие взаимодействие случайных и детерминированных процессов в речи (распределения Чебанова — Фукса и Фукса — Гачечиладзе). Применяя биномиальное и пуассоновское распределение для исследования поведения дискретных лингвистических единице речи, мы исходили из предположения, что речь представляет собой простейший поток лингвистических событий. Однако этот подход, представляющий собой очень грубую и упрощенную аппроксимацию лингвистических явлений, имеет ограниченное применение в лингвистике. Выше уже говорилось (см. гл. 5), что формирование слов, словосочетаний, предложений, высказываний представляет собой взаимодействие как случайных, так и детерминированных процессов. Случайными с лингвистической точки зрения являются описываемые текстом ситуации объективной действительности, детерминированными же представляются некоторые правила системы и нормы языка. Поэтому для описания образования лингвистических единиц и их распределения в тексте следует
189