
/ \ Ж!
x x
Pn
(x1,
x2
) = -—7
•
Pi1
P22
•
X1!
X2!
Враховуючи,
що x1
+
x2
=
N,
a p1
+
p2
=
1, і
позначаючи x1
через
x,
x2
-
через N
- x,
p1
-
через p,
a p2
-
через q,
приходимо
до виразу
P
(x)
= N
px
qN-x
= CxpxqN-x
P^x
x!(N-x)!p
q CnP
q ,
тобто
до формули Бернуллі для простої системи
схеми незалежних випробувань. Отже,
формула Бернуллі є частинним випадком
співвідношення (10).
Задача.
Використовуючи щойно описану модель,
визначимо ймовірність того, що у
10-слівному сегменті англійського
науково-технічного тексту з’явиться
рівно три іменники, дві дієслівні форми
і п’ять словоформ, що належать іншим
класам (при цьому ми знову нехтуємо
контекстними зв’язками між словоформами,
які утворюють цей сегмент). Апріорна
ймовірність появи іменників дорівнює
0.33,
ймовірність
дієслівних форм складає 0.16,
а апріорна
ймовірність решти граматичних класів
дорівнює 0.51.
Розв’язок.
За умовою задачі N
=
10, p1
= 0.33, p2
= 0.16, p3
= 0.51, x1
= 3,
x2
= 2 , x3
= 5 . Застосовуючи
формулу (2.3),
одержуємо
P0
(3, 2, 5) = ^°-• 0.333
• 0.162
• 0.515
* 0.0800.
3!2!5!
Аналогічно
можна обчислити ймовірність появи всіх
можливих кількісних комбінацій
іменників, дієслів та інших класів слів
у реченнях різної довжини.
Як
і проста схема, поліномна схема
використовується у повторних лінгвістичних
вибірках за умови, що величини N,
x1,
x2,...,
xk
не дуже
великі. За цих умов використання
розглянутої схеми дає цінну інформацію
не тільки для імовірнісної побудови
алгоритмів синтаксичного аналізу
іноземного тексту при машинному
перекладі. Ці алгоритми дозволяють
також визначити оптимальну послідовність
викладання синтаксичного матеріалу
при навчанні іноземній мові у середній
школі та вузі.
У
лінгвістичній практиці часто доводиться
мати справу з такою мовною сукупністю,
у якій тексти, що її складають, належать
до різних підмов і стилів. Оскільки
тексти будуються, виходячи з різних
норм, то кожна лінгвістична одиниця
має в кожному тексті свою апріорну
ймовірність. У
10
Пуассонівська схема
підсумку
ймовірності появи та не появи певних
мовних одиниць міняються від досліду
до досліду.
Така
ситуація, зображена на малюнку, описується
схемою
Пуассона.
Формальне подання цієї схеми ґрунтується
на таких міркуваннях.
Нехай
здійснюється N
незалежних
випробувань, у кожному з яких може
з’явитись або не з’явитись подія A.
Ймовірності
появи події A
в 1,
2, ..., N
випробуваннях
відповідно дорівнюють p1,
p2,...,
pN,
а ймовірності її не появи дорівнюють
q1
= 1 - p1,
q2
= 1 - p2,
qN
=
1 - pN.
Можна
показати, що ймовірність появи результату
A
в серії
з N
випробувань
рівно x
разів
складає
pn
(x)=p^2
p3 . p*q*=1 .qN
+ pq p3 .qN-1
pn
+-+qq q3.qN-,pn
-
x+1pn-x+2.
pn
.
.
(11)
Таким
чином, потрібна ймовірність є сумою
всіх можливих добутків, у кожному з
яких p
з різними
індексами міститься рівно x
разів, а
q
з різними
індексами входить N
- x
разів.
Щоб
утворити всі можливі добутки з x
ймовірностей
pi
та N
-
x
ймовірностей
qt
(і
=
1,2,N),
утворимо добуток біномів
N
(1
+ pj)
(2
+ p2 t)
• • • (N
+ pn
t)
= П(( +
pі
Ґ)
, (12)
i=1
де
t
- деякий
довільний параметр.
Перемножимо
біноми і зведемо подібні члени, тоді
одержимо рівність
N N
П(і
+ Pгt
)=Z
PN
(x)tX
,
i=1 x=0
у
якій коефіцієнт при tx
є ні що
інше, як вираз (2.11).
11
Розкриємо
дужки у лівій частині рівності й зведемо
подібні члени, тоді отримаємо всі
ймовірності PN(o),
PN(1),
PN(2),
..., PN(n),
котрі виступають у ролі коефіцієнтів,
відповідно, при t0,
t1,
t2,
..., tN.
Сума всіх ймовірностей PN
(x) дорівнює
1:
N
I
p;
(x
)=1.
x=0
Зокрема,
якщо px
= р2
=...
= pN
= p,
q1
= q2
= . = qN
= q,
маємо
N
(q+pt) CNpxqN-'f,
x=0
звідки
випливає формула Бернуллі.
Задача.
Нехай здійснюється повторна вибірка
іменних груп із таких чотирьох
жанрово-тематичних сукупностей
українських текстів (підмов): записів
невимушеної розмовної мови, поезії,
художньої прози, науково- технічних
текстів. Іменною групою вважається
словосполука, в котрій іменник стоїть
на останньому місці. Так, наприклад, у
реченні використовуючи
щойно описану модель, розв'яжемо таку
задачу
тріада розв
’яжемо таку задачу
є іменною групою.
Вважаючи,
що ймовірність використання іменників
у розмовній мові дорівнює 0.1,
в поезії
- 0.2, в
художній прозі - 0.3,
в
науково-технічних текстах - 0.4,
знайдемо
ймовірності появи серед одночасно
взятих чотирьох словосполучень жодної,
однієї, двох, трьох, чотирьох іменних
груп.
Подія,
що полягає у появі іменної групи, по
суті, відповідає події, яка полягає в
тому, що з тексту випадковим чином
вибирається форма іменника (до цієї
останньої після цього додаються два
слововживання зліва і тим самим
формується іменна група).
Розв
’язок.
При чотирьох випробуваннях, які полягають
у взятті з кожної підмови по одній
трислівній комбінації для нашої події,
маємо ймовірності: Л =
01,
p2 = 02,
p3 = 03,
pa
= 04.
Для визначення ймовірностей P4
(o), Р4
(1),
Р4(2),
Р4(з),
Р4(4)
скористаємось
формулою (5).
У результаті
одержимо:
4
П(+qі
)=(o.1t+0.9)(0.21+0.8)(0.31+0.7)(0.41+0.6)=
i=0
=
0.302 + 0.4401
+ 0.21512
+ 0.04013
+ 0.00214.
З
цієї рівності випливає, що ймовірності
отримати у кожній серії 0,
1, 2,
4
іменних
тріади, відповідно, дорівнюють
P4
(0)=
0.302; P4
(1) = 0.440; P4
(2)
= 0.215; P4
(3)=
0.040; P4
(4)=
0.002.
12
Схему
Пуассона, як і дві попередні схеми,
доцільно використовувати в лінгвістичному
випробуванні тоді, коли ми можемо
організувати повторну вибірку, а
величини N
та x
не дуже
великі.
У
попередніх пунктах ми навчились
прогнозувати результати масових
лінгвістичних випробувань. Такі прогнози
ми можемо поки що здійснювати стосовно
повторних вибірок, спираючись на
класичне означення ймовірності, тобто
за умови, що дослід здійснюється відносно
порівняно обмеженої за обсягом сукупності
лінгвістичних об’єктів. Така ситуація
зустрічається у лінгвістиці порівняно
рідко. Найчастіше мовознавцю доводиться
мати справу
з безповторною
вибіркою, яка досліджує лінгвістичні
одиниці, що рідко зустрічаються. За
таких умов розподіл ймовірностей появи
події A
підпорядковується
гіпергеометричному закону.
Безповторна
лінгвістична вибірка та її опис за
допомогою
формули
Бернуллі
Гіпергеометричний
закон може застосовуватись тільки до
скінченних генеральних сукупностей,
об’ єм яких відомий. Оскільки в
лінгвістичних задачах об’єм генеральної
сукупності текстів, які породжуються
відкритою системою мови, звичайно не
є скінченною величиною, то застосування
вказаного закону для прогнозування
результатів лінгвістичних дослідів у
безповторних вибірках виявляється
нереальним. Разом з цим, за певних умов
гіпергеометрична ймовірність добре
апроксимується біноміальною
ймовірністю.
Тому, не боячись порушення математичної
строгості, ми будемо здійснювати
розрахунок ймовірностей появи події
A
рівно x
разів у
нашій безповторній вибірці так, як якщо
б мова йшла про повторну вибірку. Іншими
словами, ми застосовуємо до безповторних
вибірок біноміальний закон.
Будемо
розглядати дані S
текстів
як S
серій
або вибірок, кожна з яких складається
з N
незалежних
випробувань. Лінгвістична подія A
може
з’явитись у кожній серії x
разів
(x=0, 1, 2,
..., N).
Неважко
зауважити, що є групи серій, у яких A
появляється
0, 1, 2, ...,
N
разів.
Звідси випливає, що відносна частота
появи події A
рівно x
разів у
одній серії визначається співвідношенням
fN(x)
= Sx/S,
де Sx
- кількість
серій, у яких подія A
з’явиться
рівно x
разів.
Апріорна
ймовірність появи події A
в одній
навмання взятій серії дорівнює
Е
xSx
p
* ,
NS
13
Кількість появ події x |
0 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
|
Емпіричні частоти появи вибірок Sx |
0 |
1 |
4 |
15 |
33 |
27 |
11 |
4 |
2 |
1 |
0 |
2Sx=100 |
Розв’язок.
Тут S=100,
N=10. Використовуючи
добутки величин x
та Sx,
наведені у таблиці, знаходимо
xSx
0-0 +1-1 + 2-4 + 3-15 + -
+ 8-2 + 9-1
+10-0 440
p
= ^—- = = =
0.44 .
NS 10 100 1000
Візьмемо
p
- 0.44та
q
- 0.56,
тоді на основі (7)
маємо
10-0.44-0.56
< x0
<
10-0.44-0.56
+1, або
3.84 <
x0
< 4.84,
звідки
випливає, що x0
= 4 . Тоді
Р;
(x?
) = Po
(4)
= C4?
- 0.34
- 0.76.
Звідси
(використовуючи калькулятор з функцією
xJ
або
логарифми), знаходимо, що р0
(4)
=
0.2001.
Отже,
STx
= Sp0
(4)
= 100-0.2001 -
20.01.
Решту
значень очікуваної кількості вибірок
наведено у таблиці 2.
14
x |
0 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
|
Sx |
0 |
1 |
4 |
15 |
33 |
27 |
11 |
4 |
2 |
1 |
2 |
100 |
PN (x) |
0.0282 |
0.1211 |
0.2335 |
0.2668 |
0.2001 |
0.1029 |
0.0368 |
0.0090 |
0.0014 |
0.0001 |
0.0000 |
1.0 |
s: |
3 |
12 |
23 |
27 |
20 |
10 |
4 |
1 |
0 |
0 |
0 |
100 |
ІМОВІРНІСТЬ
ПОЯВИ ПОДІЇ В ЗАДАНОМУ ДІАПАЗОНІ
КІЛЬКОСТІ
ПОЯВ
Розглянуті
вище властивості описували числові
особливості серії з кількох вибірок.
Повернімося тепер до аналізу якісних
та кількісних характеристик, якими
володіє одна вибірка.
Нехай
В'х
- подія, яка полягає в тому, що лінгвістична
одиниця A
з’явиться
на менше а
і не більше b
разів.
Тоді ймовірність PN(a
< x
< b)
цієї
події складає
Pn
(a
< x < b) = Pn
(a)+P„.
(a
+1)+-+PK
(b
-1)+PK
(b)=£P„ (x )=£C;pxq”
- x.
x=a x=a
Графічно
кількість доданків, які необхідно
обчислити можна зобразити
так:
a-1
a a+1 a+2 a+3 b-2 b-1 b b+1
Якщо
кількість членів, які відповідають
значенням x
від a
до b,
значно
більша загальної кількості членів, що
відповідають значенням x
від 0
до a
-1
і від b
+1 до N,
то зручніше
здійснювати сумування ймовірностей
за цими двома послідовностями. У такому
разі одержуємо ймовірність протилежної
події B':
/ v a-1 N
Dl I Х""'
r^x x N-x . X""'
r^x x N-x
pBx
j=E cnp
q +
E cnp
q
x=0 x=b+1
Тепер
потрібну нам імовірність обчислюємо
за формулою
/
v a-1 N
Pn
(a < x < b
) = 1 - P(Bx )= 1-Е
CxpxqN-x
- £
CxKpxq“-x
. (14)
N\^
— ^ ± x)
і
E''"ЖУ
q E''"Nl
x=0 x=b
+1
Графічно
такий підхід можна інтерпретувати
наступним чином:
15
Розглянемо
деякі часткові випадки. Припустимо, що
необхідно визначити ймовірність того,
що деяка лінгвістична одиниця A
зустрінеться
не менше а
разів. Тут
Pn
(x > а
)_£ C>V'-
x
x_a
a-1
a a+1
Якщо
значення а
мале, то доцільно
скористатись виразом
Pn
(x > а)_
1 -£
C‘„pxq“-
x
який
є частинним випадком формули (2.14).
У
тому випадку, коли а
= 1, маємо
Pn(1
< x
< N)
= 1 -CNp0qN
= 1 -q
(15)
Задача.
Нехай, наприклад, із текстів з
радіоелектроніки випадковим чином
взято 1000
слововживань.
Потрібно знайти ймовірність того, що
словоформа напруга
зустрінеться хоча б один раз, якщо її
відносна частота дорівнює 0.0023.
Розв’язок.
Тут N=1000,
p=0.0023, q=0.9977. Використовуючи
формулу (2.15),
знаходимо
Pn
(x > 1)
= р000
(1 <
x < 1000)
= 1 - 0.99771000
* 1 - 0.10 = 0.90 .
Це
означає, що якщо здійснити 100
вибірок
по 1000
слововживань
кожна, то появу словоформи напруга
можна очікувати у 90
вибірках.
Імовірність
появи події A
не більше
b
разів
також визначається шляхом сумування
ймовірностей, у яких подія появляється
0, 1, 2, ...,
b
разів:
x_0
16