
Якщо
значення b
близьке
до N, то
цю ймовірність доцільно обчислювати
за такою формулою:
і
V
Pn
(х < b)
= 1 -£ C>V-x
,
(16)
x=b+1
яка
також є частинним випадком формули
(2.14).
b-2
b-1 b b+1
Для
ілюстрації описаної методики визначимо
ймовірність того, що у взятому навмання
тексті (приклад з п. 1.6)
у 10
слововживаннях
буде не більше 8
іменників.
Тут
N=10, p=0.3,
q=0.7 (див.
п. 1.6);
замість
того, щоб визначати, а після цього
сумувати ймовірності появи 0,
1, 2, ..., 8
іменників
(це дев’ять доданків), визначимо
ймовірність появи 9
або 10
іменників
(два доданки):
р0
(9) + р0
(10) = C9 •
0.39
• 0.71
+ C10
• 0.310
• 0.70
= 0.1493 .
Тоді
шукана величина обчислюється за формулою
(2.16)
р0
(х < 8) =
1 - (р0
(9) + р0
(10)) = 1 -
0.1493 =
0.8507 .
Іншими
словами, якщо взяти 10000
вибірок
по 10
слововживань,
то в 8507
вибірках
можна очікувати появу не більше 8
іменників.
У
лінгвістичних дослідженнях і особливо
при підготовці лінгвістичних програм
машинного перекладу та інформаційного
пошуку постійно виникає потреба
визначати об’єм вибірки, необхідний
для того, щоб забезпечити із заданою
ймовірністю появу хоча б один раз
потрібної лінгвістичної одиниці.
Для
цього перетворимо спочатку формулу
Pn
(і < х <
N ) = 1 -
qN
= 1 -(1 - p)N
до
виду
(і
- p
)N
= і - Pn
(і < х <
N)
.
Прологарифмуємо
обидві частини рівності і після
нескладних перетворень одержимо
17
Визначення необхідного об’єму вибірки
n
_ig[bP(£££N)|j (17)
lg(l-
P)
де
N
вказує
на необхідний об’єм вибірки.
Задача.
Нехай потрібно визначити об’єм вибірки
текстів з радіоелектроніки, необхідний
для того, щоб з імовірністю 90%
словоформа
напруга
появилась у ньому хоча б один раз.
Розв’язок.
Тут p=0.0023
(див. п.
1.7), pn(1
<x<n)=
0.90.
За формулою
(2.17),
знаходимо
N
_ lg<1
-090>
_ ‘g010
__L__
1000.
lg(1
- 0.0023) lg0.9977 -
0.001
Це
означає, що для того, щоб з впевненістю
у 90%
стверджувати,
що словоформа напруга
зустрінеться хоча б один раз, необхідно
продивитись вибірку у тисячу слововживань.
Розв’язати
завдання відповідно до свого порядкового
номеру у списку групи. Завдання отримати
у викладача. При оформленні лабораторної
роботи дотримуватись вимог, які наведені
в методичних вказівках. Оцінювання
виконаної лабораторної роботи проводиться
згідно кількості правильно розв’язаних
завдань з відповідного варіанту.
Завдання лабораторної роботи мають
три рівня складності. Оцінювання
виконання завдань першого рівня в
п’ятибальній системі відповідає оцінці
“задовільно”, другий рівень - “добре”,
третій - “відмінно”.
Перший
рівень
Середня
довжина простого речення або синтаксично
оформленої частини складного речення
в англійських науково-технічних текстах
є в межах від 10
до 11
словоформ.
Апріорна ймовірність появи іменників
у вказаній підмові дорівнює 1/3.
Вважаючи
появу окремих словоформ у типових
синтаксично оформлених сегментах цих
текстів незалежними подіями, визначити
ймовірність того, що на 10 слововживань,
що складають типовий сегмент тексту,
рівно x
будуть
іменниками. Розв’язати задачу для
x=1, 3, 4,
5.
Визначити
ймовірність того, що в 10-слівному
сегменті англійського науково-технічного
тексту з’ явиться рівно 4 іменники, 2
дієслівні форми і
словоформи,
що належать іншим класам. Задана нормою
апріорна
18
Завдання
Порядковий номер цифри в номері студентського квитка студента |
||||
1 |
2 |
3 |
4 |
5 |
c |
w |
g |
t |
s |
Сортувати за зростанням (c<w) |
|
|
|
Знайти
імовірність появи слова портал
хоча б один раз в сотні випробувань,
якщо імовірність появи цього слова
складає 0,03.
Знайти
кількість випробувань, які необхідно
здійснити, щоб з точністю s%
можна
було очікувати появу слова портал
принаймні один раз.
Для
визначення стилістико-семантичних
особливостей деякого тексту з нього
було навмання вибрано 100
відрізків
по 10
слів
кожен. Частоти появи іменників у цих
серіях подано в таблиці. |
0 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
Sx |
0 |
1 |
4 |
15 |
33 |
27 |
11 |
4 |
2 |
1 |
2 |
Намалювати
графік залежності Pn
(x) від
х.
Пересвідчитись, чи відповідають
графічні результати чисельному значенню
x0
.
19