Мат. лінгвістика 5
.pdf
співвідношенням fN x Sx
S , де Sx – кількість серій, у яких подія A з’явиться рівно x разів.
Апріорна ймовірність появи події A в одній навмання взятій серії дорівнює
p xSx , NS
і, отже,
q 1 xSx .
NS
У одержаному теоретичному розподілі кожному значенню x співвіднесена не його ймовірність, а деяка теоретично очікувана кількість серій (вибірок) SxT , у яких подія A появляється рівно x разів. Оскільки
ST |
SP x SCx |
pxqN x , |
(13) |
||
x |
N |
N |
|
та P x |
|
то неважко зауважити, що величини |
ST |
зв’язані коефіцієнтом |
|||
|
|
|
x |
N |
|
пропорційності S.
3 ІМОВІРНІСТЬ ПОЯВИ ПОДІЇ В ЗАДАНОМУ ДІАПАЗОНІ КІЛЬКОСТІ ПОЯВ
Розглянуті вище властивості описували числові особливості серії з кількох вибірок. Повернімося тепер до аналізу якісних та кількісних характеристик, якими володіє одна вибірка.
Нехай Bx – подія, яка полягає в тому, що лінгвістична одиниця A
з’явиться на менше a і не більше b разів. Тоді ймовірність PN a x b цієї події складає
b b
PN a x b PN a PN a 1 PN b 1 PN b PN x CNx pxqN x .
x a x a
Графічно кількість доданків, які необхідно обчислити можна зобразити
так:
|
a-1 a a+1 a+2 a+3 |
|
b-2 b-1 b b+1 |
|||||||||||||
0 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
N |
|
|
|
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Якщо кількість членів, які відповідають значенням x від a до b, значно більша загальної кількості членів, що відповідають значенням x від 0 до a 1 і від b 1 до N, то зручніше здійснювати сумування ймовірностей за цими двома послідовностями. У такому разі одержуємо ймовірність протилежної
події B :
x
11
|
|
|
|
a 1 |
|
N |
|
|
|
|
|
|
x x |
N x |
x x |
N x |
|
|
|
|
CN p q |
|
CN p q . |
|
||
|
|
P Bx |
|
|
||||
|
|
|
|
x 0 |
|
x b 1 |
|
|
Тепер потрібну нам імовірність обчислюємо за формулою |
|
|||||||
|
|
|
|
a 1 |
|
N |
|
|
PN a x b 1 P |
|
1 CNx pxqN x |
CNx pxqN x |
. |
(14) |
|||
Bx |
||||||||
|
|
|
|
x 0 |
x b 1 |
|
|
|
Графічно такий підхід можна інтерпретувати наступним чином:
0 1 |
a-1 a a+1 |
b-1 b b+1 N-1 N |
|||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Розглянемо деякі часткові випадки. Припустимо, що необхідно визначити ймовірність того, що деяка лінгвістична одиниця A зустрінеться не менше a разів. Тут
N
PN x a CNx pxqN x .
x a
|
a-1 a a+1 |
N-1 |
|||||
0 |
|
|
|
|
|
|
N |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Якщо значення a мале, то доцільно скористатись виразом
a 1
PN x a 1 CNx pxqN x ,
x 0
який є частинним випадком формули (2.14).
0 a-1 a a+1 a+2 a+3
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
N |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
У тому випадку, коли a 1, маємо |
|
|
|
|
|||||||||||||
|
|
|
|
|
|
P 1 x N 1 C0 p0qN |
1 qN . |
(15) |
|||||||||
|
|
|
|
|
|
N |
|
|
|
N |
|
|
|
|
|||
Імовірність появи події A не більше b разів також визначається шляхом |
|||||||||||||||||
сумування ймовірностей, у яких подія появляється 0, 1, 2, ..., b разів: |
|||||||||||||||||
|
|
|
|
|
|
|
|
|
b |
|
|
|
|
||||
|
|
|
|
|
|
|
PN x b CNx pxqN x . |
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
x 0 |
|
|
|
|
||||
0 |
|
|
b-2 b-1 b b+1 |
|
N |
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Якщо значення b близьке до N, то цю ймовірність доцільно обчислювати за такою формулою:
12
|
|
N |
|
|
||||
|
|
PN x b 1 CNx pxqN x , |
(16) |
|||||
|
|
x b 1 |
|
|
||||
яка також є частинним випадком формули (2.14). |
|
|
||||||
0 |
b-2 b-1 b b+1 |
N |
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
4ВИЗНАЧЕННЯ НЕОБХІДНОГО ОБ’ЄМУ ВИБІРКИ
Улінгвістичних дослідженнях і особливо при підготовці лінгвістичних програм машинного перекладу та інформаційного пошуку постійно виникає потреба визначати об’єм вибірки, необхідний для того, щоб забезпечити із заданою ймовірністю появу хоча б один раз потрібної лінгвістичної одиниці.
Для цього перетворимо спочатку формулу PN 1 x N 1 qN 1 1 p N до виду 1 p N 1 PN 1 x N . Прологарифмуємо обидві частини рівності і після нескладних перетворень одержимо
N |
lg1 PN 1 x N |
, |
(17) |
lg1 p |
де N вказує на необхідний об’єм вибірки.
5 ЗАВДАННЯ
Розв’язати завдання відповідно до свого порядкового номеру у списку групи. Завдання отримати у викладача. При оформленні лабораторної роботи дотримуватись вимог, які наведені в методичних вказівках. Оцінювання виконаної лабораторної роботи проводиться згідно кількості правильно розв’язаних завдань з відповідного варіанту. Завдання лабораторної роботи мають три рівня складності. Оцінювання виконання завдань першого рівня в п’ятибальній системі відповідає оцінці “задовільно”, другий рівень – “добре”, третій – “відмінно”. Реалізувати всі із завдання за допомогою комп’ютера на мові Сі або С++.
Перший рівень
1Середня довжина простого речення або синтаксично оформленої частини складного речення в англійських науково-технічних текстах є в межах від 10 до 11 словоформ. Апріорна ймовірність появи іменників у вказаній підмові дорівнює 1/3. Вважаючи появу окремих словоформ у типових синтаксично оформлених сегментах цих текстів незалежними подіями, визначити ймовірність того, що на 10 слововживань, що складають типовий сегмент тексту, рівно x будуть іменниками. Розв’язати задачу для x=1, 3, 4, 5.
2Визначити ймовірність того, що в 10-слівному сегменті англійського науково-технічного тексту з’явиться рівно 4 іменники, 2 дієслівні форми і
13
4 словоформи, що належать іншим класам. Задана нормою апріорна ймовірність появи іменників дорівнює 0.33, ймовірність дієслівних форм складає 0.16, ймовірність решти граматичних класів дорівнює 0.51.
Другий рівень
3Вважаючи, що ймовірність використання іменників у розмовній мові дорівнює 0.11, в поезії – 0.19, в художній прозі – 0.32, в науковотехнічних текстах – 0.39, знайти ймовірності появи серед одночасно взятих чотирьох словосполучень жодної, однієї, двох, трьох, чотирьох іменних груп.
4Нехай із текстів з радіоелектроніки випадковим чином взято 1000 слововживань. Знайти ймовірність того, що словоформа струм зустрінеться хоча б один раз, якщо її відносна частота дорівнює 0.0012.
5Визначити об’єм вибірки текстів з радіоелектроніки (див. зад. 2.6), який необхідний для того, щоб з імовірністю 90% словоформа струм з’явилась у ній хоча б один раз. Розв’язати цю ж задачу для ймовірності 95%.
Третій рівень
1 Визначимо величини c, w, g, t, s:
Порядковий номер цифри в номері студентського квитка студента
1 |
2 |
3 |
4 |
5 |
c |
w |
g |
t |
s |
Сортувати за зростанням (c<w)
Знайти імовірність появи слова портал хоча б один раз в сотні випробувань, якщо імовірність появи цього слова складає 0,03. Знайти кількість випробувань, які необхідно здійснити, щоб з точністю s% можна було очікувати появу слова портал принаймні один раз.
Для визначення стилістико-семантичних особливостей деякого тексту з нього було навмання вибрано 100 відрізків по 10 слів кожен. Частоти появи іменників у цих серіях подано в таблиці.
|
x |
0 |
1 |
|
2 |
3 |
4 |
|
5 |
6 |
7 |
8 |
9 |
10 |
|
|
Sx |
0 |
1 |
|
4 |
15 |
33 |
|
27 |
11 |
4 |
2 |
1 |
2 |
|
Намалювати |
графік |
залежності |
PN x |
від |
х. |
Пересвідчитись, чи |
|||||||||
відповідають графічні результати чисельному значенню x0 .
Знайти імовірність того, що в одній серії іменник з’явиться від с до w разів; не більше g разів; не менше t разів.
6ЛІТЕРАТУРА
1. Нікольський Ю.В., Пасічник В.В., Щербина Ю.М. “Дискретна математика”, Львів: “Магнолія Плюс”, 2005.
14
7 ВИМОГИ ДО ЛАБОРАТОРНОЇ РОБОТИ
1.Кожен студент отримує набір завдань відповідно до свого порядкового номеру у списку групи або відповідно до номеру залікової книжки.
2.Звіт про виконання роботи оформляється у вигляді завдань та розв’язку до них.
3.Звіт акуратно оформляється на аркушах А4 та скріпляються
скріпкою.
4.Звіт про виконання лабораторної роботи необхідно захистити у строго визначені терміни.
5.Загальний принцип оформлення титульного листа лабораторної
роботи:
МІНІСТЕРСТВО ОСВІТИ І НАУКИ, МОЛОДІ ТА СПОРТУ УКРАЇНИ НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ "ЛЬВІВСЬКА ПОЛІТЕХНІКА"
Кафедра інформаційних систем та мереж
Лабораторна робота №5
на тему
НЕЗАЛЕЖНІ ЛІНГВІСТИЧНІ ВИПРОБУВАННЯ В ТЕКСТІ
Виконав студент групи СШІ-%%
Прізвище та ініціали студента
Прийняв посада Прізвище та ініціали викладача
Львів-201%
15
НАВЧАЛЬНЕ ВИДАННЯ
НЕЗАЛЕЖНІ ЛІНГВІСТИЧНІ ВИПРОБУВАННЯ В ТЕКСТІ
МЕТОДИЧНІ ВКАЗІВКИ
до лабораторної роботи №5 з дисципліни «Математична структурна та прикладна лінгвістика»
для студентів напряму «Системи штучного інтелекту»
Укладачі |
Висоцька В.А., асистент |
|
Нікольський Ю.В., д.т.н., професор. |
|
Шестакевич Т.В., асистент |
|
Щербина Ю.М., к.ф.-м.н, доцент. |
Редактор
Комп’ютерне верстання
16
