Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Мат. лінгвістика 5

.pdf
Скачиваний:
37
Добавлен:
12.02.2016
Размер:
362.87 Кб
Скачать

співвідношенням fN x Sx S , де Sx – кількість серій, у яких подія A з’явиться рівно x разів.

Апріорна ймовірність появи події A в одній навмання взятій серії дорівнює

p xSx , NS

і, отже,

q 1 xSx .

NS

У одержаному теоретичному розподілі кожному значенню x співвіднесена не його ймовірність, а деяка теоретично очікувана кількість серій (вибірок) SxT , у яких подія A появляється рівно x разів. Оскільки

ST

SP x SCx

pxqN x ,

(13)

x

N

N

 

та P x

 

то неважко зауважити, що величини

ST

зв’язані коефіцієнтом

 

 

 

x

N

 

пропорційності S.

3 ІМОВІРНІСТЬ ПОЯВИ ПОДІЇ В ЗАДАНОМУ ДІАПАЗОНІ КІЛЬКОСТІ ПОЯВ

Розглянуті вище властивості описували числові особливості серії з кількох вибірок. Повернімося тепер до аналізу якісних та кількісних характеристик, якими володіє одна вибірка.

Нехай Bx – подія, яка полягає в тому, що лінгвістична одиниця A

з’явиться на менше a і не більше b разів. Тоді ймовірність PN a x b цієї події складає

b b

PN a x b PN a PN a 1 PN b 1 PN b PN x CNx pxqN x .

x a x a

Графічно кількість доданків, які необхідно обчислити можна зобразити

так:

 

a-1 a a+1 a+2 a+3

 

b-2 b-1 b b+1

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

N

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Якщо кількість членів, які відповідають значенням x від a до b, значно більша загальної кількості членів, що відповідають значенням x від 0 до a 1 і від b 1 до N, то зручніше здійснювати сумування ймовірностей за цими двома послідовностями. У такому разі одержуємо ймовірність протилежної

події B :

x

11

 

 

 

 

a 1

 

N

 

 

 

 

 

 

x x

N x

x x

N x

 

 

 

 

CN p q

 

CN p q .

 

 

 

P Bx

 

 

 

 

 

 

x 0

 

x b 1

 

 

Тепер потрібну нам імовірність обчислюємо за формулою

 

 

 

 

 

a 1

 

N

 

 

PN a x b 1 P

 

1 CNx pxqN x

CNx pxqN x

.

(14)

Bx

 

 

 

 

x 0

x b 1

 

 

Графічно такий підхід можна інтерпретувати наступним чином:

0 1

a-1 a a+1

b-1 b b+1 N-1 N

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Розглянемо деякі часткові випадки. Припустимо, що необхідно визначити ймовірність того, що деяка лінгвістична одиниця A зустрінеться не менше a разів. Тут

N

PN x a CNx pxqN x .

x a

 

a-1 a a+1

N-1

0

 

 

 

 

 

 

N

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Якщо значення a мале, то доцільно скористатись виразом

a 1

PN x a 1 CNx pxqN x ,

x 0

який є частинним випадком формули (2.14).

0 a-1 a a+1 a+2 a+3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

N

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

У тому випадку, коли a 1, маємо

 

 

 

 

 

 

 

 

 

 

P 1 x N 1 C0 p0qN

1 qN .

(15)

 

 

 

 

 

 

N

 

 

 

N

 

 

 

 

Імовірність появи події A не більше b разів також визначається шляхом

сумування ймовірностей, у яких подія появляється 0, 1, 2, ..., b разів:

 

 

 

 

 

 

 

 

 

b

 

 

 

 

 

 

 

 

 

 

 

PN x b CNx pxqN x .

 

 

 

 

 

 

 

 

 

 

 

 

x 0

 

 

 

 

0

 

 

b-2 b-1 b b+1

 

N

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Якщо значення b близьке до N, то цю ймовірність доцільно обчислювати за такою формулою:

12

 

 

N

 

 

 

 

PN x b 1 CNx pxqN x ,

(16)

 

 

x b 1

 

 

яка також є частинним випадком формули (2.14).

 

 

0

b-2 b-1 b b+1

N

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4ВИЗНАЧЕННЯ НЕОБХІДНОГО ОБ’ЄМУ ВИБІРКИ

Улінгвістичних дослідженнях і особливо при підготовці лінгвістичних програм машинного перекладу та інформаційного пошуку постійно виникає потреба визначати об’єм вибірки, необхідний для того, щоб забезпечити із заданою ймовірністю появу хоча б один раз потрібної лінгвістичної одиниці.

Для цього перетворимо спочатку формулу PN 1 x N 1 qN 1 1 p N до виду 1 p N 1 PN 1 x N . Прологарифмуємо обидві частини рівності і після нескладних перетворень одержимо

N

lg1 PN 1 x N

,

(17)

lg1 p

де N вказує на необхідний об’єм вибірки.

5 ЗАВДАННЯ

Розв’язати завдання відповідно до свого порядкового номеру у списку групи. Завдання отримати у викладача. При оформленні лабораторної роботи дотримуватись вимог, які наведені в методичних вказівках. Оцінювання виконаної лабораторної роботи проводиться згідно кількості правильно розв’язаних завдань з відповідного варіанту. Завдання лабораторної роботи мають три рівня складності. Оцінювання виконання завдань першого рівня в п’ятибальній системі відповідає оцінці “задовільно”, другий рівень – “добре”, третій – “відмінно”. Реалізувати всі із завдання за допомогою комп’ютера на мові Сі або С++.

Перший рівень

1Середня довжина простого речення або синтаксично оформленої частини складного речення в англійських науково-технічних текстах є в межах від 10 до 11 словоформ. Апріорна ймовірність появи іменників у вказаній підмові дорівнює 1/3. Вважаючи появу окремих словоформ у типових синтаксично оформлених сегментах цих текстів незалежними подіями, визначити ймовірність того, що на 10 слововживань, що складають типовий сегмент тексту, рівно x будуть іменниками. Розв’язати задачу для x=1, 3, 4, 5.

2Визначити ймовірність того, що в 10-слівному сегменті англійського науково-технічного тексту з’явиться рівно 4 іменники, 2 дієслівні форми і

13

4 словоформи, що належать іншим класам. Задана нормою апріорна ймовірність появи іменників дорівнює 0.33, ймовірність дієслівних форм складає 0.16, ймовірність решти граматичних класів дорівнює 0.51.

Другий рівень

3Вважаючи, що ймовірність використання іменників у розмовній мові дорівнює 0.11, в поезії – 0.19, в художній прозі – 0.32, в науковотехнічних текстах – 0.39, знайти ймовірності появи серед одночасно взятих чотирьох словосполучень жодної, однієї, двох, трьох, чотирьох іменних груп.

4Нехай із текстів з радіоелектроніки випадковим чином взято 1000 слововживань. Знайти ймовірність того, що словоформа струм зустрінеться хоча б один раз, якщо її відносна частота дорівнює 0.0012.

5Визначити об’єм вибірки текстів з радіоелектроніки (див. зад. 2.6), який необхідний для того, щоб з імовірністю 90% словоформа струм з’явилась у ній хоча б один раз. Розв’язати цю ж задачу для ймовірності 95%.

Третій рівень

1 Визначимо величини c, w, g, t, s:

Порядковий номер цифри в номері студентського квитка студента

1

2

3

4

5

c

w

g

t

s

Сортувати за зростанням (c<w)

Знайти імовірність появи слова портал хоча б один раз в сотні випробувань, якщо імовірність появи цього слова складає 0,03. Знайти кількість випробувань, які необхідно здійснити, щоб з точністю s% можна було очікувати появу слова портал принаймні один раз.

Для визначення стилістико-семантичних особливостей деякого тексту з нього було навмання вибрано 100 відрізків по 10 слів кожен. Частоти появи іменників у цих серіях подано в таблиці.

 

x

0

1

 

2

3

4

 

5

6

7

8

9

10

 

 

Sx

0

1

 

4

15

33

 

27

11

4

2

1

2

 

Намалювати

графік

залежності

PN x

від

х.

Пересвідчитись, чи

відповідають графічні результати чисельному значенню x0 .

Знайти імовірність того, що в одній серії іменник з’явиться від с до w разів; не більше g разів; не менше t разів.

6ЛІТЕРАТУРА

1. Нікольський Ю.В., Пасічник В.В., Щербина Ю.М. “Дискретна математика”, Львів: “Магнолія Плюс”, 2005.

14

7 ВИМОГИ ДО ЛАБОРАТОРНОЇ РОБОТИ

1.Кожен студент отримує набір завдань відповідно до свого порядкового номеру у списку групи або відповідно до номеру залікової книжки.

2.Звіт про виконання роботи оформляється у вигляді завдань та розв’язку до них.

3.Звіт акуратно оформляється на аркушах А4 та скріпляються

скріпкою.

4.Звіт про виконання лабораторної роботи необхідно захистити у строго визначені терміни.

5.Загальний принцип оформлення титульного листа лабораторної

роботи:

МІНІСТЕРСТВО ОСВІТИ І НАУКИ, МОЛОДІ ТА СПОРТУ УКРАЇНИ НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ "ЛЬВІВСЬКА ПОЛІТЕХНІКА"

Кафедра інформаційних систем та мереж

Лабораторна робота №5

на тему

НЕЗАЛЕЖНІ ЛІНГВІСТИЧНІ ВИПРОБУВАННЯ В ТЕКСТІ

Виконав студент групи СШІ-%%

Прізвище та ініціали студента

Прийняв посада Прізвище та ініціали викладача

Львів-201%

15

НАВЧАЛЬНЕ ВИДАННЯ

НЕЗАЛЕЖНІ ЛІНГВІСТИЧНІ ВИПРОБУВАННЯ В ТЕКСТІ

МЕТОДИЧНІ ВКАЗІВКИ

до лабораторної роботи №5 з дисципліни «Математична структурна та прикладна лінгвістика»

для студентів напряму «Системи штучного інтелекту»

Укладачі

Висоцька В.А., асистент

 

Нікольський Ю.В., д.т.н., професор.

 

Шестакевич Т.В., асистент

 

Щербина Ю.М., к.ф.-м.н, доцент.

Редактор

Комп’ютерне верстання

16