Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Северный (Арктический) федеральный университет им. М. В. Ломоносова

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Основы математической обработки информации / Пособие для фф. 2012 год.doc

Скачиваний:

137

Добавлен:

11.03.2016

Размер:

2.54 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 78 / 298 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

3.4. Вычисление вероятности цепочек языковых элементов.

В лингвистике очень редко имеют дело с независимыми событиями, т.к. вероятность появления букв, фонем, слогов, морфем и т.д. зависит от позиций этих лингвистических объектов в слове, словосочетании, предложении. Например, вероятность появления буквы п в начале слова равна 0,207, а после начального я условная вероятность её появление составляет 0,001.

Каждый текст можно представить, как совместное наступление некоторой линейной последовательности лингвистических событий – совместное появление цепочки словоформ, последовательности слогов, цепочек фонем или букв. Определение вероятности появления этих цепочек опирается на теорему умножения вероятностей.

Пример. Определите вероятность появления в русских текстах двухбуквенного сочетания «яn» в начале слова, если вероятность появления буквы я в начале слова равна 0,018, а вероятность появления буквы п после начального я составляет 0,001.

3.5. Формула полной вероятности. Формула Байеса.

1 H2) Формула полной вероятности.

H₁

усть событие А может произойти только

H₃

H_n

с одним из несовместных событий H₁,H₂,...H_n.

Тогда вероятность события А находится

по формуле (формула полной вероятности):

Доказательство:

2) Формула Байеса (формула проверки гипотез).

Пусть событие А уже произошло, тогда вероятность того, что появилось событие Н_i, где i=1,2,3,…n, равна:

(Формула Байеса),

где P(A) можно найти по формуле полной вероятности.

Доказательство:

Приравнивая правые части равенств получаем

Отсюда имеем

Формула полной вероятности используется для вычисления общей вероятности лингвистического события при условии, что известны вероятности в узко-тематических выборках.

Формула Байеса, по которой вычисляется апостериорная вероятность лингвистических гипотез, используется в различных лингвистических исследованиях, в том числе, в теории решения задач, применяемой в инженерной лингвистике.

Пример.^¹¹ Имеется английский научно-технический текст общей длиной в 400 тыс. словоупотреблений (около тысячи стандартных страниц). По тематике этот текст распадается на следующие 4 выборки разной длины:

- радиоэлектроника – 200 тыс. словоупотреблений;

- автомобилестроение – 100 тыс. словоупотреблений;

- судовые механизмы – 50 тыс. словоупотреблений;

- строительные материалы. – 50 тыс.словоупотреблений.

Словоформа ‘are’ - множественное число настоящего времени глагола ‘to be’ ‘быть’ употреблена…

в 1-й выборке-1610 раз, во 2-й -1273, в 3-й – 469, в 4-й – 346 раз.

а) Необходимо определить вероятность того, что извлечённое наугад из данного текста словоупотребление будет словоформой ‘are’.

б) Пусть наугад извлечённая словоформа в выборке оказалась глаголом ‘are’. Найти вероятность того, что эта словоформа извлечена из текста по электронике.

3.6. Теорема Бернулли

Пусть производится n независимых одинаковых испытаний.

Событие А в каждом из испытаний может появиться с вероятностью p, и не появиться с вероятностью q=1-p.

Тогда вероятность того, что событие А появится m раз из n находится по формуле

- формула Бернулли.

<<< < Предыдущая 1 2 3 4 5 6 78 / 298 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Соседние файлы в папке Основы математической обработки информации

#
11.03.201618.02 Кб28Зач.вопр.docx
#
11.03.20162.15 Mб43Лекции Фридман.doc
#
11.03.20162.54 Mб137Пособие для фф. 2012 год.doc