- •Часть 1. Конспекты лекций
- •Правила комбинаторики
- •Основные понятия комбинаторики
- •1.2. Основные понятия теории вероятностей
- •Начальные понятия теории вероятностей
- •Определения вероятности событий
- •Лекция 2. Основные теоремы теории вероятностей случайных событий
- •2.1. Действия над событиями
- •2.2. Вероятность суммы событий
- •Следствия из теоремы сложения
- •2.3. Вероятность произведения событий
- •2.4. Формула полной вероятности. Формула Байеса.
- •2.5. Теорема Бернулли
- •2.6. Предельные теоремы в схеме Бернулли.
- •3. Интегральная теорема Муавра-Лапласа
- •3.1. Начальные понятия
- •3.2. Функция распределения свх f(X) (интегральная функция распределения)
- •3.3. Функция плотности вероятности нсв f(X)
- •3.4. Числовые характеристики случайных величин
- •3.5. Виды законов распределения случайных величин
- •1. Биномиальный закон распределения
- •2. Закон Пуассона
- •3. Нормальное распределение (закон Гаусса)
- •4 .Логнормальное распределение
- •3.6. Вероятность попадания нсв х в заданный промежуток
- •4.1. Система двух дискретных случайных величин (двумерная дискретная св)
- •Начальные понятия.
- •Числовые характеристики системы двух св
- •4.2. Предельные теоремы теории вероятностей
- •Закон больших чисел
- •5.1.Предмет математической статистики. Генеральная и выборочная совокупность.
- •5.2. Статистическое распределение выборки и его графическое изображение
- •5.3. Числовые характеристики статистического распределения
- •6.1. Оценка параметров генеральной совокупности по выборке
- •Свойства статистических оценок
- •Точечные оценки математического ожидания, дисперсии и вероятности.
- •Интервальное оценивание параметров.
- •Доверительные интервалы для параметров нормального распределения
- •Интервальная оценка параметров генеральной лингвистической совокупности.
- •Число степеней свободы
- •Определение минимально достаточного объёма выборки в грамматических, фонетико-фонологических и лексикологических исследованиях.
- •6.2. Проверка статистических гипотез. Исследование вероятностных свойств языка и статистики текста с помощью метода гипотез
- •Проверка лингвистических гипотез с помощью параметрических критериев
- •Проверка гипотез с помощью непараметрических критериев
- •Критерий Пирсона
- •Часть 2. Вопросы и задания для практических работ.
- •1. Элементы комбинаторики
- •Часть 3. Задания для самостоятельной работы
- •1. Графический способ.
- •2. Критерий асимметрии и эксцесса.
- •3. Критерий Колмогорова-Смирнова.
- •4. Критерий Пирсона
- •Приложение 1.1. Значения интегральной функции Лапласа
- •2.Место модуля в структуре ооп:
- •3.Краткое содержание модуля тв и мс.
- •4. Компетенции обучающегося, формируемые в результате освоения модуля тв и мс дисциплины «Основы математической обработки информации»
- •5. Структура и содержание модуля тв и мс дисциплины «Основы математической обработки информации»
2.4. Формула полной вероятности. Формула Байеса.
Формула полной вероятности используется для вычисления общей вероятности лингвистического события при условии, что известны вероятности в узко-тематических выборках.
.
H1
H2
Ф
A
ормула полной вероятностиH3
Hn
Пусть событие А может произойти только
с одним из несовместных событий H1,H2,...Hn.,
о
бразующих
полную группу. Тогда вероятность события
А находится по формуле полной вероятности:
Доказательство:
Формула Байеса (формула проверки гипотез)
Пусть событие А уже произошло, тогда вероятность того, что появилось событие Нi, где i=1,2,3,…n, равна:
(Формула Байеса),
где P(A) можно найти по формуле полной вероятности.
Доказательство:
Из Т2.1.
имеем
Приравнивая
правые части равенств, получаем:
.
Отсюда имеем
.
Формула Байеса, по которой вычисляется апостериорная вероятность лингвистических гипотез, используется в различных лингвистических исследованиях, в том числе, в теории решения задач, применяемой в инженерной лингвистике.
Пример. Имеется английский научно-технический текст общей длиной в 400 тыс. словоупотреблений (около тысячи стандартных страниц). По тематике этот текст распадается на следующие 4 выборки разной длины: радиоэлектроника – 200 тыс. словоупотреблений; автомобилестроение – 100 тыс. словоупотреблений; судовые механизмы – 50 тыс. словоупотреблений; строительные материалы. – 50 тыс.словоупотреблений. Словоформа ‘are’ - множественное число настоящего времени глагола ‘to be’ ‘быть’ употреблена …
в 1-й выборке-1610 раз, во 2-й -1273, в 3-й – 469, в 4-й – 346 раз
[Пиотровский, 1977, с. 131]
а) Определить вероятность того, что извлечённое наугад из данного текста словоупотребление будет словоформой ‘are’.
Решение. Событие А = «появилась словоформа ‘are’» может произойти только с одним из 4-х событий, образующих полную группу:
В =
«словоформа из текста по радиоэлектронике»,
С=«словоформа из текста по автомобилестроению»,
D =«словоформа из текста по судовым
механизмам», Е = «словоформа из текста
по строительным материалам». Эти события
несовместны, следовательно, можно
применить формулу полной вероятности:
б) Пусть наугад извлечённая словоформа в выборке оказалась глаголом ‘are’. Найти вероятность того, что эта словоформа извлечена из текста по электронике.
Решение. Событие А = «появилась словоформа ‘are’» уже произошло, а надо определить вероятность В при условии, что А произошло.
По
формуле Байеса
Вероятность, что выбранная словоформа ‘are’ извлечена из текста по электронике, равна 0, 0435
2.5. Теорема Бернулли
Пусть производится n независимых одинаковых испытаний.
Событие А в каждом из испытаний может появиться с вероятностью p, и не появиться с вероятностью q=1-p.
Тогда вероятность того, что событие А появится m раз из n находится по формуле:
– формула
Бернулли.
Примером использования теоремы Бернулли может служить повторная выборка согласных (А) и гласных ( ) фонем из определённого текста. Предположим, что в некотором тексте длиной в n фонем имеется m гласных и n-m согласных. Требуется определить, что среди извлечённых N фонем ровно x окажутся согласными, причём порядок следования согласной и гласной фонем безразличен.
При составлении алгоритмов пословного машинного перевода и информационного поиска возникают задачи, связанные с прогнозированием появления в сегментах заданной длины определённого числа словоформ, морфем или словосочетаний, принадлежащих к некоторым классам. Формула Бернулли позволяет решать задачи такого типа, при условии, что сохраняется взаимная независимость образующих данный сегмент словоформ.
Пример. [Пиотровский, 1977, с. 153]. Относительная частота появления существительных в подъязыке английской электроники близка к 1/3(априорная вероятность). Примем, что типовым синтаксически оформленным сегментом в английских научно-технических текстах является простое предложение, а также главное и придаточное предложение длиной в 10 словоформ. Считая появление отдельных словоформ в этих сегментах независимыми событиями текста, определить вероятность того, что из 10 словоупотреблений, составляющих типовой сегмент ровно 2 будут существительными.
Решение.
Так как появление существительных в
типовом сегменте – события независимые,
и вероятность появления каждого из
существительных одинакова, то можно
найти искомую вероятность по формуле
Бернулли:
,
где
p=1/3;
q=1-1/3=2/3;
.
Ответ: вероятность появления двух существительных в типовом сегменте английского текста по электронике равна 19,5 %
