
- •Часть 1. Конспекты лекций
- •Правила комбинаторики
- •Основные понятия комбинаторики
- •1.2. Основные понятия теории вероятностей
- •Начальные понятия теории вероятностей
- •Определения вероятности событий
- •Лекция 2. Основные теоремы теории вероятностей случайных событий
- •2.1. Действия над событиями
- •2.2. Вероятность суммы событий
- •Следствия из теоремы сложения
- •2.3. Вероятность произведения событий
- •2.4. Формула полной вероятности. Формула Байеса.
- •2.5. Теорема Бернулли
- •2.6. Предельные теоремы в схеме Бернулли.
- •3. Интегральная теорема Муавра-Лапласа
- •3.1. Начальные понятия
- •3.2. Функция распределения свх f(X) (интегральная функция распределения)
- •3.3. Функция плотности вероятности нсв f(X)
- •3.4. Числовые характеристики случайных величин
- •3.5. Виды законов распределения случайных величин
- •1. Биномиальный закон распределения
- •2. Закон Пуассона
- •3. Нормальное распределение (закон Гаусса)
- •4 .Логнормальное распределение
- •3.6. Вероятность попадания нсв х в заданный промежуток
- •4.1. Система двух дискретных случайных величин (двумерная дискретная св)
- •Начальные понятия.
- •Числовые характеристики системы двух св
- •4.2. Предельные теоремы теории вероятностей
- •Закон больших чисел
- •5.1.Предмет математической статистики. Генеральная и выборочная совокупность.
- •5.2. Статистическое распределение выборки и его графическое изображение
- •5.3. Числовые характеристики статистического распределения
- •6.1. Оценка параметров генеральной совокупности по выборке
- •Свойства статистических оценок
- •Точечные оценки математического ожидания, дисперсии и вероятности.
- •Интервальное оценивание параметров.
- •Доверительные интервалы для параметров нормального распределения
- •Интервальная оценка параметров генеральной лингвистической совокупности.
- •Число степеней свободы
- •Определение минимально достаточного объёма выборки в грамматических, фонетико-фонологических и лексикологических исследованиях.
- •6.2. Проверка статистических гипотез. Исследование вероятностных свойств языка и статистики текста с помощью метода гипотез
- •Проверка лингвистических гипотез с помощью параметрических критериев
- •Проверка гипотез с помощью непараметрических критериев
- •Критерий Пирсона
- •Часть 2. Вопросы и задания для практических работ.
- •1. Элементы комбинаторики
- •Часть 3. Задания для самостоятельной работы
- •1. Графический способ.
- •2. Критерий асимметрии и эксцесса.
- •3. Критерий Колмогорова-Смирнова.
- •4. Критерий Пирсона
- •Приложение 1.1. Значения интегральной функции Лапласа
- •2.Место модуля в структуре ооп:
- •3.Краткое содержание модуля тв и мс.
- •4. Компетенции обучающегося, формируемые в результате освоения модуля тв и мс дисциплины «Основы математической обработки информации»
- •5. Структура и содержание модуля тв и мс дисциплины «Основы математической обработки информации»
Определения вероятности событий
Сами события, которые могут произойти в данном испытании, вызывают ограниченный интерес. Гораздо важнее определить степень уверенности, что событие произойдёт. Для этого используется вероятность события. В обыденной жизни под вероятностью некоторого события понимают меру возможности появления этого события. Например, интуитивно мы можем сказать, что возможность появления буквы к в русских текстах больше, чем буквы ц, так как по нашим наблюдениям буква к появляется чаще. Это интуитивная вероятность. В теории вероятностей установлена чёткая процедура нахождения вероятности события. Существует несколько определений вероятности. В языкознании интерес представляет классическое и статистическое определение вероятности.
Классическое определение вероятности
1) Пусть в некотором опыте может произойти n равновозможных, несовместных событий (исходов), причём одно из них обязательно наступит.
2) Интересующее нас событие А наступит, если наступит одно из m (m ≤ n) равновозможных, несовместных, событий.
Тогда
вероятность события А равна
,
что записывается в виде
- формула классической вероятности
события А,
m – число событий , благоприятных событию А (из n),
n – число всего возможных исходов: равновозможных, несовместных, событий.
Свойства вероятности:
Исходя из классического определения вероятности, осуществляется, например, вероятностная обработка частотных словарей отдельных произведений или всего творчества писателя. В этих случаях все словоупотребления, составляющие текст, образуют полную группу равновозможных элементарных событий.
Пример. Текст «Капитанской дочки» А.С.Пушкина состоит из 29343 словоупотреблений. Формы слова «быть» встречаются здесь 430 раз. Найти вероятность появления в тексте «Капитанской дочки» форм слова «быть» [Пиотровский, 1977, с.118].
Введём
обозначение: событие А=
«появилась форма слова быть».
Так как у каждого словоупотребления
имеется одинаковая возможность быть
выбранным, то выбор любой словоформы –
равновозможные события. Для нахождения
вероятности события А
применим формулу классической вероятности,
где n
=29343 – число всего равновозможных
несовместных событий (исходов), m=430
– число
событий, благоприятных событию А.
Тогда
.
Вывод: 1,5% всех слов в произведении А.С. Пушкина «Капитанская дочка» составляют формы слова быть, что является отличительной характеристикой данного произведения
Статистическое определение вероятности
На практике редко можно найти вероятность события по формуле классической вероятности (из-за невозможности определения числа исходов или доказательства их равновозможности). В этих случаях используют статистическую вероятность события.
Пусть
производится
одинаковых
независимых испытаний.
Событие
А появилось в них
раз (
-
частота события А).
Тогда
отношение
называется относительной частотой
события А.
При увеличении количества испытаний , относительная частота группируется около числа p (сходится по вероятности к р):
Число p называется статистической вероятностью события А.
Эта закономерность носит название устойчивости относительных частот. Устойчивость относительных частот наблюдается при многократном проведении большого числа одного и того же опыта.
Например, относительная частота глагола «быть» в русской художественной прозе при увеличении объёма исследуемого материала приобретает определённую устойчивость, приближаясь к числу 0,01.
n (объём выборки) |
m (частота глагола «быть») |
Относительная частота |
n (объём выборки) |
m (частота глагола «быть») |
Относительная частота |
10 |
0 |
0,000 |
6000 |
57 |
0,010 |
100 |
3 |
0,030 |
7000 |
71 |
0,010 |
1000 |
15 |
0,015 |
8000 |
74 |
0,009 |
2000 |
17 |
0,008 |
9000 |
88 |
0,010 |
3000 |
31 |
0,010 |
10000 |
95 |
0,010 |
4000 |
33 |
0,008 |
15000 |
153 |
0,010 |
5000 |
47 |
0,009 |
40000 |
4186 |
0,011 |
Таблица 1. Относительная частота глагола «быть»
в произведениях Пушкина, Тургенева, Бунина. [22,с.119].
Я.
Бернулли в 1713 году доказал теорему,
которая носит название «закона больших
чисел в форме Бернулли» и объясняет
близость относительной частоты к числу
р,
которое и является истинной вероятностью
события А: как бы ни было мало число
,
,
где р - вероятность события А в каждом
отдельном испытании. Говорят, что
относительная частота сходится по
вероятности к вероятности этого события:
В лингвистике часто за приближённое численное значение статистической вероятности принимается при большом количестве испытаний либо сама относительная частота события А, либо некоторое число, близкое к этой относительной частоте (например, среднее арифметическое относительных частот, полученных из нескольких, достаточно больших серий испытаний). Этот подход имеет практическое значение для прикладных лингвистических исследований, например, при составлении частотных словарей.
Пример.
Исследуется частотность употребления
частей речи в прозе К. Федина.
Взято 10 однородных фрагментов по 500
знаменательных слов каждая. Получены
следующие частоты имён существительных:
182, 187, 218, 173, 158, 201, 222, 233, 213, 194. Так как
количество испытаний велико (5000 слов),
за приближённое значение статистической
вероятности р
можно взять среднюю частоту появления
существительного:
Ответ: Проза Федина характеризуется частым (40%) употреблением существительных, т.е. повествование является предметным.