- •Часть 1. Конспекты лекций
- •Правила комбинаторики
- •Основные понятия комбинаторики
- •1.2. Основные понятия теории вероятностей
- •Начальные понятия теории вероятностей
- •Определения вероятности событий
- •Лекция 2. Основные теоремы теории вероятностей случайных событий
- •2.1. Действия над событиями
- •2.2. Вероятность суммы событий
- •Следствия из теоремы сложения
- •2.3. Вероятность произведения событий
- •2.4. Формула полной вероятности. Формула Байеса.
- •2.5. Теорема Бернулли
- •2.6. Предельные теоремы в схеме Бернулли.
- •3. Интегральная теорема Муавра-Лапласа
- •3.1. Начальные понятия
- •3.2. Функция распределения свх f(X) (интегральная функция распределения)
- •3.3. Функция плотности вероятности нсв f(X)
- •3.4. Числовые характеристики случайных величин
- •3.5. Виды законов распределения случайных величин
- •1. Биномиальный закон распределения
- •2. Закон Пуассона
- •3. Нормальное распределение (закон Гаусса)
- •4 .Логнормальное распределение
- •3.6. Вероятность попадания нсв х в заданный промежуток
- •4.1. Система двух дискретных случайных величин (двумерная дискретная св)
- •Начальные понятия.
- •Числовые характеристики системы двух св
- •4.2. Предельные теоремы теории вероятностей
- •Закон больших чисел
- •5.1.Предмет математической статистики. Генеральная и выборочная совокупность.
- •5.2. Статистическое распределение выборки и его графическое изображение
- •5.3. Числовые характеристики статистического распределения
- •6.1. Оценка параметров генеральной совокупности по выборке
- •Свойства статистических оценок
- •Точечные оценки математического ожидания, дисперсии и вероятности.
- •Интервальное оценивание параметров.
- •Доверительные интервалы для параметров нормального распределения
- •Интервальная оценка параметров генеральной лингвистической совокупности.
- •Число степеней свободы
- •Определение минимально достаточного объёма выборки в грамматических, фонетико-фонологических и лексикологических исследованиях.
- •6.2. Проверка статистических гипотез. Исследование вероятностных свойств языка и статистики текста с помощью метода гипотез
- •Проверка лингвистических гипотез с помощью параметрических критериев
- •Проверка гипотез с помощью непараметрических критериев
- •Критерий Пирсона
- •Часть 2. Вопросы и задания для практических работ.
- •1. Элементы комбинаторики
- •Часть 3. Задания для самостоятельной работы
- •1. Графический способ.
- •2. Критерий асимметрии и эксцесса.
- •3. Критерий Колмогорова-Смирнова.
- •4. Критерий Пирсона
- •Приложение 1.1. Значения интегральной функции Лапласа
- •2.Место модуля в структуре ооп:
- •3.Краткое содержание модуля тв и мс.
- •4. Компетенции обучающегося, формируемые в результате освоения модуля тв и мс дисциплины «Основы математической обработки информации»
- •5. Структура и содержание модуля тв и мс дисциплины «Основы математической обработки информации»
Числовые характеристики системы двух св
1. Ковариация cov(X,Y) или корреляционный момент - математическое ожидание произведения отклонений этих СВ от их математических ожиданий .
2.
Коэффициент корреляции
–
это количественная мера взаимосвязи
двух переменных:
,
где σx и σy средние квадратические отклонения X и Y.
Свойства коэффициента корреляции:
а) коэффициент корреляции по абсолютной величине
не
превосходит 1:
-1≤
≤1;
б) чем
ближе
к
единице, тем большая вероятностная
(стохастическая) зависимость между X
и Y
(сила
связи).
Количественной
мере тесноты связи
можно
дать качественную оценку (шкала Чеддока):
Количественная мера тесноты связи |
Качественная характеристика силы связи |
0,1 - 0,3 |
Слабая |
0,3 - 0,5 |
Умеренная |
0,5 - 0,7 |
Заметная |
0,7 - 0,9 |
Высокая |
0,9 - 0,99 |
Весьма высокая |
в) знак определяет направление связи. Если >0, то между Х и Y прямая зависимость (чем больше Х, тем больше Y), если <0, то зависимость между Х и Y обратная (чем больше Х, тем меньше Y);
г) если Х и Y независимы, то =0;
д) если Х и Y связаны линейной зависимостью, т.е. Х= а Y + в,
где
а
≠ 0, то
=
1 или
=
-1 (
при а
> 0 и
при а
< 0);
е) если = 1 или = -1, то Х и Y связаны линейной зависимостью.
Пример: Найти коэффициент корреляции СВ X и Y, если закон распределения двумерной СВ (X; Y) задан таблицей:
-
X\Y
0
1
2
0
0,1
0,3
0,2
1
0,2
0,1
0,1
а) определим законы распределения одномерных СВ X и Y.
Х |
0 |
1 |
Р |
0,6 |
0,4 |
Y |
0 |
1 |
2 |
Р |
0,3 |
0,4 |
0,3 |
б) найдём числовые характеристики одномерных СВ X и Y.
М(Х)=0 0,6+1 0,4=0,4; М(Y)=0 0,3+1 0,4+2 0,3=1;
D(X)=02
0,6+12
0,4-0,42=0,4-0,16=0,24;
;
D(Y)=02
0,3+12
0,4+22
0,3-12=0,4+1,2-1=0,6;
;
в) вычислим
,
где
.
=(0-0,4)
(0-1)
0,1+(0-0,4)
(1-1)
0,3+(0-0,4)
(2-1)
0,2+
+(1-0,4) (0-1) 0,2+(1-0,4) (1-1) 0,1+(1-0,4) (2-1) 0,1= - 0,1
Вывод: существует слабая отрицательная корреляционная зависимость между случайными величинами X и Y
4.2. Предельные теоремы теории вероятностей
ПТТВ устанавливают связь между теоретическими и экспериментальными характеристиками случайных величин при большом числе испытаний над ними, являются основой математической статистики. Условно делятся на две группы: закон больших чисел (ЗБЧ) и центральную предельную теорему (ЦПТ).
Закон больших чисел
ЗБЧ устанавливает устойчивость средних значений: при большом количестве испытаний их средний результат перестаёт быть случайным и может быть предсказан с большой степенью точности.
ЗБЧ представляет ряд математических теорем, в каждой из которых для определённых условий устанавливается факт приближения средних характеристик большого числа испытаний к определённым постоянным. Теоремы ЗБЧ показывают связь между абстрактными теоремами теории вероятностей и опытом и дают возможность предсказать результаты опытов.
Мы уже говорили о теореме Я. Бернулли: при большом числе опытов относительная частота появления события сходится по вероятности к вероятности этого события. Рассмотрим некоторые более общие формы закона больших чисел.
Неравенство Чебышева.
Пусть
дана СВ Х с математическим ожиданием
М(Х) и дисперсией
D(X).
Как бы ни мало было постоянное положительное
число ɛ, вероятность того, что величина
Х отклонится от своего математического
ожидания не менее чем на ɛ, ограничена
сверху величиной
:
или
Теорема Чебышева
для среднего арифметического случайных величин.
Пусть
даны независимые СВ
,
имеющие конечные математические ожидания
и
конечные дисперсии, ограниченные одной
и той же постоянной с, то как бы ни мало
было постоянное положительное число
ɛ, с вероятностью, сколь угодно близкой
к единице можно утверждать, что отклонение
средней арифметической этих n
величин от средней арифметической их
математических ожиданий не превосходит
по абсолютной величине заданного числа
ɛ, если число n
достаточно велико.
Говорят,
что среднее арифметическое СВ
сходится по вероятности к среднему
арифметическому их математических
ожиданий:
Следствие1.
Если
все
независимы
и одинаково распределены:
,
то для любого ɛ>0,
Среднее арифметическое случайных величин сходится по вероятности к их математическому ожиданию а.
Следствие
1 обосновывает «принцип среднего
арифметического СВ», который часто
используется на практике. Пусть
произведено n
независимых измерений некоторой величины
,
истинное значение а
которой неизвестно. Согласно следствию
1, в качестве приближённого значения
величины
а можно
взять среднее арифметическое результатов
измерений:
.
Равенство тем точнее, чем больше n.
На описанных свойствах средней арифметической и относительной частоты основан широко применяющийся в лингво-статистике выборочный метод (по сравнительно небольшой случайной выборке текстов судят о целой разновидности языка). Сходимость средних арифметических частот, полученных по частичным выборкам, к математическим ожиданиям слов (или словосочетаний) при достаточном числе выборок позволяет рассматривать частотные словари в качестве моделей вероятностного распределения слов и словосочетаний в норме данного подъязыка или стиля.
Неравенство
Чебышева
справедливо
для любых СВ, в частности для СВ Х = m,
имеющих биномиальное распределение,
где М(Х)=a=np
и D(X)=npq.
В этом случае оно имеет вид:
.
Для СВ
-
относительной частоте события А в n
независимых испытаниях, неравенство
Чебышева имеет вид:
(здесь
).
Теорема Бернулли,
о которой говорили в лекции №2, первая
(1713 г) и наиболее простая форма закона
больших чисел, является частным случаем
теоремы Чебышева:
Теорема Бернулли теоретически обосновывает возможность приближённого вычисления вероятности события с помощью его относительной частоты.
Пример. Установлено, что вероятность появления существительного в румынских текстах по радиоэлектронике равна 0,34, а допустимое абсолютное отклонение относительной частоты от вероятности р равно 0,03. Определим тот наименьший объём исследуемого текста, при котором заданные условия выполнялись бы с вероятностью 0,9545.
Воспользуемся
неравенством Чебышева для случайной
величины X-«относительная
частота появлений существительного в
тексте»:
где
p=0,34;
=0,03;
=0,
9545. Отсюда n=5473.
Ответ: Необходимый текст для выполнения заданных условий с вероятностью 0,9545 должен содержать не меньше, чем 5473 словоупотреблений.
Использование ЗБЧ связано с обследованием слишком больших текстовых выборок, объёмы которых превосходят реальные возможности лингво-статистического исследования.
Центральная предельная теорема ЦПТ решает проблему нахождения точности, надёжности оценки, доверительного интервала, используя при этом меньшее число испытаний, чем этого требует ЗБЧ, устанавливает условия, при которых закон распределения суммы большого числа случайных величин неограниченно приближается к нормальному.
ЦПТ Ляпунова
Пусть
СВ
независимы
и одинаково распределены,
,
Тогда функция распределения центрированной
и нормированной суммы этих СВ стремится
при n→∞
к функции распределения стандартной
нормальной СВ. Это означает, что
приближённо распределена по нормальному
закону:
.
Говорят, что при n→∞
СВ
асимптотически
нормальна.
(СВ называется центрированной и нормированной или стандартной, если М(Х)=0, D(X)=1)
Для того чтобы теорема Ляпунова выполнялась (утверждение о нормальном распределении для средних имело место) достаточно выполнение условий, смысл которых заключается в том, что
ни одна из СВ, образующих среднюю, не была в ней преобладающей. В противном случае распределение средней определяется законом распределения этих преобладающих СВ.
Например, служебные слова, многие грамматические формы, фонемы и буквы, поведение которых определяется суммой большого числа случайных воздействий без преобладания в них семантики текста, распределены по закону, близкому к нормальному. Ключевые (или доминантные) слова и словосочетаний текста (передают основные понятия, рассматривающиеся в данном сообщении) являются преобладающими, поэтому их распределение не является нормальным.
Лекция 5. Основы математической статистики.
Основная цель исследования языка – установление общих закономерностей, присущих языку. Для обнаружения этих закономерностей необходимо произвести неоднократные наблюдения за языковыми явлениями. Например, исследователя интересует зависимость длины словоформ от их количества в предложениях русского литературного языка. Произвольно выбирается предложение, подсчитывается количество слов и число букв в каждом слове. Можно ли по одному предложению сделать какие-либо выводы о свойствах всех предложений? Сколько должно быть сделано наблюдений? Как обработать результаты измерений и сделать обоснованные выводы? Получить ответы на эти вопросы позволяет математическая статистика. Её задача – исходя из данных наблюдения за сравнительно небольшим количеством объектов, сделать вывод о свойстве всей изучаемой совокупности.
