- •Часть 1. Конспекты лекций
- •Правила комбинаторики
- •Основные понятия комбинаторики
- •1.2. Основные понятия теории вероятностей
- •Начальные понятия теории вероятностей
- •Определения вероятности событий
- •Лекция 2. Основные теоремы теории вероятностей случайных событий
- •2.1. Действия над событиями
- •2.2. Вероятность суммы событий
- •Следствия из теоремы сложения
- •2.3. Вероятность произведения событий
- •2.4. Формула полной вероятности. Формула Байеса.
- •2.5. Теорема Бернулли
- •2.6. Предельные теоремы в схеме Бернулли.
- •3. Интегральная теорема Муавра-Лапласа
- •3.1. Начальные понятия
- •3.2. Функция распределения свх f(X) (интегральная функция распределения)
- •3.3. Функция плотности вероятности нсв f(X)
- •3.4. Числовые характеристики случайных величин
- •3.5. Виды законов распределения случайных величин
- •1. Биномиальный закон распределения
- •2. Закон Пуассона
- •3. Нормальное распределение (закон Гаусса)
- •4 .Логнормальное распределение
- •3.6. Вероятность попадания нсв х в заданный промежуток
- •4.1. Система двух дискретных случайных величин (двумерная дискретная св)
- •Начальные понятия.
- •Числовые характеристики системы двух св
- •4.2. Предельные теоремы теории вероятностей
- •Закон больших чисел
- •5.1.Предмет математической статистики. Генеральная и выборочная совокупность.
- •5.2. Статистическое распределение выборки и его графическое изображение
- •5.3. Числовые характеристики статистического распределения
- •6.1. Оценка параметров генеральной совокупности по выборке
- •Свойства статистических оценок
- •Точечные оценки математического ожидания, дисперсии и вероятности.
- •Интервальное оценивание параметров.
- •Доверительные интервалы для параметров нормального распределения
- •Интервальная оценка параметров генеральной лингвистической совокупности.
- •Число степеней свободы
- •Определение минимально достаточного объёма выборки в грамматических, фонетико-фонологических и лексикологических исследованиях.
- •6.2. Проверка статистических гипотез. Исследование вероятностных свойств языка и статистики текста с помощью метода гипотез
- •Проверка лингвистических гипотез с помощью параметрических критериев
- •Проверка гипотез с помощью непараметрических критериев
- •Критерий Пирсона
- •Часть 2. Вопросы и задания для практических работ.
- •1. Элементы комбинаторики
- •Часть 3. Задания для самостоятельной работы
- •1. Графический способ.
- •2. Критерий асимметрии и эксцесса.
- •3. Критерий Колмогорова-Смирнова.
- •4. Критерий Пирсона
- •Приложение 1.1. Значения интегральной функции Лапласа
- •2.Место модуля в структуре ооп:
- •3.Краткое содержание модуля тв и мс.
- •4. Компетенции обучающегося, формируемые в результате освоения модуля тв и мс дисциплины «Основы математической обработки информации»
- •5. Структура и содержание модуля тв и мс дисциплины «Основы математической обработки информации»
5.2. Статистическое распределение выборки и его графическое изображение
Пусть изучается СВ Х относительно некоторого признака. Проводится ряд независимых испытаний. В результате опытов СВ Х принимает некоторые значения. Совокупность полученных значений представляет собой выборку, а сами значения являются статистическими данными.
Вариационный ряд. Первоначально необходимо упорядочить полученные статистические данные. Операция расположения статистических данных по неубыванию называется ранжированием. В результате ранжирования статистических данных получаем вариационный ряд. Например, при ранжировании выборки 2;4;3;3;4;2;4;2;2;4;4 получаем вариационный ряд: 2;2;2;2;3;3;4;4;4;4;4.
Дискретный статистический ряд. Если генеральная совокупность является дискретной СВ, строится дискретный статистический ряд (статистическое распределение).
Пусть
значение
появилось в выборке
раз,
–
разa
,…,
–
раз,
где
- i-тая
варианта
выборки;
-
частота
i-той
варианты – показывает, сколько раз
данная варианта появилась в выборке;
– относительная
частота
i-той
варианты – показывает какую часть
выборки составляет варианта
.
Например, в вариационном ряду 2;2;2;2;3;3;4;4;4;4;4 n=11,
варианта 2 имеет частоту 4, а относительную частоту 4/11;
варианта 3 – частоту 2, а относительную частоту 2/11.
Статистическое распределение – это соответствие между вариантами выборки и их частотами или относительными частотами.
Для ДСВ статистическое распределение можно представить в виде таблицы – статистического ряда частот или статистического ряда относительных частот.
|
|
||||||||||||||||||||
Статистический ряд частот |
Статистический ряд относи тельных частот |
Полигон
частот
(относительных частот) – графическое
изображение дискретного статистического
ряда - ломаная линия, последовательно
соединяющая точки
[
для полигона относительных частот].
x i
Задача 1. Исследуется длина словоупотреблений в прозе Зинаиды Гиппиус. Произвольно выбран отрывок текста длиной 10 слов и подсчитано количество букв. Получены следующие данные: 1;3;2;5;1;8;6;7;7;1. Представить выборку в виде вариационного ряда, построить статистический ряд частот и относительных частот.
Решение. Объём выборки n=10.
Построим вариационный ряд: 1,1,1,2,3,5,6,7,7,8.
Статистическое распределение выборки:
-
1
2
3
5
6
7
8
3
1
1
1
1
2
1
1
2
3
5
6
7
8
0,3
0,1
0,1
0,1
0,1
0,2
0,1
3+1+1+1+1+2+1=10=n
статистический ряд частот
0,3+0,1+0,1+0,1+0,1+0,2+0,1=1
статистический ряд
относительных частот
Интервальный статистический ряд
Если генеральная совокупность является непрерывной СВ (значения выборки практически не повторяются, частота практически каждой варианты равна единице), то строится интервальный статистический ряд вида:
|
|
|
… |
|
|
|
|
… |
|
|
|
|
… |
|
где – частота попадания значений выборки в i-тый интервал;
– относительная частота попадания в i-тый интервал.
Оптимальная
ширина интервала h
определяется по формуле Стерджеса:
, начало первого интервала:
Г
рафическое
изображение интервального статистического
ряда –
гистограмма частот или относительных частот.
Гистограмма – совокупность прямоугольников с основанием равным h и высотой / h для гистограммы частот или / h для гистограммы относительных частот.
Задача 2. В ходе исследования длины китайского слога произведено 50 замеров времени звучания слогов, произнесённых дикторами-китайцами, причём длины слогов колеблются от 40 до 300мс, практически не повторяясь:
73 |
117 |
40 |
211 |
191 |
129 |
136 |
150 |
167 |
142 |
131 |
243 |
110 |
160 |
128 |
264 |
100 |
178 |
138 |
156 |
210 |
93 |
137 |
149 |
180 |
212 |
141 |
57 |
148 |
198 |
222 |
179 |
127 |
183 |
125 |
106 |
138 |
115 |
123 |
102 |
89 |
153 |
180 |
75 |
125 |
163 |
300 |
218 |
107 |
115 |
|
Решение. 1) Проранжируем полученную выборку. Получим следующий вариационный ряд: 40; 57; 73; 75; 89; 93; 100; 102; 106; 107; 110; 115; 115; 117; 123; 125; 125; 127; 128; 129; 131; 136; 137; 138; 138; 141; 142; 148; 149; 150;153;156; 160; 163; 167; 178; 179; 180; 180; 183; 191; 198; 210; 211; 212; 218; 222; 243; 264; 300.
2) Найдём оптимальную ширину интервалов
3)
Определим начало первого интервала
4) Построим интервальный ряд:
|
[20;60)
|
[60;100)
|
[100;140)
|
[140;180)
|
[180;220)
|
[220;260)
|
[260;300)
|
[300;340)
|
|
2 |
4 |
19 |
12 |
9 |
2 |
1 |
1 |
|
0,04 |
0,08 |
0,38 |
0,24 |
0,18 |
0,04 |
0,02 |
0,02 |
;
;
;
;
;
;
6) Построим гистограмму:
0,01
0,005
20 60 100 140 180 220 260 300 340 xi
