
- •Часть 1. Конспекты лекций
- •Правила комбинаторики
- •Основные понятия комбинаторики
- •1.2. Основные понятия теории вероятностей
- •Начальные понятия теории вероятностей
- •Определения вероятности событий
- •Лекция 2. Основные теоремы теории вероятностей случайных событий
- •2.1. Действия над событиями
- •2.2. Вероятность суммы событий
- •Следствия из теоремы сложения
- •2.3. Вероятность произведения событий
- •2.4. Формула полной вероятности. Формула Байеса.
- •2.5. Теорема Бернулли
- •2.6. Предельные теоремы в схеме Бернулли.
- •3. Интегральная теорема Муавра-Лапласа
- •3.1. Начальные понятия
- •3.2. Функция распределения свх f(X) (интегральная функция распределения)
- •3.3. Функция плотности вероятности нсв f(X)
- •3.4. Числовые характеристики случайных величин
- •3.5. Виды законов распределения случайных величин
- •1. Биномиальный закон распределения
- •2. Закон Пуассона
- •3. Нормальное распределение (закон Гаусса)
- •4 .Логнормальное распределение
- •3.6. Вероятность попадания нсв х в заданный промежуток
- •4.1. Система двух дискретных случайных величин (двумерная дискретная св)
- •Начальные понятия.
- •Числовые характеристики системы двух св
- •4.2. Предельные теоремы теории вероятностей
- •Закон больших чисел
- •5.1.Предмет математической статистики. Генеральная и выборочная совокупность.
- •5.2. Статистическое распределение выборки и его графическое изображение
- •5.3. Числовые характеристики статистического распределения
- •6.1. Оценка параметров генеральной совокупности по выборке
- •Свойства статистических оценок
- •Точечные оценки математического ожидания, дисперсии и вероятности.
- •Интервальное оценивание параметров.
- •Доверительные интервалы для параметров нормального распределения
- •Интервальная оценка параметров генеральной лингвистической совокупности.
- •Число степеней свободы
- •Определение минимально достаточного объёма выборки в грамматических, фонетико-фонологических и лексикологических исследованиях.
- •6.2. Проверка статистических гипотез. Исследование вероятностных свойств языка и статистики текста с помощью метода гипотез
- •Проверка лингвистических гипотез с помощью параметрических критериев
- •Проверка гипотез с помощью непараметрических критериев
- •Критерий Пирсона
- •Часть 2. Вопросы и задания для практических работ.
- •1. Элементы комбинаторики
- •Часть 3. Задания для самостоятельной работы
- •1. Графический способ.
- •2. Критерий асимметрии и эксцесса.
- •3. Критерий Колмогорова-Смирнова.
- •4. Критерий Пирсона
- •Приложение 1.1. Значения интегральной функции Лапласа
- •2.Место модуля в структуре ооп:
- •3.Краткое содержание модуля тв и мс.
- •4. Компетенции обучающегося, формируемые в результате освоения модуля тв и мс дисциплины «Основы математической обработки информации»
- •5. Структура и содержание модуля тв и мс дисциплины «Основы математической обработки информации»
Критерий Пирсона
Критерий
Пирсона – наиболее часто употребляемый
критерий для проверке гипотезы о законе
распределения. Критерий основан на
оценке отклонений эмпирических частот
ni
от теоретических
.
Выборочное значение критерия, вычисляемое
на основе выборочных данных, находится
по формуле
,
где
– теоретическая вероятность попадания
значений нормально распределённой
случайной величины в i-тый
интервал.
Пример: Статистическое распределение средних длин словоупотреблений 100 языков мира задано интеральным статистическим рядом:
|
[2,6;3,4)
|
[3,4;4,2)
|
[4,2;5,0)
|
[5,0;5,8)
|
[5,8;6,6)
|
[6,6;7,4)
|
[7,4;8,2)
|
[8,2;9,0)
|
|
1 |
9 |
28 |
32 |
19 |
4 |
3 |
4 |
Можно ли среднюю длину словоупотребления использовать в качестве статистической характеристики для различения языков мира?
Если вариационный ряд средних длин словоформ близок к нормальному распределению, то средние длины словоформ плотнее группируются вокруг средней, задаваемой возможностями оперативной памяти человека. Отклонение от этой средней в каждом конкретном языке будет рассматриваться как результат случайных воздействий.
Для проверки степени соответствия полученного статистического распределения теоретическому нормальному закону воспользуемся критерием Пирсона.
1. Сформируем основную гипотезу H0: распределение средних длин словоформ можно считать нормальным. Тогда альтернативной будет гипотеза H1: распределение средних длин словоформ существенно отличается от нормального.
2. Необходимым условием применения критерия Пирсона является наличие в каждом из интервалов не менее 5 наблюдений. Так как число наблюдений в крайних интервалах меньше 5, объединим в статистическом ряде два первых и три последних интервала:
-
Интервалы
[2,6;4,2)
[4,2;5,0)
[5,0;5,8)
[5,8;6,6)
[6,6;9,0)
частота ni
10
28
32
19
11
3. Для
дискретного статистического ряда,
значениями которого являются середины
интервалов,
определим
среднее значение выборки
;
;
и исправленное среднее квадратическое
отклонение
,
S=1,11.
4. Так как нормально распределённая случайная величина определена на (-∞;∞), заменим крайние интервалы на интервалы (-∞;4,2) и [6,6;∞):
-
(-∞;4,2)
[4,2;5,0)
[5,0;5,8)
[5,8;6,6)
[6,6;∞)
10
28
32
19
11
5.
Вычислим теоретические вероятности
попадания значений нормально распределённой
случайной величины в
полученные интервалы по формуле
где
интегральная
функция Лапласа, значения которой
находим в таблице. При выполнении
вычислений принимаем параметры
теоретического распределения равными
их оценкам, найденным по выборке, т.е.
.
Расчёты оформим в виде таблицы:
|
(-∞; 4,2) |
[4,2; 5,0) |
[5,0; 5,8) |
[5,8; 6,6) |
[6,6; ∞) |
эмпир. частота |
10 |
28 |
32 |
19 |
11 |
теор. вероятность |
0,125 |
0,212 |
0,285 |
0,229 |
0,149 |
теоретич. частота |
12,5 |
21,2 |
28,5 |
22,9 |
14,9 |
6. Вычислим
выборочное значение критерия
7.
Выберем уровень значимости α =0,05.
Рассчитаем k – число степеней свободы:
k= m-r-1, k= 5-2-1, k= 2 (r - число параметров
предполагаемого
распределения,
m
– число интервалов). По таблице
распределения
находим критическую точку (квантиль)
.
8. Так
как
<
,
то гипотеза H0
принимается, т.е. распределение средних
длин словоформ языков мира можно считать
нормальным
Ответ. Средняя длина словоформ не может считаться параметром для различения языков мира.