- •Часть 1. Конспекты лекций
- •Правила комбинаторики
- •Основные понятия комбинаторики
- •1.2. Основные понятия теории вероятностей
- •Начальные понятия теории вероятностей
- •Определения вероятности событий
- •Лекция 2. Основные теоремы теории вероятностей случайных событий
- •2.1. Действия над событиями
- •2.2. Вероятность суммы событий
- •Следствия из теоремы сложения
- •2.3. Вероятность произведения событий
- •2.4. Формула полной вероятности. Формула Байеса.
- •2.5. Теорема Бернулли
- •2.6. Предельные теоремы в схеме Бернулли.
- •3. Интегральная теорема Муавра-Лапласа
- •3.1. Начальные понятия
- •3.2. Функция распределения свх f(X) (интегральная функция распределения)
- •3.3. Функция плотности вероятности нсв f(X)
- •3.4. Числовые характеристики случайных величин
- •3.5. Виды законов распределения случайных величин
- •1. Биномиальный закон распределения
- •2. Закон Пуассона
- •3. Нормальное распределение (закон Гаусса)
- •4 .Логнормальное распределение
- •3.6. Вероятность попадания нсв х в заданный промежуток
- •4.1. Система двух дискретных случайных величин (двумерная дискретная св)
- •Начальные понятия.
- •Числовые характеристики системы двух св
- •4.2. Предельные теоремы теории вероятностей
- •Закон больших чисел
- •5.1.Предмет математической статистики. Генеральная и выборочная совокупность.
- •5.2. Статистическое распределение выборки и его графическое изображение
- •5.3. Числовые характеристики статистического распределения
- •6.1. Оценка параметров генеральной совокупности по выборке
- •Свойства статистических оценок
- •Точечные оценки математического ожидания, дисперсии и вероятности.
- •Интервальное оценивание параметров.
- •Доверительные интервалы для параметров нормального распределения
- •Интервальная оценка параметров генеральной лингвистической совокупности.
- •Число степеней свободы
- •Определение минимально достаточного объёма выборки в грамматических, фонетико-фонологических и лексикологических исследованиях.
- •6.2. Проверка статистических гипотез. Исследование вероятностных свойств языка и статистики текста с помощью метода гипотез
- •Проверка лингвистических гипотез с помощью параметрических критериев
- •Проверка гипотез с помощью непараметрических критериев
- •Критерий Пирсона
- •Часть 2. Вопросы и задания для практических работ.
- •1. Элементы комбинаторики
- •Часть 3. Задания для самостоятельной работы
- •1. Графический способ.
- •2. Критерий асимметрии и эксцесса.
- •3. Критерий Колмогорова-Смирнова.
- •4. Критерий Пирсона
- •Приложение 1.1. Значения интегральной функции Лапласа
- •2.Место модуля в структуре ооп:
- •3.Краткое содержание модуля тв и мс.
- •4. Компетенции обучающегося, формируемые в результате освоения модуля тв и мс дисциплины «Основы математической обработки информации»
- •5. Структура и содержание модуля тв и мс дисциплины «Основы математической обработки информации»
Число степеней свободы
Число степеней свободы определяет то количество сведений, которое остаётся свободным после использования всей совокупности сведений для определения некоторой статистической характеристики.
Фиксирование
объёма выборки и суммирование её значений
накладывает на совокупность сведений
одну линейную связь (всегда можно
вычислить любое значение выборки, если
другие значения известны и известно
).
Значит число степеней свободы ν=n-1.
В
биномиальном распределении и в
распределении Пуассона учитываются 2
связи: одна связь, которая возникает
при суммировании частот, вторая – связь,
которая образуется при определении
теоретических параметров распределения
(р
– при биномиальном и а
для распределения Пуассона). Здесь число
степеней свободы ν=n-2.
При нормальном распределении ν=n-3,
т.к.число параметров нормального
распределения равно двум (
).
Определение минимально достаточного объёма выборки в грамматических, фонетико-фонологических и лексикологических исследованиях.
Величина
абсолютной ошибки, которая допускается
при использовании относительной частоты
события А вместо его вероятности, равна
,
отсюда
.
Эта формула применяется при исследованиях употребительности грамматических, фонетических и фонологических единиц, которые обычно дают нормальное распределение и вероятность которых не очень мала.
Пример.
По данным предварительного исследования
относительная частота употребления
мягких согласных фонем в украинских
драматургических текстах равна 0,0828.
Необходимо, при заранее заданных
максимальной абсолютной ошибке
и надёжности
определить минимально достаточный
объём выборки для получения достоверных
сведений об употребительности мягких
согласных фонем в украинских
драматургических текстах. [Пиотровский,
1977, c.
293]
Подставляя
данные в формулу
,
получаем
Ответ: объём выборки должен быть больше 60 тыс. фонем.
В ходе
лексикологических
исследований нужно принять во внимание,
что относительные частоты лексических
единиц обычно очень малы, следовательно
разности
близки к 1 и
.
Пример.
Относительная частота словосочетания
split
cylinder
«разрезной цилиндр» в английских текстах
по строительным материалам составляет
0,000175. Необходимо определить минимально
достаточный объём выборки, удовлетворяющий
надёжности 0,95 и 33% относительной ошибке
.
Следовательно, объём выборки должен
быть не менее 202190 словоупотреблений.
6.2. Проверка статистических гипотез. Исследование вероятностных свойств языка и статистики текста с помощью метода гипотез
Одна из основных задач применения статистических методов в языкознании состоит в решении вопроса о том, можно ли на основании выборки принять некоторое предположение (гипотезу) относительно генеральной лингвистической совокупности.
Статистические гипотезы
Статистическая гипотеза – всякое предположение о генеральной совокупности, проверяемое по выборке. Гипотезу нельзя доказать, её можно только принять или опровергнуть.
Проверкой статистических гипотез называется процедура сопоставления статистической гипотезы с выборочными данными.
Простая гипотеза –об одном значении параметра, в противном случае - сложная гипотеза.
Выделяют гипотезы : – основная или нулевая гипотеза H0 и
H1- альтернативная гипотеза - логическое отрицание гипотезы H0.
Например, H0: М(Х1)=М(Х2), т.е. различие средних значений двух совокупностей не значимо.
Тогда H1: М(Х1)≠М(Х2) – различие средних статистически значимо.
Параметрические гипотезы – о параметрах распределения генеральной совокупности.
Непараметрические гипотезы – о неизвестном законе распределения генеральной совокупности.
Статистический критерий
Статистический критерий – правило, которое применяется для проверки гипотез.
Статистический критерий включает в себя:
– формулу расчёта эмпирического критерия по выборочным данным;
– формулу для определения числа степеней свободы;
– теоретическое распределение для данного числа степеней свободы;
– правило соотнесения эмпирического значения критерия с теоретическим распределением для определения вероятности того, что H0 верна.
Принцип проверки статистических гипотез
Проверка
статистической гипотезы заключается
в следующем. Множество возможных значений
статистического критерия
разбивается точкой
на
два непересекающихся подмножества:
критическую область
(область
отклонения гипотезы H0)
и
(область
принятия гипотезы H0)
H0 H1
Если
значение критерия, определённого по
выборке,
попадает в критическую область
,
то гипотеза H0
отвергается, и принимается альтернативная
гипотеза H1,
если
попадает
в
,
то гипотеза H0
принимается.
Ошибки при проверке гипотез
При проверке гипотез могут быть допущены ошибки.
-
Гипотеза
Отвергается
Принимается
Верна
неверна
ошибка 1-го рода ( α)
правильное решение
правильное решение
ошибка 2-го рода (β)
-
вероятность
ошибки 1-го рода – уровень
значимости.
Обычно α=0,05; 0,01; 0,005; 0,001.
– вероятность
ошибки 2-го рода;
– мощность
критерия.
При испытании гипотез часто избежать одной из двух допустимых ошибок важнее, чем допустить другую. В этом случае ошибкой первого рода считается та из возможных ошибок, которую нам важнее избежать. Следовательно, нулевой гипотезой следует считать то предположение, отвержение которого в том случае, когда оно является истинным, приводило бы к ошибке первого рода. Пример. Имеется программа машинного перевода текстов военно-оперативной тематики с одного языка (язык противника или союзника) на другой. Качество программы проверяется экспериментально с помощью выборки. Можно сформулировать две гипотезы: первая – «программа пригодна и её можно принять на вооружение» и вторая – «прграмма непригодна для качественного перевода и её надо отвергнуть»
Если за H0 принять первую гипотезу, то ошибка 1-го рода будет заключаться в том, что программа пригодна, а её отправят на доработку, чем потеряют время и средства.
Если же за H0 принять вторую гипотезу, то ошибка 1-го рода будет заключаться в том, что программа непригодна, а её примут на вооружение, что может привести к срыву военной операции. Понятно, что за H0 следует принять вторую гипотезу, т. к. ошибка 1-го рода в случае её непринятия, более серьёзна.
