
4. Оценки параметров распределения. Доверительные интервалы. Проверка гипотез.
Математическая статистика – наука, служащая для обработки экспериментальных данных.
Х –
генеральный признак(фактор).
- набор значений величины Х полученный
из какого-то эксперимента или выборка
из генеральной совокупности. Какой
должна быть выборка?
Требуется, чтобы она представляла всю генеральную совокупность. Единственный способ - считать, что элементы выборки появляются случайно или независимо в соответствии с истинным по неизвестным нам законам распределения F(x) генеральной совокупности Х.
Выборка обладающая таким свойством называется репрезентативной (представительной).
Пусть
- k различных элементов
из выборки.
-
эти элементы называются варианты.
Варианты – разные элементы выборки
расположенные по возрастанию.
-число
повторений соответствующих вариантов
(частоты вариантов).
,
,
,
,
Оценка параметров распределения.
Пусть
Х имеет закон распределения F(x),
который нам известен, но в него входит
неизвестный набор параметров или
параметр θ(тэта).
,
θ – параметр.
- выборка из генеральной совокупности Х
θ* - оценка
,
- конкретные значения параметра.
- статистика - некоторая функция от
выборки, с помощью которой что-то
строится.
θ* - случ. величина.
- чем меньше разность, тем лучше оценка,
разность случайная
Оценка
определяется вероятностью, с которой
,
ε – заданное число.
чем
выше вероятность, тем оценка в принципе
лучше.
Требования к оценкам.
1. Несмещенность. θ* - несмещенная оценка, если Mθ*=θ. θ* - смещенная, при оценивании содержится некоторая системная ошибка.
2. Эффективность.
θ* - эффективная, если она имеет наименьшую возможную дисперсию, это значит, что чаще всего оценка будет мало отличаться от среднего значения.
3. Состоятельность.
θ* -
состоятельная если,
(оценка
некоторой с.в. построенная по выборке).
Если оценка соответствует этим требованиям, в среднем она лучше.
Оценка мат.ожидания.
Х –
ген. случайная величина,
- выборка из ген. совокупности. Естественная
оценка
-
среднее арифметическое выборочных
данных, среднее выборочное.
- варианты, - частоты.
В
соответствии с общим стат. признаком,
то что мы называем
мы
должны рассматривать как значение
случайной величины
,
которая вычисляется
,
где
-
независимые с.в. распределенные как
генеральная величина Х.
Сравним качество этой оценки.
1.Несмещенность.
-
несмещенная оценка.
-
несмещенная оценка
не хуже, чем оценка
.
2.Эффективность.
асимптотическая
эффективность.
Оценка
асимптотически
эффективна.
3. Состоятельность(стремление к оценке параметров п.в.)
в
силу ЗБЧ.
Оценка несмещенная, асимптотически эффективная, состоятельная, значит ей можно пользоваться.
Оценка дисперсии.
D[X] генеральная дисперсия.
(в
- выборочная) это естественная оценка
для дисперсии(левая часть равенства).
Если использовать частоты вариант, то
эта же оценка приобретает вид правой
части равенства.
1.Несмещенность.
для
простоты m – истинное мат
ожидание, m=MX.
эта оценка слегка смещенная, она будет
слегка занижать величину дисперсии.
лучше пользоваться пи больших объемах
выборки(больше 30), при малых используется
вторая оценка.
-
оценка,
- исправленная выборочная дисперсия, при малых объемах выбора лучше пользоваться ей.
На
практике
- лучше вычислять не по исходной формуле,
а по
Метод моментов.
Х – ген. выборка имеет закон распределения F(x, θ)
- выборка.
рассмотрим какой-нибудь теоретический момент(вероятностный) Х, и приравняем его к статическому анализу.
Если нам надо узнать несколько параметров,
то надо соответственно записать столько
моментов, сколько параметров и решить
полученную систему.
Примеры:
1.
,
- неизвестные, оценить их по выборке.
2.
-
требуется оценить числа a
и b имея выборки
.
Метод максимального правдоподобия.
X, F(x, θ) известен с точностью до параметра.
- выборка.
1. Х – дискретная.
Составляем
функцию
,
где
.
Функция L – функция правдоподобия и она задает вероятность, что в эксперименте будет получена выборка .
Чтобы
получить оценку для θ, надо функцию L
максимизировать.
,
θ – аргумент L.
Элементы
выборки превращаются в параметры функции
L. На практике удобнее
максимизировать не саму функцию L,
а логарифм этой функции
.
- решение этого уравнения дает нам оценку
θ. Если параметров несколько
(
),
то рассматриваются такие же, только
будет система из частных производных
,
2. Х – непрерывная с.в.
В этом случае функция L идейно составляется также, но вместо вероятностей плотность.
,
-
плотность Х, при условии, что параметр
есть θ.
Часто оценки по методу моментов и методу правдоподобия совпадают.
Пример:
Оценить параметр λ для с.в. имеющей распределение Пуассона.
,
- результат эксперимента(последовательности
испытаний)
- число успехов в бесконечной
последовательности испытаний.
- функция правдоподобия.
Оценка
- среднее выборочное. Вывод: оценкой λ
является среднее выборочное.
Интервальные оценки.
Оценки параметра θ полученные в предыдущих темах называются точечными.
Пусть θ* - некоторая точечная оценка параметра θ.
θ- θ*
- эта разность есть величина случайная,
т.к.
- функция от выборки, а выборка случайная.
,
α – называется доверительной вероятностью
или надежностью, σ характеризует точность
оценки.
- доверительный интервал- интервал, на
котором истинное θ находится с вероятностью
α. Случайным здесь является сам интервал,
отсюда интервал с заданной вероятностью
должен накрыть истинное но неизвестное
значение θ.
Задание 1.
Построение доверительного интервала для оценки мат. ожидания нормальной величины с известной дисперсией.
, σ – неизвестно.
,
Пусть
,
,
- доверительный интервал, классический
доверительный интервал.
при точность оценки возрастает (длина интервала уменьшается).
,
функция Лапласа, отсюда
Задача 2.
Посторенние доверительного интервала для оценки мат.ожидания нормальной величины с неизвестной дисперсией.
, σ – неизвестно, m- неизвестно(его надо оценить используя выборку из генеральной совокупности)
Лемма.
Пусть
одинаковые независимые случайные
величины
=>
а)
и
независимы
друг от друга
б)
Доказательство:
т.к.
дисперсия не меняется при сдвиге, можно
без ограничения общностей считать, что
мат.ожидание m=0, отсюда
,
Пусть
,
,
- некоторый коэф., положим
.
При
этом
Эти
числа можно подобрать так, что С будет
ортогональна, т.е. каждая строка-вектор
единичной длины
,
и также
Также скалярное произведение двух любых различных строк=0.
Матрица
С осуществляет преобразование системы
.
По сути ортогональное преобразование
есть поворот осей относительно начала
координат. При этом длины векторов не
меняются и сохраняются углы между
векторами, из этого следует
,
- нормальная величина с характеристиками:
,
,
,
.
Выясним, являются ли у-ки независимыми, для этого надо сосчитать ковариацию между двумя у-ми.
,
,
когда раскроем скобки, все слагаемы с
разными номерами будут иметь мат.ожидание=0
.
Вывод: Ковариация двух любых различных у-ков есть 0, некор-ть и независимость совпадают, все у-ки попарно-независимы между собой.
,
,
,
.
1. В
итоге V – есть сумма
квадратов стандартных
нормальных величин,
число слагаемых (n-1),
со
степенью свободы (n-1),
то есть
.
Число степеней свободы – число независимых
переменных. Пункт а) следует из того,
что
выражается
через
,
а
выражается через комбинацию всех у-ков
кроме
.
,
,
следовательно, эти величины независимы.
,
.
,
распределение Стьюдента,
,
т.к.
.Отсюда,
если взяли величину z она
стандартная величина нормальная.
.
z
и
:
заменяем
на S и распределение
получилось почти нормальным.
Зададимся
α точностью:
,
число
находится по таблице коэффициентов
Стьюдента при заданном α и n
(или n-1). Допустим, что
нашли
.
,
-
доверительный интервал.
Доверительный интервал для оценки дисперсии нормальной величины.
оценить σ по выборке из генеральной совокупности.
из леммы.
q находится по таблице в которой надо ввести n, α (Гмурмана).
доверительный интервал с q из таблицы Гмурмана.
,
и
находятся
по таблице распределения
с (n-1) степенями свободы
и заданной надежностью α.
Таблица критических точек распределения .
Опр. Критическая точка данного распределения – такая точка, для которой задана вероятность оказаться правее ее.
критическая точка
критическая
точка
Чаще
используется таблица
,
лучше пользоваться доверительным
интервалом для
(дисперсия).
,
,
находятся
точно так же как
,
но по таблице крит. распределения
.
Проверка статических гипотез.
Статической гипотезой будем называть утверждение либо о параметре распределения, либо о самом законе распределения.
Простые и сложные гипотезы:
Простая гипотеза содержит предложение о единственном значении параметра, а сложная о многих значениях параметра.
- простая гипотеза, (m –
мат.ожидание)
- сложная гипотеза (т.к. « > 0» это
бесконечное количество).
Если
- сложная гипотеза, обычно рассматриваются
две гипотезы:
- основная гипотеза
- конкурирующая гипотеза.
всегда противоречит , но необязательно, что является логическим отрицанием.
.
- основная гипотеза
- конкурирующая гипотеза.
Ошибки при принятии гипотез.
решение принять или .
|
|
|
|
Нет ошибки |
Ошибка I рода |
|
Ошибка II рода |
Нет ошибки |
то, что есть на самом деле (т.е. эти гипотезы верны).
Ошибка I рода – отвергнуть правильную гипотезу (пропуск цели).
Ошибка II рода – принять неправильную гипотезу (ложная тревога).
Ошибки могут иметь разные последствия.
Пример.
|
Болен |
Здоров |
Болен |
|
Принять больного за здорового |
Здоров |
Принять здорового за больного |
|
Проверка гипотез осуществляется с помощью критерия.
Критерий
- вектор = х (n-мерный случайный вектор)
- совместная плотность =
(
n-мерная плотность),
Определим критическое множество:
если
,
если
.
Вероятность
ошибки I рода – это
вероятность отвергнуть гипотезу
.
Вероятность ошибки I рода
Зафиксируем вероятность ошибки γ ошибки I рода. Число γ – уровень значимости. При фиксированном γ выбрать такое критическое множество s чтоб β была минимальной.
Определим
величину
,
если
,
то
и мы ничего не получим, если
,
то
,
W – мощность критерия s.
Максимальный по мощности критерий называется max или оптимальным критерием.
Лемма(Неймона-Пирсона).
Для двух простых гипотез оптимальный критерий существует.
Если хотя бы одна из гипотез не является простой, то max по мощности критерия обычно не существует. В этом случае пользуются равномерно наибольшим по мощности критерием.
,
s – критическое множество.
На
практике рассматривается отображение
s на некоторое множество
K:
,
К – критическое множество на прямой.
.
Основные виды критических множеств K:
Двусторонняя критическая область.
Правосторонняя критическая область.
Левосторонняя критическая область.
Опр. Точки отделяющие критические области называются критическими точками.
Окончательное правило: Если отношение большей дисперсии к меньшей больше чем критическая точка, то отвергаем. Если это отношение меньше F критической, то оснований отвергнуть у нас нет.