
- •Выборки упорядочены.
- •Выборки упорядочены.
- •Пример:
- •Непрерывные случайные величины
- •2) Теоремы Муавра-Лапласа(без док-ва)
- •Метод наименьших квадратов
- •Метод моментов
- •Метод наибольшего правдоподобия
- •Доверит. Интервал для a при известном параметре σ.
- •Доверит. Интервал для a при неизвестном параметре σ.
- •Постановка задачи.
- •Теорема Неймана-Пирсона.
Постановка задачи.
Относительно параметра θ имеется некоторая основная или, или проверяемая гипотеза H0 : θ Θ. Мы должны построить такой статистический критерий, который позволяет заключить, согласуется ли выборка x1, x2,…xn с гипотезой H0 , или нет.
Обычно критерий строится с помощью критического множества. Из n – мерного множества всех возможных значений (x1, x2,…xn) выделяется такое подмножество S, называемое критическим, что при (x1, x2,…xn) S гипотеза отвергается, а в пртивоположном случае — принимается. Полученный с помощью критического множества S статистический критерий иногда называют S-критерием.
Мы будем рассматривать главным образом две основные гипотезы:
H0: p(x)= p(x, θ0) — основная гипотеза;
H1: p(x)= p(x, θ1) — альтернативная гипотеза.
Есть задачи, в которых H0 и H1 — равноправны. Однако очень часто в реальных задачах эти гипотезы выступают наравнопрвно.
Уровень значимости и мощность критерия.
Рассмотрим две простые гипотезы: проверяемую H0: θ = θ0, и конкурирующую H1: θ = θ1. С каждым S-критерием связаны ошибки двух родов. Ошибка 1-го рода — отвержение гипотезы H0, когда она верна; ошибка 2-го рода — принятие H0, когда верна конкурирующая гипотеза H1. Обозначим
Тогда
вероятность ошибки первого рода
S-критерия
равна
,
а вероятность ошибки второго рода равна
.
В самом деле пусть гипотеза H0-верна,
тогда θ = θ0.
Гипотеза H0—
отвергается, если (x1,
x2,…xn)
S.
Вероятность
этого равна
.
Вероятность ошибки второго рода равна
,
где
,
—
множество значений (x1,
x2,…xn).
Опр:
Вероятность
ошибки первого рода α называется уровнем
значимости
S-критерия.
Функция
аргумента θ
называется
функцией мощности S-критерия.
Из
определений следует, что
Отсюда видно, что чем больше мощность
в точке θ1,
тем меньше
вероятность ошибки второг рода.
Параметрические критерии для распознавания двух простых гипотез H0 и H1 строят следующим образом. Сначала задается уровень значимости α, затем из множества Sα всех S-критериев с уровнем значимости α выбирается критерий S*, для которого мощность при θ = θ1 принимает наибольшее значение, т.е.
Такой критерий называется оптимальным или наиболее мощным.
Теорема Неймана-Пирсона.
Для
любого 0≤α≤1
существует число С
такое, что
,
тогда
и эта вероятность минимальна среди
всех критериев с уровнем значимости
α.
№25 Построение оптимального критерия для проверки гипотез о параметрах нормального распределения.
Проверка гипотезы о предполагаемом законе неизвестного распределения производится так же, как и проверка гипотезы о параметрах распределения, т. е. при помощи специально подобранной случайной величины— критерия согласия.
Критерием согласия называют критерий проверки гипотезы о предполагаемом законе неизвестного распределения.
Имеется
несколько критериев согласия:
(«хи квадрат») К. -Пирсона, Колмогорова,
Смирнова и др. Ограничимся описанием
применения критерия Пирсона к проверке
гипотезы о нормальном распределении
генеральной совокупности (критерий
аналогично применяется и для других
распределений, в этом состоит его
достоинство). С этой целью будем
сравнивать эмпирические (наблюдаемые)
и теоретические (вычисленные в
предположении нормального распределения)
частоты.
Обычно эмпирические и теоретические частоты различаются. Например
эмп. частоты .... .6 13 38 74 106 85 30 10 4
теорет. частоты... 3 14 42 82 99 76 37 11 2
Случайно ли расхождение частот? Возможно, что расхождение случайно (незначимо) и объясняется либо малым числом наблюдений, либо способом их группировки, либо другими причинами. Возможно, что расхождение частот неслучайно (значимо) и объясняется тем, что теоретические частоты вычислены исходя из неверной гипотезы о нормальном распределении генеральной совокупности.
Правило. Для того чтобы при заданном уровне значимости проверить нулевую гипотезу Н0. генеральная
совокупность распределена нормально, надо сначала выделить теоретические частоты, а затем наблюдаемое значение критерия:
(**)
по
таблице критических точек распределения
χ2,
по сданному уровню значимости а и числу
степеней свободы k=s—3
найти критическую точку
Если
<
—нет
оснований отвергнуть нулевую гипотезу.
Если > —нулевую гипотезу отвергают.
Замечание 1. Объем выборки должен быть достаточно велик, во всяком случае .не менее 50. Каждая группа должна содержать не менее 5—8 вариант; малочисленные группы следует объединять в одну суммируя частоты.
Замечание 2. Поскольку возможны ошибки первого и второго рода, в особенности если согласование теоретических и эмпирических частот «слишком хорошее», следует проявлять осторожность. Например, можно повторить опыт, увеличить число наблюдений, воспользоваться другими критериями, построить график распределения, вычислить асимметрию и эксцесс (см. гл. XVII, § 8).
Замечание 3. Для контроля вычислений формулу (**) преобразуют к виду
№26 Непараметрические критерии: Критерий согласия Пирсона (описание).
Возможно, что расхождение частот неслучайно (значимо) и объясняется тем, что теоретические частоты вычислены исходя из неверной гипотезы о нормальном распределении генеральной совокупности
Критерий Пирсона отвечает на поставленный выше вопрос. Правда, как и любой критерий, он не доказывает справедливость гипотезы, а лишь устанавливает на принятом уровне значимости ее согласие или несогласие с данными наблюдений.
Итак, пусть по выборке объема п получено эмпирическое распределение:
варианты ……. хi х1 х2 … хs
эмп. частоты... пi п1 п2 ... пs
Допустим, что в предположении нормального распределения генеральной совокупности вычислены теоретические частоты п'i (например, так, как в следующем параграфе). При уровне значимости а требуется проверить нулевую гипотезу: генеральная совокупность распределена нормально.
В качестве критерия проверки нулевой гипотезы примем случайную величину
(*)
.Эта величина случайная, так как в различных опытах она принимает различные, заранее не известные значения. Ясно, что чем меньше различаются эмпирические и теоретические частоты, тем меньше величина критерия (*), и, следовательно, он в известной степени характеризует близость Эмпирического и теоретического распределений.
Заметим,
что возведением в квадрат разностей
частот устраняют возможность взаимного
погашения положительных и отрицательных
разностей. Делением на
достигают уменьшения каждого из
слагаемых; в противном случае сумма
была бы настолько велика, что приводила
бы к отклонению нулевой гипотезы даже
и тогда. когда она справедлива. Разумеется,
приведенные соображения
не являются
обоснованием выбранного критерия,
а лишь пояснением.
Доказано, что при п—>∞ закон распределения случайной величины (*) независимо от того, какому закон распределения подчинена генеральная совокупность, стремится к закону распределения χ2 с k степенями свободы Поэтому случайная величина (*) обозначена через χ2, :
сам критерий называют критерием согласия «хи квадрат»
Число степеней свободы находят по равенству k == s—1—г, где s—число групп (частичных интервалов выборки; г—число параметров предполагаемого распределения, которые оценены по данным выборки.
В частности, если предполагаемое распределение—нормальное, то оценивают два параметра (математическское ожидание и среднее квадратическое отклонение), поэтому г =2 и число степеней свободы k==s—1—r =s—1—2=
=s—3.
Если, например, предполагают, что генеральная совокупность распределена по закону Пуассона, то оценивают один параметр К, поэтому г==1 и k=s—2.
Поскольку односторонний критерий более «жестко» отвергает нулевую гипотезу, чем двусторонний, построим правостороннюю критическую область, исходя из требования, чтобы вероятность попадания критерия в эту область в предположении справедливости нулевой гипотезы была равна принятому уровню значимости а:
.
Таким
образом, правосторонняя критическая
область определяется неравенством
,
а область принятия нулевой
гипотезы—неравенством
.
Обозначим
значение критерия, вычисленное по
данным наблюдений, через
и сформулируем правило проверки нулевой
гипотезы.
№27 Понятия о дисперсионном анализе. Теорема Фишера (без доказательства). Критерий Фишера.
Пусть генеральные совокупности Х1,Х2, . • ., Хр распределены нормально и имеют одинаковую, хотя и неизвестную, дисперсию; математические ожидания также неизвестны, но могут быть различными. Требуется при заданном уровне значимости по выборочным средним
проверить нулевую гипотезу Н0:М (Х1) = М (Х2) ==...=М (Хр) о равенстве всех математических ожиданий. Другими словами, требуется установить, значимо или незначимо различаются выборочные средние. Казалось бы, для сравнения нескольких средних (р > 2) можно сравнить их попарно. Однако с возрастанием числа средних возрастает и наибольшее различие между ними: среднее новой выборки может оказаться больше наибольшего или меньше наименьшего из средних, полученных до нового опыта. По этой причине для сравнения нескольких средних пользуются другим методом, который основан на :равнении дисперсий и поэтому назван дисперсионным анализом (в основном развит английским статистиком Р. Фишером).
На практике дисперсионный анализ применяют, чтобы ; становить, оказывает ли существенное влияние некоторый качественный фактор F, который имеет р уровней F1, F2.. ., Fр на изучаемую величину X. Например, если требуется выяснить, какой вид удобрений наиболее эффективен для получения наибольшего урожая, то фактор F—удобрение, а его уровни—виды удобрений.
Основная идея дисперсионного анализа состоит в сравнении «факторной дисперсии», порождаемой воздействием фактора, и «остаточной дисперсии», обусловленной случайными причинами. Если различие между этими дисперсиями значимо, то фактор оказывает существенное влияние на X; в этом случае средние наблюдаемых значений на каждом уровне (групповые средние) различаются также значимо.
Если уже установлено, что фактор существенно влияет на X, а требуется выяснить, какой из уровней оказывает наибольшее воздействие, то дополнительно производят попарное сравнение средних..
Иногда дисперсионный анализ применяется, чтобы установить однородность нескольких совокупностей (дисперсии этих совокупностей одинаковы по предположению; если дисперсионный анализ покажет, что и математические ожидания одинаковы, то в этом смысле совокупности однородны). Однородные же совокупности можно объединить в одну и тем самым получить о ней более полную информацию, следовательно, и более надежные выводы.
В более сложных случаях исследуют воздействие нескольких факторов на нескольких постоянных или случайных уровнях и выясняют влияние отдельных уровней и их комбинаций (многофакторный анализ).