
- •Теория вероятности Лекция№1 Случайные события
- •Операции над событиями
- •Виды случайных событий
- •Лекция №2 Вероятность событий
- •Лекция 4. Схема Бернулли
- •Лекция 5Приближенные ассимитрич формулы для схемы Бернули
- •Лекция 7. Числовые хар-ки с.В.
- •Лекция 8.Основные законы распределения дсв
- •Лекция 9. Основные законы распределения нсв.
- •Лекция 10. Функция от св. МногомерныеСв.
- •Лекция 11. Выборка
Лекция 11. Выборка
Пусть треб-ся изучить совок-ть однородных объектов отн-но некоторого качест-го или колич-го признака, харак-щего эти объекты.
Для изучен. некоторого признака совок-ти обьектов примен-т 2 вида обслед-ний:
1. Сплошное- изуч-ся все обьекты совок-ти. и 2. Выборочное (выборный метод)- изуч-ся часть обьекта совок-ти, а выводы распростр-ся на всю совок-ть обьектов.
Опр1. Генеральной совокупностью назыв. совок-ть всех однород-х обьектов, подлежащих изучению.
Замечание!!!Часто под генер-ной совок-тью поним-т иследованую СВ.
Опр2. Выборочной совокупностью или выборкой назыв. совок-ть обьектов, случайно отобраных из генер-ной совок-ти.
Опр3. Обьектом совок-ти(генер-ной или выборочной)назыв. число ее обьектов.
Типы выборок.
1. Повторная - отобраный обьект возвращается.
2. Безповторная - отобрн. обьект не возвращается.
Опр4. Выборка назыв. репрезентативной ( представленной), если она достаточно хорошо воспроизводит генер-ную совок-ть.
Опр5. Различные значения признака (СВ Х) назыв. вариантами и обознач. -х, а последовательтность вариант, записаных в возраст-м порядке назыв. вариантционным рядом.
Пусть выборка объема n содержит k различ. знач. ( вариант): х1, х2,...,хk.
Причем знач. х1 повторяется в выборке n1 раз, х2-n2,....xk-nk раз.
Опр6. Число Ni появлений значения Xi в выборке назыв. частотой значения Хi, а отнош. Wi=Ni/N - относительной частной этого значения.
Опр7. Статистич. распределением (или статис-м рядом) выборки назыв. табл., в верх. строке которой указано значен. выборки, а в нижней соответствующие им частоты или относит-ые частоты.
Аналог
в теории вер-ти - ряд распределения.
Опр8. Полигоном относительных частот выборки назыв. ломанная в верш. в точках(Xi;Wi). Аналог в теории – многоуг. распределения.
Опр9. Групированым статис-м рядом выборки назыв. табл., в верх строке которой указаны интер-лы(либо их границы), а в нижней - соответ-щие им относительн. частоты.
Замечание! В качестве относит-ной частоты, соответ-щей итервалу, принимаюит сумму относит-х частот тех значений выборки, которые попали в этот интервал. Обычно интервалы берут одинаковой длины.
Замечание! Группир. ряд используется в тех случаях, когда число различных элементов выборки, т.е. число вариантов достаточно велико.
Опр10. Гистограммой назыв. графическое изображ. группир-го статистического ряда выборки.
Замечание!Для построения гистограммы по оси Ох откладыв. интервалы группир-го ряда и строят на каждом интервале как на основании прямоугольник, высотой Wi
Опр11. Эмпирическая функция распределения назыв. функцию F*(x), определенную формулой F*(x)=Exi<x Wi, где суммируются относительные частоты Wi тех значений Xi из выборки, которые меньше х.
Замечание. При большем обьеме выборки эмпирич-кая функция распредел. F*(x) будет близкой к неизвестной теоретической функции распределения F(x) наблюдаемой СВ Х.
Опр12. Выборочной
средней –х
назыв. среднее арифметическое значение
выборки. -х=1/n
(
явл-ся оценкой для матем-го ожидания
СВ Х)
Замечание! Если
выборка представ-на статистич рядом
то: -x=1/n*
Опр13. Выборочной
дисперсией D* (или S2)
назыв среднее арифмит-кое квадратов
отклонения значений выборки от выборочной
средней D*=1/n
(явл-ся
оценкой для дисперсии СВ Х)
Замечание. Если
выборка представлена статистич-м рядом,
то: D*=1/n
2
*ni=1/n*
-(-x)2
Опр14. Выборочным СКО назыв. квадр. Корень из выбор-ной дисперсии:
.
Лекция 12. Оценка паарметров распределения.
Пусть требуется изучит колич-ный признак Х генеральной совок-ти ( СВ Х) допустим, что из теорит-х соображений нам удалось установить сам вид з-на распред-ния ( нормальный , показательный и т.д.), но остается неизвестным один или несколько параметров распр-ния, например это параметр Y в распределении Пуассона. Таким образом для окончательного установления з-на распределения нам необходимо "Оценить", т.е. " Приближенно определить значение параметра распр-ния по некоторой выборке х1,х2,...,хn/
Замечание! Элементы выборки х1,х2,,..,,хn можно рассматривать как частные значения n независимых СВ Х 1,Х2,..,Хn каждое из которых имеет точно такой же з-н распределения, как и сам признак Х. Это объясняется тем, что различные серии опытов выборки будут различными.
Обознач. неизвестные параметры ч\з Q.
Опр1. Оценкой Qn
или
Tn параметра
Q назыв. любая функция от рез-тов наблюдения
над СВ Х, т.е.
(X1,X2,…,Xn).
Замечание. Поскольку X1,X2,…,Xn – СВ, то и оценка -Qn в отличие от оцениваемого параметра Q является СВ.
Опр2. Оценка -Qn параметра Q назыв. несмещенной, если ее МО равно оцениваему параметру, т.е. M(-Qn)=Q. В противном случае оценка назыв. смещенной.
Замечание. Требование несмещенности гарантирует отсутствие систематич. ошибок при оценивании.
явл-ся несмещ. оценкой для
Опр3. Оценкой Qn параметра Q наз. состоятельной, если она удовлетворяет закону больших чисел, т.е.
для люб.
>0
Опр4. оценка -Qn параметра Q назыв. эффективной, если при заданном объеме выборки она имеет наименьшую дисперсию,т.е. D(-Qn)=Dmin
Оценка определяемая одним числом назыв. точечной, при выборке малого обьема точечная оценка может существенно отличаться от истинного значения неизвестного параметра, вследствие этого пользуются " интервальными" оценками, которые опред-ся двумя числами, а именно концами интервала.
Обозначим точность
оценки ч\з
,
тогда
.
Опр5! Доверительной
вероятностью или
надежностью оценки
Qn параметра Q назыв. вероятность
,
с которой осуществляется неравенство
,
Заменив нер-во
равносильным ему двойным неравенством
Qn-
получим
.
Это соотношение следует понимать так:
вероятность того, что интервал
заключает в себе (покрывает) неизвестный
параметр Q=
Опр6. Интервал ,который покрывает неизвестный параметр Q с заданной надежностью назыв. доверительным интервалом.
Замечание! Обычно надежность задается заранее, значением близким 1.( 0,95;0,98..)
Пусть колич-ный
признак Х генеральной совок-ти СВ Х
имеет нормальное распределение с
параметрами
т.еX
Предположим, что
в рез-те наблюдения рад признаком Х,
получена некоторая выборка х1,х2...хn,
тогда: 1. доверительный интервал для Мо,
(
),
при известном (
)
имеет вид
Ф
где
Ф(U
)-
ф-ция распределения нормиров. распред.
(табулированного)
- надежность
2) !
Доверит. интервал для Мо,
при неизменном
имеет вид ( x-t
*S/
;x+t
*S/
)
3) Доверит интервал для дисперсии ( 2) имеет вид ( (n-1)S2/U2 ; (n-1)S2/u1)
n- обьем
S2- исправ дисперсия
U1 и U2(U2>U1) находятся из табл заданной надежности (хи квадрат распределения Пирсона)
Лекция 13. Статистические гипотезы.
Статистич гипотезой наз-ся любое предположение о виде или параметрах неизв закона распред-я Н,Н0,Н1…простая гипотеза в отличие от сложной полностью опред теоретич ф-ю распред-я СВ.
Проверяемую гипотезу наз нулевой и обозн Н0. Конкурирующей(альтерн) наз гипотезу Н1,которая противоречит нулевой.
Гипотезу проверяют на основании выборки,сделанной из генер сов-ти. Из-за случайности выборки в рез-те проверки м возникать ошибки 2х видов: 1)I рода (отвергнута гипотеза Н0,в то время,когда она верна 2)II рода (принята гипотеза Н0,в то время,когда она неверна.
Правило,по *ому гипотеза Но отвергается или приним наз-ся статическим критерием или критерием.
Обозн. α-вер-ть ошибки Iрода,β-вер-ть ошибки IIрода. Вер-ть α наз-ся уровнем значимости критерия.Вер-ть 1-β наз-ся мощностью критерия.
В основе любого стат критерия лежит использ-е спец подобранные ф-и выборки,наз статистикой. Õn= Õn(Х1,Х2…Xn)
Когда статистика выбрана,мн-во ее возможных зн-й разбивают на 2 непересек подмн-ва:
1)Обл-ть принятия гипотезы (допустимая обл-ть)-подмн-во знач-й статистики,при *ых гипотеза Но приним-ся.
2)Критическая обл-ть (W)-подмн-во знач-й статистики,при *ых гипотеза Но отвергается.
Осн. принцип проверки стат гипотез. Если наблюдаемое зн-е статистики Õn принадл критич обл-ти,то гипотезу отвергают. Если оно принадл обл-ти принятия гипотезы,то гип приним.
Виды критич обл-тей. В зав-ти от вида альтерн гипотезы выбирают правостор,левостор,двустор. критич обл-ть.1)Для правостор критич обл-ти P{Õn>θкр}=α 2)Для левостор критич обл-ти P{Õn<θкр}=α 3)Для двустор критич обл-ти P{Õn<θкр1}=P{Õn>θкр2}= α/2
Проверка гипотезы по зн-ю неизв параметра норм распред-я
Гипотеза о среднем.
Пусть СВ Х распред по норм закону СВ Х
Е N(μ,σ),где
μ неизв.Требуется при уровне значимости
α проверить гипотезу Но={μ=μ0число}.
Предполож,что σ известно,тогда в кач-ве
статистики критерия использ СВ
Z=(
-μ0)*√n/σ
Е N(0,1).
При этом 1)если
Н1={ μ< μ0}то
использ левостор W,*ая
удовл условию P{Z<-zα}=α,где
zα
нах-ся из ур-я Ф(zα)=1-α,где
Ф(x)-ФР
нормир норм распред-я 2)
если Н1={ μ>μ0},то
использ правостор W,*ая
удовл условию P{Z>zα}=α,
где zα
нах-ся из ур-я Ф(zα)=1-α
3)если
Н1={ μ≠μ0},то
использ двустор W,*ая
удовл условию P{!Z!>zα}=α,
где zα
нах-ся из ур-я Ф(zα)=1-α/2
З.Если
σ неизв,то в кач-ве статистики использ
СВ t=(
-
μ0)√n
/S,*ая
имеет распред-е Стьюдента с числом
степеней свободы n-1,где
n-V
выборки. Критич обл-ти опред так же,как
и при известном σ,но вместо норм распред-я
исп-ся таблицы распред Стьюдента.
Гипотеза о дисперсии. Пусть СВ Х распред по норм закону с парам μ и σ. СВ Х Е N(μ,σ),где σ неизв. Нужно при уровне значимости α проверить гипотезу Но={σ2=σ20число}. Тогда в кач-ве статистики критерия использ СВ χ2=(n-1)S2/σ20. Для опред W использ таблицы χ2-распред-я (распред Пирсона).
1.если H1={δ 2 <δ2 0} , то исп левостор критическая область, а критич значение X£ определяется по табл из условия P{ χ2 >X£}= 1 -£
2если H1={ δ 2 >δ2 0} то исп правостор критическая область, а критич значение X£ определяется по табл из условия P{ χ2 >X£}= £
3если H1={ δ 2 ≠ δ2 0} то исп духсторонняя критическая область, а критич значение X£ ‘ и X£ “ определяется по табл из условия P{ χ2 >X£ “}= £/2
P{ χ2 >X£ ‘}= 1 - £/2
Лекция 16. Закон больших чисел
Предварительные замечания
Как известно, нельзя точно предсказать какое возможное значение примет СВ в результате испытания, между тем оказывается, что при некоторых весьма общих условиях суммарное поведение достаточно больш. числа СВ почти утрачивает случайный характер и может быть предсказанным с большой степенью определенности. Эти условия и указываются в теоремах, которые носят общее название закона больших чисел.
Закон больших чисел.
Лемма Чебышева:
если СВ Х
принимают только неотрицательные
значения и имеют МО, то для любого числа
справедливо неравенство:
Доказательство: Введем в рассмотрение новую СВ:
Y= {0, <=x<E
{E, x>=E
При этом будет
верно неравенство:
.
Следовательно
).
Найдем ряд распределения CВ
У.
Yi 0 E
Pi P{0<=x<E} P{x>=E}
Найдем МО СВ Y. отсюда и неравенства (*) получаем,
M(Y)=0* P{0<=x<E}+E* P{x>=E}
EP{x>=E}<=M(x) следов P{X>=E}<=M(x)/E
Теорема 1: (неравенство Чебышева)
Для любой СВ Х,
имеющей МО и дисперсию, справедливо
неравенство
Доказательство:
Введем в
рассмотрение новую СВ: Y=[XM(X)]
так как СВ Y>=0,
то по Лемме Чебышева получаем:
или,
что тоже самое:
с другой стороны
тогда неравенство
(*) примет вид:
Следствие:
Поскольку
события
противоположны, то неравенства Чебышева
можно записать в виде:
Теорема 2:
(теорема Чебышева) Если СВ
попарно
независимы и
где
С – некоторая постоянная, то при любом
справедливо
равенство:
Доказательство:
Введем в
рассмотрение новую СВ
найдем МО и оценку дисперсии СВ Х: 1
Запишем неравенство Чебышева в формуле (1) для СВ Х: 2
Зам: (смысл теоремы
Чебышева):
При большом числе n
СВ
практически достоверно, что их средняя
хотя
есть величина случайная, но она сколь
угодно мало отличается от неслучайной
величины
,
то есть практически перестает быть
случайной.
Зам!: т. Ч-ва является наиболее общим законом больших чисел, а теорема Бернулли, рассматр-ая ниже, простейшим.
Т3: (теорема
Бернулли):
Пусть
число
успехов в n
испытаниях Бернулли и р - вероятность
появления успеха в каждом испытании,
тогда при любом числе
справедливо равенство:
Доказательство:
Воспользуемся
след. представлением для СВ
:
,
где
-
это ДСВ, означающая число появления
успеха в i-ом
испытании (i=1,2,3,….,n).
Т. к. испытания Бернулли повторны и
независимы, то СВ
(i=1,2,,….,n)
будут попарно независимы и одинаково
распределены, то есть будут иметь
одинаковый ряд распределения. Находим
МО и дисперсию. Т.о. дисперсии СВ
(i=1,2,…,n)
ограничены одной величиной, а значит к
этим CD
можно применить т. Ч-ва.
Центральная, предельная теорема.
Теорема 4: (центральная, предельная теорема).
Если
независимые СВ, имеющие одно и тоже
распределение с МО и дисперсией
,
то при неограниченном возрастании n,
закон распределения суммы Х=
,
неограниченно приближается к нормальному.
Лекция №14 Статистические гипотезы (часть2)
Гипотеза о равенстве средних значений двух ГС
На практики часто встречается случай , когда средний результат одной серии э-ов отлич от сред рез-та другой серии. При этом возник ? можно ли объяснить расхождение неизб случайными ошибками или этовызвано некоторыми закономерностями.
Формулировка задачи: Пусть заданы 2 ГС с нормальным распределением: X1€N(μ1σ1)
X2€N(μ2σ2)
предположим, что σ21 и σ22 неизвестны, но равны, Требуется при уровне значимости гамма проверить гипотезу о равенстве средних значений: Н0={μ1=μ0}
Предположим, что для проверки Н0 из обеих ГС сделаны независимые выборки с параметрами:
I-выборка n1, x1, S12; II-выборка n2, x2, S22. Здесь: n1-объем I-ой выборки; х1-выборочное среднее для I-ой выборки; S12-исправленная дисперсия для I-ой выборки и т. д.
В качестве статистики критерия проверки нулевой гипотезы возьмем СВ:
t=x1- x2/ √(n1-1)S12+(n2-1)S22/n1+n2-2 (1/n1+1/n2)
Если гипотеза Н0 верна, то t имеет распределение Стьюдента с числом степеней свободы n1+n2-2. Критическая область W определяется в зависимости от вида альтернативной гипотезы Н1 (μ1<μ2;μ1>μ2;μ1≠μ2)
с помощью распределения (табл. распр. Стьюдента)
Проверка гипотезы о законе распределения
Раньше мы предполагали, что закон распределения ГС (СВ Х) известен, а неизвестны лишь один или несколько его параметров. Однако, часто возникает ситуация когда сам закон распределения ГС (СВ Х) неизвестен. В связи с этим возникает задача установления теоретического закона распределения ГС (СВ Х). По опытным данным т. е. по выборке допустим, что из каких-либо соображений мы делаем предположение, о том, что изучаемая ГС (СВ Х) имеет вполне конкретное распределение выраженное например через ФР F(х). Назовем это распределение теоретическим, тогда перед нами возникает задача проверки гипотезы: Н0={ГС (СВ Х) имеет ФР F(x)}.
Сделаем выборку х1,х2,...,хn из ГС по выборке можно найти эмпирическую ФР F*(x).
В полне очевидно, что теоретическая и эмпирическая ФР различаются между собой. Естественно возникает вопрос объясняется ли это различие только обстоятельствами связанными с малым объемом выборки или оно является существенным и связанно с тем, что теоретический закон распределения ФР F(x) выбран неудачно. Для ответа на этот вопрос и служат критерии согласия.
ОПР1: Критерии согласия наз. критерий проверки гипотезы о предполагаемом законе неизвестного распределения.
Имеется несколько критериев согласия: χ2 -Пирсона, Колмогорова, Смирнова и т. д.
Мы рассмотрим только критерий χ2 -Пирсона, поскольку он чаще других применяется на практике.
Рассмотрим задачу проверки гипотезы: Н0={ГС (СВ Х) имеет ФР F(x)}. По выборке х1,х2,...,хn на основе использования критерия согласия χ2 -Пирсона, с этой целью выполним след. действия:
1) разобъем всю область изменения изучаемой ГС на k- интервалов. Они могут иметь различную длину.
2) найдем эмпирические частоты ni-число элементов выборки попавших в i-ый-интервал.
3) по теорет. распр. вычислим вероятности Pi того, что СВ Х примет значение из i-го-интервал. При этом
∑1KPI=1
4) найдем теоретические частоты mi=npi
5) составим таблицу вида:
Интервал эмперич частоты теоритич частоты mi=npi
ЗАМ: Если в некотором интервале частота ni<5, то этот интервал объединяют с соседним интервалом
6) В качестве меры отклонения эмпирического распределения от теоретического, т. е. в качестве статистики критерия согласия возьмем СВ: Q2=∑k1(ni-mi)/mi
которая фактически характеризует степень расхождения между теоретическими и эмпирическими частотами.
ЗАМ! СВ Q^2 имеет χ2 -распределение с числом степеней свободы k-r-1, где k-число интервалов; r-количество параметров теоретического распределения, оценки которых вычислялись по выборке.
Алгоритм применения критерия χ2 - Пирсона
1) Вычисляем значения статистики Q^ для заданной выборки и предполагаемого теоретического распределения
2) Для заданного уровня значимости £ по таблице χ2 -распределения находим критическое значение χ2 статистики Q^2 из условия: Р{ Q^2>X£}= £ При числе степеней свободы k-r-1,тем самым находим правостороннюю критическую область W:Q^2> χ2
3) Если вычисленное в пункте 1) значение статистики Q^2 принадW => гипотезы Н0 – отвергается. А если Q^2 не принадл W => гипотеза Н0 - принимается.
Лекция№15 Корреляция и регрессия
Статистическая зависимость
Во многих случаях требуется установить зависимость изучаемой СВ от одной или нескольких величин.
Рассмотрим для простоты зависимость между 2-я величинами.
2 СВ Х и Y могут быть связаны между собой либо функциональной зависимостью (y=x^2; y=sin x) либо зависимостью другого рода наз. статистической, либо быть независимыми.
ОПР1: зависимость между 2 СВ наз. вероятной (стохастической или статистической) если к каждому значению одной из них соответствует определенное (условное) распределение другой.
ЗАМ! При статистической зависимости между величинами каждому значению одной величины соответствует множество возможных значений другой величины.(число отказ обор и затраты на ремонт)
Уравнение регрессии
ОПР2: Мат. ожидание СВ Y вычисленное в предположении, что СВ Х приняла некоторое знач х наз. условным мат. ожиданием СВ Y и обозначается символом M(Y/X=x).
ЗАМ: Условное мат. ожидание СВ Х определяется и обозначается аналогично.
ОПР3: Корреляционной зависимости между 2 величинами наз. функциональной зависимостью между значениями одной из них и условным мат. ожиданием другой.
Корреляционная зависимость может быть представлена в виде: M(Y/X=x)=f(x) (1) M(X/Y=y)= ¥ (y) (2),т. е.
условные мат. ожидания могут рассматриваться как функции от соответствующих аргументов. Уравнения 1 и 2 наз. модельными уравнениями регрессии (либо уравнением регрессии) соответственно Y на Х и X на Y.
ЗАМ! Уравнение 1 показывает как в среднем зависит СВ Y от СВ Х.
В мат. статистике имеют дело не с числовыми характеристиками законов распределения, а с их оценками поэтому в качестве оценок условным мат. ожиданием принимают условные средние, которые находят по данным наблюдениям, т. е. по выборке.
ОПР4: Условным среднем yx наз. среднее арифметическое наблюдаемых значений Y соответствующих Х=х
ЗАМ: Аналогично определяется условное среднее yx.
Условные средние yx и хy явл. функциями соответственно от х и у:
yx=f*(x) (3)
хy=¥*(y) (4)
При этом уравнение 3 наз. выборочным уравнением регрессии Y на Х, а уравнение 4 – выборочным уравнением регрессии Х на Y.
Выборочные линейные уравнения регрессии
Пусть имеется 2 СВ Х и Y и в результате n-независимых опытов получена n-пар чисел (выборка): (х1;у1) (х2;у2)...(хn;уn).
Найдем по данной выборке выборочное уравнение прямой линии регрессии для определенности будем искать уравнение регрессии Y на Х, т. е. yx =kx+b
Обозначим уi – наблюденная ордината соответствующая значению хi, yi=kxi+b.
Назовем отклонением разность yi-yi (i=1,2,...,n). Поберем параметры k и b т. о. чтобы сумма квадратов отклонений F=∑n1(yi-yi)2= ∑n1(Kxi+b-yi)2 была минимальной. Для отыскания минимума приравняем нулю соответствующие частоты произведений
{∆F/∆K=∑n12(Kxi+b-yi)xi=0
{∆F/∆B=∑n12(Kxi+b-yi)=0
После элементарных преобразований получим систему из 2-х линейных уравнений относительно k и b.
{k∑n1xi2+b∑n1xi=∑n1 xiyi
{k∑n1xi+bn=∑n1 yi
K=n ∑n1 xiyi + (∑n1xi) (∑n1yi) / n∑n1 xi2-(∑n1xi)2
B=(∑n1 xi2)( ∑n1 yi) – (∑n1 xi)( ∑n1 xiyi) / n∑n1 xi2-(∑n1xi)2
ЗАМ: Аналогично находится выборочное уравнение линейной регрессии Х на Y.