Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
полное собрание шпор по-ТВиМСу.doc
Скачиваний:
1
Добавлен:
01.03.2025
Размер:
453.12 Кб
Скачать

Лекция 11. Выборка

Пусть треб-ся изучить совок-ть однородных объектов отн-но некоторого качест-го или колич-го признака, харак-щего эти объекты.

Для изучен. некоторого признака совок-ти обьектов примен-т 2 вида обслед-ний:

1. Сплошное- изуч-ся все обьекты совок-ти. и 2. Выборочное (выборный метод)- изуч-ся часть обьекта совок-ти, а выводы распростр-ся на всю совок-ть обьектов.

Опр1. Генеральной совокупностью назыв. совок-ть всех однород-х обьектов, подлежащих изучению.

Замечание!!!Часто под генер-ной совок-тью поним-т иследованую СВ.

Опр2. Выборочной совокупностью или выборкой назыв. совок-ть обьектов, случайно отобраных из генер-ной совок-ти.

Опр3. Обьектом совок-ти(генер-ной или выборочной)назыв. число ее обьектов.

Типы выборок.

1. Повторная - отобраный обьект возвращается.

2. Безповторная - отобрн. обьект не возвращается.

Опр4. Выборка назыв. репрезентативной ( представленной), если она достаточно хорошо воспроизводит генер-ную совок-ть.

Опр5. Различные значения признака (СВ Х) назыв. вариантами и обознач. -х, а последовательтность вариант, записаных в возраст-м порядке назыв. вариантционным рядом.

Пусть выборка объема n содержит k различ. знач. ( вариант): х1, х2,...,хk.

Причем знач. х1 повторяется в выборке n1 раз, х2-n2,....xk-nk раз.

Опр6. Число Ni появлений значения Xi в выборке назыв. частотой значения Хi, а отнош. Wi=Ni/N - относительной частной этого значения.

Опр7. Статистич. распределением (или статис-м рядом) выборки назыв. табл., в верх. строке которой указано значен. выборки, а в нижней соответствующие им частоты или относит-ые частоты.

Аналог в теории вер-ти - ряд распределения.

Опр8. Полигоном относительных частот выборки назыв. ломанная в верш. в точках(Xi;Wi). Аналог в теории – многоуг. распределения.

Опр9. Групированым статис-м рядом выборки назыв. табл., в верх строке которой указаны интер-лы(либо их границы), а в нижней - соответ-щие им относительн. частоты.

Замечание! В качестве относит-ной частоты, соответ-щей итервалу, принимаюит сумму относит-х частот тех значений выборки, которые попали в этот интервал. Обычно интервалы берут одинаковой длины.

Замечание! Группир. ряд используется в тех случаях, когда число различных элементов выборки, т.е. число вариантов достаточно велико.

Опр10. Гистограммой назыв. графическое изображ. группир-го статистического ряда выборки.

Замечание!Для построения гистограммы по оси Ох откладыв. интервалы группир-го ряда и строят на каждом интервале как на основании прямоугольник, высотой Wi

Опр11. Эмпирическая функция распределения назыв. функцию F*(x), определенную формулой F*(x)=Exi<x Wi, где суммируются относительные частоты Wi тех значений Xi из выборки, которые меньше х.

Замечание. При большем обьеме выборки эмпирич-кая функция распредел. F*(x) будет близкой к неизвестной теоретической функции распределения F(x) наблюдаемой СВ Х.

Опр12. Выборочной средней –х назыв. среднее арифметическое значение выборки. -х=1/n ( явл-ся оценкой для матем-го ожидания СВ Х)

Замечание! Если выборка представ-на статистич рядом то: -x=1/n*

Опр13. Выборочной дисперсией D* (или S2) назыв среднее арифмит-кое квадратов отклонения значений выборки от выборочной средней D*=1/n (явл-ся оценкой для дисперсии СВ Х)

Замечание. Если выборка представлена статистич-м рядом, то: D*=1/n 2 *ni=1/n* -(-x)2

Опр14. Выборочным СКО назыв. квадр. Корень из выбор-ной дисперсии:

.

Лекция 12. Оценка паарметров распределения.

Пусть требуется изучит колич-ный признак Х генеральной совок-ти ( СВ Х) допустим, что из теорит-х соображений нам удалось установить сам вид з-на распред-ния ( нормальный , показательный и т.д.), но остается неизвестным один или несколько параметров распр-ния, например это параметр Y в распределении Пуассона. Таким образом для окончательного установления з-на распределения нам необходимо "Оценить", т.е. " Приближенно определить значение параметра распр-ния по некоторой выборке х1,х2,...,хn/

Замечание! Элементы выборки х1,х2,,..,,хn можно рассматривать как частные значения n независимых СВ Х 1,Х2,..,Хn каждое из которых имеет точно такой же з-н распределения, как и сам признак Х. Это объясняется тем, что различные серии опытов выборки будут различными.

Обознач. неизвестные параметры ч\з Q.

Опр1. Оценкой Qn или Tn параметра Q назыв. любая функция от рез-тов наблюдения над СВ Х, т.е. (X1,X2,…,Xn).

Замечание. Поскольку X1,X2,…,Xn СВ, то и оценка -Qn в отличие от оцениваемого параметра Q является СВ.

Опр2. Оценка -Qn параметра Q назыв. несмещенной, если ее МО равно оцениваему параметру, т.е. M(-Qn)=Q. В противном случае оценка назыв. смещенной.

Замечание. Требование несмещенности гарантирует отсутствие систематич. ошибок при оценивании.

явл-ся несмещ. оценкой для

Опр3. Оценкой Qn параметра Q наз. состоятельной, если она удовлетворяет закону больших чисел, т.е.

для люб. >0

Опр4. оценка -Qn параметра Q назыв. эффективной, если при заданном объеме выборки она имеет наименьшую дисперсию,т.е. D(-Qn)=Dmin

Оценка определяемая одним числом назыв. точечной, при выборке малого обьема точечная оценка может существенно отличаться от истинного значения неизвестного параметра, вследствие этого пользуются " интервальными" оценками, которые опред-ся двумя числами, а именно концами интервала.

Обозначим точность оценки ч\з , тогда .

Опр5! Доверительной вероятностью или надежностью оценки Qn параметра Q назыв. вероятность , с которой осуществляется неравенство ,

Заменив нер-во равносильным ему двойным неравенством Qn- получим . Это соотношение следует понимать так: вероятность того, что интервал заключает в себе (покрывает) неизвестный параметр Q=

Опр6. Интервал ,который покрывает неизвестный параметр Q с заданной надежностью назыв. доверительным интервалом.

Замечание! Обычно надежность задается заранее, значением близким 1.( 0,95;0,98..)

Пусть колич-ный признак Х генеральной совок-ти СВ Х имеет нормальное распределение с параметрами т.еX

Предположим, что в рез-те наблюдения рад признаком Х, получена некоторая выборка х1,х2...хn, тогда: 1. доверительный интервал для Мо, ( ), при известном ( ) имеет вид

Ф где Ф(U )- ф-ция распределения нормиров. распред. (табулированного)

- надежность

2) ! Доверит. интервал для Мо, при неизменном имеет вид ( x-t *S/ ;x+t *S/ )

3) Доверит интервал для дисперсии ( 2) имеет вид ( (n-1)S2/U2 ; (n-1)S2/u1)

n- обьем

S2- исправ дисперсия

U1 и U2(U2>U1) находятся из табл заданной надежности (хи квадрат распределения Пирсона)

Лекция 13. Статистические гипотезы.

Статистич гипотезой наз-ся любое предположение о виде или параметрах неизв закона распред-я Н,Н0,Н1…простая гипотеза в отличие от сложной полностью опред теоретич ф-ю распред-я СВ.

Проверяемую гипотезу наз нулевой и обозн Н0. Конкурирующей(альтерн) наз гипотезу Н1,которая противоречит нулевой.

Гипотезу проверяют на основании выборки,сделанной из генер сов-ти. Из-за случайности выборки в рез-те проверки м возникать ошибки 2х видов: 1)I рода (отвергнута гипотеза Н0,в то время,когда она верна 2)II рода (принята гипотеза Н0,в то время,когда она неверна.

Правило,по *ому гипотеза Но отвергается или приним наз-ся статическим критерием или критерием.

Обозн. α-вер-ть ошибки Iрода,β-вер-ть ошибки IIрода. Вер-ть α наз-ся уровнем значимости критерия.Вер-ть 1-β наз-ся мощностью критерия.

В основе любого стат критерия лежит использ-е спец подобранные ф-и выборки,наз статистикой. Õn= Õn(Х1,Х2…Xn)

Когда статистика выбрана,мн-во ее возможных зн-й разбивают на 2 непересек подмн-ва:

1)Обл-ть принятия гипотезы (допустимая обл-ть)-подмн-во знач-й статистики,при *ых гипотеза Но приним-ся.

2)Критическая обл-ть (W)-подмн-во знач-й статистики,при *ых гипотеза Но отвергается.

Осн. принцип проверки стат гипотез. Если наблюдаемое зн-е статистики Õn принадл критич обл-ти,то гипотезу отвергают. Если оно принадл обл-ти принятия гипотезы,то гип приним.

Виды критич обл-тей. В зав-ти от вида альтерн гипотезы выбирают правостор,левостор,двустор. критич обл-ть.1)Для правостор критич обл-ти P{Õnкр}=α 2)Для левостор критич обл-ти P{Õnкр}=α 3)Для двустор критич обл-ти P{Õnкр1}=P{Õnкр2}= α/2

Проверка гипотезы по зн-ю неизв параметра норм распред-я

Гипотеза о среднем. Пусть СВ Х распред по норм закону СВ Х Е N(μ,σ),где μ неизв.Требуется при уровне значимости α проверить гипотезу Но={μ=μ0число}. Предполож,что σ известно,тогда в кач-ве статистики критерия использ СВ Z=(0)*√n/σ Е N(0,1). При этом 1)если Н1={ μ< μ0}то использ левостор W,*ая удовл условию P{Z<-zα}=α,где zα нах-ся из ур-я Ф(zα)=1-α,где Ф(x)-ФР нормир норм распред-я 2) если Н1={ μ>μ0},то использ правостор W,*ая удовл условию P{Z>zα}=α, где zα нах-ся из ур-я Ф(zα)=1-α 3)если Н1={ μ≠μ0},то использ двустор W,*ая удовл условию P{!Z!>zα}=α, где zα нах-ся из ур-я Ф(zα)=1-α/2 З.Если σ неизв,то в кач-ве статистики использ СВ t=( - μ0)√n /S,*ая имеет распред-е Стьюдента с числом степеней свободы n-1,где n-V выборки. Критич обл-ти опред так же,как и при известном σ,но вместо норм распред-я исп-ся таблицы распред Стьюдента.

Гипотеза о дисперсии. Пусть СВ Х распред по норм закону с парам μ и σ. СВ Х Е N(μ,σ),где σ неизв. Нужно при уровне значимости α проверить гипотезу Но={σ220число}. Тогда в кач-ве статистики критерия использ СВ χ2=(n-1)S2/σ20. Для опред W использ таблицы χ2-распред-я (распред Пирсона).

1.если H1={δ 2 2 0} , то исп левостор критическая область, а критич значение X£ определяется по табл из условия P{ χ2 >X£}= 1 -£

2если H1={ δ 2 2 0} то исп правостор критическая область, а критич значение X£ определяется по табл из условия P{ χ2 >X£}= £

3если H1={ δ 2 δ2 0} то исп духсторонняя критическая область, а критич значение X£ ‘ и X£ “ определяется по табл из условия P{ χ2 >X£ }= £/2

P{ χ2 >X£ }= 1 - £/2

Лекция 16. Закон больших чисел

Предварительные замечания

Как известно, нельзя точно предсказать какое возможное значение примет СВ в результате испытания, между тем оказывается, что при некоторых весьма общих условиях суммарное поведение достаточно больш. числа СВ почти утрачивает случайный характер и может быть предсказанным с большой степенью определенности. Эти условия и указываются в теоремах, которые носят общее название закона больших чисел.

Закон больших чисел.

Лемма Чебышева: если СВ Х принимают только неотрицательные значения и имеют МО, то для любого числа справедливо неравенство:

Доказательство: Введем в рассмотрение новую СВ:

Y= {0, <=x<E

{E, x>=E

При этом будет верно неравенство: . Следовательно ). Найдем ряд распределения CВ У.

Yi 0 E

Pi P{0<=x<E} P{x>=E}

Найдем МО СВ Y. отсюда и неравенства (*) получаем,

M(Y)=0* P{0<=x<E}+E* P{x>=E}

EP{x>=E}<=M(x) следов P{X>=E}<=M(x)/E

Теорема 1: (неравенство Чебышева)

Для любой СВ Х, имеющей МО и дисперсию, справедливо неравенство

Доказательство: Введем в рассмотрение новую СВ: Y=[XM(X)] так как СВ Y>=0, то по Лемме Чебышева получаем: или, что тоже самое: с другой стороны

тогда неравенство (*) примет вид:

Следствие: Поскольку события противоположны, то неравенства Чебышева можно записать в виде:

Теорема 2: (теорема Чебышева) Если СВ попарно независимы и где С – некоторая постоянная, то при любом справедливо равенство:

Доказательство: Введем в рассмотрение новую СВ найдем МО и оценку дисперсии СВ Х: 1

Запишем неравенство Чебышева в формуле (1) для СВ Х: 2

Зам: (смысл теоремы Чебышева): При большом числе n СВ практически достоверно, что их средняя хотя есть величина случайная, но она сколь угодно мало отличается от неслучайной величины , то есть практически перестает быть случайной.

Зам!: т. Ч-ва является наиболее общим законом больших чисел, а теорема Бернулли, рассматр-ая ниже, простейшим.

Т3: (теорема Бернулли): Пусть число успехов в n испытаниях Бернулли и р - вероятность появления успеха в каждом испытании, тогда при любом числе справедливо равенство:

Доказательство: Воспользуемся след. представлением для СВ : , где - это ДСВ, означающая число появления успеха в i-ом испытании (i=1,2,3,….,n). Т. к. испытания Бернулли повторны и независимы, то СВ (i=1,2,,….,n) будут попарно независимы и одинаково распределены, то есть будут иметь одинаковый ряд распределения. Находим МО и дисперсию. Т.о. дисперсии СВ (i=1,2,…,n) ограничены одной величиной, а значит к этим CD можно применить т. Ч-ва.

Центральная, предельная теорема.

Теорема 4: (центральная, предельная теорема).

Если независимые СВ, имеющие одно и тоже распределение с МО и дисперсией , то при неограниченном возрастании n, закон распределения суммы Х= , неограниченно приближается к нормальному.

Лекция №14 Статистические гипотезы (часть2)

Гипотеза о равенстве средних значений двух ГС

На практики часто встречается случай , когда средний результат одной серии э-ов отлич от сред рез-та другой серии. При этом возник ? можно ли объяснить расхождение неизб случайными ошибками или этовызвано некоторыми закономерностями.

Формулировка задачи: Пусть заданы 2 ГС с нормальным распределением: X1€N(μ1σ1)

X2€N(μ2σ2)

предположим, что σ21 и σ22 неизвестны, но равны, Требуется при уровне значимости гамма проверить гипотезу о равенстве средних значений: Н0={μ10}

Предположим, что для проверки Н0 из обеих ГС сделаны независимые выборки с параметрами:

I-выборка n1, x1, S12; II-выборка n2, x2, S22. Здесь: n1-объем I-ой выборки; х1-выборочное среднее для I-ой выборки; S12-исправленная дисперсия для I-ой выборки и т. д.

В качестве статистики критерия проверки нулевой гипотезы возьмем СВ:

t=x1- x2/ √(n1-1)S12+(n2-1)S22/n1+n2-2 (1/n1+1/n2)

Если гипотеза Н0 верна, то t имеет распределение Стьюдента с числом степеней свободы n1+n2-2. Критическая область W определяется в зависимости от вида альтернативной гипотезы Н1 (μ1<μ2;μ1>μ2;μ1≠μ2)

с помощью распределения (табл. распр. Стьюдента)

Проверка гипотезы о законе распределения

Раньше мы предполагали, что закон распределения ГС (СВ Х) известен, а неизвестны лишь один или несколько его параметров. Однако, часто возникает ситуация когда сам закон распределения ГС (СВ Х) неизвестен. В связи с этим возникает задача установления теоретического закона распределения ГС (СВ Х). По опытным данным т. е. по выборке допустим, что из каких-либо соображений мы делаем предположение, о том, что изучаемая ГС (СВ Х) имеет вполне конкретное распределение выраженное например через ФР F(х). Назовем это распределение теоретическим, тогда перед нами возникает задача проверки гипотезы: Н0={ГС (СВ Х) имеет ФР F(x)}.

Сделаем выборку х1,х2,...,хn из ГС по выборке можно найти эмпирическую ФР F*(x).

В полне очевидно, что теоретическая и эмпирическая ФР различаются между собой. Естественно возникает вопрос объясняется ли это различие только обстоятельствами связанными с малым объемом выборки или оно является существенным и связанно с тем, что теоретический закон распределения ФР F(x) выбран неудачно. Для ответа на этот вопрос и служат критерии согласия.

ОПР1: Критерии согласия наз. критерий проверки гипотезы о предполагаемом законе неизвестного распределения.

Имеется несколько критериев согласия: χ2 -Пирсона, Колмогорова, Смирнова и т. д.

Мы рассмотрим только критерий χ2 -Пирсона, поскольку он чаще других применяется на практике.

Рассмотрим задачу проверки гипотезы: Н0={ГС (СВ Х) имеет ФР F(x)}. По выборке х1,х2,...,хn на основе использования критерия согласия χ2 -Пирсона, с этой целью выполним след. действия:

1) разобъем всю область изменения изучаемой ГС на k- интервалов. Они могут иметь различную длину.

2) найдем эмпирические частоты ni-число элементов выборки попавших в i-ый-интервал.

3) по теорет. распр. вычислим вероятности Pi того, что СВ Х примет значение из i-го-интервал. При этом

1KPI=1

4) найдем теоретические частоты mi=npi

5) составим таблицу вида:

Интервал эмперич частоты теоритич частоты mi=npi

ЗАМ: Если в некотором интервале частота ni<5, то этот интервал объединяют с соседним интервалом

6) В качестве меры отклонения эмпирического распределения от теоретического, т. е. в качестве статистики критерия согласия возьмем СВ: Q2=∑k1(ni-mi)/mi

которая фактически характеризует степень расхождения между теоретическими и эмпирическими частотами.

ЗАМ! СВ Q^2 имеет χ2 -распределение с числом степеней свободы k-r-1, где k-число интервалов; r-количество параметров теоретического распределения, оценки которых вычислялись по выборке.

Алгоритм применения критерия χ2 - Пирсона

1) Вычисляем значения статистики Q^ для заданной выборки и предполагаемого теоретического распределения

2) Для заданного уровня значимости £ по таблице χ2 -распределения находим критическое значение χ2 статистики Q^2 из условия: Р{ Q^2>X£}= £ При числе степеней свободы k-r-1,тем самым находим правостороннюю критическую область W:Q^2> χ2

3) Если вычисленное в пункте 1) значение статистики Q^2 принадW => гипотезы Н0 – отвергается. А если Q^2 не принадл W => гипотеза Н0 - принимается.

Лекция№15 Корреляция и регрессия

Статистическая зависимость

Во многих случаях требуется установить зависимость изучаемой СВ от одной или нескольких величин.

Рассмотрим для простоты зависимость между 2-я величинами.

2 СВ Х и Y могут быть связаны между собой либо функциональной зависимостью (y=x^2; y=sin x) либо зависимостью другого рода наз. статистической, либо быть независимыми.

ОПР1: зависимость между 2 СВ наз. вероятной (стохастической или статистической) если к каждому значению одной из них соответствует определенное (условное) распределение другой.

ЗАМ! При статистической зависимости между величинами каждому значению одной величины соответствует множество возможных значений другой величины.(число отказ обор и затраты на ремонт)

Уравнение регрессии

ОПР2: Мат. ожидание СВ Y вычисленное в предположении, что СВ Х приняла некоторое знач х наз. условным мат. ожиданием СВ Y и обозначается символом M(Y/X=x).

ЗАМ: Условное мат. ожидание СВ Х определяется и обозначается аналогично.

ОПР3: Корреляционной зависимости между 2 величинами наз. функциональной зависимостью между значениями одной из них и условным мат. ожиданием другой.

Корреляционная зависимость может быть представлена в виде: M(Y/X=x)=f(x) (1) M(X/Y=y)= ¥ (y) (2),т. е.

условные мат. ожидания могут рассматриваться как функции от соответствующих аргументов. Уравнения 1 и 2 наз. модельными уравнениями регрессии (либо уравнением регрессии) соответственно Y на Х и X на Y.

ЗАМ! Уравнение 1 показывает как в среднем зависит СВ Y от СВ Х.

В мат. статистике имеют дело не с числовыми характеристиками законов распределения, а с их оценками поэтому в качестве оценок условным мат. ожиданием принимают условные средние, которые находят по данным наблюдениям, т. е. по выборке.

ОПР4: Условным среднем yx наз. среднее арифметическое наблюдаемых значений Y соответствующих Х=х

ЗАМ: Аналогично определяется условное среднее yx.

Условные средние yx и хy явл. функциями соответственно от х и у:

yx=f*(x) (3)

хy=¥*(y) (4)

При этом уравнение 3 наз. выборочным уравнением регрессии Y на Х, а уравнение 4 – выборочным уравнением регрессии Х на Y.

Выборочные линейные уравнения регрессии

Пусть имеется 2 СВ Х и Y и в результате n-независимых опытов получена n-пар чисел (выборка): (х1;у1) (х2;у2)...(хn;уn).

Найдем по данной выборке выборочное уравнение прямой линии регрессии для определенности будем искать уравнение регрессии Y на Х, т. е. yx =kx+b

Обозначим уi – наблюденная ордината соответствующая значению хi, yi=kxi+b.

Назовем отклонением разность yi-yi (i=1,2,...,n). Поберем параметры k и b т. о. чтобы сумма квадратов отклонений F=∑n1(yi-yi)2= ∑n1(Kxi+b-yi)2 была минимальной. Для отыскания минимума приравняем нулю соответствующие частоты произведений

{∆F/∆K=∑n12(Kxi+b-yi)xi=0

{∆F/∆B=∑n12(Kxi+b-yi)=0

После элементарных преобразований получим систему из 2-х линейных уравнений относительно k и b.

{k∑n1xi2+b∑n1xi=∑n1 xiyi

{k∑n1xi+bn=∑n1 yi

K=n ∑n1 xiyi + (∑n1xi) (∑n1yi) / n∑n1 xi2-(∑n1xi)2

B=(∑n1 xi2)( ∑n1 yi) – (∑n1 xi)( ∑n1 xiyi) / n∑n1 xi2-(∑n1xi)2

ЗАМ: Аналогично находится выборочное уравнение линейной регрессии Х на Y.