Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Математическая статистика, ФМФ-2.docx
Скачиваний:
57
Добавлен:
30.05.2015
Размер:
2.9 Mб
Скачать

Пример распределения хи-квадрат

Пусть фирма выпустила новый процессор. Предположим, что каждые два года цена на этот процессор падает на 10%. Тогда количество таких процессоров, которые можно купить на фиксированную сумму может быть описано с помощью распределения хи-квадрат.

Доказательство

Обозначим фиксированную сумму через Z. ПустьS- стартовая цена процессора. Тогда по прошествииnлет он будет стоить. Преобразуем полученное выражение:. Введем новую переменную:x = n  ln 0.9. Получим следующую формулу:. Количество процессоров, которые можно купить на фиксированную сумму, равно. Если закрыть глаза на коэффициенты, то полученная формула соответствует формуле плотности для распределения хи-квадрат приk = 2.

  1. Основные распределения, используемые в математической статистике:

t-распределение Стьюдента. Примеры использования распределения

T-распределение Стьюдента

t-распределение Стьюдента - это непрерывное одномерное распределение с одним параметром - количеством степеней свободы. Форма распределения Стьюдента похожа на форму нормального распределения (чем больше число степеней свободы, тем ближе распределение к нормальному). Отличием является то, что хвосты распределения Стьюдента медленнее стремятся к нулю, чем хвосты нормального распределения.

Обычно распределение Стьюдента появляется в задачах, связанных с оценкой математического ожидания нормально распределенных случайных величин. Пусть X, ..., X - независимые случайные величины, нормально распределенные с математическим ожиданием μ и дисперсией σ 2. Тогда мы можем получить следующие оценки для параметров μ и σ 2:

При этом оценка математического ожидания не равна в точности μ, а лишь колеблется вокруг этой величины. Разность истинного математического ожидания и рассчитанного на основе выборки, поделенная на масштабирующий коэффициент

имеет распределение, которое называется распределением Стьюдента с N степенями свободы. Есть и другие разделы статистики, в которых появляются случайные величины, распределенные по Стьюденту. Например, распределение Стьюдента используется при оценке значимости коэффициента корреляции Пирсона.

Чаще всего критерий Стьюдента применяется для проверки равенства средних значений в двух выборках.

Пример 1. Первая выборка — это пациенты, которых лечили препаратом А. Вторая выборка — пациенты, которых лечили препаратом Б. Значения в выборках — это некоторая характеристика эффективности лечения (уровень метаболита в крови, температура через три дня после начала лечения, срок выздоровления, число койко-дней, и т.д.) Требуется выяснить, имеется ли значимое различие эффективности препаратов А и Б, или различия являются чисто случайными и объясняются «естественной» дисперсией выбранной характеристики.

Пример 2. Первая выборка — это значения некоторой характеристики состояния пациентов, записанные до лечения. Вторая выборка — это значения той же характеристики состояния тех же пациентов, записанные после лечения. Объёмы обеих выборок обязаны совпадать; более того, порядок элементов (в данном случае пациентов) в выборках также обязан совпадать. Такие выборки называются связными. Требуется выяснить, имеется ли значимое отличие в состоянии пациентов до и после лечения, или различия чисто случайны.

12 Основные распределения, используемые в математической статистике:

F-распределение Фишера. Примеры использования распределения.

Если у нас есть две случайные величины, Y и Y, имеющие распределение хи-квадрат со степенями свободы a и b соответственно, то их отношение

имеет распределение, которое называется F-распределением со степенями свободы a и b. Также это распределение известно, как распределение Фишера.

Функция плотности вероятности F-распределения для некоторых a и b приведена на графике справа. Её аналитическая форма имеет вид:

Интегральная функция вероятности F-распределения имеет вид:

С помощью нормального распределения определяются три распределения, которые в настоящее время часто используются при статистической обработке данных. В дальнейших разделах книги много раз встречаются эти распределения.

Распределение Пирсона (хи - квадрат) – распределение случайной величины

где случайные величины X1, X2,…, Xnнезависимы и имеют одно и тоже распределениеN(0,1). При этом число слагаемых, т.е.n, называется «числом степеней свободы» распределения хи – квадрат.

Распределение хи-квадрат используют при оценивании дисперсии (с помощью доверительного интервала), при проверке гипотез согласия, однородности, независимости, прежде всего для качественных (категоризованных) переменных, принимающих конечное число значений, и во многих других задачах статистического анализа данных [8, 9, 11, 16].

Распределение tСтьюдента – это распределение случайной величины

где случайные величины UиXнезависимы,Uимеет распределение стандартное нормальное распределениеN(0,1), аX– распределение хи – квадрат с nстепенями свободы. При этомnназывается «числом степеней свободы» распределения Стьюдента.

Распределение Стьюдента было введено в 1908 г. английским статистиком В. Госсетом, работавшем на фабрике, выпускающей пиво. Вероятностно-статистические методы использовались для принятия экономических и технических решений на этой фабрике, поэтому ее руководство запрещало В. Госсету публиковать научные статьи под своим именем. Таким способом охранялась коммерческая тайна, «ноу-хау» в виде вероятностно-статистических методов, разработанных В. Госсетом. Однако он имел возможность публиковаться под псевдонимом «Стьюдент». История Госсета - Стьюдента показывает, что еще сто лет назад менеджерам Великобритании была очевидна большая экономическая эффективность вероятностно-статистических методов.

В настоящее время распределение Стьюдента – одно из наиболее известных распределений среди используемых при анализе реальных данных. Его применяют при оценивании математического ожидания, прогнозного значения и других характеристик с помощью доверительных интервалов, по проверке гипотез о значениях математических ожиданий, коэффициентов регрессионной зависимости, гипотез однородности выборок и т.д. [8, 9, 11, 16].

Распределение Фишера – это распределение случайной величины

где случайные величины Х1иХ2независимы и имеют распределения хи – квадрат с числом степеней свободыk1иk2соответственно. При этом пара(k1, k2)– пара «чисел степеней свободы» распределения Фишера, а именно,k1– число степеней свободы числителя, аk2– число степеней свободы знаменателя. Распределение случайной величиныFназвано в честь великого английского статистика Р.Фишера (1890-1962), активно использовавшего его в своих работах.

Распределение Фишера используют при проверке гипотез об адекватности модели в регрессионном анализе, о равенстве дисперсий и в других задачах прикладной статистики [8, 9, 11, 16].

Выражения для функций распределения хи - квадрат, Стьюдента и Фишера, их плотностей и характеристик, а также таблицы, необходимые для их практического использования, можно найти в специальной литературе (см., например, [8]).

13 Геометрическое распределение, параметры распределения

Со схемой испытаний Бернулли можно связать еще одну случайную величину - число испытанийдо первогоуспеха. Эта величина принимает бесконечное множество значений от 0до +и ее распределение определяется формулой

pk = P(= k) = qk-1 p, 0 <p <1, k=1, 2, … ,,,.

Пусть проводятся независимые испытания, каждое испытание может иметь два исхода: удача с вероятностью p и неудача с вероятностью q = 1 - p. Введем в рассмотрение случайную величину X — число испытаний до первого появления удачи. Эта случайная величина может принимать значения 1, 2, 3, 4 и так далее до бесконечности. Когда говорят, что случайная величина X имеет значение k, то это означает, что первые k - 1 испытание закончились неудачей, а k-ое испытание стало удачным. Вероятность того, что в серии независимых испытаний будет вначале k - 1 неудач, а в k-ое испытание — удача, равна . Таким образом мы получили закон распределения случайной величиныX: значению k случайной величины соответствует вероятность . Этот закон распределения и называетсягеометрическим распределением. Название происходит из того, что величина представляет собой геометрическую прогрессию, с первым членомp и знаменателем q.Изучим теперь свойства этого распределения. С ростом k вероятности убывают. Используя формулу для суммы членов геометрической прогрессии, можем записать:, то есть условие, что сумма всех вероятностей в законе распределения равна единице, выполнено. Вычислим теперь математическое ожидание и дисперсию. По определению математического ожидания имеем:. Для вычисления суммы воспользуемся следующим приемом — заменимнаи вынесем производную за знак суммы, в итоге получим:. Оставшаяся сумма представляет собой сумму членов геометрической прогрессии и равна. Вычисляя производную, запишем:. Аналогично можно получить выражение для:. Заменяя сумму на ее значение, вычисляем:. Таким образом, имеем выражение для дисперсии:. Если вероятность удачи равна единице, то математическое ожидание числа испытаний до первой удачи равно 1, а дисперсия — 0. Если, наоборот, вероятность удачи равна нулю, то математическое ожидание — бесконечность (то есть нужно произвести бесконечное число испытаний до появления удачи).

Геометрическое распределение

Говорят, что случайная величина имеетгеометрическое распределениес параметром, и пишут, еслипринимает значенияс вероятностями. Случайная величина с таким распределением имеет смыслномера первого успешного испытаниявсхеме Бернуллис вероятностью успеха. Таблица распределенияимеет вид:

14 Биномиальное распределение; параметры, числовые характеристики

Биномиальное распределение

Говорят, что случайная величина имеетбиномиальное распределениес параметрамии, и пишут:, еслипринимает значенияс вероятностями. Случайная величина с таким распределением имеет смыслчисла успехов в испытанияхсхемы Бернуллис вероятностью успеха. Таблица распределенияимеет вид:

Распределение Бернулли совпадает с распределением .

Дискретная случайная величина Х имеет биномиальное распределение с параметрами n€N и p€(0,1), если принимает значение k=0,1,….n с вероятностями

P(X=k)= Ckn pkqn-k q=1-p

  1. Распределение Пуассона, параметры распределения.

Дискпетная случайная величина Х имеет распределение Пуассона с параметром ħ>0, если Х принимает значения к=0,1,2…n с вероятностями, определенными формулой пуассона

P(X=k)=

При рассмотрении маловероятных событий, имеющих место в большой серии независимых испытаний некоторое (конечное) число раз, вероятности появления этих событий подчиняются закону Пуассона или закону редких событий , где λ равна среднему числу появления событий в одинаковых независимых испытаниях, т.е. λ = n × p, где p – вероятность события при одном испытании, e = 2,71828, m -частота данного события, математическое ожидание m равно l.Закон Пуассонаможно применять для совокупностей, достаточно больших по объему (n > 100) и имеющих достаточно малую долю единиц, обладающих данным признаком (p < 0,1). При этом распределение Пуассона можно применить, когда на только не известно значение n – общего числа возможных результатов, но и когда не известно конечное число, которое n может представлять. Там, где есть среднее число случаев наступления события, вероятность наступления события описывается членами разложения:. Поэтому соответствующие вероятности равны:

  1. Функция распределения вероятностей одномерной случайной величины. Свойства функции распределения.

17.Статистические гипотезы. Ошибки I рода и II рода. Уровень значимости. Общая схема проверки статистической гипотезы

Пусть в (статистическом) эксперименте доступна наблюдению случайная величина X, распределение которой известно полностью или частично. Тогда любое утверждение, касающеесяназывается статистической гипотезой. Гипотезы различают по виду предположений, содержащихся в них:

- Статистическая гипотеза, однозначно определяющая распределение , то есть, гдекакой-то конкретный закон, называется простой.

-Статистическая гипотеза, утверждающая принадлежность распределения к некоторому семейству распределений, то есть вида, где-семейство распределений, называется сложной.

Ошибки первого рода и ошибки второго родав математической статистике — это ключевые понятия задач проверки статистических гипотез. Тем не менее, данные понятия часто используются и в других областях, когда речь идёт о принятии «бинарного» решения (да/нет) на основе некоего критерия (теста, проверки, измерения), который с некоторой вероятностью может давать ложный результат.

Ошибку первого рода часто называют ложной тревогой, ложным срабатыванием или ложноположительным срабатыванием — например, анализ крови показал наличие заболевания, хотя на самом деле человек здоров. Ошибку второго рода иногда называют пропуском события или ложноотрицательным срабатыванием — человек болен, но анализ крови этого не показал

Вероятность ошибки первого рода при проверке статистических гипотез называют уровнем значимости и обычно обозначают греческой буквой . Вероятность ошибки второго рода не имеет какого-то особого общепринятого названия, на письме обозначается греческой буквой

Обе эти характеристики обычно вычисляются с помощью так называемой функции мощности критерия. В частности, вероятность ошибки первого рода есть функция мощности, вычисленная при нулевой гипотезе. Для критериев, основанных на выборке фиксированного объема, вероятность ошибки второго рода есть единица минус функция мощности, вычисленная в предположении, что распределение наблюдений соответствует альтернативной гипотезе. Для последовательных критериев это также верно, если критерий останавливается с вероятностью единица (при данном распределении из альтернативы).

Этапы проверки стат.гипотез:

  1. Формулировка основной гипотезы и конкурирующей гипотезы

  2. Задание уровня значимости , на котором в дальнейшем и будет сделан вывод о справедливости гипотезы. Он равен вероятности допустить ошибку первого рода.

  3. Расчёт статистики критерия такой, что:

- её величина зависит от исходной выборки

- по её значению можно делать выводы об истинности гипотезы

- сама статистика должна подчиняться какому-то известному закону распределения, так как самаявляется случайной в силу случайности

4) Построение критической области. Из области значений выделяется подмножествотаких значений, по которым можно судить о существенных расхождениях с предположением. Его размер выбирается таким образом, чтобы выполнялось равенство

.Это множество и называется критической областью.

  1. Вывод об истинности гипотезы. Наблюдаемые значения выборки подставляются в статистику и по попаданию (или непопаданию) в критическую областьвыносится решение об отвержении (или принятии) выдвинутой гипотезы

18.Проверка гипотезы о числовом значении математического ожидания нормального распределения при неизвестной диспресии.Односторонняя и двусторонняя критическая область.

В этом случае за основу проверки гипотезы , где- – заранее заданное число, положен критерий, где,- – случайные величины, вычисляемые по формулам и . Этот критерий при выполнении гипотезы (5.19) имеет- распределение с числом степеней свободыk=n-1, т.е.

, где - – случайная величина, подчиняющаяся распределению Стьюдента

19.Проверка гипотезы о равенстве дисперсий двух нормальных распределений.

Пусть Х и Y – две случайные величины, имеющие нормальные распределения и неизвестные дисперсии и. Требуется проверить гипотезу

Построим критерий для проверки этой гипотезы. Для этого рассмотрим исправленные дисперсии:

Как известно ,эти величины могут быть приняты за приближенные значения и

Имеют место следующие распределения Поэтому в соответствии с определением F-распределения (см. п. 4.1) отношениеили отношениебудет иметь распределение Фишера систепенями свободы, т.е.Если гипотеза верна, то непосредственно получаем критерийкоторый подчиняется распределению Фишера сlиkстепенями свободы

20.Выборочная оценка коэффициента корреляции.Проверка гипотезы о значимости коэффициента корреляции.

21.Основные понятия теории вероятности и матем статистики

Одним из основных понятий теории вероятностей является понятие события. Под событием понимают любой факт, который может произойти в результате опыта или испытания. Под опытом, или испытанием, понимается осуществление определённого комплекса условий.

Примеры событий:

– попадание в цель при выстреле из орудия (опыт — произведение выстрела; событие — попадание в цель);

– выпадение двух гербов при трёхкратном бросании монеты (опыт — трёхкратное бросание монеты; событие — выпадение двух гербов);

– появление ошибки измерения в заданных пределах при измерении дальности до цели (опыт — измерение дальности; событие — ошибка измерения).

Можно привести бесчисленное множество подобных примеров. События обозначаются заглавными буквами латинского алфавита A,B,C и т.д.

Различают события совместные и несовместные. События называются совместными, если наступление одного из них не исключает наступления другого. В противном случае события называются несовместными. Например, подбрасываются две игральные кости. Событие A — выпадание трех очков на первой игральной кости, событие B — выпадание трех очков на второй кости. A и B — совместные события. Пусть в магазин поступила партия обуви одного фасона и размера, но разного цвета. Событие A — наудачу взятая коробка окажется с обувью черного цвета, событие B — коробка окажется с обувью коричневого цвета, A и B — несовместные события.

Событие называется достоверным, если оно обязательно произойдет в условиях данного опыта.

Событие называется невозможным, если оно не может произойти в условиях данного опыта. Например, событие, заключающееся в том, что из партии стандартных деталей будет взята стандартная деталь, является достоверным, а нестандартная — невозможным.

Событие называется возможным, или случайным, если в результате опыта оно может появиться, но может и не появиться. Примером случайного события может служить выявление дефектов изделия при контроле партии готовой продукции, несоответствие размера обрабатываемого изделия заданному, отказ одного из звеньев автоматизированной системы управления.

События называются равновозможными, если по условиям испытания ни одно из этих событий не является объективно более возможным, чем другие. Например, пусть магазину поставляют электролампочки (причем в равных количествах) несколько заводов-изготовителей. События, состоящие в покупке лампочки любого из этих заводов, равновозможны.

Важным понятием является полная группа событий. Несколько событий в данном опыте образуют полную группу, если в результате опыта обязательно появится хотя бы одно из них. Например, в урне находится десять шаров, из них шесть шаров красных, четыре белых, причем пять шаров имеют номера.А - появление красного шара при одном извлечении, B- появление белого шара, C — появление шара с номером. СобытияA,B,Cобразуют полную группу совместных событий.

Введем понятие противоположного, или дополнительного, события. Под противоположным событием понимается событие, которое обязательно должно произойти, если не наступило некоторое событиеA. Противоположные события несовместны и единственно возможны. Они образуют полную группу событий. Например, если партия изготовленных изделий состоит из годных и бракованных, то при извлечении одного изделия оно может оказаться либо годным — событиеA, либо бракованным — событие

Математическая (или теоретическая) статистикаопирается на методы и понятия теории вероятностей, но решает в каком-то смысле обратные задачи.

В теории вероятностей рассматриваются случайные величины с заданным распределением или случайные эксперименты, свойства которых целиком известны. Предмет теории вероятностей — свойства и взаимосвязи этих величин (распределений).

Но часто эксперимент представляет собой черный ящик, выдающий лишь некие результаты, по которым требуется сделать вывод о свойствах самого эксперимента. Наблюдатель имеет набор числовых (или их можно сделать числовыми) результатов, полученных повторением одного и того же случайного эксперимента в одинаковых условиях.

При этом возникают, например, следующие вопросы: Если мы наблюдаем одну случайную величину — как по набору ее значений в нескольких опытах сделать как можно более точный вывод о ее распределении?

Если мы наблюдаем одновременно проявление двух (или более) признаков, т.е. имеем набор значений нескольких случайных величин — что можно сказать об их зависимости? Есть она или нет? А если есть, то какова эта зависимость?

Часто бывает возможно высказать некие предположения о распределении, спрятанном в «черном ящике», или о его свойствах. В этом случае по опытным данным требуется подтвердить или опровергнуть эти предположения («гипотезы»). При этом надо помнить, что ответ «да» или «нет» может быть дан лишь с определенной степенью достоверности, и чем дольше мы можем продолжать эксперимент, тем точнее могут быть выводы. Наиболее благоприятной для исследования оказывается ситуация, когда можно уверенно утверждать о некоторых свойствах наблюдаемого эксперимента — например, о наличии функциональной зависимости между наблюдаемыми величинами, о нормальности распределения, о его симметричности, о наличии у распределения плотности или о его дискретном характере, и т.д.

Итак, о (математической) статистике имеет смысл вспоминать, если

имеется случайный эксперимент, свойства которого частично или полностью неизвестны,

мы умеем воспроизводить этот эксперимент в одних и тех же условиях некоторое (а лучше — какое угодно) число раз.

Примером такой серии экспериментов может служить социологический опрос, набор экономических показателей или, наконец, последовательность гербов и решек при тысячекратном подбрасывании монеты.