Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Стеграммы лекций 6-10 и 13

.pdf
Скачиваний:
12
Добавлен:
03.06.2015
Размер:
1.21 Mб
Скачать
p, N1

студента, pH раствора и т.д. Несмотря на то, что значения таких случайных величин обычно представляются как дискретные величины (например, рост измеряется с точностью до сантиметра), но это связано не с содержательным смыслом величины, а с техникой ее измерения и погрешностями округления.

Для однозначного задания распределения числовой случайной величины достаточно знать вероятности событий x , где x – произвольное число. Эти значения называются функцией распределения и обозначаются как F x , так что по определению

F x P x . Производная функции распределения непрерывной случайной

величины называется плотностью функции распределения и обозначается через

x F x .

Приведем несколько примеров часто встречающихся случайных величин.

1. Распределение Бернулли.

Случайная величина, которая с вероятностью p равна единице и с вероятностью q = 1–p равна нулю. Распределение Бернулли однопараметрическое.

2. Биномиальное распределение.

Пусть 1, 2 ,..., N – независимые случайные величины, распределенные по Бернулли

с одним и тем же p. Пусть случайная величина 1 2

... N . Тогда

распределена

биномиально с параметрами p, N . Вероятность того,

что n , где

n 0,1, 2,..., N ,

равна

 

 

P n

CNn

pn 1 p N n

 

 

 

 

 

 

N !

 

 

Пример биномиального распределения: количество «орлов» в серии из N бросаний монеты. Биномиальные величины – двухпараметрическое семейство. Если две независимые случайные величины распределены биномиально с параметрами и

p, N2 , то их сумма распределена биномиально с параметрами p, N1 N2 .

3. Распределение Пуассона.

Это распределение получается из биномиального в том случае, когда p очень мало, а N очень велико, причем так, что pN const , т.е. случайная величина является суммой большого количества маловероятных событий. Это однопараметрическая случайная величина, задаваемая своим математическим ожиданием .

P n n e n!

В отличие от биномиального распределения, для распределения Пуассона не обязательно, чтобы вероятности наступления события были одинаковы, достаточно,

чтобы они были малы. Для реальных ситуаций, когда p хотя и мало, но конечно, величина отклонения P n от пуассоновской порядка или меньше p2.

Сумма двух независимых пуассоновских случайных величин с параметрами 1 и 2 есть пуассонова случайная величина с параметром 1 2 .

4. Равномерное распределение на отрезке a;b .

Это двухпараметрическое семейство, имеет плотность распределенияx 1 b a для x a;b , и x 0 для всех остальных x. Среднее арифметическое равно b a 2 .

5. Нормальное распределение.

Двухпараметрическое семейство, задается своим математическим ожиданием m и дисперсией D. Имеет колоколообразную плотность распределения

 

x

1

e

x m 2

 

 

 

2D

 

 

 

 

 

 

 

 

 

 

 

 

2 D

 

 

 

Сумма двух независимых нормальных случайных величин с параметрами m1; D1 и

m2 ; D2

есть нормальная случайная величина с параметрами

m1 m2 ; D1 D2 .

Нормальные случайные величины часто используются в статистике.

 

6. Распределение «хи-квадрат».

 

 

 

 

Это

однопараметрическое семейство

с

целочисленным параметром n. Пусть

1, 2 ,..., N

– независимые нормальные

случайные величины с

математическими

ожиданиями, равными нулю, и дисперсиями, равными единице. Тогда случайная величина

2

2

2

... 2

распределена как 2 (читается «хи-квадрат с n степенями свободы»).

n

1

2

 

 

n

 

 

 

n

 

 

7. Распределение Стьюдента.

 

 

Пусть – нормальная случайная величина с нулевым математическим ожиданием и

единичной дисперсией, а

распределена как

2 и они независимы. Тогда случайная

 

 

 

 

 

 

 

 

 

 

n

величина

T

 

 

 

 

имеет

распределение

Стьюдента (иногда еще говорят Т-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

распределение) с n степенями свободы.

8. Распределение Фишера–Снедекора.

 

 

 

 

 

Если и – независимые случайные величины, распределенные по

2

с n и m

 

 

 

 

n

 

степенями свободы соответственно, то случайная величина

F

 

n

имеет F-

 

 

 

m

 

 

 

 

распределение с n, m степенями свободы.

Домашнее задание

Задача 6.7. На Татуине один из тысячи рождается со способностями джедая. Для их обнаружения любому человеку можно сделать специальный тест, причем вероятность ошибки тестирования – 1%. Куай-Гон нашел у Энакина Скайуокера способности джедая. Какова вероятность, что Энакин на самом деле ими обладает?

Лекция №7 Проверка гипотез

Статистические гипотезы Доверительная вероятность

Так как любые эмпирически известные нам закономерности (а все известные нам закономерности – эмпирические) могут быть случайными совпадениями и нет ничего, что бы мы знали об окружающей нас действительности со стопроцентной надежностью, нужно отработать технику использования потенциально неверных заключений – гипотез.

Например, студент Костя Сидоров на лекции по планированию эксперимента играет в карты со своим соседом и через некоторое время замечает, что каждый раз, когда тот сдает карты, то достает себе туза. После 10 партий это начинает настораживать, ведь при игре обычной колодой из 36 карт шанс вытащить туза равен 4/39 = 1/9. Вероятность, что

это событие повториться случайно 10 раз подряд, равна 19 10 10 9 . Если затрачивать на

партию всего по одной минуте и не отвлекаться на еду, сон и лектора, то на отыгрыш необходимого числа партий уйдет около 7 тысяч лет. Поэтому, хотя чисто теоретически возможно, что серия из 10 тузов выпала случайно, но общественность не осудит Костю, если он в это не поверит.

Итак, общая схема проверки статистической гипотезы такова.

1.Принимается на веру некоторая статистическая гипотеза.

Эта гипотеза часто называется нулевой гипотезой, например:

вероятность события равна некоторой величине;

события независимы;

случайная величина принадлежит некоторому классу случайных величин;

случайные величины одинаково распределены;

параметр случайной величины находится в пределах некоторого отрезка;

параметры двух случайных величин равны.

2.Определяется вероятность того, что произойдут такие события, которые произошли в эксперименте.

Врассмотренном примере с картами явно вычислялась вероятность набора наблюдаемых событий. На практике обычно вычисление вероятностей произошедших в эксперименте событий – довольно трудоемкий процесс. Поэтому при проверке гипотез часто приходится использовать другой подход – конструировать некую новую величину, и определять, как она должна быть распределена в предположении об истинности нулевой гипотезы. Конструируемые величины называются статистиками. Для таких статистик типичны умеренные значения, когда нулевая гипотеза верна (например, две частоты совпадают или близки друг к другу), и большие значения когда она неверна.

3.Если полученная вероятность оказывается слишком малой, то статистическая

гипотеза отвергается.

Если полученные значения слишком маловероятны, то нулевая гипотеза отвергается.

Ошибки первого и второго рода Доверительная вероятность

Определение. Доверительная вероятность – величина, принятая как разделяющая вероятные и маловероятные события.

Доверительная вероятность традиционно обозначается строчной латинской буквой «p». В качестве значений доверительной вероятности обычно выбирают круглые числа: 0,05, 0,01, 0,001 и т.д. Строго говоря, использование круглых чисел здесь – наследие старой техники ручного подсчета при помощи статистических таблиц.

Например, пусть для критерия «хи-квадрат» с двумя степенями свободы была получена величина статистики T = 11,7. Из таблицы можно выяснить, что при двух степенях свободы при p=0,001 критическое значение равно 13,82, при p=0,01 равно 9,21, а при p=0,05 – 5,99. Следовательно, рассчитанная величина по этому критерию, равная в эксперименте 11,7 больше критического значения для p=0,01 и меньше, – для p=0,001. Т.е. различия в эксперименте достоверны с p < 0,01, но не достоверны с p=0,001.

В настоящее время это не нужно, поскольку современные статистические пакеты программ не только рассчитывают величины различия, но и точную величину соответствующей доверительной вероятности. Например, в электронной таблице Excel имеется встроенная функция ХИ2РАСП от двух аргументов – величины различия и числа степеней свободы. В рассматриваемом случае ХИ2РАСП(11,7;2) = 0,00288, т.е. различие достоверно с p=0,00288 (0,288%).

Таким образом, доверительная вероятность – не вероятность некоторого события, а вопрос доверия. Из жизненного опыта мы знаем, что пагубны и чрезмерная легковерность, и чрезмерная подозрительность.

При проверке статистической гипотезы возможны ошибки двух родов. Ошибка первого рода – принять на веру неправильную статистическую гипотезу, т.е. чрезмерная легковерность. Ошибка второго рода – не согласиться с правильной гипотезой, то есть чрезмерная подозрительность.

Вероятность ошибки первого рода, т.е. принятия ложноположительной гипотезы, среди потока ложных гипотез равна доверительной вероятности. Вероятность ошибки второго рода, т.е. отказа от правильной гипотезы, только на основании доверительной вероятности рассчитать нельзя, нужно знать, какие именно гипотезы поступают на проверку.

Уменьшение доверительной вероятности, т.е. ужесточение критериев проверки, уменьшает вероятность ошибок первого рода, однако увеличивает вероятность ошибок второго рода. Поэтому никакого оптимального выбора доверительной вероятности нет и быть не может. Выбирать ее нужно на основании величины ущерба от совершения ошибок первого или второго рода.

Например, в современной медицине характерно стереотипное использование доверительной вероятности в 0,05, а также абсолютизирование понятия «достоверные различия». В технических же дисциплинах обычно выбирают значительно более жесткие условия проверок статистических гипотез и работают с доверительные вероятностями от 0,001 и меньше. Почему же врачи столь легковерны?

В случаях, когда ущерб от ошибок первого и второго рода сопоставим, выбор p=0,05 действительно разумен. Например, при постановке диагноза ошибка первого рода – поставить неправильный диагноз, ошибка второго рода – отказаться от предполагаемого правильного диагноза и оставить пациента вообще без диагноза. Ущерб от обеих ошибок близок, и выбор «мягкого» критерия правомочен.

Если же речь идет о проверке готовности самолета к рейсу, то ошибка первого рода

– выпустить в рейс самолет, который разобьется, ошибка второго рода – не выпустить в рейс самолет, который благополучно долетит. Здесь ущерб от ошибки первого рода значительно больше, чем от ошибки второго рода, поэтому можно (и нужно!) использовать более жесткие критерии проверки, понижая значение доверительной вероятности. Если бы инженеры, так же как и врачи, работали с доверительной вероятностью в 0,05, то они бы строили самолеты, которые разбиваются в каждом двадцатом рейсе, и мосты, которые разваливались бы при прохождении каждого двадцатого поезда.

Использование современных вычислительных средств дало возможность проводить сравнения с большим количеством переменных, из-за чего ложноположительные результаты из возможных стали неизбежными. Например, в средней кандидатской диссертации модель может быть охарактеризована по паре сотен параметров. Поэтому если проводится сравнение достоверности с p=0,05 различия нескольких моделей, то ожидается 10 ложноположительных различий. При современном стиле изложения, при котором описываются только достоверные различия, а обо всех проводимых различиях, не давших достоверных различий, даже не упоминается, этих десяти ложноположительных связей с лихвой хватит для написания диссертации.

В каждой отдельной работе ложноположительные связи неизбежны. Выявить их можно потом в результате работы по сопоставлению и обобщению результатов, полученных разными группами исследователей – так называемому кроссанализу.

Итак, выбор доверительной вероятности нужно делать на основании сопоставления ущерба от ложноположительных и ложноотрицательных выводов. В любой конкретной работе наличие ложноположительных и ложноотрицательных результатов неизбежно; выводы нужно делать на основании сопоставления результатов разных исследований, причем сами эти результаты должны быть описаны достаточно подробно, чтобы такое обобщение вообще было возможно.

Достоверность различий частоты и вероятности

Задача 7.1. Пусть на устном экзамене к Беклемишеву попадает в среднем 12% студентов, а на экзамене в зимнюю сессию из 40 студентов к нему попало только 2, т.е. 2/40 = 5%. Является ли это различие достоверным?

В данном случае с точки зрения каждого студента экзамен представляет собой бернуллиевский эксперимент с вероятностью успешного исхода (или, скорее, неуспешного) p=0,12. Количество студентов, попавших к Беклемишеву, есть случайная величина, равная сумме случайных величин, распределенных по Бернулли, т.е. распределена биномиально с p=0,12 и N=40:

P n C40n 0,12 n 1 0,12 40 n

Вероятность того, что при ожидаемой частоте сдачи экзамена Беклемишеву 12% из 40 студентов попадет к нему на сдачу 2 или меньше (и тогда различия будут достоверны), равна 0,126 (функция БИНОМРАСП в Excel). Т.к. это достаточно большая величина, в частности большая, чем 0,05, то даже при p=0,05 достоверных различий между наблюдаемой частотой и вероятностью нет.

Пусть теперь на экзамене из 40 студентов к Беклемишеву попало 10, т.е. 10/40=25%. Вероятность того, что при вероятности 0,12 из 40 студентов к нему попадет 10 или больше, равна 1–0,9825=0,0125. В результате получаем, что различия между ожидаемой вероятностью 0,12 и наблюдаемой частотой 25% достоверны с p=0,0125.

В более сложных случаях, когда определяется достоверность различий некоторой измеряемой величины и ее табличного значения или двух измеренных величин, схема действий та же самая:

1)делается предположение о свойствах функции распределения этих величин,

2)вычисляется вероятность того, что их различия окажутся равными полученным в эксперименте или большим, и

3)полученное число сравнивается с выбранной доверительной вероятностью; если оно меньше или равно ей, то гипотеза равенства этих величин отвергается.

Например, на втором курсе студенты на лабораторных занятиях по химической термодинамике определяют достоверность отличия теплот сгорания бензойной кислоты и неизвестного органического соединения.

Расчет доверительных границ к частоте встречаемости

Подобным образом можно не только определять достоверность различий, но и получить, в каких пределах при заданной доверительной вероятности могут находиться измеренные величины, не отличающиеся достоверно от табличных.

Возьмем доверительную вероятность p=0,05. Вероятность того, что при вероятности x на экзамене к Беклемишеву из 40 студентов попадет 10 или менее, равна 0,05:

10

10

P n C40n xn 1 x 40 n 0, 05

n 0

n 0

Подбором находим, что x=0,387. Следовательно, с доверительной вероятностью p=0,05 вероятность попасть на экзамене к Беклемишеву меньше 0,387.

Для получения оценки с другой стороны нужно найти, при какой величине x вероятность того, что из 40 студентов к Беклемишеву попадут 10 или более, будет равна

0,05:

40

40

P n C40n xn 1 x 40 n 0, 05

n 10

n 10

Опять подбором находим x=0,142. Следовательно, с доверительной вероятностью p=0,05 вероятность попасть на экзамене к Беклемишеву больше 0,142.

Определение. Полученные оценки вероятностей, не отличающихся достоверно от экспериментальной частоты, называются односторонними доверительными интервалами.

Поскольку вероятность не может быть одновременно больше 38,7% и меньше 14,2%, то измеряемая вероятность лежит в пределах между 14,2% и 38,7% с доверительной вероятностью 0,10 (по 0,05 на каждую сторону).

Определение. Полученная оценка возможной вероятности называется

двусторонним доверительным интервалом.

Если бы мы с самого начала строили двусторонний доверительный интервал для вероятности с доверительной вероятностью 0,05, то односторонние интервалы нужно было подбирать для доверительной вероятности 0,025. В этом случае интервал будет от

12,7% до 41,2%.

Следует обратить внимание на то, что наблюдаемая частота в 25% не находится посередине доверительного интервала, поэтому записать его в виде M±m невозможно. Такая форма представления стала стереотипной из-за того, что в наиболее часто использующемся случае – оценке среднего арифметического при помощи критерия Стьюдента – доверительные границы симметричны.

Полученные оценки справедливы только в том случае, когда рассматриваемая случайная величина распределена биномиально, т.е. отдельные случаи независимы и равновероятны. Как мы говорили ранее, проверка независимости испытаний – дело тонкое. Другая возможная причина небиномиальности распределения – неодинаковость вероятностей исходов для разных случаев.

Сравнение набора частот с набором вероятностей Критерий «хи-квадрат» и условия его применимости

Часто вместо сравнения одной частоты с вероятностью нужно сравнивать набор частот с набором вероятностей или несколько наборов частот друг с другом. Сделать это

можно при помощи критерия 2 .

Пусть изучаемая величина может принимать n разных значений с вероятностями pk , а из N наблюдений k-тое значение встретилось Nk раз. Определение достоверности

отличия набора частот Nk

N от их вероятностей pk происходит по следующей схеме.

1)

Для каждого k определяется ожидаемое количество наблюдений Npk ;

2)

Для каждого

k определяется существенность разности ожидаемого и

 

 

 

N

k

Np

2

 

фактического количества наблюдений: k

 

k

;

 

 

 

Npk

 

 

 

 

 

 

 

 

 

 

 

N

 

3)

Вычисляется общая существенность различий: k ;

k 1

4) Определяется вероятность p того, что случайная величина, распределенная как 2 с N–1 степенями свободы принимает значения, равные или большие(функция ХИ2РАСП в Excel).

Полученная вероятность p – доверительная вероятность гипотезы о том, что различия частот от вероятностей существенны (вероятность ошибиться, посчитав частоты значимо отличающимися от своих вероятностей).

Рассмотрим, например, раскладку по количеству оценок на сайте IMDB от 1 до 10 двум первым частям из трилогии «Хоббита» Питера Джексона: «Нежданное путешествие»

(2012) и «Пустошь Смауга» (2013).

 

 

Количество

%

 

 

 

 

 

 

 

1

 

2

1

 

2

 

Npk

k

 

 

10

107345

 

61189

24,5%

 

25,6%

 

58505

123,1

 

 

9

97572

 

55860

22,2%

 

23,4%

 

53179

135,2

 

 

8

111938

 

60455

25,5%

 

25,3%

 

61009

5,0

 

 

7

68123

 

34777

15,5%

 

14,5%

 

37129

148,9

 

 

6

28268

 

13892

6,4%

 

5,8%

 

15407

148,9

 

 

5

10978

 

5422

2,5%

 

2,3%

 

5983

52,6

 

 

4

4697

 

2328

1,1%

 

1,0%

 

2560

21,0

 

 

3

2809

 

1450

0,6%

 

0,6%

 

1531

4,3

 

 

2

1773

 

963

0,4%

 

0,4%

 

966

0,0

 

 

1

5165

 

2748

1,2%

 

1,1%

 

2815

1,6

 

 

Всего:

438668

 

239084

100,0%

 

100,0%

 

 

640,7

 

Вычисления дают

640, 7

и p<0,001,

т.е. мы почти наверняка ошибемся, если

посчитаем различия в распределениях оценок незначимыми. Иными словами, распределения оценок двум этим фильмам достоверны с p<0,001.

Похожая техника расчетов применяется в том случае, если имеется набор частот и проверяется статистическая гипотеза о том, что эти частоты достоверно не различаются между собой. В этом случае все наблюдения объединяются и рассчитывается общая частота, после чего для каждого наблюдения определяется существенность расхождения со средним значением.

Понятно, что могут быть ситуации, когда ни одна частота значимо не отличается от своей вероятности, но большинство различий близко к значимым, так что по совокупности набор частот отличается от набора вероятностей. Возможна и обратная ситуация, когда в наборе одна пара различается достоверно, а все остальные – нет, так что по совокупности различие недостоверно. В этом случае различие в паре можно считать ложнодостоверным.

При использовании критерия 2 нами рассчитывались некоторые величины и утверждалось, что они распределены как n2 -распределение. Это не совсем точно – даже при истинности нулевой гипотезы полученная случайная величина распределена не какn2 , а несколько иначе. Все, что утверждается относительно полученного распределения – то, что при увеличении количества наблюдений полученное распределение будет стремиться к n2 -распределению. То же относится и ко всем остальным критериям, использующим специальные статистики.

На практике пользоваться критерием 2 для сравнения наборов частот можно при выполнении следующих двух условий:

1)Общее количество наблюдений – не менее 50.

2)Количество наблюдений каждого варианта значения – не менее 7 (в крайнем случае – не менее 5).

При сравнении набора частот с набором вероятностей нужно выполнение следующих трех условий:

1)Общее количество наблюдений – не менее 50.

2)Для каждого варианта значения количество успешных наблюдений не менее 7 (в крайнем случае – не менее 5).

3)Для каждого варианта значения количество неуспешных наблюдений не менее 7 (в крайнем случае – не менее 5).

Если критерий 2 применяется для слишком малых объемов наблюдений, то

полученные достоверности различий оказываются завышенными, т.е. могут быть обнаружены достоверные различия там, где их на самом деле нет. Кроме того, приведенные выше ограничения касаются определения наличия не слишком высокой достоверности различий.

Второй недостаток критерия 2 в том, что он разные значения переменных считает разными в одинаковой степени.

Домашнее задание

Задача 7.2. Из 48 студентов первые 6 лекций нашего курса посетило 42, 46, 44, 43, 47 и 43 студента соответственно. С какой доверительной вероятностью можно считать посещаемость лекций постоянной величиной?