Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

terver_23-60

.pdf
Скачиваний:
7
Добавлен:
14.05.2015
Размер:
242.34 Кб
Скачать

1ОСНОВНЫЕ ПОНЯТИЯ

1.1Организационные вопросы

Представиться, рассказать про практики. Рассказать про экзамен: письменный, блоки вопросов.

1.2Историческая справка

Сразу отмечу что статистика – понятие очень обширное. Даже как наука, она имеет несколько различных пониманий. В широком смысле это отрасль знаний, в которой излагаются общие вопросы сбора, измерения и анализа массовых статистических (количественных или качественных) данных. Собственно название произошло от латинского status — состояние дел. К этому более общему понятию статистики относятся всякие переписи, пересчеты, то есть это наука счетоводческая, о которой обычно говорят по телевизору в связи со всякими опросами, про нее есть замечательная фраза, что есть 3 вида лжи: ложь, наглая ложь и статистика. Такая статистика появилась очень давно, со времен переписей в Китае и всяких там глиняных табличек, задолго до нашей эры. Более четко о статистике как о науке было сказано в 1746 г. в Германии, там она называлась Государствоведение, чуть позже в Англии она вошла под названием Экономическая арифметика. Нам интересна статистика в более узком смысле слова, уже как серьезная научная математическая дисциплина. В этом виде она появилась и развивалась только в XX веке, и связана с фамилиями Пирсона, Фишера, Стьюдента, среди отечественных ученых надо отметить Колмагорова, Чебышева, Гнеденко.

Выделяют два крупных направления в статистике как научной дисциплине: математическая и прикладная.

Математическая статистика – наука, разрабатывающая математические методы систематизации и использования статистических данных для научных и практических выводов.

Прикладная статистика – наука, занимающаяся описанием реализации методов обработки статистических данных, разрабатываемых в математической статистике. Определение немножко неточно тем, что некоторые методы прикладной статистики не имеют математической основы и поэтому не имеют отношения к математической статистике, а описываются только в прикладной. Принципиальных отличий между математической и прикладной статистики нет: по сути, первая описывает методы, а вторая - реализацию этих методов. Математическая статистика – более теоретическая наука, прикладная – более практическая. Как правило, дальше я далее буду просто говорить «статистика», не различая математической и прикладной.

Статистика развивает теорию вероятностей, эти науки всегда идут парами, даже половина учебников называется «Теория вероятностей и математическая статистика», но имеет несколько другие задачи. Рассмотрим пример.

1

Пример: рассмотрим бросание монеты. В теории вероятностей мы принимали выпадение орла и выпадение решки, как 0.5, исходя из чисто логических соображений. В статистике же мы должны будем бросать орел и решку сколько-то раз, чем больше, тем лучше. Допустим, бросили монетку 1000 раз: 550 раз выпал орел, 450 решка. Тогда статистическая частота (аналог вероятности) выпадения орла будет 0.55, решки - 0,45.

То есть основой для статистики являются результаты реальных наблюдений, измерений, опытов. Теория вероятностей – наука идеальная, работающая с образами, статистика же работает с реальными объектами, реальными данными. Статистика

вузком смысле описывает методы анализа этих реальных данных. То есть разница примерно такая же, как между геометрией и черчением, на геометрии мы работаем с идеальными фигурами: квадратами, треугольниками, на черчении мы их пытаемся нарисовать, и, конечно, квадрат получается с разными сторонами, идеальных фигур

вжизни не бывает. Статистика распространяет результаты теории вероятностей для использования в исследовании реальных данных.

1.3Основные задачи прикладной статистики

1.Оценка неизвестных параметров распределения – эта задача подробнее будет описываться на ближайших лекциях. Суть в том, что мы можем оценивать какие-либо параметры случайной величины на основе ее значений. Например, математическое ожидание случайной величины примерно равно арифметическому среднему ее значений.

2.Статистическая проверка гипотез о законе распределения – проверка предположения о распределении наблюдаемой случайной величины. Например, измерив рост всех здесь присутствующих, я могу с помощью этих результатов поверить гипотезу о том, что рост имеет нормальное распределение.

3.Анализ взаимосвязи двух или более случайных величин – Об этой задаче речь пойдет в конце курса. К ее методам относятся корреляционный, регрессионный, дисперсионный и факторный анализы.

4.Классификация – Это задача уже из области теории распознавания образов, у нас есть ряд объектов (измерений случайных величин). Эта теория довольно обширна, у информационных систем на 5-ом годе обучения будет отдельный курс, посвященный распознаванию образов, поэтому я подробно не буду о ней рассказывать.

1.4Основные определения

1.Генеральная совокупность – все объекты, которые подлежат данному статистическому исследованию или измерению. Более научное определение: множество значений рассматриваемой случайной величины.

2.Опыт (испытание, эксперимент) – разовое измерение некоторой случайной величины.

2

3.Выборка (x1; x2; : : : ; xn) – последовательность измеренных значений случайной величины, получаемая в результате проведения опытов. Иными словами это последовательность результатов опытов. Приведу пример: мы проводим опрос граждан России на предмет того, за кого они будут голосовать на предстоящих выборах. Тогда генеральная совокупность – это все граждане России, выборка – это только те люди, которых мы опросили. Нарисовать круги: большой – генеральная совокупность, в нем маленький - выборка. Выборочная совокупность – это подмножество генеральной совокупности, на основе которого построена выборка.

По типу данных различают количественные и качественные (категоризированные) выборки. Тут думаю все понятно, количественные – это выборки чисел, например, рост, вес какой-нибудь группы людей. У категоризированных выборок ее значения составляют какое-то ограниченное число классов. Например, выборка группы крови у сидящих тут, получается у элементов выборки всего 4 возможных значения. Ну или просто пол – всего 2 варианта. На деле, как правило, область значений количественной выборки бесконечно, а у категоризированной – конечно.

На самом деле граница между количественными и качественными выборками довольно зыбкая.

4.Размах выборки - для количественных выборок это разница между наибольшим и наименьшим ее элементом. ∆ = Xmax − Xmin

5.Объем выборки(n) - количество элементов выборки.

Свойства выборки:

Репрезентативность – выборка должна правильно отражать законы распределения изучаемых случайных величин (если мы хотим получить оценку граждан всей страны, то нельзя опрашивать только москвичей).

Полнота – выборка должна обладать достаточным объемом, чтобы получать статистические оценки, обладающие высокой точностью и надежностью. (опять-таки, чтобы оценить мнение жителей всей страны нельзя опросить трех человек и думать, что этого достаточно).

Чистота – должно быть незначительное влияние ошибок измерения и фиксации экспериментальных данных. (Ошибки измерительных приборов должны быть минимизированы).

6.Вариационный ряд(X1(n); X2(n); : : : ; Xn(n)) - упорядоченная по возрастанию выборка.

7.Группированный (интервальный) вариационный ряд - Для его построения разбиваем выборку на n равных по длине частей. Обратите внимание, что под равенством понимается не равное количество элементов выборки в каждом диапазоне, а равная длина самих диапазонов. Иными словами вычисляем

1 =

=

(Xmax−Xmin)

и строим разбиение вариационного ряда [Xmin; Xmin +

n

 

 

n

 

1; Xmin + 2∆1; : : : ; Xmin + n1 = Xmax]. Количество диапазонов желательно выбирать с таким расчетом, чтобы в каждом диапазоне было 5-10 значений.

3

Интервальный вариационный ряд будут составлять количества попаданий в каждый интервал ni. Иногда строится еще интервальный ряд частот - для каждого интервала записывается не количество попадания в него ni, а частота попаданий nni .

8.Полигон - способ наглядного представления выборки в виде ломаной линии. Для его построения используют интервальный ряд частностей или частот. На оси Ox откладываются середины каждого интервала, на оси Oy - соответствующее число попаданий или частота (вид графика в обоих случаях будет одинаковым, разным будет масштаб графика по оси Oy).

9.Гистограмма - способ наглядного представления выборки в виде гистограммы. Строится аналогично полигону.

4

2СТАТИСТИЧЕСКИЕ ОЦЕНКИ

На первой паре я уже вкратце касался вопросов оценки, когда говорил о первой задаче статистики - оценке неизвестных параметров распределения.

Статистическая оценка - это величина или диапазон величин, получаемые на основе выборки и используемые для оценивания некоторого неизвестного параметра распределения случайной величины. Это одно из основных понятий статистики. То есть, оценка всегда берется относительно какого-то теоретического параметра распределения из теории вероятностей, скажем, оценка для математического ожидания или для моды. (Нарисовать табличку с 2мя столбцами: 1-ый - теоретическое распределение и его параметры, 2-ой - оценки, получаемые из опытов). Обозначение: обычно оценка какого-либо параметра Θ обозначается как Θ . Очень важно понять, что оценка строится только на основе выборки, т.е. Θ = Θ (x1; x2; : : : ; xn). Отсюда сформулируем 2 замечания:

Зам 1. По выборке нельзя найти точное значение неизвестного параметра, оценка - это приближенное значение параметра.

Зам 2. Так как оценка - функция от выборки, то если мы возьмем другую выборку наблюдений той же самой случайной величины, мы получим другое значение оценки. (Пример: замеры температуры)

2.1Основные оценки

0.Относительная частота - оценка вероятности события. Пронумеруем ее нулевым пунктом, потому что одиночная вероятность не является параметром распределения. Но с другой стороны, именно из этой "оценки"и вытекают все

остальные. Пример относительной частоты я показывал на примере с прошлой

лекции про монеты. (A) = nk , где k - количество опытов, в которых произошло событие A, n - общее число опытов. Это определение очень напоминает понятие классической вероятности, с той лишь разницей, что в тервере реальные опыты не рассматриваются, и вероятность берется априори, тогда как частота

встатистике высчитывается на основе реальных опытов.

1.Оценка закона распределения / плотности. Ее можно выразить таблицей,

вкоторой заносятся значения выборки и их частота встречаемости. По сути эта таблица похожа на закон распределения дискретной случайной величины. Пример с бросанием кубика.

 

x1

. . .

xk

(1)

P

 

1

 

. . .

 

1

 

 

k

 

k

 

Оценка этого закона распределения имеет следующий вид:

x1

. . .

xk

n1 + · · · + nk = n

(2)

n1

. . .

nk

n

 

n

 

 

5

То есть, это расширение пункта 0 уже на закон распределения. В отличие от относительной частоты, закон распределения уже можно считать оценкой самого распределения, хотя в литературе он никогда не встречается. По сути, именно из этой оценки и выводятся все остальные, но возможно она не используется в литературе, так как представляет собой некую структуру, а не значение или диапазон значений.

Если строить подобную оценку для непрерывной случайной величины, т.е. оценку плотности непрерывной случайной величины, то мы получим бессмысленную таблицу, потому что вероятность попасть дважды в одну и ту же точку для непрерывной СВ равна 0. Следовательно, у нас должна получаться таблица, в которой число значений равно числу проведенных опытов, а вероятность каждого значения равна n1 , где n - число опытов. Поэтому в данном случае как раз используется группированная выборка, о которой рассказывалось на прошлой лекции.

Зам. Вообще, надо отметить, что выборка по сути является аналогом именно дискретной, а не непрерывной случайной величины, так как количество опытов всегда ограничено. Следовательно оценка закона распределения всегда дискретна. Поэтому и далее оценки распределения (и их формулы) будут больше напоминать именно параметры дискретных случайных величин, где мы работаем с дискретными величинами (суммами, а не интегралами).

2.Эмпирическая функция распределения. Ее определение вытекает из опре-

деления оценки закона распределения, это считается главной общепринятой

оценкой, из которой выводятся все остальные. Fn (x) = (nx) , где (x) - количество элементов выборки, меньших x.

Другая формула:

(n)

0; если x < x1

Fn (x) = mn ; если x(mn) < x < x(mn+1)1; если x > x(nn)

График эмпирической функции распределения представляет собой ступенчатый вид (нарисовать пример). В каждом элементе выборки Xk функция распределения совершает скачок на nnk , где nk - количество элементов Xk в этой выборке. То есть для выборок из непрерывной СВ, где, как правило, каждый элемент выборки встречается только один раз, скачок в каждом элементе выборке будет равен n1 . Поэтому, для оценки функции распределения непрерывной СВ на практике зачастую используют группированную эмпирическую функцию распределения. Для этого строится интервальный частотный вариационный ряд, в котором высчитывается с какой частотой элементы выборки попали в каждый диапазон. На правой границе каждого диапазона функция распределения совершает скачок на частоту данного диапазона. В отличие от графика обычной эмпирической функции распределения, в графике группированной функции равные расстояния откладываются по оси Ox (а не Oy), на графике это смотрится нагляднее.

6

3. Выборочное среднее - оценка математического ожидания.

M (x1; x2; : : : ; xn) = n1 ∑n Xi

i=1

Краткое обозначение: X. (Выборку x1; x2; : : : ; xn зачастую для экономии места записывают просто как X).

4. Выборочная дисперсия - оценка дисперсии.

 

 

 

 

 

 

i

 

 

 

 

 

1 n

 

 

 

1

n

 

 

 

2

D (x1; x2; : : : ; xn) =

n

i=1

(Xi − X)2

=

n

=1

Xi2

− X

 

 

 

 

 

 

 

 

 

 

 

 

Краткое обозначение: m2(X)

5.Выборочное среднеквадратическое отклонение - оценка среднеквадратического обновления. (x1; x2; : : : ; xn) = m2

6.Выборочный начальный момент n-го порядка - оценка начального момента n-го порядка.

k(x1; x2; : : : ; xn) = n1 ∑n Xik

i=1

7.Выборочный центральный момент n-го порядка - оценка центрального момента n-го порядка.

mk(x1; x2; : : : ; xn) = n1 ∑n (Xi − X)k

i=1

8. Выборочная мода - оценка моды. По аналогии с дискретной случайной величиной из тервера - это самое часто встречаемое значение выборки. Для количественной выборки она почти всегда не существует, поэтому вычисляют группированную моду - интервал, в который попало наибольшее количество элементов выборки.

9. Выборочная медиана - оценка медианы. F (Med) = 12 . Для количественной выборки, медиана будет средним элементом вариационного ряда, если количество элементов выборки нечетно, и среднему арифметическому двух средних элементов вариационного ряда, если количество элементов четно.

10. Выборочный коэффициент ассиметрии - оценка коэффициента ассимет-

рии. = m3

( )3

11. Выборочный эксцесс - оценка эксцесса. = m4 3 ( )4

Вообще параметров у любого распределения можно придумать очень много, и для каждого из них можно записать формулу его оценки, по аналогии с формулой самого параметра (того, как он выражается через функцию распределения).

7

2.2Классификация оценок

По виду оценки бывают:

Точечные Собственно, все рассмотренные выше формулы относятся к точечным оценкам. Точечные оценки представляют собой одно единственное число, вычисляемое по некоторой формуле. Θ = Θ (x1; x2; : : : ; xn)

Интервальные К ним относятся оценки, представляющие из себя целый интервал, то есть множество значений. В интервальных оценках задается вероятность, называемая надежностью, на основе которого вычисляются 2 числа: начало и конец интервала. Говорят, что оцениваемый параметр попадает в полученный интервал с вероятностью, равной надежности. То есть P(Θ < Θ < Θ) = . И интервал [Θ; Θ] будет называться интервальной оценкой параметра Θ с заданной надежностью . Его еще также называют доверительным интервалом. О построении доверительных интервалов подробнее описано в главе 4.

Свойства оценок:

Несмещенная оценка - это такая оценка Θ , для которой выполняется свойство MΘ = Θ. То есть математическое ожидание оценки равно оцениваемому параметру. Если это свойство не выполняется, оценка называется смещенной. То есть, хотелось бы требовать от оценки, чтобы ее среднее значение при различных взятых выборках, давало бы оцениваемый параметр.

Зам. Из любой смещенной оценки можно получить несмещенную, умножив на соответствующий коэффициент.

MΘ = k =

Θ

Θ = Θ MΘ = Θ

k

 

 

 

Оценка Θ1 называется более эффективной, чем оценка Θ2, если M1 Θ)2 < M2 Θ)2

Эффективная оценка - оценка в которой достигается минимум отклонения оценки от оцениваемого параметра: MΘ)2 = inf MΘ)2 . Но извест-

Θ

но, что нижняя грань может быть недостижима, вследствие чего эффективная оценка не всегда существует. Поэтому вводится понятие асимптотически эффективной оценки.

Асимптотически эффективная оценка. MΘ)2 = lim inf MΘ)2

n→∞ Θ

Состоятельная оценка - оценка, которая сходится по вероятности к оценива-

емому параметру.

" > 0 lim P(|Θ Θ| < ") = 1

n→∞

8

Сильно состоятельная оценка похоже на состоятельную, но сходимость берется почти всюду.

P( lim (Θ = Θ)) = 1

n→∞

Рассмотрим какими из названных свойств обладают основные оценки:

Выборочное среднее является состоятельной и несмещенной. В случае нормально распределенной генеральной совокупности, она также является эффективной оценкой.

Выборочная дисперсия является смещенной, состоятельной и асимптотически эффективной оценкой.

Зам. Как мы показали выше, из любой несмещенной оценки можно получить смещенную путем умножения на определенный коэффициент. Можно показать, что

Mm2 =

n−n

1

D . Следовательно, обычно вводят так называемую несмещенную вы-

 

 

 

 

 

 

 

 

 

i

борочную дисперсию s2 =

n

 

 

 

1

 

n

n−

1

m2 =

n

 

1

=1 (Xi − X)2

2.3Методы получения оценок

1.Метод моментов Есть выборка x1; x2; : : : ; xn . Θ - произвольный числовой параметр функции распределения F (x) = F (x; Θ), который мы будем оценивать. Мы записали выше формулы для оценок центральных и начальных моментов произвольного порядка. На основе теоретической функции распределения F (x; Θ) мы можем получить формулу для любого теоретического моментаk(Θ) или k(Θ) Приравнивая теоретический момент, как функцию от Θ, к соответствующему эмпирическому (выборочному) моменту, мы можем найти

Θ.

Зам. Если оцениваемых параметров несколько, мы можем брать несколько моментов и решать систему уравнений.

Зам. Обычно, если оцениваемый параметр единственный, для метода моментов используют выборочное среднее (оценку математического ожидания). Если оцениваемых параметров k, то принято брать первые k начальных моментов.

i1; : : : ; Θk) = i

Пример.

0 1

P p 1-p

0

1

m

n

Надо оценить параметр p. Для этого используем первый начальный момент, т.е. матожидание, и приравняем его к выборочному среднему.

 

 

 

 

n

 

 

n

 

m

M = 1

− p X =

1

− p =

p =

 

 

 

 

m + n

m + n

m + n

9

Преимущество метода: простота.

Недостатки метода:

(a)Рассматривая разные моменты, будем получать разные оценки одного и того же параметра для одной и той же выборки.

(b)Оценки, полученные по методу не являются асимптотически эффективными.

2.Метод максимального правдоподобия

Оцениваемый параметр должен принять такие значения, чтобы вероятность получить заданную выборку была максимальной. Это оптимизационный метод, напоминающий по сути метод наименьших квадратов и тому подобное. Рассмотрим применение этого метода для оценивания параметров отдельно для дискретной и для непрерывной случайных величин.

(a)Дискретная случайная величина Рассмотрим дискретную случайную величину . Она имеет закон распределения, задаваемый с помощью таблицы.

 

x1

. . .

xk

(3)

P

P1(Θ)

. . .

Pk(Θ)

 

Наблюдение над этой случайной величиной имеет следующий вид:

 

x1

. . .

xk

n1 + · · · + nk = n

(4)

 

n1

. . .

nk

Запишем функцию максимального правдоподобия:

 

 

L(Θ) = A(P1n1 (Θ)P2n2 (Θ)Pknk (Θ))

(5)

где A - вероятность получить данную выборку.

Это формула условной вероятности - вероятность получения выборки умножается на вероятности получения каждого элемента выборки заданного числа раз. Чем больше эта функция, тем ближе теоретическое распределение 3 к эмпирическому (наблюдаемому) 4. Следовательно, если рассматривать это выражение как функцию от Θ, то Θ, в котором достигается максимум функции можно считать оптимальной оценкой. Множитель A не зависит от Θ, и он не интересует нас при поиске максимума функции от Θ, поэтому функцию максимального правдоподобия обычно записывают в виде:

L2(Θ) = A(P1n1 (Θ)P2n2 (Θ)Pknk (Θ)) Θ = argmaxL(Θ)

(6)

Для нахождения максимума функции, ее надо продифференцировать и

приравнять к нулю. dL(Θ) = 0

dΘ

Зам. Для расчетов обычно проще принимать за функцию максимального правдоподобия

i

 

k

 

ln L(Θ) = ni ln Pi(Θ)

(7)

=1

 

10

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]