
Лекции / Лекции (ЭКТ-2, Бардушкин) / Лекции в Word (2003) / Лекция 19,20
.docКУРС ЛЕКЦИЙ ПО ТЕОРИИ ВЕРОЯТНОСТЕЙ
Лекция № 19
Глава 10
Элементы математической статистики
§ 1. Задачи математической статистики. Установления закономерностей, которым подчинены массовые случайные явления основано на изучении методами теории вероятностей статистических данных (результатов наблюдений
1. Задача математической статистики
Указать способы сбора и группировки статистических сведений, полученных в результате наблюдений или в результате специально составленных экспериментов.
2. Задача математической статистики
1) Разработать методы анализа статистических данных в зависимости от целей исследования:
-
оценка неизвестной вероятности событий;
-
оценка неизвестной функции распределения;
-
оценка параметров распределения, вид которого известен;
-
оценка зависимости СВ от одной или нескольких других СВ.
2) Проверка статистических гипотез о виде неизвестного распределения или о величине параметров распределения вид, которого известен.
Современную математическую статистику определяют как науку о принятии решений в условиях неопределенности.
§ 2. Выборка и способы ее представления
Математическая статистика позволяет получить обоснованные выводы о параметрах, видах распределений и других свойствах СВ о конечной совокупности наблюдений над этими величинами.
Выборка понимается
следующим образом. Пусть СВ Х
наблюдается на каком либо эксперименте,
повторим этот эксперимент n
раз при одинаковых условиях. Получаем
,
где каждая
– СВ соответствующая j-му
эксперименту. Очевидно, что
– независимые в совокупности СВ, причем
каждая из этих СВ имеет один и тот же
закон распределения, что и СВ Х.
Определение.
Закон распределения СВ Х называется распределением генеральной совокупности.
СВ вектор
называется выборочным вектором, а
конкретные числа
,
получаемые на практике при n
кратном повторении эксперимента в
неизменных условиях представляет собой
реализацию выборочного вектора и
называются выборкой объема n.
Что такое вариационный ряд, размах выборки, статистический ряд, группированный статистический ряд, частоты, относительные частоты, накопленные частоты, относительные накопленные частоты, всевозможные полигоны и гистограммы, а также, что такое эмпирическая функция распределения изучили самостоятельно.
§ 3. Числовые характеристики выборки
Пусть
выборка объема n из
генеральной совокупности с функцией
распределения
.
Рассмотрим
выборочное распределение, т.е.
распределение дискретной СВ, принимающей
эти значения с вероятностями, равными
.
Соответственно числовые характеристики
этого выборочного распределения называют
выборочными (эмпирическими) числовыми
характеристиками.
Замечание.
Выборочные числовые характеристики являются характеристиками данной выборки, но не являются характеристиками распределения генеральной совокупности.
“~” – при обозначении этих числовых характеристик.
.
.
.
– унимодального,
т.е. одновершинного распределения
называется элемент выборки, встречающийся
с наибольшей частотой.
Выборочной медианой
называется
,
которое делит вариационный ряд на две
части, содержащие равное число элементов.
Если n
– нечетное число, т.е. n
= 2l+1,
то
.
Если n
– четное число, т.е. n
= 2l,
то
.
Можно доказать,
что выборочные начальные
и центральные
моменты порядка s
для негруппированных выборок объема и
определяются по следующим формулам
.
Форма распределения СВ характеризуется выборочными коэффициентами асимметрии и эксцесса.
.
§ 4. Статистическое описание и вычисление оценок параметров распределения системы двух СВ
Пусть исход некоторого эксперимента описывается двумя СВ (X; Y).
Предварительное
представление о зависимости между X
и Y можно получить,
нанося элементы двумерной выборки
,
в виде точек на плоскость с выбранной
системой координат. Такое представление
называется диаграммой рассеяния.
Определение.
Распределением
двумерной выборки называется распределение
двумерного дискретного СВ случайного
вектора, принимающего значения
с вероятностями
.
Выборочные числовые характеристики вычисляются как соответствующие числовые характеристики двумерного дискретного случайного вектора. Если объем выборки небольшой, то тогда вычисления проводятся в следующей последовательности:
1.
.
Контроль
.
2. Суммы квадратов отклонений от среднего и произведения отклонений от среднего
.
3.
.
.
§ 5. Линии регрессии
Для СВ X и Y.
Регрессией Y
на X
называется условное МО
.
используется для
предсказания значения СВ Y
по фиксированному значению СВ X.
Если
,
то говорят о линейной регрессии Y
на X.
– прямая регрессии.
Оценки параметров
линейной регрессии по выборке
,
где
,
можно получить, используя МНК из условия
минимума суммы
.
– выборочные
коэффициенты регрессии.
.
Выборочная линейная регрессия Y на X. Аналогично рассматривается X на Y.
.
Обе прямые регрессий
пересекаются в точке с координатами
.
Угол между этими двумя прямыми уменьшается при увеличении коэффициента корреляции.
При
обе прямые совпадают.
Замечание.
Прямые
и
должны быть различны.
Лекция № 20
§ 6. Оценки параметров распределения
Пусть неизвестная
функция генеральной совокупности
зависит от некоторого параметра
.
Нужно по наблюдениям оценить параметр.
Для построения оценок используются статистики – функции от выборочных значений.
Примеры статистик.
.
Эта оценка
.
Будет рассматриваться,
как приближенное значение параметра
.
Замечание.
Как правило, для
оценки параметра
можно использовать несколько статистик,
получая при этом различные значения
параметра
.
Как измерить
«близость» оценки
к истинному значению
?
Как определить качество оценки?
Комментарий:
Качество оценки
определяется не по одной конкретной
выборке, а по всему мыслимому набору
конкретных выборок, т.е. по случайному
выборочному вектору
,
поэтому для установления качества
полученных оценок моментов
,
следует во всех этих формулах заменить
конкретные выборочные значения
на СВ Xi.
.
Качество оценки устанавливают, проверяя, выполняются ли следующие три свойства (требования).
Требования, предъявляемые к точечным оценкам:
1. Несмещенность,
т.е.
.
Это свойство желательно, но не обязательно. Часто полученная оценка бывает существенной, но ее можно поправить так, что она станет несмещенной.
Иногда оценка
бывает смещенной, но асимптотически
несмещенной, т.е.
.
2. Состоятельность,
т.е.
.
Это свойство является обязательным. Несостоятельные оценки не используются.
3. Эффективность.
а) Если оценки
и
– несмещенные, то
и
.
Если
,
то оценка
более эффективна, чем
.
б) Если оценки
и
– смещенные, тогда
и
.
Если
,
то оценка
более эффективная, чем
.
Где
– средний квадрат отклонения оценки.
Рассмотрим использование этих свойств на примерах выбора оценок МО и дисперсии:
1. Выборочное среднее
является несмещенной
и состоятельной оценкой МО генеральной
совокупности
,
причем каждое Xi
совпадает
с m
и 2.
а) Несмещенность.
По определению
выборочного вектора
,
причем Xi
– независимые
в совокупности СВ, тогда вычислим
;
.
.
б) Состоятельность
Воспользуемся неравенством Чебышева:
Применим это
неравенство к
При n
,
что и доказывает состоятельность
.
2. Выборочная дисперсия
Докажем, что выборочная дисперсия является смещенной оценкой для дисперсии генеральной совокупности.
Выполним следующие преобразования
;
.
Найдем МО для дисперсии:
.
.
МО не совпадает с
2,
а отличается на
– смещение.
Таким образом эта
оценка занимает в среднем истинное
значение дисперсии на величину
,
правда это смещение сходит на нет при
n
.
Чтобы устранить это смещение надо «исправить» дисперсию.
.
Можно доказать, что статистика S2 является и состоятельной оценкой для дисперсии генеральной совокупности.
Замечание.
К сожалению, на практике при оценке параметров не всегда оказывается возможным одновременное выполнение требований: несмещенности, эффективности и состоятельности.
§ 7. Интервальные оценки. Доверительный интервал. Доверительная вероятность
В ряде задач
требуется не только найти для параметра
подходящую оценку
,
но и указать к каким ошибкам может
привести замена параметра
его оценкой
,
т.е. требуется оценить точность и
надежность оценки.
Для определения
точности оценки
в статистике пользуются доверительными
интервалами.
Для определения
надежности оценки
в статистике пользуются доверительной
вероятностью.
Определение.
Доверительным
интервалом для параметра
называется интервал
,
содержащий истинное значение параметра
с заданной вероятностью
.
.
Определение.
Число
называется доверительной вероятностью,
а значение
– уровнем значимости.
Замечание.
Нижняя
и верхняя
граница доверительного интервала
определяется по результатам наблюдений
и следовательно является СВ. Поэтому
так и говорят, что доверительный интервал
«накрывает» оцениваемый параметр с
вероятностью
.
Выбор доверительной вероятности каждый раз определяется конкретной постановкой задачи. Обычно р = 0,9; р = 0,95; р = 0,99.
Часто применяют
односторонние доверительные интервалы
(левосторонний),
(правосторонний).