
- •Математическая статистика Введение в математическую статистику
- •Предмет математической статистики
- •Возникновение и развитие математической статистики
- •Приложения математической статистики
- •Общая статистическая модель
- •Параметрические и непараметрические задачи
- •Случайные величины и статистики
- •Достаточные статистики
- •Критерий факторизации.
- •Выборка и эмпирическая мера
- •Выбор статистической модели
- •Классическая статистическая модель.
- •Эмпирическая функция распределения
- •Выборочные характеристики
- •Свойства выборочных характеристик
- •Моделирование выборок на компьютере
- •Датчик случайных чисел
- •Моделирование дискретных распределений
- •Моделирование непрерывных распределений
- •Теория оценивания
- •Определение оценки и критерии качества оценок
- •Общие методы построения оценок
- •Метод подстановки и метод моментов
- •Метод максимального правдоподобия
- •Улучшение оценок
- •Теорема Рао-Блэкуэлла-Колмогорова
- •Теория статистических решений
- •Основные понятия теории статистических решений
- •Байесовский подход
- •Допустимость байесовских оценок
- •Проверка двух простых гипотез
- •Байесовский подход
- •Наиболее мощный критерий. Лемма Неймана- Пирсона
- •Проверка непараметрических гипотез. Критерии согласия
- •Критерий знаков
- •Состоятельность критерия
- •Критерий Колмогорова
- •Критерий хи-квадрат
- •Построение доверительных множеств и интервалов Постановка задачи
- •Методы построения доверительных множеств и интервалов
- •Случайные величины, свободные от распределения
- •Асимптотические доверительные интервалы
- •Доверительные интервалы для параметров нормального распределения
- •Примеры решения статистических задач в общей статистической модели.
- •Линейная регрессионная модель
- •Оценка матрицы переходных вероятностей конечной цепи Маркова
- •Оценка параметра пуассоновского процесса
Критерий факторизации.
Теорема.
Для того чтобы
статистикаявлялась достаточной статистикой для
семейства
,
необходимо и достаточно, чтобы существовали
измеримые по первой координате,
неотрицательные функции
и
такие, что почти наверное
,
где функция
зависит, а функция
не зависит от
.
Выборка и эмпирическая мера
Содержательные
выводы о семействе
по статистическим данным можно сделать,
только если данные содержат в себе
достаточно информации о
.
Идея последовательного накопления
данных о
приводит к понятиювыборки.
Пусть
- измеримое пространство,
- некоторое семейство вероятностных
мер на
.
Рассмотрим
-
кратное произведение измеримых
пространств
и семейство
вероятностных мер
на нем. При фиксированном
,
с точки зрения теории вероятностей,
данная вероятностная модель описывает
последовательность
независимых
одинаковых опытов, каждый из которых
представляет собой независимое повторение
исходного опыта
.
С точки зрения математической статистики
данная модель описывает ситуацию, когда
априорно известно, что исходные данные
представляют собой
независимые наблюдения одного и того
же случайного объекта с неизвестным
распределением
.
Такие исходные данные называютсявыборкой
(иногда, для определенности, добавляют
«из генеральной совокупности с
распределением
»).
Заметим, что в случае
получаем исходную статистическую
модель. Значение
называют размером или объемом выборки.
Будем в дальнейшем обозначать
пространство выборок
.
Если семейство
параметрическое, то будем в дальнейшем
обозначать
- плотность распределения одного
наблюдения,
- меру в исходном пространстве относительно
которой считается плотность.
Если данные
представляют собой выборку, то нетрудно
построить разумную оценку неизвестной
вероятности
.
Определение.
Эмпирической мерой называется случайная величина
Эмпирическая мера обладает следующими свойствами
Для любого фиксированного набора данных
она является вероятностной мерой по
. Действительно, эта мера есть среднее арифметическое вырожденных в точках
вероятностных мер
.
Среднее значение данной меры для любого
, вычисленное в предположении, что неизвестная мера равна
, равно
Это следует из соотношения
для любой меры
. Это свойство является следствием закона больших чисел в форме Хинчина.
Со статистической точки зрения свойство 2) означает, что эмпирическая мера оценивает неизвестную меру в среднем точно, а свойство 3) – что точность оценки с увеличением размера выборки возрастает.
Свойство 2) называют
несмещенностью, а 3) – состоятельностью
оценки
«Идея подстановки».
Если
- некоторая характеристика распределения
данных, например, математическое ожидание
некоторой функции от данных, то кажется
разумным выбрать в качестве оценки для
величину
(подставить
в
).
Эта идея реализована в дальнейшем в
методе подстановки.
Выбор статистической модели
Выбор статистической модели для конкретных данных оказывает большое влияние на выводы. Наиболее содержательные выводы можно сделать в тех случаях, когда статистические данные представляют собой выборку. Если предположение о независимости и идентичности опытов не соответствует априорным сведениям, то, так или иначе, стараются либо представить исходные данные в виде некоторого преобразования (в этом случае уже ненаблюдаемой) выборки (см. далее линейная регрессионная модель), либо использовать другой вариант описания опыта, при котором можно реализовать идею накопления информации (см. далее марковская цепь, пуассоновский процесс).
Соответствие
статистической модели данным можно
проверить с помощью специальных процедур
математической статистики (см., например,
далее критерии согласия).
Основная идея такой проверки состоит
в следующем. Выбирается множество данных
такое, что вероятность попасть в это
множество при существенных отклонениях
от предложенной модели достаточно
велика. Тогда событие
интерпретируется как согласие данных
с моделью, а событие
,
как несогласие. Множество
называется обычно критическим множеством.
Подробнее о статистических критериях
далее в разделепроверка
статистических гипотез.
Проверить качество
статистических процедур и определить
их характеристики можно, применяя
статистическое моделирование с
использованием компьютера. Для этого
выбирается несколько распределений
,
для каждого из них с помощью компьютера
моделируется несколько выборок и затем
вычисляются и сравниваются теоретические
и практические значения интересующих
исследователя характеристик распределения
.
Хорошее согласие теории и практики на
тестовых распределениях позволяет
надеяться на такой же результат при
реальных исследовании статистических
данных.