
Тема 1. Математическая статистика. Основные понятия и определения.
1. Основная модель и задачи математической статистики.
Математическая статистика – это раздел математики, в котором рассматриваются задачи восстановления «вероятностной структуры» некоторого явления на основе наблюдений над этим явлением. Например, исследуется бросание монеты, для которой вероятность выпадения герба неизвестна. Наблюдение заключается в многократном подбрасывании монеты, пусть в результате 100 бросаний монеты герб выпал 74 раза. Из наблюдений следует, что монета, скорее всего, не является симметричной. Методы математической статистики в данном случае позволяют дать оценку неизвестной вероятности выпадения герба и построить интервал, в котором с большой вероятностью может находиться неизвестная вероятность. Подобных задач на практике встречается чрезвычайно много, а математическая статистика предоставляет математический аппарат, который позволяет формально подойти к решению целого ряда таких задач в достаточно общей постановке.
В теории вероятностей в качестве
формальной основы используется понятие
вероятностного пространства (,
,
),
где
– непустое множество элементарных
событий,
–
-алгебра
множеств с единицей
,
– вероятностная мера, определенная для
множеств из
,
причем все три компоненты вероятностного
пространства считаются заданными
(определенными).
В задачах математической статистики
вероятностная мера
,
как правило, не задана (неизвестна), но
в некоторых случаях бывает известно,
что вероятностная мера
принадлежит некоторому классу (множеству)
мер
.
С помощью класса
вводится понятие вероятностно-статистической
модели (
,
,
),
в рамках которой проводится постановка
и решение задач математической статистики.
Большая часть задач математической
статистики включает в себя исследование
свойств класса
,
для проведения которого требуется
дополнительная информация, поступающая
в виде наблюдений. Формально наблюдения
представляются совокупностью случайных
величин (конечной либо счетной) или даже
случайных функций.
В частных случаях, дополнительно
известно, что класс
представляет собой параметрическое
семейство
мер
,
имеющих одинаковый вид и отличающихся
лишь значением вектора параметров
,
принимающего значения из некоторого
допустимого множества параметров
.
В таких случаях формулировки основных
задач могут иметь следующий вид: по
заданным наблюдениям определить
неизвестный параметр
,
определить в каком интервале может
находиться неизвестный параметр
,
определить согласуются ли наблюдения
с различными утверждениями о неизвестном
параметре, такими как «
»
или «
»,
где
и
заданные числовые значения.
Пример.
Рассмотрим эксперимент, который заключается в троекратном бросании монеты и фиксировании результатов выпадений, при этом про монету ничего не известно, то есть, вероятность выпадения герба не задана.
Обозначим в качестве
количество бросаний (
),
и в качестве
неизвестную вероятность выпадения
герба. В данном случае вероятностно-статистическая
модель, отвечающая описанному эксперименту,
имеет следующий вид:
1) Множество элементарных событий
можно представить как множество векторов
из
компонент, каждая из которых равна
(что означает выпадение герба) или 0 (что
означает выпадение решки). Таким образом,
или кратко
.
2) В качестве
следует взять множество всех подмножеств
.
3) Класс
является параметрическим, параметр
является неизвестной вероятностью
и множество допустимых значений параметра
,
то есть
,
где каждая мера
предписывает множеству
вероятность
:
.
Под наблюдением в данной постановке
следует понимать вектор из
бинарных случайных величин
,
где
,
.
В процессе проведения эксперимента,
каждая из случайных величин
получит вполне определенное значение
1 либо 0, так что по окончании эксперимента
будет получен вектор чисел, таким
вектором может оказаться, например,
вектор
.
В рамках построенной модели некоторые основные задачи могут быть сформулированы следующим образом:
1) На основе наблюдения предложить метод
вычисления (оценки) неизвестного
параметра
(задача построения оценки);
2) На основе наблюдения предложить метод
построения интервала
,
в котором с большой вероятностью
находится неизвестный параметр (задача
построения доверительного интервала);
3) На основе наблюдения определить можно
ли с большой долей уверенности считать,
что монета является симметричной, то
есть, считать, что неизвестный параметр
(задача проверки гипотезы).
4) На основе наблюдения определить какое
из двух утверждений «»
и «
»
является «более правдоподобным» (задача
различения двух простых гипотез).