Курс статистики / Модуль 2. Лекции / ВВЕДЕНИЕ 2
.docВВЕДЕНИЕ 2
«Мы должны противостоять соблазну (к которому присоединяется давление обстоятельств) разработать теорию, терминологию и математический аппарат, слишком приближая их какой-либо одной частной области приложений. Вместо этого мы намерены развить общую теорию родственную тем, которые привели к успеху геометрию и теоретическую механику»
(В.Феллер «Введение в теорию вероятностей и ее приложения»)
Обычно, когда говорят о статистике, имеют в виду статистику «прикладную», то есть свод методов, позволяющих с некоторой долей вероятности отвечать на вопросы, стоящие перед экспериментаторами и делать заключения о полученных в ходе исследований результатах. Если рассматривать эти методы «сами по себе» , достаточно быстро можно прийти к расхожим утверждениям о том, что «есть ложь, наглая ложь и статистика» и «статистика есть отрасль теологии». Кроме того, прикладная статистика, будучи включена в исследовательскую деятельность в конкретной области, до такой степени сливается с ней, что «обрастает» своей уникальной терминологией и вообще превращается в отдельную дисциплину (таковы, скажем, экономическая статистика, биометрия и пр.).
В рамках нашего курса нам бы хотелось дать представление не столько о конкретных манипуляциях, которые необходимо совершить при обработке результатов эксперимента, сколько об их происхождении и правомерности, связи с теорией вероятностей, а также о том, на какие вопросы на самом деле мы получаем ответы, формулируя некие психологические гипотезы и проводя соответствующие вычисления статистическими методами.
Центральным понятием математической статистики, как и теории вероятностей, является понятие случайной величины, которая здесь называется генеральной совокупностью. Как вы уже знаете, случайная величина описывается своим законом распределения, функцией распределения и характеризуется набором числовых значений, называемых параметрами ее распределения. Именно это описание мы и будем пытаться получить, имея в своем распоряжении лишь отдельные, реализовавшиеся в опыте ее значения – выборочные значения (значения выборки).
Вторым ключевым понятием статистики можно назвать понятие оценки (статистики) – функции от выборки, то есть, в конечном итоге функции от случайной величины. Это те самые, порой довольно устрашающие формулы, в которые нужно подставлять экспериментальные значения. Их «поведение» (распределение) и позволяет делать заключение о различных аспектах распределения генеральной совокупности.
Основные задачи математической статистики
При решении любой задачи математической статистики исследователь располагает двумя источниками информации. Первый и наиболее определенный (явный) — это результаты наблюдений (эксперимента) в виде выборки из некоторой генеральной совокупности скалярной или векторной случайной величины. При этом объем выборки п может быть
фиксирован, а может увеличиваться в ходе эксперимента (т.е. могут
использоваться так называемые последовательные процедуры
статистического анализа).
Второй источник — это вся априорная информация об интересующих исследователя свойствах изучаемого объекта, которая накоплена к текущему моменту. Формально объем априорной информации отражается в той исходной статистической модели которую исследователь выбирает при решении своей задачи.
В математической статистике всегда в той или иной мере используют априорную информацию об исследуемом объекте, но степень обоснованности такого использования лежит на совести (или зависит от компетентности) конкретного исследователя.
Если есть сомнения в том или ином исходном допущении при решении конкретной задачи, то его нужно проверять и обосновывать, а при невозможности это сделать — отбросить и попытаться найти решение задачи без привлечения сомнительных допущений.
Перечислим некоторые задачи математической статистики,
наиболее часто встречающиеся в ее приложениях.
Оценка неизвестных параметров. Задача оценивания неизвестных параметров возникает в тех случаях, когда функция распределения генеральной совокупности известна с точностью до параметра θ (тета: обозначение параметра) . В этом случае необходимо найти такую
статистику (функцию)
,
выборочное значение
![]()
которой для рассматриваемой реализации
случайной выборки можно было бы считать
приближенным значением параметра
.
Статистику
(Х1…
,Хn
), выборочное значение
которой для любой реализации (x1,
x2,
…xn)
принимают за приближенное значение
неизвестного параметра θ,
называют его точечной
оценкой или просто оценкой,
а
— значением
точечной оценки (просто оценки).
Понятно, что
точечная оценка
(Х1…
,Хn
) должна удовлетворять
вполне определенным требованиям для того, чтобы ее
выборочное значение в соответствовало истинному значению параметра
.
Возможным является
и иной подход к решению рассматриваемой
задачи: найти такие статистики
(Х1…
,Хn
) и
(Х1…
,Хn
) чтобы
с вероятностью α выполнялось неравенство
P ((
(Х1…
,Хn
) ≤ θ
≤
(Х1…
,Хn
))
= α
В этом случае говорят об интервальной оценке для θ. Интервал
(
(Х1…
,Хn
) ,
(Х1…
,Хn
))называют доверительным интервалом
для θ с коэффициентом (уровнем) доверия
α
Проверка статистических гипотез.
Статистической гипотезой называют любое предположение о распределении вероятностей наблюдаемой случайной величины — скалярной или векторной.
В некотором смысле задача проверки статистической гипотезы является обратной к задаче оценивания параметра. При оценивании параметра мы ничего не знаем о его истинном значении. При проверке статистической гипотезы мы из каких-то соображений предполагаем известным его значение и хотим по результатам эксперимента проверить наше предположение.
Установление формы и степени связи между случайными величинами. Методы математической статистики, способствующие установлению формы и степени связи между случайными величинами, излагаются в таких? разделах математической статистики, как корреляционный анализ,
дисперсионный анализ, регрессионный анализ и др.
Смысл таких задач поясним на простом примере. Пусть У — случайная величина, поведение которой мы хотели бы определять по значениям двух других случайных величин Х1 и Х2. Например, У — это степень шума двигателя автомашины, Х1 и Х2— соответственно величина пробега автомобиля и вес груза в нем. Корреляционный и дисперсионный анализ
позволяет нам ответить на вопрос: есть ли связь между Х1 , Х2 и У и насколько она существенна. На основе же регрессионного анализа мы можем построить так называемую регрессионную модель в виде зависимости y = φ (x1 , x2), где у — среднее значение шума У в зависимости от значений
x1 и x2случайных величин Х1и Х2. Наличие такой модели (которую строят, опираясь на результаты имеющихся статистических данных — результатов эксплуатации автомобилей) позволяет в дальнейшем выбрать наилучший режим эксплуатации и решать многие другие задачи.
Глава «Введение» из книги Г.И.Ивченко и М.И.Медведева «Введение в математическую статистику» (случайные величины обозначаются в этом тексте не латинскими буквами Х , Y и др, а греческими ξ, η (кси, эта)):












