Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
62
Добавлен:
16.04.2015
Размер:
970.75 Кб
Скачать

ВВЕДЕНИЕ 2

«Мы должны противостоять соблазну (к которому присоединяется давление обстоятельств) разработать теорию, терминологию и математический аппарат, слишком приближая их какой-либо одной частной области приложений. Вместо этого мы намерены развить общую теорию родственную тем, которые привели к успеху геометрию и теоретическую механику»

(В.Феллер «Введение в теорию вероятностей и ее приложения»)

Обычно, когда говорят о статистике, имеют в виду статистику «прикладную», то есть свод методов, позволяющих с некоторой долей вероятности отвечать на вопросы, стоящие перед экспериментаторами и делать заключения о полученных в ходе исследований результатах. Если рассматривать эти методы «сами по себе» , достаточно быстро можно прийти к расхожим утверждениям о том, что «есть ложь, наглая ложь и статистика» и «статистика есть отрасль теологии». Кроме того, прикладная статистика, будучи включена в исследовательскую деятельность в конкретной области, до такой степени сливается с ней, что «обрастает» своей уникальной терминологией и вообще превращается в отдельную дисциплину (таковы, скажем, экономическая статистика, биометрия и пр.).

В рамках нашего курса нам бы хотелось дать представление не столько о конкретных манипуляциях, которые необходимо совершить при обработке результатов эксперимента, сколько об их происхождении и правомерности, связи с теорией вероятностей, а также о том, на какие вопросы на самом деле мы получаем ответы, формулируя некие психологические гипотезы и проводя соответствующие вычисления статистическими методами.

Центральным понятием математической статистики, как и теории вероятностей, является понятие случайной величины, которая здесь называется генеральной совокупностью. Как вы уже знаете, случайная величина описывается своим законом распределения, функцией распределения и характеризуется набором числовых значений, называемых параметрами ее распределения. Именно это описание мы и будем пытаться получить, имея в своем распоряжении лишь отдельные, реализовавшиеся в опыте ее значения – выборочные значения (значения выборки).

Вторым ключевым понятием статистики можно назвать понятие оценки (статистики) – функции от выборки, то есть, в конечном итоге функции от случайной величины. Это те самые, порой довольно устрашающие формулы, в которые нужно подставлять экспериментальные значения. Их «поведение» (распределение) и позволяет делать заключение о различных аспектах распределения генеральной совокупности.

Основные задачи математической статистики

При решении любой задачи математической статистики исследователь располагает двумя источниками информации. Первый и наиболее определенный (явный) — это результаты наблюдений (эксперимента) в виде выборки из некоторой генеральной совокупности скалярной или векторной случайной величины. При этом объем выборки п может быть

фиксирован, а может увеличиваться в ходе эксперимента (т.е. могут

использоваться так называемые последовательные процедуры

статистического анализа).

Второй источник — это вся априорная информация об интересующих исследователя свойствах изучаемого объекта, которая накоплена к текущему моменту. Формально объем априорной информации отражается в той исходной статистической модели которую исследователь выбирает при решении своей задачи.

В математической статистике всегда в той или иной мере используют априорную информацию об исследуемом объекте, но степень обоснованности такого использования лежит на совести (или зависит от компетентности) конкретного исследователя.

Если есть сомнения в том или ином исходном допущении при решении конкретной задачи, то его нужно проверять и обосновывать, а при невозможности это сделать — отбросить и попытаться найти решение задачи без привлечения сомнительных допущений.

Перечислим некоторые задачи математической статистики,

наиболее часто встречающиеся в ее приложениях.

Оценка неизвестных параметров. Задача оценивания неизвестных параметров возникает в тех случаях, когда функция распределения генеральной совокупности известна с точностью до параметра θ (тета: обозначение параметра) . В этом случае необходимо найти такую

статистику (функцию) , выборочное значение которой для рассматриваемой реализации случайной выборки можно было бы считать приближенным значением параметра .

Статистику (Х1… ,Хn ), выборочное значение которой для любой реализации (x1, x2, …xn) принимают за приближенное значение неизвестного параметра θ, называют его точечной оценкой или просто оценкой, а значением точечной оценки (просто оценки).

Понятно, что точечная оценка (Х1… ,Хn ) должна удовлетворять

вполне определенным требованиям для того, чтобы ее

выборочное значение в соответствовало истинному значению параметра

.

Возможным является и иной подход к решению рассматриваемой задачи: найти такие статистики (Х1… ,Хn ) и (Х1… ,Хn ) чтобы

с вероятностью α выполнялось неравенство

P (( (Х1… ,Хn ) ≤ θ ≤ (Х1… ,Хn )) = α

В этом случае говорят об интервальной оценке для θ. Интервал

( (Х1… ,Хn ) , (Х1… ,Хn ))называют доверительным интервалом для θ с коэффициентом (уровнем) доверия α

Проверка статистических гипотез.

Статистической гипотезой называют любое предположение о распределении вероятностей наблюдаемой случайной величины — скалярной или векторной.

В некотором смысле задача проверки статистической гипотезы является обратной к задаче оценивания параметра. При оценивании параметра мы ничего не знаем о его истинном значении. При проверке статистической гипотезы мы из каких-то соображений предполагаем известным его значение и хотим по результатам эксперимента проверить наше предположение.

Установление формы и степени связи между случайными величинами. Методы математической статистики, способствующие установлению формы и степени связи между случайными величинами, излагаются в таких? разделах математической статистики, как корреляционный анализ,

дисперсионный анализ, регрессионный анализ и др.

Смысл таких задач поясним на простом примере. Пусть У — случайная величина, поведение которой мы хотели бы определять по значениям двух других случайных величин Х1 и Х2. Например, У — это степень шума двигателя автомашины, Х1 и Х2— соответственно величина пробега автомобиля и вес груза в нем. Корреляционный и дисперсионный анализ

позволяет нам ответить на вопрос: есть ли связь между Х1 , Х2 и У и насколько она существенна. На основе же регрессионного анализа мы можем построить так называемую регрессионную модель в виде зависимости y = φ (x1 , x2), где у — среднее значение шума У в зависимости от значений

x1 и x2случайных величин Х1и Х2. Наличие такой модели (которую строят, опираясь на результаты имеющихся статистических данных — результатов эксплуатации автомобилей) позволяет в дальнейшем выбрать наилучший режим эксплуатации и решать многие другие задачи.

Глава «Введение» из книги Г.И.Ивченко и М.И.Медведева «Введение в математическую статистику» (случайные величины обозначаются в этом тексте не латинскими буквами Х , Y и др, а греческими ξ, η (кси, эта)):