Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Учебное пособие 938

.pdf
Скачиваний:
8
Добавлен:
30.04.2022
Размер:
667.6 Кб
Скачать

Министерство образования и науки Российской федерации

Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования

«Воронежский государственный архитектурно-строительный университет»

Кафедра высшей математики

МАТЕМАТИЧЕСКАЯ СТАТИСТИКА

Mетодические указания

к выполнению расчетно-графической работы для магистрантов, обучающихся по направлениям подготовки

«Наземные транспортно-технологические комплексы» и «Землеустройство и кадастры» всех форм обучения

Воронеж 2014

УДК 517

ББК 22161.я7

Составители В.Н. Колпачев, В.В. Горяйнов, В.К. Каверина

Математическая статистика: методические указания к выполнению расчетно-графической работы для магистрантов, обучающихся по направлениям подготовки «Наземные транспортно-технологические комплексы» и «Землеустройство и кадастры» всех форм обучения / Воронежский ГАСУ; сост.: В.Н. Колпачев, В.В. Горяйнов, В.К. Каверина. – Воронеж, 2014. –32 с.

Методические указания содержат краткие теоретические сведения по теме «Математическая статистика» и 25 вариантов заданий с подробным разбором решения одного варианта.

Предназначены для самостоятельной работы магистрантов, обучающихся по направлениям подготовки «Наземные транспортно-технологические комплексы» и «Землеустройство и кадастры» всех форм обучения.

Ил. 4. Библиогр.: 5 назв.

УДК 517

ББК 22161.я7

Печатается по решению научно–методического совета Воронежского ГАСУ

Рецензент – Н.И. Трухина, доктор экономических наук., профессор кафедры кадастра недвижимости, землеустройства и геодезии Воронежского ГАСУ

2

ВВЕДЕНИЕ

Основной целью данных методических указаний является оказание помощи магистрантам, обучающихся по направлениям подготовки «Наземные транспортно-технологические комплексы» и «Землеустройство и кадастры» всех форм обучения при изучении математической статистики. Методические указания можно разделить на три части: в первой части кратко излагаются необходимые теоретические сведения; вторая часть содержит подробное решение примера типового варианта; в третьей части приводятся 25 вариантов задач расчетно-графической работы.

Выполнение магистрантами расчетно-графической работы контролируется преподавателем. Расчетно-графическая работа выполняется в отдельной тетради, с четкими чертежами и рисунками, с кратким описанием решения задач.

ТЕОРЕТИЧЕСКИЕ СВЕДЕНИЯ

Математическая статистика – это раздел математики, который изучает методы сбора, систематизации и обработки статистических данных с целью построения модели случайного явления для получения научных и практических выводов. Исходными в математической статистике являются статистические данные, которые, как правило, носят числовой характер и получаются в результате проведения статистического эксперимента.

Пусть требуется изучить совокупность однородных объектов относительно некоторого признака, характеризующего эти объекты. На практике исследование каждого объекта проводят редко. Обычно из всей совокупности объектов случайно отбирают, некоторую ее часть, которую называют выборкой, и изучают выбранные объекты. При этом всю совокупность объектов называют генеральной совокупностью, а количество отобранных объектов называют объ-

емом выборки. Сам метод называют выборочным методом, его смысл в том,

что по сравнительно небольшому количеству объектов делается вывод о поведении изучаемого явления в целом.

Пусть из генеральной совокупности извлечена выборка объема n . Встречающиеся в ней значения xi ( i =1,..., k ) изучаемого признака (случайной вели-

чины) X называют вариантами. Варианты, расположенные в порядке возрас-

тания, называют вариационным рядом.

Если в вариационном ряду различных вариант немного, то это говорит о дискретности признака X . Пусть варианта x1 наблюдалась n1 раз, варианта x2

- n2 раз, а варианта xk - nk раз. Числа ni (i =1,..., k ) называют частотой вари-

анты xi , а отношение wi = ni / n (i =1,..., k ) – относительной частотой вариан-

ты xi . Это соответствие между вариантами и их частотами (относительными

частотами) называют статистическим распределением частот (относительных частот):

3

xi

 

x1

x2

...

xk

 

или

 

xi

x1

x2

...

xk

ni

 

n1

n2

...

nk

 

 

 

wi

w1

w2

...

wk

 

Нетрудно видеть, что k

ni = n , а

k

wi =1.

Поэтому для относительных

 

 

 

 

 

i=1

 

 

i=1

 

 

 

 

 

частот имеется аналогия с законом распределения дискретной случайной величины.

Ломаную, соединяющую соседние точки (xi , ni ) (или (xi , wi ) ), называют

полигоном частот (или полигоном относительных частот). Она является ана-

логом многоугольника распределения.

Пусть nx - число вариант, при которых наблюдалось значение признака X , меньшее x . Тогда относительная частота события X < x равна nx / n . Функ-

ция, определяющая для каждого значения x относительную частоту события

X < x ,

F * (x) = nx / n

называется эмпирической функцией распределения. В отличие от функции рас-

пределения случайной величины F (x) , которая определяет вероятность события X < x , эмпирическая функция распределения F * (x) задает относительную частоту этого события. Легко показать, что функция F *(x) обладает всеми свойствами функции F (x) в случае дискретной случайной величины.

Если в вариационном ряду практически все варианты различны, то это говорит о непрерывности признака X . В этом случае удобно разбить интервал (xmin , xmax ) , где xmin - наименьшее значение в выборке, xmax - наибольшее значение в выборке, на несколько частичных интервалов длиной h каждый и найти для каждого из этих интервалов число вариант ni в него попавших. Число ni

(i =1,..., k ) также называют частотой, а отношение wi = ni / n (i =1,..., k ) – от-

носительной частотой. Отметим, что количество интервалов должно быть не слишком малым, но и не слишком большим, таким, чтобы сохранить особенности распределения признака X . Количество интервалов можно находить по

формуле Стерджеса:

k 1 +3,322 lg n .

Тогда длина частичного интервала:

h xmax xmin .

k

Соответствие между частичными интервалами и их частотами (относи-

тельными частотами) называют интервальным распределением частот (отно-

сительных частот). Ступенчатая фигура, состоящая из прямоугольников с основаниями длиной h и высотами ni / h (или wi / h ) называют гистограммой

4

частот (или гистограммой относительных частот). Отметим, что площадь гистограммы относительных частот равна 1. Кроме того, состоящая из горизонтальных отрезков верхняя часть гистограммы относительных частот является аналогом кривой плотности распределения вероятностей, поэтому по ее виду можно делать предположения относительно закона распределения случайной величины X .

От интервального распределения частот можно перейти к статистическому распределению частот, взяв в качестве xi середины частичных интервалов.

Числовые характеристики выборки

Пусть из генеральной совокупности извлечена выборка объема n : x1 , x2 ,..., xn .

Модой M называется варианта, имеющая наибольшую частоту. Медианой m называется варианта, которая делит вариационный ряд по-

полам. Если число вариант нечетно, т.е. n = 2l +1, то m = xl+1 , если же число ва-

риант четно n = 2l , то m = (xl + xl+1 ) / 2 .

Выборочной средней называют среднее арифметическое всех вариант:

x = 1 n xi (для несгруппированных данных), n i=1

x= 1 k ni xi (для сгруппированных данных). n i=1

Можно показать, что выборочная средняя является аналогом математического ожидания случайной величины.

Рассмотрим величины, характеризующие отклонение значений признака X , от своего среднего значения. Это выборочная дисперсия:

Dв = 1 n (xi x)2 (для несгруппированных данных), n i=1

Dв = 1 k ni (xi x)2 (для сгруппированных данных). n i=1

Для вычисления выборочной дисперсии удобно пользоваться преобразованными формулами:

Dв = 1 n xi2 x 2 (для несгруппированных данных), n i=1

Dв = 1 k ni xi 2 x 2 (для сгруппированных данных). n i=1

5

Выборочное среднее квадратическое отклонение находится по формуле:

σв = Dв .

Выборочная дисперсия и выборочное среднее квадратическое отклонение являются аналогами дисперсии и среднего квадратического отклонения соответственно.

Статистические оценки параметров распределения

Пусть изучается некоторый признак X , характеризуемый параметром Θ. Необходимо на основе значений выборки, используя некоторую формулу, указать какое значение примет параметр Θ, т.е. получить оценку θ неизвестного параметра Θ. Такая оценка называется точечной оценкой параметра. Например, в качестве точечной оценки математического ожидания случайной величины можно рассматривать моду, медиану или выборочную среднюю. Для того чтобы оценка являлась оптимальной, необходимо, чтобы она удовлетворяла следующим свойствам: несмещенность, состоятельность, эффективность [5, с. 67].

Следует отметить, что для математического ожидания несмещенной и состоятельной оценкой является выборочная средняя. А вот выборочная дисперсия является лишь состоятельной оценкой дисперсии, поэтому для получения несмещенной оценки дисперсии вводится понятие исправленной выборочной дисперсии, которую находят по формуле:

S 2 = n n1 Dв .

и исправленного выборочного среднего квадратического отклонения:

S =

n

 

D .

n 1

 

в

Таким образом, точечные оценки дают приближенное значение оцениваемого параметра, и не позволяют ответить на вопрос какую ошибку мы совершаем, принимая вместо точного значения параметра его приближенное значение. Поэтому во многих случаях удобнее пользоваться интервальной оценкой, основанной на определении некоторого интервала, внутри которого с заданной вероятностью находится неизвестное значение параметра Θ.

Доверительным интервалом для параметра Θ называется интервал (θ δ;θ +δ), накрывающий неизвестный параметр с заданной вероятностью γ ,

т.е.

P(Θ−θ <δ)=γ .

6

Вероятность γ называют доверительной вероятностью или надежно-

стью оценки, наиболее часто полагают γ =0,95; 0,99; 0,999 .

Если выборка извлечена из нормально распределенной генеральной совокупности с параметрами а и σ , то доверительные интервалы для математического ожидания а и среднего квадратического отклонения σ имеют вид:

x t(γ, n)

s

< a < x +t(γ, n)

s

,

n

n

 

 

 

s(1 q(γ, n)) <σ < s(1 + q(γ, n)) ,

где значения t(γ, n) и q(γ, n) находятся по специальным таблицам [5, с. 82].

Статистическая проверка гипотез

Обычно в практических задачах не встречаются случайные величины, распределения которых точно соответствовали бы теоретическим распределениям. Теоретические распределения являются математическими моделями реальных распределений. Подбор таких моделей является одной из основных задач математической статистики, которая сводится к проверке предположений (гипотез) о виде или параметрах распределения случайной величины.

Статистической гипотезой будем называть любое утверждение о виде или свойствах закона распределения случайной величины, наблюдаемой в эксперименте. Гипотеза отклоняется, если вероятность того, что она верна, оказывается ниже некоторого уровня, называемого уровнем значимости α (обычно

α = 0,01;0,05 ).

Сформулированное утверждение называют основной или нулевой гипотезой и обозначают H0 . Альтернативное утверждение обозначают H1 и называют

альтернативной или конкурирующей гипотезой.

Статистическим критерием называют случайную величину, которая служит для проверки статистических гипотез.

Основные этапы проверки статистических гипотез.

1.Сформулировать основную и конкурирующую гипотезы.

2.Задать уровень значимости α .

3.Сформировать статистический критерий – случайную величину K (статистику), распределение которой известно.

4.Разбить множество всех значений статистики K на два непересекающихся подмножества: одно K1 содержит значения критерия, при которых нуле-

вая гипотеза отвергается, его называют критической областью и K0 – множество значений критерия, при которых нулевую гипотезу принимают. K0 называют допустимой областью. Разбиение на критическую и допустимую области

7

производится, исходя из условия, что вероятность попадания значения статистики в критическую область при условии, что справедлива нулевая гипотеза, равна α : P(K K1 | H0 ) =α .

Точки, которые разделяют критическую и допустимую области, называют критическими точками и обозначают tкр . В зависимости от вида конкури-

рующей гипотезы критическая область может быть правосторонней (tкр ,+∞) ,

левосторонней (−∞, tкр ) или двусторонней (−∞, tкр1 ) (tкр2 ,+∞) .

5. По значениям конкретной выборки вычисляется значение статистического критерия Kнабл . Если Kнабл K0 , то принимается основная гипотеза, если

Kнабл K1 , то следует отклонить нулевую гипотезу и принять конкурирующую.

При принятии или отбрасывании нулевой гипотезы мы можем совершить ошибки двух видов:

Ошибка первого рода состоит в том, что будет отвергнута нулевая гипотеза в то время, когда она в действительности верна.

Ошибка второго рода состоит в том, что будет принята нулевая гипотеза в то время, когда она неверна.

Очевидно, что вероятность ошибки первого рода равна уровню значимости критерия α . Вероятность ошибки второго рода будем обозначать β . Понятно, что чем меньше для данной критической области числа α и β , тем удачнее выбран критерий. Однако при заданном объеме выборки невозможно одновременно сделать как угодно малыми оба числа α и β . Отметим, что

единственный способ одновременно уменьшить вероятности ошибок первого и второго рода заключается в увеличении объема выборки.

Элементы регрессионного и корреляционного анализа

Предположим, что в результате эксперимента получены значения двух случайных величин X и Y . То, что эти случайные величины изучаются в ходе одного эксперимента создает между ними некоторую связь.

Статистической зависимостью между случайными величинами X и Y

называется зависимость, при которой изменение одной из величин влечет изменение распределения другой.

В практических приложениях при исследовании зависимости между случайными величинами X и Y часто изучают зависимость между случайной величиной X и условным математическим ожиданием M (Y | X = x) случайной

величины Y . Статистические зависимости такого рода называют корреляционными. Такая зависимость отражает тенденцию возрастания или убывания значений одной случайной величины при возрастании другой.

Очевидно, что условное математическое ожидание M (Y | X = x) есть не-

8

которая функция от x : M (Y | X = x) = f (x) , ее называют функцией регрессии Y

на X . График функции регрессии называют линией регрессии Y на X . Функцию регрессии X на Y определяют аналогично: M ( X | Y = y) = g( y) .

Уравнение регрессии M (Y | X = x) = f (x) позволяет находить точное зна-

чение условного математического ожидания случайной величины Y по значениям случайной величины X . Однако, чтобы найти функцию f (x) необходимо

знать закон распределения двумерной случайной величины ( X ,Y ) . На практике

при обработке экспериментальных данных распределение случайной величины ( X ,Y ) , как правило, неизвестно.

Поэтому рассматривается выборка объема n , элементами которой являются пары чисел (xi , yi ) , i =1,..., n . Если пары (xi , yi ) изобразить в виде точек в

декартовой системе координат, то получим множество точек, которое называют

корреляционным полем.

Требуется на основе данных выборки оценить функцию регрессии f (x)

некоторым приближенным выражением, которое будем называть выборочной функцией регрессии: yx = f * (x) , где yx - условное выборочное среднее

[2, с. 254]. График выборочной функции регрессии называют выборочной лини-

ей регрессии.

Таким образом, необходимо найти такую функцию f * (x) по данным

выборки, график которой наилучшим приближается к графику неизвестной функции f (x) . Вид функции подбирают по характеру расположения точек

(xi , yi ) на корреляционном поле так, чтобы она отображала характерные особенности этих точек. Сама функция f * (x) находится с помощью метода наименьших квадратов.

Выборочный коэффициент корреляции

Наибольший интерес на практике представляет случай линейной корреляционной зависимости между случайными величинами. Основными характеристиками, показывающими тесноту линейной корреляционной зависимости между случайными величинами X и Y , являются корреляционный момент и коэффициент корреляции. Точечными оценками корреляционного момента и коэффициента корреляции являются соответственно выборочный корреляцион-

ный момент:

μв( X ,Y ) = 1 n (xi x)( yi y) n i=1

и выборочный коэффициент корреляции:

9

 

 

 

ρв( X ,Y ) =

 

 

μв( X ,Y )

 

.

 

 

 

σв (X )σв (Y )

 

 

 

 

 

 

Для вычисления выборочного корреляционного момента можно исполь-

зовать более простую формулу:

 

 

 

 

 

 

 

 

 

 

 

μв( X ,Y ) =

 

 

 

x y ,

 

 

 

 

xy

 

где

 

= 1 n

xi yi - выборочная средняя произведения XY . Тогда выборочный

xy

 

 

n i=1

 

 

 

 

 

 

 

 

 

коэффициент корреляции находится по формуле:

 

 

 

 

 

 

 

 

 

x y

 

 

 

 

ρв( X ,Y ) =

 

 

 

xy

 

 

 

 

σв (X )σв (Y )

 

 

 

 

 

 

Так как выборочный коэффициент корреляции ρВ ( X ,Y ) является оценкой коэффициента корреляции ρ( X ,Y ) , он также служит для измерения тесно-

ты линейной корреляционной связи между случайными величинами X и Y , чем ближе выборочный коэффициент корреляции по модулю к единице, тем теснее эта связь; чем ближе к нулю, тем слабее.

Линейная регрессия

Если выборочный коэффициент корреляции оказался по модулю близок к единице и результаты эксперимента – точки (xi , yi ) корреляционного поля

группируются вокруг прямой линии, то можно считать, что выборочные функции регрессии имеют линейный вид:

yx = ax +b - выборочное уравнение прямой линии регрессии Y на X ; xy = cy + d - выборочное уравнение прямой линии регрессии X на Y .

Как уже было отмечено ранее, находить параметры a , b и c , d можно методом наименьших квадратов. Тогда выборочные уравнения прямых линий регрессии Y на X и X на Y примут вид:

yx y = ρв σв((Y ))(x x )- выборочноеуравнениепрямойлиниирегрессии Y на X ,

σв X

xy x = ρв σσвв((YX))(y y )-выборочноеуравнениепрямойлиниирегрессии X на Y .

Если прямые регрессии построить на координатной плоскости, на которой изображено корреляционное поле, то угол между прямыми будет малым

10