Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Математика Лабораторный практикум часть 2

.pdf
Скачиваний:
88
Добавлен:
09.02.2015
Размер:
1.47 Mб
Скачать

Методом наименьших квадратов найдём прямую y ax b такую, что сумма квадратов отклонений заданных точек от прямой будет наименьшей.

> fit[leastsquare[[x,y]]]([X,Y]);

Результат, полученный на экране монитора: y 2.888461538 3.243296703x

Для удобства определим найденную зависимость как функцию пользователя с именем F :

> F:=unapply(-2.888461538+3.243296703*x,x);

Результат, полученный на экране монитора:

F:= x 2.888461538 3.243296703x

Определим «значимость» полученной нами регрессионной зависимости. Вычислим значение коэффициента детерминации R2. Найдём среднее значение y. Обозначим эту величину идентификатором

Ysr.

> n:=14:Ysr:=sum(Y[i],'i'=1..n)/n.

Результат, полученный на экране монитора:

Ysr:=-3.69928571

Вычислим значения

~

i 1,...,14 , определяемые уравнением

yi

регрессии. Полученное множество значений обозначим идентификатором FL.

> FL:=seq(F(X[i]),i=1..n):

Определим SR2 – меру разброса, объяснённого с помощью рег-

рессии, и S2 меру общего разброса (вариации) переменной y :

> SR2:=sum((FL[i]-Ysr)^2,'i'=1..n); S2:=sum((Y[i]-Ysr)^2,'i'=1..n);

Результат, полученный на экране монитора:

SR2 := 23.93066471

S2 := 25.15649286

Вычислим значение статистического коэффициента детерминации R2:

> R2:=SR2/S2;

Результат, полученный на экране монитора:

R2 := .9512718980

По величине коэффициента детерминации заключаем, что вариация исследуемой зависимой переменной y на 95.13 % объясняется изменчивостью объясняющей переменной х.

Определим значимость уравнения регрессии. Найдём Fst –зна- чение F-статистики:

> Fst:=R2*(n-2)/(1-R2);

31

Результат, полученный на экране монитора:

Fst := 234.2644657

Найденное значение Fst сравним с критическим значением критерия Фишера. Уровень значимости примем равным 0.05. По таблице определяем, что Fкр=4.747. Так как Fst>Fкр, то уравнение регрессии значимо на уровне 0.05.

Изобразим корреляционное поле и график полученной прямой на одном рисунке:

>k:=statplots[scatterplot](X,Y,color=green):

>l:=plot(F(x),x=-0.9..0.4):

>plots[display]([k,l]);

Результат, полученный на экране монитора:

Контрольные вопросы

1.Что такое парная регрессия?

2.Что такое парная линейная регрессия?

3.Какие классы нелинейных регрессий вы знаете? Приведите примеры.

4.Что такое корреляционное поле?

5.В чём заключается метод наименьших квадратов (МНК)?

6.Какие количественные характеристики степени зависимости случайных величин вам известны?

7.Как оценивается теснота связи между исследуемыми вели-

чинами?

32

8.Как оценивается качество построенной модели?

9.Как оценивается статистическая значимость и надёжность уравнения регрессии?

10. По совокупности 30 предприятий торговли строится модель

вида y a bx между признаками: x– цена на товар А, тыс. руб.;

y– прибыль торгового предприятия, млн руб. Рассчитаны величины x 4, y 6, yx 30, x2 2. Найдите коэффициенты aи b.

Лабораторная работа 4 Статистическая обработка результатов эксперимента,

определение оценок числовых характеристик дискретной случайной величины

Цель работы: выработать практические навыки элементарной статистической обработки результатов эксперимента.

Теоретический материал для лабораторных работ 4–5.Часто ис-

следователю приходится обрабатывать большие массивы данных, полученных в результате эксперимента путём измерений, наблюдений, анализа, проб и т.п. Обычно экспериментатор имеет возможность многократно повторить свой опыт и получить большое количество однородных данных. Затем перед исследователем встаёт задача обработки этих данных, чтобы извлечь как можно более точную информацию об измеряемой величине. Изучением методов решения таких задач, в частности, занимается математическая статистика. Таким образом, в общих чертах математическая статистика разрабатывает математические методы, позволяющие делать существенные выводы об изучаемом объекте на основе статистических данных.

В теории вероятностей считаются известными законы распределения изучаемых случайных величин, и на их основе изучаются другие свойства случайных величин. В математической статистике сама с.в. считается неизвестной, и целью исследования является получение более или менее достоверной информации об этом распределении на основе данных, собранных в результате наблюдений.

Более точно о некоторых задачах математической статистики скажем ниже после введения основных понятий.

Генеральной совокупностью (сокращённо г.с.) называется случайная величина, над которой происходит наблюдение.

33

Пусть X – г.с. Выборкой из г.с. X называется конечная последова-

тельность независимых с.в.

 

X1,X2, ,Xn ,

(1)

распределённых так же, как и X. Число n называется объёмом выборки. Если в результате опыта случайные величины выборки (1) получили числовые значения x1,x2, ,xn соответственно, то последние на-

зываются реализацией выборки или выборочными значениями.

Рассмотрим пример. Имеется большая партия однотипных электрических лампочек. Требуется установить время безотказной работы лампы (время от включения и до перегорания лампы). Г.с. является с.в. X – время безотказной работы лампочек из этой партии. Можно выбрать наугад 10 лампочек из этой партии и измерить время безотказной работы каждой из выбранных лампочек: x1,x2, ,x10. Эти числовые значения являются реализацией выборки объёма 10. В принципе, можно многократно провести измерения, каждый раз выбирая по 10 лампочек. При этом каждый раз значения xi будут различными. Поэтому результатом таких измерений следует считать цепочку независимых с.в. (1), т.е выборку объёма 10. Итак, выборкой объёма 10 является цепочка независимых случайных величин, каждая из которых является временем безотказной работы лампочек из этой партии. Номинальным (средним) значением времени безотказной работы лампы из партии является математическое ожидание г.с. M[X].

Теперь рассмотрим подробнее некоторые задачи математической статистики.

1.Оценивание параметров. Эта задача состоит в том, чтобы по реализации выборки найти приближённые значения характеристик г.с., таких, как параметры, входящие в закон распределения г.с., математическое ожидание и дисперсию г.с. и т.п.

2.Проверка статистических гипотез. Бывает, что по реализа-

ции выборки из г.с. можно выдвинуть гипотезу о неизвестных параметрах или о функции распределения этой г.с. Задача состоит в том, чтобы разработать методы проверки (принятия или отвержения) таких гипотез.

3.Регрессионный анализ. Имеются результаты наблюдения над двумя случайными величинами. Требуется по ним установить, существует ли статистическая связь между ними. Если связь существует, то установить вид этой связи.

34

Точечные оценки неизвестных параметров г.с.

У г.с. неизвестными могут быть параметры, связанные с законом её распределения, её числовые характеристики (математическое ожидание, дисперсия и т.п.). Например, если предположить, что г.с. X имеет показательное распределение, то неизвестным может быть параметр . В примере с электрическими лампочками неизвестным параметром является номинальное значение времени безотказной работы лампы из партии, т.е. математическое ожидание г.с. M[X].

Под оцениванием неизвестного параметра понимается нахож-

дение его приближённого значения или диапазона его изменения. В первом случае оценка называется точечной, во втором – интер-

вальной.

 

 

 

Пусть имеется

выборка (1). Обозначим неизвестный параметр

г.с. X. Статистикой называется функция, зависящая от выборки (1).

 

1

n

 

X1 Xn

 

Например,

Xi ,

X1,

– статистики. Очевидно, статистика

 

 

 

ni 1

2

 

является с.в. Если вместо выборки в статистику подставить реализацию выборки, то получится число, которое можно назвать реализаци-

ей статистики.

Точечной оценкой неизвестного параметра г.с. X называется не-

~

которая статистика , реализация которой считается приближённым

значением параметра . Заметим, что статистики часто будут обозначаться буквой с волной над ней.

Свойства точечных оценок. Понятно, что точечная оценка неизвестного параметра должна обладать некоторыми «хорошими» свойствами по отношению к оцениваемому параметру. Рассмотрим эти свойства.

~

1. Несмещённость. Точечная оценка неизвестного параметра

~

называется несмещённой, если M[ ] , в противном случае оценка называется смещённой. Смысл несмещённости оценки состоит в том, что при нахождении приближённого значения неизвестного параметра по несмещённой оценке отсутствуют систематические ошибки (разность между значением оценки и оцениваемым параметром не имеет одного и того же знака).

2. Состоятельность. Точечная оценка

~

неизвестного параметра

 

называется состоятельной, если lim P

 

 

~

 

=0 >0. Смысл

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

состоятельности оценки состоит в том, что при увеличении объёма выборки значение оценки будет приближаться к оцениваемому параметру.

35

~

3. Эффективность. Точечная оценка неизвестного параметра

называется эффективной, если она имеет наименьшую дисперсию среди всех несмещённых оценок этого параметра. Смысл эффективности оценки состоит в том, что у эффективной оценки ошибка оценивания параметра наименьшая.

О методах получения точечных оценок. Есть различные спо-

собы получения точечных оценок. О трёх из них (методе моментов, методе максимального правдоподобия и методе наименьших квадратов) можно прочитать в [1, 2, 5], а о методе наименьших квадратов подробно написано в [3].

1 n

Выборочной средней г.с. X называется статистика X n i 1 Xi .

Выборочным начальным моментом k-го порядка называется ве-

личина ~νk 1 n Xi . ni 1

Выборочным центральным моментом k-го порядка называется

~

 

1

n

 

 

k

 

 

 

 

величина μk

 

 

(Xi X)

 

.

 

 

 

 

n i 1

 

 

Метод моментов состоит в том, что точечная оценка получается при замене неизвестных моментов г.с. (их ещё называют теоретическими моментами) на соответствующие выборочные моменты. Так, точечной оценкой м.о. по этому методу является выборочное среднее, а точечной оценкой дисперсии – выборочный центральный момент второго порядка. Этот момент называется выборочной дисперсией и обозначается Dв или 2в .

Точечные оценки математического ожидания и дисперсии.

По всем перечисленным выше методам в качестве оценки математи-

 

 

 

 

 

 

 

 

 

1

n

ческого ожидания M[X] получается выборочное среднее

 

 

Xi , а

X

 

 

 

 

 

 

 

 

 

 

n i 1

в

качестве

оценки дисперсии D(X) – выборочная дисперсия

 

 

1

n

 

 

 

 

 

 

 

Dв

 

(Xi

 

 

)2 . Кроме того, в качестве оценки дисперсии чаще

X

 

 

 

n i 1

 

 

 

 

 

 

 

рассматривают так называемую исправленную выборочную дисперсию

 

1

n

 

 

 

S2

(Xi

 

X

)2 . В качестве оценки среднеквадратического от-

 

 

n 1i 1

 

 

 

клонения рассматриваются либо в Dв , либо S S2 .

36

Обозначим m = M[X] и 2 D(X). Приведём несколько полезных равенств.

1.M[X] m.

2.D(X) 2n.

 

 

 

 

 

 

 

 

 

 

1

n

 

 

 

 

 

 

 

 

 

 

3.

Dв X2

 

2 , где X2

Xi2 .

X

 

 

 

n

 

 

 

 

 

 

ni 1

4.

S2

 

D .

 

n 1

 

 

 

 

в

 

Свойство 1 означает, что выборочное среднее является несмещённой оценкой для м.о.

По закону больших чисел выборочное среднее является состоятельной оценкой для м.о.

Выборочное среднее не всегда является эффективной оценкой для м.о. Так, если г.с. распределена по нормальному закону, то эта оценка эффективна, но для равномерно распределённой г.с. это не так.

Выборочная дисперсия 2в является смещённой оценкой для дис-

персии. Можно показать, что M[ в2] n 1 2. Таким образом, матема- n

тическое ожидание от выборочной дисперсии «чуть» меньше дисперсии. Исправленная выборочная дисперсия S2является несмещённой оценкой для дисперсии: M[S2] 2 .

Наконец, приведём ещё несколько фактов.

1) в Dв и S S2 являются смещёнными, но состоятельными оценками для среднеквадратического отклонения .

2)Dв и S2 являются состоятельными оценками для дисперсии.

3)Перечисленные в предыдущих пунктах 1) и 2) оценки не являются эффективными, но при больших объёмах выборки они становятся почти эффективными.

Интервальные оценки. Основной недостаток точечной оценки состоит в том, что по нему нельзя сказать, насколько точно найдено приближённое значение неизвестного параметра. Интервальная оценка указывает промежуток, в который с некоторой вероятностью может попасть неизвестный параметр.

Пусть – неизвестный параметр г.с. X, – значение вероятности

(т.е. 0< <1),

~

и

~

– статистики, не зависящие от параметра . Ин-

1

2

~

,

~

 

называется доверительным интервалом для пара-

тервал ( 1

2 )

метра с доверительной вероятностью (или надёжностью) , если

~ ~

выполняется равенство P( 1 2) .

37

Величина =1– называется уровнем значимости. На практике доверительные вероятности обычно выбирают равными 0.90, 0.95, 0.99. Смысл доверительного интервала состоит в том, что если провести большую серию опытов с одним и тем же объёмом выборки, то примерно в 100 % опытах доверительный интервал будет содержать неизвестный параметр.

Рассмотрим три закона распределения, которые часто использу-

ются в теории вероятностей.

 

 

 

 

 

 

 

1.

Распределение 2

(читается «хи в квадрате»). Пусть U1, ,Un

N(0,

1), –

независимые нормально

распределённые

с.в.

С.в. 2 (k) U12

Un2

называется распределённой по закону

2со

степенью свободы k.

 

 

 

 

U

 

 

 

2.

Распределение

Стьюдента Т(k).

С.в.

T(k)

 

 

 

,

 

 

 

 

 

 

Χ 2(k)k

где U N(0, 1), называется распределённой по закону Стьюдента со степенью свободы k.

Χ2 (k )/k

3. С.в. F(k1,k2) 2 1 1 , где k1, k2 – натуральные числа, называ-

Χ (k2)/k2

ется распределённой по закону Фишера со степенями свободы k1, k2.

Рис. 4. График плотности распределения

В математической статистике важную роль играет понятие квантили. Квантилью порядка (0< <1) называется такое число x , что F(x )= . В случае непрерывно распределённой с.в. с плотностью

x

распределения p(x), F(x )= P(X<x ) = p(x)dx. Это значит, что кван-

тиль x – точка на оси х, в которой вертикаль отсекает слева от себя на графике плотности распределения криволинейную трапецию с

38

площадью (см. рис. 4). Если плотность распределения – чётная функция, т.е. её график симметричен относительно оси у, то x = – x1–

. Квантили введённых выше распределений можно найти в таблицах в учебниках по теории вероятностей и математической статистике, а также в приложении 5.

1 Доверительный интервал для м.о. нормально распределённой с.в.

1) Пусть г.с. X N(m, ) и известна дисперсия 2. Воспользуемся

тем фактом, что с.в. U

X

m

 

 

N(0,1). Зададим малый уровень зна-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

чимости 2 . Очевидно, что значения с.в. U попадают в интервал

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

m

 

u

 

 

 

(u , u1– ) c вероятностью =1–2 : P(u

 

X

) . Здесь u

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

1

 

 

 

квантиль распределения с.в. U порядка .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

m

 

u

 

 

 

 

 

Теперь, решив неравенства u

 

X

относительно m, по-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

1

 

 

 

 

лучим

 

 

 

u

 

 

 

m

 

 

 

u

 

 

 

 

 

.

Но

 

так

как

u

= – u1– , то

X

X

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

u

 

 

m

 

u

 

 

.

Далее из =1–2 имеем 1– =

. Та-

X

 

X

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

n

 

 

 

 

 

 

 

1

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

ким образом, окончательно получаем доверительный интервал:

 

 

u

 

 

 

m

 

u

 

 

 

 

.

X

X

1

 

 

 

 

 

 

 

 

 

 

1

 

 

n

 

 

 

 

 

 

n

 

2

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

2) Пусть г.с. X N(m, ) и дисперсия 2 неизвестна. Тогда аналогично, используя точечную оценку S2 для дисперсии, получим доверительный интервал:

 

 

t1

(n 1)

S

 

m

 

t1

(n 1)

S

 

,

 

 

X

X

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

n

2

2

 

 

 

 

 

 

 

 

 

 

 

1

 

где t (n 1) – квантиль распределения

Стьюдента порядка

со

1

2

 

2

 

степенью свободы n–1, S2 – исправленная выборочная дисперсия.

2 Доверительный интервал для дисперсии нормально рас-

пределённой г.с.

 

39

Пусть м.о. m неизвестно. Воспользуемся известным фактом, что

с.в. Χ 2

(n 1)S2

 

имеет распределение Χ 2 (n 1). Пусть x2 (k)– кван-

2

 

 

 

 

тиль распределения Χ 2 (k) порядка . По определению квантили

 

P(x2

(n 1)

(n 1)S2

x2 (n 1)) 1 2 .

 

 

 

 

 

2

1

 

 

 

 

 

Решив двойное неравенство в скобках относительно 2 и учитывая, что = 1–2 , получим доверительный интервал для дисперсии:

(n 1)S2

2

(n 1)S2

.

x2

(n 1)

 

 

x2

(n 1)

1

 

 

1

 

 

 

2

 

 

2

 

 

Извлекая корень квадратный из этих неравенств, получим доверительный интервал для среднеквадратического отклонения:

 

(n 1)

S

 

(n 1)

S .

x2

(n 1)

 

 

 

x2

(n 1)

1

 

 

1

 

 

 

2

 

 

 

2

 

 

Проверка статистических гипотез 1. Предварительная обработка реализации выборки

Рассмотрим основные понятия, связанные с реализацией выборки. Пусть имеется реализация выборки объёма n. Если упорядочить значения по возрастанию, то полученная цепочка чисел называется

вариационным рядом.

Пусть xi – элемент вариационного ряда. Тогда число повторений этого элемента в реализации выборки называется частотой выбороч-

ного значения xi

и обозначается ni. Величина i

 

ni

называется от-

 

 

 

 

n

носительной частотой значения xi.

Выделим очевидные равенства:

m

ni n,

i 1

m

 

 

i

1.

(2)

i 1

 

 

Пусть x1, x2, …, xm – все различные значения вариационного ряда, упорядоченные по возрастанию. Таблица

x1

x2

xm

 

 

 

 

n1

n2

nm

 

 

 

 

называется статистическим рядом. Он в некотором смысле характеризует закон распределения г.с.

40