Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
23
Добавлен:
16.03.2016
Размер:
1.05 Mб
Скачать

71

Полигон частот

Частота n i

25

20

15

10

5

0

4

6

8

10

12

14

16

Середина интервала

5. Определяем основные числовые характеристики выборочного

распределения

Оценкой математического ожидания является выборочное среднее

n

xi

x = i =1n ,

если каждый элемент выборки встречается один раз.

Если элемент выборки xi имеет частоту ni , то выборочное среднее находят по формуле

 

n

 

x =

ni xi

 

i =1

.

n

 

 

В том случае, если выборка группированная, то вместо элемента выборки в этой формуле берут середину интервала, а за частоту берут число элементов, попадающих в данный интервал.

2= ~

Выборочная дисперсия S x Dx служит оценкой дисперсии генеральной совокупности и определяется по следующим формулам

Если каждый элемент выборки встречается только один раз (ni =1) и объем выборки достаточно велик ( n >30), то следует использовать формулу

 

 

n

 

n

 

n

n

 

S 2 x =

(xi x)2

=

x2i nx2

=

nx2i (xi )2

.

i =1

i =1

i =1

i =1

n

n

 

n

 

 

 

 

 

 

72

Для выборок малого объема несмещенную (исправлннную) дисперсию

следует вычислять по формуле

 

 

 

n

 

 

 

 

 

S 2 x =

(xi x)2

 

 

 

 

i =1

 

 

 

 

 

 

 

n 1

 

 

 

 

 

 

 

 

Если частота каждого элемента ni , то для выборок большого объема

следует использовать формулу

 

 

 

 

 

 

 

n

 

 

n

n

 

S 2 x =

ni (xi x)2

 

=

nni x2i (ni xi )2

 

i =1

 

i =1

i =1

.

n

 

 

 

 

 

 

 

n2

 

Для группированных выборок в этой формуле нужно использовать середину интервала и число элементов, попадающих в этот интервал.

Для вычислений вручную подробнее см. стр. 189-191

Все перечисленные операции можно выполнить в Excel согласно ко-

мандам сервис анализ данных описательная статистика

Пример выдачи данных:

Столбец1

Среднее

9,899346449

Стандартная ошибка

0,177148981

Медиана

9,79959739

Мода

11,52953362

Стандартное отклоне-

1,771489807

ние

 

Дисперсия выборки

3,138176135

Эксцесс

0,060472776

Асимметричность

-0,273471727

Интервал

9,531831893

Минимум

4,050012901

Максимум

13,58184479

Сумма

989,9346449

Счет

100

Уровень надежно-

0,351502073

сти(95,0%)

 

6.Интервальные оценки ( доверительные интервалы) параметров распределения (стр.230-234)

73

Доверительным интервалом называют интервал, содержащий истин-

ное значение параметра с заданной вероятностью P =1α , которую назы-

вают доверительной вероятностью.

Втех случаях, когда дисперсия генеральной совокупности неизвестна,

аполучена ее оценка по указанным выше формулам, доверительный интер-

вал для математического ожидания имеет вид:

P(x Snx t1α2 (n 1) < M [x]< x + Snx t1α2 (n 1)) =1α

Здесь α - уровень значимости. Ширина доверительного интервала характеризует точность оценивания или стандартную ошибку

ε = sxn t1α / 2 (n 1) и зависит от объема выборки и доверительной вероят-

ности (уровня значимости). С увеличением объема выборки ширина доверительного интервала уменьшается (точность оценивания возрастает), а по мере приближения доверительной вероятности к единице (приближении уровня значимости к нулю) ширина доверительного интервала увеличивается (точность оценивания падает).

Здесь t1α2 (n 1) квантиль распределения Стьюдента ( стр. 225-226, таблица

на стр. 414 ) или в Excel на панели инструментов находите статистические функции и распределение Стьюдента.

Доверительный интервал для дисперсии в том случае, если математи-

ческое ожидание неизвестно, а оценки получены по выборке, находим согласно соотношению

 

 

 

P(

 

nS x2

 

<σ 2 <

nS x2

) =1 α

 

 

 

χ 2

α (n

1)

χα2 (n 1)

 

 

 

 

 

 

 

 

 

 

1

2

 

 

2

 

 

 

 

 

 

 

 

 

Здесь

χ2

α (n 1)

,

χα2 (n 1)

квантили распределения χ2 (стр.224-225,

 

1

2

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

таблица на стр 412 ) или в Excel.

функции статистическиефункции " хи квадрат распределение".

7.Проверка гипотезы о виде распределения генеральной совокупности

74

На следующем этапе работы по виду полигона частот (гистограммы ) и полученным значениям числовых характеристик выдвигаем гипотезу о виде распределения генеральной совокупности и проверяем соответствие данной гипотезы эмпирическим данным.

После того, как выдвинули гипотезу, находим теоретические частоты, соответствующие предполагаемому распределению:

xi+1

niT = npi = n f (x)dx nbf (xi ) = n(F(xi+1) F(xi ))

xi

1.Нормальный закон распределения

Если полигон частот является симметричным, а числовые характеристики выборки удовлетворяют особенностям этого распределения

xmax + xmin

x,

xmax xmin

Sx ,

6

2

 

 

то делаем предположение, что выборка получена из нормально распределенной генеральной совокупности. Этот закон имеет два параметра, оценки которых находим по выборке:

x M[x] - выборочное среднее приравниваем к математическому ожиданию,

Sx σ - выборочное среднеквадратичное отклонение (стандарт) приравниваем к его теоретическому значению. Функция плотности вероятности

для нормированной переменной

ti =

xi x

приводят по таблице на стр.408

Sx

 

 

 

 

 

 

 

 

 

2

 

 

 

 

ϕ(ti ) =

1

e

ti

 

2

. Теоретическую частоту находим по формуле

 

2π

 

 

 

 

 

 

niT = nbϕ(ti )

Sx

2.Показательный закон.

Этот закон характеризуется одним параметром λ , оценку которого находим по методу моментов, приравнивая выборочное среднее к теоретическо-

му значению математического ожидания:

M [x]x =

1

,

λ

1

.

 

 

 

 

 

 

λ

 

x

Особенностью распределения является равенство единице коэффициента

вариации

Sx

=1. Теоретические частоты находим по формуле

niT = nbλeλxi

 

 

x

 

 

 

 

 

 

75

3. Гамма распределение характеризуется двумя параметрами, оценки которых находим, приравнивая теоретические и выборочные моменты с учетом того, что

M [X ]=

a

,

D[X ]=

a

,

коэффициент вариации V =

σ

 

.

λ

2

M [X ]

 

 

 

 

 

 

 

 

 

 

λ

 

 

 

 

 

M [X ]= x,

 

 

sx =σ,

V = s =

1 ,

a = x2

,

λ = a

 

 

 

 

 

 

 

 

 

 

 

 

 

x

a

s2

 

 

 

x

Оценку теоретической частоты находим по формуле

 

 

 

 

 

 

 

 

a xa 1

 

 

 

 

 

 

 

 

 

 

 

 

 

T

 

λ

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

λ

 

 

 

 

 

 

 

 

 

ni

= nb

 

 

 

 

i

e

 

 

i

 

 

 

 

 

 

 

 

 

 

Г(a)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Г(n) = (n 1)!

Значение гамма-функции находим по таблице (например, Г. Корн, Т. Корн Справочник по математике).

Г(x) = t x1et dt, Г(x) = (x 1)Г(x 1)

0

Полученные теоретические частоты наносим на полигон частот.

Если согласие между эмпирическими и предполагаемыми теоретическими частотами визуально достаточно хорошее, то проводим проверку выдвинутой ги-

потезы по критерию χ2 (стр. 278-281). При этом выборочное значение статистики критерия находят по формуле

χвыб2 = r (ni nTniT )2 .

i=1 i

Здесь r - число интервалов с учетом того, что ni 5 . Если это условие не

выполняется, то объединяем соседние интервалы. Теоретическое значение статистики критерия находим по таблице на стр. 412 :

χ12α (r l 1) = χ12α (k) .

В этом выражении k = r l 1 – число степеней свободы. Здесь l - это число параметров распределения, оцениваемых по выборке. Так для пока-

зательного закона l =1, для

нормального закона и гамма-распределения

l = 2 .

 

Если выполняется условие

χвыб2 χ12α (k) , то выдвинутая гипотеза не

противоречит опытным данным на заданном уровне значимости α и не может быть отвергнута.

 

 

 

 

 

76

 

 

 

 

 

Далее приведен пример сравнения эмпирического распределения, полу-

ченного по выборке, и нормального распределения

 

 

 

 

параметрами x =9,899;

s =1,771.

 

 

 

 

 

Полигон частот: сравнение эмпирического и предполагаемого

 

 

 

 

теоретического нормального распределений

 

 

 

25

 

 

 

 

 

 

 

 

 

 

 

 

Эмпирические

 

 

 

 

 

 

 

 

20

 

данные

 

 

 

 

 

 

 

 

 

 

нормальное

 

 

 

 

 

 

 

 

 

 

распределение

 

 

 

 

 

 

 

 

15

 

 

 

 

 

 

 

 

 

 

Частота

 

 

 

 

 

 

 

 

 

 

10

 

 

 

 

 

 

 

 

 

 

5

 

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

 

4

5

6

7

8

9

10

11

12

13

14

 

 

 

 

Значение случайной величины

 

 

 

 

Расчетная работа № 2. Выборочный коэффициент корреляции

1. Вычисление выборочного коэффициента корреляции

Коэффициент корреляции двух случайных величин определяет степень линейной корреляционной зависимости между ними

rxy =

M [(X M [X ])(Y M [Y ])]=

M [XY ]M [X ]M [Y ].

 

σxσy

σxσy

rxy 1. Если rxy =1, то случайные величины связаны точной линейной зависимосью.

77

Выборочный коэффициент корреляции служит оценкой коэффициента корреляции и определяется выражением

 

n

 

 

x)( y

 

y)

 

 

 

 

(x

k

k

xy x y

 

 

rxy =

k =1

 

 

 

=

, где L

означает усреднение.

n

x)2

n

 

σ xσ y

 

(xk

( yk y)2

 

 

 

k =1

 

 

 

k =1

 

 

 

 

 

Можно непосредственно вычислять коэффициент по этой формуле, но удобнее выполнять действия по следующему алгоритму (стр. 196-198 или учебное пособие [2] ) .

Полученное при помощи средств EXCEL значение коэффициента корреляции данных массивов равно rxy = 0,8328 . Выбираем

функции статистические функции корреляция на панели инстру-

ментов.

Проверяем гипотезу о статистической значимости выборочного коэффициента корреляции (стр. 265-266):

Выдвигаем основную гипотезу H0 : rxy = 0 и соответствующую альтер-

нативную гипотезу H1 : rxy 0 .

На заданном уровне значимости α находим

теоретическое значение статистики критерия согласно выражению

 

 

t

 

α (n 2)

Z =

1

2

α (n 2))2 .

 

 

 

 

 

 

 

 

n 2 + (t

 

 

 

 

1

2

 

 

 

 

 

Выбрав уровень значимости α = 0,1, находим по таблице (стр. 414)

квантиль распределения Стьюдента

t

α (n 2) = t0,95 (3) = 2,353 и вычисля-

 

 

1

2

 

 

 

2,353

 

 

ем значение статистики Z =

= 0,81.

+ (2,353)2

3

 

 

 

Основная гипотеза принимается, если выполняется соотношение rxy Z и отвергается в случае rxy > Z .

В рассматриваемом случае rxy > Z . Поэтому основная гипотеза отклоняется и принимается гипотеза H1 : rxy 0 . Таким образом, коэффициент кор-

реляции на выбранном уровне значимости отличен от нуля. Это свидетельствует о наличии корреляционной зависимости между случайными величина-

78

ми. Значение коэффициента корреляции близко к единице , что говорит о близости зависимости между случайными величинами к линейной зависимости.

2.Нахождение параметров уравнения линейной регрессии по методу наименьших квадратов стр. 291 – 298)

Пусть коэффициент корреляции между двумя случайными величинами значимо отличается от нуля и близок к единице. Предполагаем ( выдвигаем гипотезу ) , что эти случайные величины связаны « в среднем» линейной зависимостью :

Y = AX + B

X = A1Y + B1

Регрессия - оптимальная зависимость, то есть модель, обеспечивающая аппроксимацию эмпирических данных с наибольшей точностью. Справедливо соотношение

Y = AX + B +ε

Коэффициенты A, B, A1, B1 являются параметрами линейной регрессионной модели. Величина ε- случайная ошибка наблюдений, причем математическое ожидание M [ε]= 0, D[ε]=σ 2

Для нахождения оценок параметров модели используем метод наименьших квадратов. Согласно этому методу в качестве оценок параметров выбирают такие, которые обеспечивают минимум суммы квадратов отклонений наблюдаемых значений случайных величин от их математических ожиданий. Другими словами параметры должны быть такими, чтобы сумма

~ ~

n

~

~

2

S(A, B) = (yk (Axk + B))

принимала наименьшее значение. Запи-

k =1

сываем необходимые условия существования экстремума для функции двух

~

~

 

 

 

 

переменных A, B , приравнивая к нулю частные производные

 

S

n

~

~

 

 

~ = −2(yk (Axk + B))xk = 0

 

A

k =1

 

 

 

 

S

n

 

~

 

 

~

= −2(yk (Axk + B))= 0

 

 

B

k =1

 

 

В результате для нахождения оценок получаем систему уравнений:

~ n

2

~ n

n

Axk

+ Bxk = xk yk

k =1

 

k =1

k =1

~ n

 

~

n

Axk

+ Bn = yk

k =1

 

 

k =1

79

Решение системы имеет вид :

 

 

 

n

 

n

n

 

 

 

 

A =

 

nxk yk xk yk

=

Q

,

 

 

 

n

 

n

 

xy

~

 

 

k =1

 

k =1

k =1

 

 

 

 

 

 

 

2

(xk )

2

 

Qx

 

 

 

 

nxk

 

 

 

 

 

 

 

k =1

 

k =1

 

 

 

 

Аналогично находим оценки

 

 

~

 

Qxy

 

~

 

~

 

 

 

 

A1

=

 

,

B1

= x A1 y .

 

 

Qy

 

При этом

AA1 = rxy .

 

 

 

Для рассмотренной задачи

xk yk

 

 

n

 

n

 

~

 

yk

~

xk

~

 

k =1

k =1

B

=

A

= y Ax .

n

n

 

 

 

 

0,9

6,1

1,7

12,3

2,3

11,5

4,6

15,9

5,3

14,1

Корреляционнаядиаграмма

Y

17

15

y = 1,6225x + 7,1774

 

R2 = 0,6937

13

 

11

 

9

 

7

 

5

0

1

2

3

4

5

6

X

80

A =1,62 B =7,18 A1 = 0,44 B1 = −2,26

Уравнения регрессии имеют вид

Y =1,62X + 7,18

X = 0,44Y 2,26

Достаточно легко написать программу для получения оценок по методу наименьших квадратов как для линейной , так и для других зависимостей. Но существует много готовых программных средств, решающих эту задачу. Так средства EXCEL позволяют непосредственно получить уравнение линейной регрессии по рядам данных:

Мастер диаграмм точечная диаграмма линия тренда(правая кнопка мыши выводитсяна точку)

Регрессионная модель называется адекватной, если предсказанные по ней значения переменной Y согласуются с результатами наблюдений. Оценка адекватности может быть проведена следующим образом.

Непосредственный анализ остатков, то есть разностей между наблюдаемыми значениями yk и вычисленными согласно уравнению регрессии

~ ~

~

Yk = Axk + B :

ε = − ~

k yk Yk .

Если модель адекватна, то остатки, которые являются реализациями случайных ошибок наблюдений, должны быть нормально распределенными слу-

чайными величинами с нулевым средним и одинаковыми дисперсиями σ 2 .

Другими словами для случайной величины - остатков – необходимо выполнить лабораторную работу № 1(найти среднее, дисперсию, среднеквадратич-

ное отклонение) и доказать, что на заданном уровне значимости ε = 0 (нулевое значение ε попадает в доверительный интервал для математического ожидания).

Соседние файлы в папке Методические указания для контрольной работы