VbIshka / Методические указания для контрольной работы / Математика МУ к КР ЗФО 24.04
.pdf71
Полигон частот
Частота n i
25
20
15
10
5
0
4 |
6 |
8 |
10 |
12 |
14 |
16 |
Середина интервала
5. Определяем основные числовые характеристики выборочного
распределения
• Оценкой математического ожидания является выборочное среднее
n
∑xi
x = i =1n ,
если каждый элемент выборки встречается один раз.
• Если элемент выборки xi имеет частоту ni , то выборочное среднее находят по формуле
|
n |
|
|
x = |
∑ni xi |
|
|
i =1 |
. |
||
n |
|||
|
|
В том случае, если выборка группированная, то вместо элемента выборки в этой формуле берут середину интервала, а за частоту берут число элементов, попадающих в данный интервал.
2= ~
•Выборочная дисперсия S x Dx служит оценкой дисперсии генеральной совокупности и определяется по следующим формулам
Если каждый элемент выборки встречается только один раз (ni =1) и объем выборки достаточно велик ( n >30), то следует использовать формулу
|
|
n |
|
n |
|
n |
n |
|
• |
S 2 x = |
∑(xi − x)2 |
= |
∑x2i − nx2 |
= |
n∑x2i −(∑xi )2 |
. |
|
i =1 |
i =1 |
i =1 |
i =1 |
|||||
n |
n |
|
n |
|||||
|
|
|
|
|
|
72
Для выборок малого объема несмещенную (исправлннную) дисперсию
следует вычислять по формуле
|
|
|
n |
|
|
|
|
|
• S 2 x = |
∑(xi − x)2 |
|
|
|||
|
|
i =1 |
|
|
|
|
|
|
|
|
n −1 |
|
|
||
|
|
|
|
|
|
||
Если частота каждого элемента ni , то для выборок большого объема |
|||||||
следует использовать формулу |
|
|
|
|
|
|
|
|
n |
|
|
n |
n |
|
|
S 2 x = |
∑ni (xi − x)2 |
|
= |
n∑ni x2i −(∑ni xi )2 |
|
||
i =1 |
|
i =1 |
i =1 |
. |
|||
n |
|
|
|
||||
|
|
|
|
n2 |
|
Для группированных выборок в этой формуле нужно использовать середину интервала и число элементов, попадающих в этот интервал.
Для вычислений вручную подробнее см. стр. 189-191
Все перечисленные операции можно выполнить в Excel согласно ко-
мандам сервис анализ данных описательная статистика
Пример выдачи данных:
Столбец1
Среднее |
9,899346449 |
Стандартная ошибка |
0,177148981 |
Медиана |
9,79959739 |
Мода |
11,52953362 |
Стандартное отклоне- |
1,771489807 |
ние |
|
Дисперсия выборки |
3,138176135 |
Эксцесс |
0,060472776 |
Асимметричность |
-0,273471727 |
Интервал |
9,531831893 |
Минимум |
4,050012901 |
Максимум |
13,58184479 |
Сумма |
989,9346449 |
Счет |
100 |
Уровень надежно- |
0,351502073 |
сти(95,0%) |
|
6.Интервальные оценки ( доверительные интервалы) параметров распределения (стр.230-234)
73
Доверительным интервалом называют интервал, содержащий истин-
ное значение параметра с заданной вероятностью P =1−α , которую назы-
вают доверительной вероятностью.
Втех случаях, когда дисперсия генеральной совокупности неизвестна,
аполучена ее оценка по указанным выше формулам, доверительный интер-
вал для математического ожидания имеет вид:
P(x − Snx t1−α2 (n −1) < M [x]< x + Snx t1−α2 (n −1)) =1−α
Здесь α - уровень значимости. Ширина доверительного интервала характеризует точность оценивания или стандартную ошибку
ε = sxn t1−α / 2 (n −1) и зависит от объема выборки и доверительной вероят-
ности (уровня значимости). С увеличением объема выборки ширина доверительного интервала уменьшается (точность оценивания возрастает), а по мере приближения доверительной вероятности к единице (приближении уровня значимости к нулю) ширина доверительного интервала увеличивается (точность оценивания падает).
Здесь t1−α2 (n −1) квантиль распределения Стьюдента ( стр. 225-226, таблица
на стр. 414 ) или в Excel на панели инструментов находите статистические функции и распределение Стьюдента.
Доверительный интервал для дисперсии в том случае, если математи-
ческое ожидание неизвестно, а оценки получены по выборке, находим согласно соотношению
|
|
|
P( |
|
nS x2 |
|
<σ 2 < |
nS x2 |
) =1 −α |
|
|
|
χ 2 |
α (n |
−1) |
χα2 (n −1) |
|||
|
|
|
|
|
|
||||
|
|
|
|
1− |
2 |
|
|
2 |
|
|
|
|
|
|
|
|
|
||
Здесь |
χ2 |
α (n −1) |
, |
χα2 (n −1) |
квантили распределения χ2 (стр.224-225, |
||||
|
1− |
2 |
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
таблица на стр 412 ) или в Excel.
функции статистическиефункции " хи − квадрат распределение".
7.Проверка гипотезы о виде распределения генеральной совокупности
74
На следующем этапе работы по виду полигона частот (гистограммы ) и полученным значениям числовых характеристик выдвигаем гипотезу о виде распределения генеральной совокупности и проверяем соответствие данной гипотезы эмпирическим данным.
После того, как выдвинули гипотезу, находим теоретические частоты, соответствующие предполагаемому распределению:
xi+1
niT = npi = n ∫ f (x)dx ≈ nbf (xi ) = n(F(xi+1) − F(xi ))
xi
1.Нормальный закон распределения
Если полигон частот является симметричным, а числовые характеристики выборки удовлетворяют особенностям этого распределения
xmax + xmin |
≈ x, |
xmax − xmin |
≈ Sx , |
|
6 |
||||
2 |
||||
|
|
то делаем предположение, что выборка получена из нормально распределенной генеральной совокупности. Этот закон имеет два параметра, оценки которых находим по выборке:
x ≈ M[x] - выборочное среднее приравниваем к математическому ожиданию,
Sx ≈σ - выборочное среднеквадратичное отклонение (стандарт) приравниваем к его теоретическому значению. Функция плотности вероятности
для нормированной переменной |
ti = |
xi − x |
приводят по таблице на стр.408 |
|||||
Sx |
||||||||
|
|
|
|
|
|
|
||
|
|
2 |
|
|
|
|
||
ϕ(ti ) = |
1 |
e− |
ti |
|
||||
2 |
. Теоретическую частоту находим по формуле |
|||||||
|
2π |
|
|
|
|
|
|
niT = nbϕ(ti )
Sx
2.Показательный закон.
Этот закон характеризуется одним параметром λ , оценку которого находим по методу моментов, приравнивая выборочное среднее к теоретическо-
му значению математического ожидания: |
M [x]≈ x = |
1 |
, |
λ ≈ |
1 |
. |
||
|
|
|||||||
|
|
|
|
λ |
|
x |
||
Особенностью распределения является равенство единице коэффициента |
||||||||
вариации |
Sx |
=1. Теоретические частоты находим по формуле |
niT = nbλe−λxi |
|||||
|
||||||||
|
x |
|
|
|
|
|
|
75
3. Гамма распределение характеризуется двумя параметрами, оценки которых находим, приравнивая теоретические и выборочные моменты с учетом того, что
M [X ]= |
a |
, |
D[X ]= |
a |
, |
коэффициент вариации V = |
σ |
|
. |
||||||||||
λ |
2 |
M [X ] |
|||||||||||||||||
|
|
|
|
|
|
|
|
|
|
λ |
|
|
|
|
|
||||
M [X ]= x, |
|
|
sx =σ, |
V = s = |
1 , |
a = x2 |
, |
λ = a |
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
x |
a |
s2 |
|
|
|
x |
Оценку теоретической частоты находим по формуле |
|
|
|
|
|||||||||||||||
|
|
|
|
a xa −1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
||
T |
|
λ |
|
|
|
x |
|
|
|
|
|
|
|
|
|
||||
|
|
−λ |
|
|
|
|
|
|
|
|
|
||||||||
ni |
= nb |
|
|
|
|
i |
e |
|
|
i |
|
|
|
|
|
|
|
|
|
|
Г(a) |
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Г(n) = (n −1)!
Значение гамма-функции находим по таблице (например, Г. Корн, Т. Корн Справочник по математике).
Г(x) = ∞∫t x−1e−t dt, Г(x) = (x −1)Г(x −1)
0
Полученные теоретические частоты наносим на полигон частот.
Если согласие между эмпирическими и предполагаемыми теоретическими частотами визуально достаточно хорошее, то проводим проверку выдвинутой ги-
потезы по критерию χ2 (стр. 278-281). При этом выборочное значение статистики критерия находят по формуле
χвыб2 = ∑r (ni −nTniT )2 .
i=1 i
Здесь r - число интервалов с учетом того, что ni ≥ 5 . Если это условие не
выполняется, то объединяем соседние интервалы. Теоретическое значение статистики критерия находим по таблице на стр. 412 :
χ12−α (r −l −1) = χ12−α (k) .
В этом выражении k = r −l −1 – число степеней свободы. Здесь l - это число параметров распределения, оцениваемых по выборке. Так для пока-
зательного закона l =1, для |
нормального закона и гамма-распределения |
l = 2 . |
|
Если выполняется условие |
χвыб2 ≤ χ12−α (k) , то выдвинутая гипотеза не |
противоречит опытным данным на заданном уровне значимости α и не может быть отвергнута.
|
|
|
|
|
76 |
|
|
|
|
|
Далее приведен пример сравнения эмпирического распределения, полу- |
||||||||||
ченного по выборке, и нормального распределения |
|
|
|
|
||||||
параметрами x =9,899; |
s =1,771. |
|
|
|
|
|||||
|
Полигон частот: сравнение эмпирического и предполагаемого |
|
|
|||||||
|
|
теоретического нормального распределений |
|
|
|
|||||
25 |
|
|
|
|
|
|
|
|
|
|
|
|
Эмпирические |
|
|
|
|
|
|
|
|
20 |
|
данные |
|
|
|
|
|
|
|
|
|
|
нормальное |
|
|
|
|
|
|
|
|
|
|
распределение |
|
|
|
|
|
|
|
|
15 |
|
|
|
|
|
|
|
|
|
|
Частота |
|
|
|
|
|
|
|
|
|
|
10 |
|
|
|
|
|
|
|
|
|
|
5 |
|
|
|
|
|
|
|
|
|
|
0 |
|
|
|
|
|
|
|
|
|
|
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
13 |
14 |
|
|
|
|
Значение случайной величины |
|
|
|
|
Расчетная работа № 2. Выборочный коэффициент корреляции
1. Вычисление выборочного коэффициента корреляции
Коэффициент корреляции двух случайных величин определяет степень линейной корреляционной зависимости между ними
rxy = |
M [(X − M [X ])(Y − M [Y ])]= |
M [XY ]− M [X ]M [Y ]. |
|
σxσy |
σxσy |
rxy ≤1. Если rxy =1, то случайные величины связаны точной линейной зависимосью.
77
Выборочный коэффициент корреляции служит оценкой коэффициента корреляции и определяется выражением
|
n |
|
|
− x)( y |
|
− y) |
|
|
|
|
|
∑(x |
k |
k |
xy − x y |
|
|
||||
rxy = |
k =1 |
|
|
|
= |
, где L |
означает усреднение. |
|||
n |
− x)2 |
n |
|
σ xσ y |
||||||
|
∑(xk |
∑( yk − y)2 |
|
|
||||||
|
k =1 |
|
|
|
k =1 |
|
|
|
|
|
Можно непосредственно вычислять коэффициент по этой формуле, но удобнее выполнять действия по следующему алгоритму (стр. 196-198 или учебное пособие [2] ) .
Полученное при помощи средств EXCEL значение коэффициента корреляции данных массивов равно rxy = 0,8328 . Выбираем
функции статистические функции корреляция на панели инстру-
ментов.
Проверяем гипотезу о статистической значимости выборочного коэффициента корреляции (стр. 265-266):
Выдвигаем основную гипотезу H0 : rxy = 0 и соответствующую альтер-
нативную гипотезу H1 : rxy ≠ 0 . |
На заданном уровне значимости α находим |
|||||
теоретическое значение статистики критерия согласно выражению |
||||||
|
|
t |
|
α (n − 2) |
||
Z = |
1− |
2 |
α (n − 2))2 . |
|||
|
|
|||||
|
|
|
|
|||
|
|
n − 2 + (t |
||||
|
|
|
|
1− |
2 |
|
|
|
|
|
|
||
Выбрав уровень значимости α = 0,1, находим по таблице (стр. 414) |
||||||
квантиль распределения Стьюдента |
t |
α (n − 2) = t0,95 (3) = 2,353 и вычисля- |
||||
|
|
1− |
2 |
|
|
|
|
2,353 |
|
|
|||
ем значение статистики Z = |
= 0,81. |
|||||
+ (2,353)2 |
||||||
3 |
|
|
|
Основная гипотеза принимается, если выполняется соотношение rxy ≤ Z и отвергается в случае rxy > Z .
В рассматриваемом случае rxy > Z . Поэтому основная гипотеза отклоняется и принимается гипотеза H1 : rxy ≠ 0 . Таким образом, коэффициент кор-
реляции на выбранном уровне значимости отличен от нуля. Это свидетельствует о наличии корреляционной зависимости между случайными величина-
78
ми. Значение коэффициента корреляции близко к единице , что говорит о близости зависимости между случайными величинами к линейной зависимости.
2.Нахождение параметров уравнения линейной регрессии по методу наименьших квадратов стр. 291 – 298)
Пусть коэффициент корреляции между двумя случайными величинами значимо отличается от нуля и близок к единице. Предполагаем ( выдвигаем гипотезу ) , что эти случайные величины связаны « в среднем» линейной зависимостью :
Y = AX + B |
X = A1Y + B1 |
Регрессия - оптимальная зависимость, то есть модель, обеспечивающая аппроксимацию эмпирических данных с наибольшей точностью. Справедливо соотношение
Y = AX + B +ε
Коэффициенты A, B, A1, B1 являются параметрами линейной регрессионной модели. Величина ε- случайная ошибка наблюдений, причем математическое ожидание M [ε]= 0, D[ε]=σ 2
Для нахождения оценок параметров модели используем метод наименьших квадратов. Согласно этому методу в качестве оценок параметров выбирают такие, которые обеспечивают минимум суммы квадратов отклонений наблюдаемых значений случайных величин от их математических ожиданий. Другими словами параметры должны быть такими, чтобы сумма
~ ~ |
n |
~ |
~ |
2 |
S(A, B) = ∑(yk −(Axk + B)) |
принимала наименьшее значение. Запи- |
k =1
сываем необходимые условия существования экстремума для функции двух
~ |
~ |
|
|
|
|
переменных A, B , приравнивая к нулю частные производные |
|||||
|
∂S |
n |
~ |
~ |
|
|
|
~ = −2∑(yk −(Axk + B))xk = 0 |
|||
|
∂A |
k =1 |
|
|
|
|
|
∂S |
n |
|
~ |
|
|
~ |
= −2∑(yk − (Axk + B))= 0 |
||
|
|
∂B |
k =1 |
|
|
В результате для нахождения оценок получаем систему уравнений:
~ n |
2 |
~ n |
n |
A∑xk |
+ B∑xk = ∑xk yk |
||
k =1 |
|
k =1 |
k =1 |
~ n |
|
~ |
n |
A∑xk |
+ Bn = ∑yk |
||
k =1 |
|
|
k =1 |
80
A =1,62 B =7,18 A1 = 0,44 B1 = −2,26
Уравнения регрессии имеют вид |
Y =1,62X + 7,18 |
X = 0,44Y − 2,26 |
Достаточно легко написать программу для получения оценок по методу наименьших квадратов как для линейной , так и для других зависимостей. Но существует много готовых программных средств, решающих эту задачу. Так средства EXCEL позволяют непосредственно получить уравнение линейной регрессии по рядам данных:
Мастер диаграмм точечная диаграмма линия тренда(правая кнопка мыши выводитсяна точку)
Регрессионная модель называется адекватной, если предсказанные по ней значения переменной Y согласуются с результатами наблюдений. Оценка адекватности может быть проведена следующим образом.
Непосредственный анализ остатков, то есть разностей между наблюдаемыми значениями yk и вычисленными согласно уравнению регрессии
~ ~ |
~ |
Yk = Axk + B : |
ε = − ~
k yk Yk .
Если модель адекватна, то остатки, которые являются реализациями случайных ошибок наблюдений, должны быть нормально распределенными слу-
чайными величинами с нулевым средним и одинаковыми дисперсиями σ 2 .
Другими словами для случайной величины - остатков – необходимо выполнить лабораторную работу № 1(найти среднее, дисперсию, среднеквадратич-
ное отклонение) и доказать, что на заданном уровне значимости ε = 0 (нулевое значение ε попадает в доверительный интервал для математического ожидания).