Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Кузбасский государственный технический университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Математика МУ к КР ЗФО 24.04

.pdf

Скачиваний:

Добавлен:

16.03.2016

Размер:

1.05 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 78 / 98 9 > Следующая >>>

Полигон частот

Частота n i

Середина интервала

5. Определяем основные числовые характеристики выборочного

распределения

• Оценкой математического ожидания является выборочное среднее

∑xi

x = i =1n ,

если каждый элемент выборки встречается один раз.

• Если элемент выборки xi имеет частоту ni , то выборочное среднее находят по формуле

	n
x =	∑ni xi
	i =1	.
	n	.
	n

В том случае, если выборка группированная, то вместо элемента выборки в этой формуле берут середину интервала, а за частоту берут число элементов, попадающих в данный интервал.

2= ~

•Выборочная дисперсия S x Dx служит оценкой дисперсии генеральной совокупности и определяется по следующим формулам

Если каждый элемент выборки встречается только один раз (ni =1) и объем выборки достаточно велик ( n >30), то следует использовать формулу

		n		n		n	n
•	S 2 x =	∑(xi − x)2	=	∑x2i − nx2	=	n∑x2i −(∑xi )2		.
		i =1		i =1		i =1	i =1
		n		n			n
		n		n			n

Для выборок малого объема несмещенную (исправлннную) дисперсию

следует вычислять по формуле

			n
	• S 2 x =	∑(xi − x)2
			i =1
				n −1
				n −1
Если частота каждого элемента ni , то для выборок большого объема
следует использовать формулу
	n			n		n
S 2 x =	∑ni (xi − x)2		=	n∑ni x2i −(∑ni xi )2
	i =1			i =1		i =1	.
	n
	n				n2

Для группированных выборок в этой формуле нужно использовать середину интервала и число элементов, попадающих в этот интервал.

Для вычислений вручную подробнее см. стр. 189-191

Все перечисленные операции можно выполнить в Excel согласно ко-

мандам сервис анализ данных описательная статистика

Пример выдачи данных:

Столбец1

Среднее	9,899346449
Стандартная ошибка	0,177148981
Медиана	9,79959739
Мода	11,52953362
Стандартное отклоне-	1,771489807
ние
Дисперсия выборки	3,138176135
Эксцесс	0,060472776
Асимметричность	-0,273471727
Интервал	9,531831893
Минимум	4,050012901
Максимум	13,58184479
Сумма	989,9346449
Счет	100
Уровень надежно-	0,351502073
сти(95,0%)

6.Интервальные оценки ( доверительные интервалы) параметров распределения (стр.230-234)

Доверительным интервалом называют интервал, содержащий истин-

ное значение параметра с заданной вероятностью P =1−α , которую назы-

вают доверительной вероятностью.

Втех случаях, когда дисперсия генеральной совокупности неизвестна,

аполучена ее оценка по указанным выше формулам, доверительный интер-

вал для математического ожидания имеет вид:

P(x − Snx t1−α2 (n −1) < M [x]< x + Snx t1−α2 (n −1)) =1−α

Здесь α - уровень значимости. Ширина доверительного интервала характеризует точность оценивания или стандартную ошибку

ε = sxn t1−α / 2 (n −1) и зависит от объема выборки и доверительной вероят-

ности (уровня значимости). С увеличением объема выборки ширина доверительного интервала уменьшается (точность оценивания возрастает), а по мере приближения доверительной вероятности к единице (приближении уровня значимости к нулю) ширина доверительного интервала увеличивается (точность оценивания падает).

Здесь t1−α2 (n −1) квантиль распределения Стьюдента ( стр. 225-226, таблица

на стр. 414 ) или в Excel на панели инструментов находите статистические функции и распределение Стьюдента.

Доверительный интервал для дисперсии в том случае, если математи-

ческое ожидание неизвестно, а оценки получены по выборке, находим согласно соотношению

			P(		nS x2		<σ 2 <	nS x2	) =1 −α
			P(	χ 2	α (n	−1)	<σ 2 <	χα2 (n −1)	) =1 −α
				χ 2	α (n	−1)		χα2 (n −1)
				1−	2			2
					2			2
Здесь	χ2	α (n −1)	,	χα2 (n −1)			квантили распределения χ2 (стр.224-225,
	1−	2			2
		2			2

таблица на стр 412 ) или в Excel.

функции статистическиефункции " хи − квадрат распределение".

7.Проверка гипотезы о виде распределения генеральной совокупности

На следующем этапе работы по виду полигона частот (гистограммы ) и полученным значениям числовых характеристик выдвигаем гипотезу о виде распределения генеральной совокупности и проверяем соответствие данной гипотезы эмпирическим данным.

После того, как выдвинули гипотезу, находим теоретические частоты, соответствующие предполагаемому распределению:

xi+1

niT = npi = n ∫ f (x)dx ≈ nbf (xi ) = n(F(xi+1) − F(xi ))

1.Нормальный закон распределения

Если полигон частот является симметричным, а числовые характеристики выборки удовлетворяют особенностям этого распределения

xmax + xmin	≈ x,	xmax − xmin	≈ Sx ,
		6
2

то делаем предположение, что выборка получена из нормально распределенной генеральной совокупности. Этот закон имеет два параметра, оценки которых находим по выборке:

x ≈ M[x] - выборочное среднее приравниваем к математическому ожиданию,

Sx ≈σ - выборочное среднеквадратичное отклонение (стандарт) приравниваем к его теоретическому значению. Функция плотности вероятности

для нормированной переменной					ti =	xi − x	приводят по таблице на стр.408
для нормированной переменной					ti =	Sx	приводят по таблице на стр.408
						Sx
		2
ϕ(ti ) =	1	e−	ti
ϕ(ti ) =	1	e−	2	. Теоретическую частоту находим по формуле
	2π

niT = nbϕ(ti )

2.Показательный закон.

Этот закон характеризуется одним параметром λ , оценку которого находим по методу моментов, приравнивая выборочное среднее к теоретическо-

му значению математического ожидания:			M [x]≈ x =	1	,	λ ≈	1	.

				λ			x
Особенностью распределения является равенство единице коэффициента
вариации	Sx	=1. Теоретические частоты находим по формуле				niT = nbλe−λxi

	x

3. Гамма распределение характеризуется двумя параметрами, оценки которых находим, приравнивая теоретические и выборочные моменты с учетом того, что

M [X ]=

D[X ]=

коэффициент вариации V =

M [X ]

M [X ]= x,

sx =σ,

V = s =

1 ,

a = x2

λ = a

Оценку теоретической частоты находим по формуле

a xa −1

−λ

= nb

Г(a)

Г(n) = (n −1)!

Значение гамма-функции находим по таблице (например, Г. Корн, Т. Корн Справочник по математике).

Г(x) = ∞∫t x−1e−t dt, Г(x) = (x −1)Г(x −1)

Полученные теоретические частоты наносим на полигон частот.

Если согласие между эмпирическими и предполагаемыми теоретическими частотами визуально достаточно хорошее, то проводим проверку выдвинутой ги-

потезы по критерию χ2 (стр. 278-281). При этом выборочное значение статистики критерия находят по формуле

χвыб2 = ∑r (ni −nTniT )2 .

i=1 i

Здесь r - число интервалов с учетом того, что ni ≥ 5 . Если это условие не

выполняется, то объединяем соседние интервалы. Теоретическое значение статистики критерия находим по таблице на стр. 412 :

χ12−α (r −l −1) = χ12−α (k) .

В этом выражении k = r −l −1 – число степеней свободы. Здесь l - это число параметров распределения, оцениваемых по выборке. Так для пока-

зательного закона l =1, для	нормального закона и гамма-распределения
l = 2 .
Если выполняется условие	χвыб2 ≤ χ12−α (k) , то выдвинутая гипотеза не

противоречит опытным данным на заданном уровне значимости α и не может быть отвергнута.

					76
Далее приведен пример сравнения эмпирического распределения, полу-
ченного по выборке, и нормального распределения
параметрами x =9,899;					s =1,771.
	Полигон частот: сравнение эмпирического и предполагаемого
		теоретического нормального распределений
25
		Эмпирические
20		данные
		нормальное
		распределение
15
Частота
10
5
0
4	5	6	7	8	9	10	11	12	13	14
				Значение случайной величины

Расчетная работа № 2. Выборочный коэффициент корреляции

1. Вычисление выборочного коэффициента корреляции

Коэффициент корреляции двух случайных величин определяет степень линейной корреляционной зависимости между ними

rxy =	M [(X − M [X ])(Y − M [Y ])]=	M [XY ]− M [X ]M [Y ].
	σxσy	σxσy

rxy ≤1. Если rxy =1, то случайные величины связаны точной линейной зависимосью.

Выборочный коэффициент корреляции служит оценкой коэффициента корреляции и определяется выражением

	n			− x)( y			− y)
	∑(x		k	− x)( y		k	− y)	xy − x y
rxy =	k =1		k			k	=	xy − x y	, где L	означает усреднение.
rxy =	n	− x)2			n		=	σ xσ y	, где L	означает усреднение.
	∑(xk	− x)2			∑( yk − y)2			σ xσ y
	k =1				k =1

Можно непосредственно вычислять коэффициент по этой формуле, но удобнее выполнять действия по следующему алгоритму (стр. 196-198 или учебное пособие [2] ) .

Полученное при помощи средств EXCEL значение коэффициента корреляции данных массивов равно rxy = 0,8328 . Выбираем

функции статистические функции корреляция на панели инстру-

ментов.

Проверяем гипотезу о статистической значимости выборочного коэффициента корреляции (стр. 265-266):

Выдвигаем основную гипотезу H0 : rxy = 0 и соответствующую альтер-

нативную гипотезу H1 : rxy ≠ 0 .	На заданном уровне значимости α находим
теоретическое значение статистики критерия согласно выражению
		t		α (n − 2)
Z =		1−		2	α (n − 2))2 .
Z =

		n − 2 + (t
				1−	2
					2
Выбрав уровень значимости α = 0,1, находим по таблице (стр. 414)
квантиль распределения Стьюдента		t	α (n − 2) = t0,95 (3) = 2,353 и вычисля-
		1−	2
	2,353		2
ем значение статистики Z =	2,353		= 0,81.
ем значение статистики Z =	+ (2,353)2		= 0,81.
3	+ (2,353)2

Основная гипотеза принимается, если выполняется соотношение rxy ≤ Z и отвергается в случае rxy > Z .

В рассматриваемом случае rxy > Z . Поэтому основная гипотеза отклоняется и принимается гипотеза H1 : rxy ≠ 0 . Таким образом, коэффициент кор-

реляции на выбранном уровне значимости отличен от нуля. Это свидетельствует о наличии корреляционной зависимости между случайными величина-

ми. Значение коэффициента корреляции близко к единице , что говорит о близости зависимости между случайными величинами к линейной зависимости.

2.Нахождение параметров уравнения линейной регрессии по методу наименьших квадратов стр. 291 – 298)

Пусть коэффициент корреляции между двумя случайными величинами значимо отличается от нуля и близок к единице. Предполагаем ( выдвигаем гипотезу ) , что эти случайные величины связаны « в среднем» линейной зависимостью :

Y = AX + B

X = A1Y + B1

Регрессия - оптимальная зависимость, то есть модель, обеспечивающая аппроксимацию эмпирических данных с наибольшей точностью. Справедливо соотношение

Y = AX + B +ε

Коэффициенты A, B, A1, B1 являются параметрами линейной регрессионной модели. Величина ε- случайная ошибка наблюдений, причем математическое ожидание M [ε]= 0, D[ε]=σ 2

Для нахождения оценок параметров модели используем метод наименьших квадратов. Согласно этому методу в качестве оценок параметров выбирают такие, которые обеспечивают минимум суммы квадратов отклонений наблюдаемых значений случайных величин от их математических ожиданий. Другими словами параметры должны быть такими, чтобы сумма

~ ~	n	~	~	2
S(A, B) = ∑(yk −(Axk + B))				принимала наименьшее значение. Запи-

k =1

сываем необходимые условия существования экстремума для функции двух

~	~
переменных A, B , приравнивая к нулю частные производные
	∂S		n	~	~
		~ = −2∑(yk −(Axk + B))xk = 0
	∂A		k =1
		∂S	n		~
		~	= −2∑(yk − (Axk + B))= 0
		∂B	k =1

В результате для нахождения оценок получаем систему уравнений:

~ n	2	~ n	n
A∑xk		+ B∑xk = ∑xk yk
k =1		k =1	k =1
~ n		~	n
A∑xk		+ Bn = ∑yk
k =1			k =1

Решение системы имеет вид :

			n			n	n
A =		n∑xk yk −∑xk ∑yk							=	Q	,
A =				n		n			=	xy	,
~			k =1			k =1	k =1			xy
					2	−(∑xk )		2		Qx
			n∑xk			−(∑xk )
			k =1			k =1
Аналогично находим оценки
	~			Qxy		~		~
	A1		=		,	B1	= x − A1 y .
	A1		=	Qy	,	B1	= x − A1 y .
При этом					AA1 = rxy .

Для рассмотренной задачи

xk yk

		n		n
~		∑yk	~	∑xk	~
		k =1		k =1
B	=		− A		= y − Ax .
		n		n

0,9	6,1
1,7	12,3
2,3	11,5
4,6	15,9
5,3	14,1

Корреляционнаядиаграмма

15	y = 1,6225x + 7,1774
	R2 = 0,6937
13
11
9
7

A =1,62 B =7,18 A1 = 0,44 B1 = −2,26

Уравнения регрессии имеют вид	Y =1,62X + 7,18
	X = 0,44Y − 2,26

Достаточно легко написать программу для получения оценок по методу наименьших квадратов как для линейной , так и для других зависимостей. Но существует много готовых программных средств, решающих эту задачу. Так средства EXCEL позволяют непосредственно получить уравнение линейной регрессии по рядам данных:

Мастер диаграмм точечная диаграмма линия тренда(правая кнопка мыши выводитсяна точку)

Регрессионная модель называется адекватной, если предсказанные по ней значения переменной Y согласуются с результатами наблюдений. Оценка адекватности может быть проведена следующим образом.

Непосредственный анализ остатков, то есть разностей между наблюдаемыми значениями yk и вычисленными согласно уравнению регрессии

~ ~	~
Yk = Axk + B :

ε = − ~

k yk Yk .

Если модель адекватна, то остатки, которые являются реализациями случайных ошибок наблюдений, должны быть нормально распределенными слу-

чайными величинами с нулевым средним и одинаковыми дисперсиями σ 2 .

Другими словами для случайной величины - остатков – необходимо выполнить лабораторную работу № 1(найти среднее, дисперсию, среднеквадратич-

ное отклонение) и доказать, что на заданном уровне значимости ε = 0 (нулевое значение ε попадает в доверительный интервал для математического ожидания).

<<< < Предыдущая 1 2 3 4 5 6 78 / 98 9 > Следующая >>>

Соседние файлы в папке Методические указания для контрольной работы

#
16.03.201636.49 Кб11Автор Приложение к КР (данные для статистики).xlsx
#
16.03.20161.05 Mб23Математика МУ к КР ЗФО 24.04.pdf