Добавил:

chrysler_a57_mltbnk Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Московский технический университет связи и информатики

Предмет:

Теория вероятностей и математическая статистика

Файл:

семестр 2 / ЛКЗ

.pdf

Скачиваний:

Добавлен:

13.05.2026

Размер:

479.5 Кб

Скачать

☆

1 / 21 2 > Следующая >>>

§4.1. Линейная корреляционная зависимость

Часто на практике требуется установить вид и оценить силу зависимости изучаемой случайной величины Y от одной или нескольких других величин (случайных или неслучайных). Рассмотрим сначала зависимость случайной величины Y от одной случайной X. Две величины могут быть связаны:

1) функциональной зависимостью (Y=f(X)), либо 2) статистической зависимостью.

Статистическая зависимость – зависимость, при которой изменение одной из величин влечет изменение распределения другой (вида распределения, либо числовых характеристик распределения).

Корреляционная зависимость – статистическая зависимость, при которой изменение одной из величин влечет изменение среднего значения другой. С математической точки зрения корреляционная зависимость – функциональная зависимость условного среднего yx от

x :
yx = f (x),	(1)

где yx - выборочное условное среднее ( среднее арифметическое

значений Y, соответствующих значению x величины X); уравнение (1) называют выборочным уравнением регрессии Y на X; f (x)-

выборочная функция регрессии Y на X; график функции f (x) называют линией регрессии Y на X. Аналогично, xy - условное среднее X на Y; xy =ϕ(y)- выборочное уравнение регрессии X на Y; ϕ(y)- функция регрессии X на Y; график функции ϕ(y) называют линией

регрессии X на Y. Задачи теории корреляции

Теория корреляции решает следующие задачи:

1) Установление формы корреляционной зависимости, т.е. вида функций f (x),ϕ(y)(если обе функции f (x),ϕ(y) являются линейными,

то корреляционная зависимость называется линейной; в противном случае – нелинейной корреляционной зависимостью); 2) Оценка силы (тесноты) корреляционной зависимости.

Пусть в результате независимых испытаний получено n пар значений

(xi , yi ). Предположим, что X и Y связаны линейной корреляционной

зависимостью, т.е.		.	(xi , yi ) точечные оценки
Найдем по выборочным значениям			(xi , yi ) точечные оценки
параметров	так, чтобы	точки	(xi , yi ), построенные на

координатной плоскости, находились вблизи прямой

(1)

Метод наименьших квадратов

Выборочные параметры находят из условия обращения в минимум функции

Q(byx ,b )= ∑n (f (xi )− yi )2 = ∑n (byx xi +b − yi )2

i=1 i=1

Для отыскания минимума функции

приравняем нули соответствующие частные производные

(2)

Выполняя элементарные преобразования, получим систему двух линейных уравнений относительно

(3)

∑n x

∑n y

∑n x2

где

x =

, y =

, n

- число наблюдений одной и

n i=1 i

n i=1

i j

той

же пары значений

(xi , yi ),

число различных пар (xi , yi ). Из

системы уравнений (3) следует, что

При этом выборочное уравнение регрессии Y на X примет вид

yx − y = r	S y	(x − x ),

	Sx

где - выборочный коэффициент корреляции. Аналогично уравнение регрессии X на Y имеет вид

xy − x = r	Sx	(y − y), где	.

	S y

Пример. При большом числе наблюдений одно и то же значение х может встретиться nx раз, одно и то же значение y может

встретиться ny раз, одна и та же пара значений чисел (x,y) может

наблюдаться nxy раз. Поэтому данные наблюдений группируют, т.е.

подсчитывают nx ,			ny ,	nxy . Все сгруппированные данные записывают
в виде таблицы, которую называют корреляционной.

	X	10	20		30	40	50	60	ny
	Y								ny
	Y
	15	5	7						12

	25		20		23				43

	35				30	47	2		79

	45				10	11	20	6	47

	55					9	7	3	19

	nx	5	27		63	67	29	9	n = 200
		5	27		63	67	29	9

В первой строке таблицы указаны наблюдаемые значения величины X, а в первом столбце – наблюдаемые значения величины Y. На пересечении строк и столбцов вписаны частоты nxy наблюдаемых пар

значений этих величин. Например, частота 5 указывает, что пара чисел (10,15) наблюдалась 5 раз. В последнем столбце записаны суммы частот строк. В последней строке записаны суммы частот столбцов.

Вычислим выборочный коэффициент корреляции по данным корреляционной таблицы. Можно значительно упростить вычисления,

если перейти к условным вариантам ui =	xi −c1	,	vi =	yi −c2	, переход к

	h1			h2

которым не меняет величины выборочного коэффициента корреляции


	r =		∑nxy xy −nx y				=	∑n uv −nu v
	r =			nSxSy			=	uv
				nSxSy				nSuSv
В данном примере	u	i	=	xi −c1	=	xi −40		, где в качестве нуля	c взята
В данном примере	u		=		=			, где в качестве нуля	c взята
				h1	10				1
				h1	10
варианта x = 40 , имеющая наибольшую частоту 47; шаг									h1 равен

разности между двумя соседними вариантами. Условные варианты

vi =	yi −c2	=	yi −35	, где в качестве нуля c2 взята варианта y =35,
	h2
		10

имеющая наибольшую частоту 47; шаг h2 равен разности между двумя

u	-3	-2	-1	0	1	2	nv
v							nv
v
-2	5	7					12

-1		20	23				43

0			30	47	2		79

1			10	11	20	6	47

2				9	7	3	19

nu	5	27	63	67	29	9	n = 200
nu							n = 200

соседними вариантами. Составим корреляционную таблицу в условных вариантах. Практически это делается так: в первом столбце вместо варианты 35, имеющей наибольшую частоту, пишут 0; над нулем пишут последовательно –1,-2…; под нулем пишут 1,2…. В первой строке вместо варианты 40, имеющей наибольшую частоту, пишут 0; слева от нуля последовательно пишут –1,-2….; справа от нуля пишут 1,2…. Все остальные данные переписывают из первоначальной корреляционной таблицы. В итоге получим корреляционную таблицу в условных вариантах.

Найдем u и v

u =

∑nuu

5 (−3) + 27 (−2) + 63 (−1) + 29 1 + 9 2

= −0.425,

200

v =

∑nv v

12 (− 2)

+ 43 (−1)+ 47 +19 2

0.090

200

Вычислим вспомогательную величину

, а затем Su :

u 2

∑n u2

5 9 +27 4 +1 63 +1 29 +9 4

=1.405

200

Su =

u2 −u 2 = 1.405 −0.4252 =1.106

Аналогично получим Sv =1.209 .

Найдем ∑nuvuv метод 4 полей, для чего составим расчетную таблицу

U	-3	-2	-1	0	1	2
V
-2	5	7

-1		20	23

0

1					20	6

2					7	3

I	30	68	23	II

III			-10	IV	34	24

Название метода связано с тем, что строка и столбец, пересекающиеся в клетке, содержащей наибольшую частоту, делят корреляционную таблицу на 4 части, которые называют полями. Поле нумеруется так, как указано в таблице.

Найдем произведения пар вариант u и v и поместим их в верхние правые углы клеток, содержащих соответствующие частоты. Заполнив подобным образом остальные клетки 1,2,3,4 полей, получим таблицу, приведенную выше. Сложив числа итоговых клеток, получим

∑nuvuv =121−10	+58 =169 . Найдем искомый коэффициент корреляции
r	=	∑n	uv −n u v	=	169 −200(−0.425) 0.09	= 0.603
		uv			200 1.106 1.209
		n SuSv

Теперь, когда известно как вычисляют r уместно привести пример на отыскание уравнения прямой линии регрессии. Поскольку при

нахождении

уже вычислены

u, v, Su , Sv , то

для

нахождения

x, y, Sx ,

S y

целесообразно

вывести

формулы,

связывающие

u, v, Su , Sv и

x, y, Sx , S y . Выведем эти формулы

xi −c1

∑u

∑

−

так

что

x =

h +c .

Аналогично

n i=1

h h

y = vh2 +c2 .

Тогда

−c1

− x

−c1

− x )2 = Sx ,

1 ∑

∑

n −

h n −1

i=1

так что Sx = h1Su . Аналогично S y

= h2Sv . Итак

x = uh1 +c1 , y = vh2 +c2 , Sx = h1Su , S y = h2Sx

Запишем искомое уравнение в общем виде

yx − y = r S y (x − x ) Sx

Коэффициент корреляции уже ранее вычислен и равен Остается найти x, y, Sx , S y :

(4)

r = 0.603.

x = uh1 +c1 = −0.425 10 +40 = 35.75
y = vh2 +c2	= 0.09 10 +35 = 35.9			(5)
Sx = Suh1 =	1.106 10 =11.06

S y = Svh2 =1.209 10 =12.09
Подставляя (5) в (4), получим искомое уравнение
yx −35.9 = 0.603		12.09	(x −35.75)

или окончательно	11.06

yx = 0.659 x +12.34				(6)

Сравним условные средние, вычисленные по уравнению (6) и по данным корреляционной таблицы. Например, при x=30: по уравнению

(6) получим

y30 = 0.659 30 +12.34 = 32.11,

а по таблице y30 = 23 25 +30 35 +10 45 = 32.94. 63

Как видим, согласование расчетного (согласно (6)) и наблюдаемого условных средних – удовлетворительное.

Доверительные оценки параметров прямой регрессии y на x .

При	нахождении доверительного						интервала для	оценки
параметров	теоретической				прямой линии регрессии			y на	x
используется сумма квадратов отклонений измеренных значений yi									от
рассчитанных по выборочному уравнению прямой линии регрессии:
	n					2
	n		Sy			= (n −1)(1−r2 )S2 .
	Q = ∑ y	−r	Sy	(x − x )
	Q = ∑ y	−r		(x − x )
	i			i			y
	i=1		Sx

При этом предполагается, что все ошибки измерения независимы и одинаково распределены по нормальному закону с центром 0 и

дисперсией σ2 .

Границы доверительного интервала для параметра равны

а границами доверительного интервала для параметра служат

где коэффициент t берется из таблицы распределения Стьюдента при числе степеней свободы k = n −2 .

Доверительный интервал для оценки отклонения теоретической прямой линии регрессии от эмпирической

При фиксированном значении x = x0 границы доверительного

интервала для теоретической прямой регрессии определяются формулами

y	(x	)= y	e	(x	0	)± t	1+ n (x0 − x )2 ,
t	0		e		0	n −2	(n −1)Sx2
						n −2	(n −1)Sx2
здесь			, коэффициентt берется из таблицы

распределения Стьюдента при числе степеней свободыk = n −2 . Следует помнить, что эта оценка значительно ухудшается по мере удаления от среднего значения x .

Например, для вышеприведенного примера t(0.95,198)=1.96 и соответственно границы доверительного интервала дляx0 = 30 равны 32.11±1.30, так что наблюдаемое среднее y30 = 32.94 принадлежит доверительному интервалу.

Свойства выборочного коэффициента корреляции

Выведем формулы

S y2x	= S y2 (1−r 2 )	(1)
Sx2y	= Sx2 (1−r 2 )	(2)

Для этого предположим, что величины Y и X связаны линейной корреляционной зависимостью

yx =α + β x

Тогда получим

S y2

∑(yi − yx )2

∑[yi −α − β xi ]2

∑[(yi − y)− β(xi − x )+(y − β x −α)]2

∑(yi − y)2

+β 2

∑(xi − x )2

+(y − β x −α)2 −2 β

∑(yi − y) (xi − x )

(y − β x −α)

∑(yi − y)

+2 (y

− β x −α)

∑(xi − x )

= S y2 + β 2 Sx2 +(y − β x

−α

−2β ∑ xy −n x y

Итак, окончательно имеем

∑ xy −nx y

S y2

= S y2 + β

2 Sx2 +(y − β x −α)2 −2 β

S 2

Параметры

α, β

найдем

из условия минимума

функции

Необходимые условия минимума этой функции имеют вид

)2 −

(3)

(α, β).

			∂S y2x	= −2(y − β x −α)= 0
				= −2(y − β x −α)= 0
			∂α
	∂S y2	= 2 β Sx2 −2x (y − β x −α)−2					∑ xy −n x y
	x								n	= 0
	∂β									= 0
	∂β
Из уравнения (5) находим					∑ xy −n x y			S y
			β =		∑ xy −n x y	= r		S y
			β =		nSx2	= r		Sx
					nSx2			Sx

Из уравнения (4) следует

(4)

(5)

(6)

α = −y + β x = −y + r	S y	x	(7)

	Sx		S y2x = S y2 (1−r 2 ).
Подставляя (6) и (7) в (3), получим формулу (1)

Аналогично Sx2y = Sx2 (1−r 2 ).

Свойство 1. Выборочный коэффициент корреляции по модулю не превосходит единицу −1 ≤ r ≤1.

Доказательство

Так как любая дисперсия неотрицательна, т.е.	S 2
формулы S y2x = S y2 (1−r 2 ) следует, что r2 ≤1	yx
формулы S y2x = S y2 (1−r 2 ) следует, что r2 ≤1	или
требовалось показать.

Свойство 2. Если r = 0 , то наблюдаемые значения линейной корреляционной зависимостью.

≥0, S y2 ≥ 0 , то из

−1 ≤ r ≤1, что и

x, y не связаны

Доказательство

Доказательство проведем по методу от противного. Предположим, что наблюдаемые значения x, y связаны линейной корреляционной

зависимостью, т.е.
yx = y +byx (x − x )
x y = x +bxy (y − y)
Отсюда при r = 0следует	yx = y, xy = x ,	что противоречит
предположению.	x, y могут быть
Замечание. Если r = 0 , то	x, y могут быть	связаны нелинейной

корреляционной зависимостью или даже функциональной зависимостью.

Свойство

Если

=1, то

наблюдаемые

значения x, y связаны

линейной функциональной зависимостью.

Доказательство

При

из

формулы

S y2x = S y2 (1−r 2 )

следует,

что

S y2

∑(yi − yx )2

= 0 , т.е. yi = yx . Тогда из yx

= y +byx (x − x) следует

yi = y +byx (xi − x), что и требовалось доказать.

Замечание. Из свойства (3) следует, что только наблюдаемые значения, а не все возможные значения связаны линейной функциональной зависимостью.

Из доказанных свойств следует, что r характеризует силу линейной корреляционной зависимости между количественными признаками в выборке:

1)чем ближе r к единице, тем связь сильнее;

2)чем ближе r к нулю, тем связь слабее.

Замечание. Если выборка имеет достаточно большой объем, то заключение о силе линейной корреляционной зависимости между наблюдаемыми значениями признаков может быть распространена на всю совокупность значений признаков X и Y.

§4.2. Выборочное корреляционное отношение

Для оценки тесноты линейной корреляционной связи между физическими величинами в выборке служит выборочный коэффициент корреляции r. Для оценки тесноты любой корреляционной связи вводят другие характеристики.

Пусть данные наблюдений за количественными признаками X и Y сведены в корреляционную таблицу. Тем самым наблюдаемые

значения Y оказываются разбиты на группы; каждая группа содержит те значения Y, которые соответствуют определенному значению X. Так как все значения признака Y разбиты на группы, то можно представить

Dобщ = Dвнгр + Dмежгр

(1)

При этом оказывается справедливым следующее утверждение.

Утверждение12. 1)Если величина Y связана с величиной X функциональной зависимостью, то

		Dмежгр	=1
		Dобщ	=1
		Dобщ
2)если	величина Y связана с величиной X корреляционной
зависимостью, то

Dмежгр <1 Dобщ

Докажем это утверждение. Доказательство разобьем на две части. Сначала докажем первую часть утверждения.

1) Если случайная величина Y связана с случайной величиной X функционально, то по определению функциональной зависимости определенному значению x соответствует только одно значение y. Поэтому в каждой j группе ее элементы равны между собой, т.е.

= y

2 j

=...... = y

(2)

1 j

Из (2) следует, что групповое среднее

y j

m∑jn

y =

m∑jn

= y

(3)

N j i=1 i j

i j

N j i=1

i j

N j i=1 i j

Следовательно, групповая дисперсия равна

(y − y

)2 = 0

m∑jn

− y

)2 =

m∑jn

(4)

N j i=1

i j

N j i=1

i j

В свою очередь, из (4) вытекает, что

∑ N

= 0

(5)

Подставляя (5) в (1), получим

внгр

n j=1

Dобщ = Dмежгр

Отсюда находим

Dмежгр

=1,

что

требовалось

показать в

первой

общ

части.

2) Если случайная величина Y связана с случайной величиной X корреляционной зависимостью, то определенному значению x

1 / 21 2 > Следующая >>>

Соседние файлы в папке семестр 2

#
13.05.202635.71 Кб0Дз_1_1.xlsx
#
13.05.202612.08 Кб0Дз_2.xlsx
#
13.05.2026599.88 Кб0Как проверить значимость коэффициента корреляции, детерминации и коэффициентов уравнения регрессии_.mhtml
#
13.05.202678.57 Кб0Коэффициент детерминации.html
#
13.05.202637.45 Кб0Критерий Фишера для проверки значимости регрессионной модели.mhtml
#
13.05.2026479.5 Кб0ЛКЗ.pdf
#
13.05.20261.08 Mб0ТВиМС_дз_1.jpg
#
13.05.2026621.27 Кб0Теоретический материал_регрессионный парн.анализ.pdf