Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
5520.pdf
Скачиваний:
0
Добавлен:
13.11.2022
Размер:
1.72 Mб
Скачать

94

ТЕМА 11. КОРРЕЛЯЦИЯ И РЕГРЕССИЯ

Понятие о системе случайных величин. Независимые и зависимые случайные величины. Числовые характеристики системы двух случайных величин: корреляционный момент (ковариация) и коэффициент корреляции. Коррелированность и некоррелированность двух случайных величин. Функциональная и статистическая (стохастическая) зависимости между случайными величинами (признаками). Корреляционная таблица. Групповые (условные) средние yx и xy . Корреляционная зависимость между двумя

признаками. Уравнения регрессии и линии регрессии. Основные задачи теории корреляции. Линейная и нелинейная корреляционная зависимости. Эмпирические (опытные) линии регрессии. Приближение эмпирических линий теоретическими кривыми регрессии по данным выборки с помощью метода наименьших квадратов. Нахождение параметров теоретических прямых линий регрессии. Коэффициенты регрессии. Выборочный коэффициент корреляции и его свойства. Запись уравнений прямых линий регрессии (теоретических) с помощью коэффициента корреляции. Упрощенный способ нахождения выборочного коэффициента корреляции и прямых линий регрессии в случае равноотстоящих вариант. Нелинейные корреляционные зависимости между двумя признаками. Корреляционные отношения и их свойства. Понятие о множественной корреляции. Уравнение линейной множественной регрессии. Совокупный коэффициент корреляции и его свойства. Частные коэффициенты корреляции и их свойства.

Л и т е р а т у р а

[1], раздел 2, гл.5, 5.5.3, 5.6.7, гл.6, 6.1.4, 6.1.5, 6.2; [4], §3; [5], гл.14, § 1-4, 7- 9, 11, 16-18, гл.12, § 10, 12, гл.18, § 1-15; [8], гл.9, § 1-7; [9], гл.6, § 1, 2, гл.9, § 1- 3; [11], гл.29, § 199, 200, 205, гл.33, § 220-225; [12], ч.2, гл.6, § 21-26; [16], гл.8.

О с н о в н ы е п о л о ж е н и я и ф о р м у л ы

Для характеристики связи между признаками Х и Y служит корреляционный момент (ковариация) Kxy, который (которая) определяется как математическое

ожидание произведения отклонений этих величин:

 

Kxy = М[(X-M(X)) (Y-M(Y))].

(11.1)

Непосредственно из этого определения следует, что

 

Kxy = M(XY) – M(X) M(Y).

(11.2)

Легко доказать, что корреляционный момент двух независимых случайных

величин равен нулю. Таким образом, условие

 

Kxy =0

(11.3)

является необходимым условием независимости случайных величин. Следовательно, если Kxy 0, то X и Y – зависимые случайные величины.

95

Если Kxy=0, то величины Х и Y не обязательно независимы. Если Х и Y – зависимые случайные величины, то отсюда еще не следует, что Kxy 0.

Корреляционный момент зависит от выбора единиц измерения случайных величин Х и Y, поэтому использовать эту характеристику не всегда удобно. От этого недостатка свободна характеристика, называемая коэффициентом корреляции. Коэффициент корреляции определяется равенством

rxy =

K xy

 

.

(11.4)

 

 

 

x

y

 

Размерность Kxy равна произведению размерностей величин Х и Y. Тогда из равенства (11.4) следует, что коэффициент корреляции является безразмерной величиной. В этом его преимущество перед корреляционным моментом, в остальном он играет роль корреляционного момента.

Две случайные величины Х и Y называются коррелированными, если их корреляционный момент отличен от нуля (или, что следует из (11.4), rxy 0). Х и Y называются некоррелированными величинами, если Kxy=0 (rxy=0).

Из этих определений и сказанного ранее получаются следующие выводы: 1) из независимости двух случайных величин следует их некоррелированность, но из некоррелированности еще не следует независимость этих величин; 2)из коррелированности двух случайных величин следует их зависимость, но из зависимости еще не вытекает коррелированность.

Статистическая зависимость между двумя признаками Х и Y выборки характеризуется корреляционной таблицей, общий вид которой следующий:

Y

y1

 

yj

 

ys

nx

 

Х

 

 

 

 

 

 

 

x1

n11

 

n1j

 

n1s

nx1

 

 

 

 

 

 

 

 

 

xi

ni1

 

nij

 

nis

nxi

(11.5)

 

 

 

 

 

 

 

 

xk

nk1

 

nkj

 

nks

nxk

 

ny

ny1

 

nyj

 

nys

n

 

Здесь хi (i=1,…, k), yj = (j=1,…, s) – соответственно значения признаков Х и Y;

nxi, nyj – соответствующие им частоты;

 

nij – частота, с которой встречается пара

S

 

 

 

 

k

 

 

 

 

 

 

(хi, yj). По определению nxi =

nij ,

nyj =

nij .

Из таблицы (11.5) вытекают

j

1

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

k

S

K

S

следующие равенства для объема выборки n:

n =

nxi

 

nyj

nij .

 

 

 

 

 

 

i 1

j 1

i 1

j 1

 

 

 

 

 

 

По опытным данным (11.5) находятся условные (групповые)

средние y xi ,

 

 

 

 

отвечающие значениям хi (i=1,…, k), и x yj , отвечающие значениям

yj (j=1,…,S)

по формулам

 

 

 

 

 

 

 

 

 

 

 

96

 

 

 

 

 

 

 

 

 

 

 

 

 

S

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y j

nij

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y xi

 

j 1

 

 

,

 

 

 

 

(11.6)

 

 

 

 

 

 

 

 

 

 

nxi

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

K

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xi nij

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x yj

 

i

1

 

.

 

 

 

 

 

(11.7)

 

 

 

 

 

 

 

 

 

nyj

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Ломаная

 

линия, соединяющая

 

точки

 

M * (x , y

xi

) ,

называется опытной

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

i

 

 

(эмпирической) линией регрессии Y на Х. Ломаная линия, соединяющая точки

 

 

 

 

 

 

M ** (xyj , y

) , называется эмпирической линией регрессии Х на Y.

j

j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Пусть требуется найти теоретическое уравнение

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(11.8)

 

 

 

 

Yx

f (x, a1,...,an )

 

 

 

 

регрессии Y на Х по данным

 

корреляционной

таблицы (11.5). Параметры

а1,…,аn

этого уравнения находятся

 

методом

наименьших квадратов. При

предполагаемом законе функциональной зависимости f коэффициенты а1,…,аn выбираются «наилучшими», т.е. так, чтобы сумма

K

 

 

 

 

(11.9)

nxi

Y xi

y xi

 

i 1

 

 

 

 

 

 

 

оказалась минимальной. Величина

 

 

 

 

 

определяет расстояние от точек

 

Y xi

y xi

Мi(хi, Y xi ), лежащих на предполагаемой теоретической кривой (11.8), до угловых точек Мi*(xi, y xi ) эмпирической (опытной) кривой. Множителем nxi

учитывается значимость (вес) каждого хi. Минимум функции F(а1,…, аn), определенной равенством

K

 

 

2 ,

 

F(а1,…, аn) = nxi f (xi , a1,...,an ) y xi

(11.10)

i 1

 

 

будет и минимумом суммы (11.9). Теперь функцию (11.10) как функцию многих переменных а1,…, аn исследуют известными методами на экстремум. Если f дифференцируема по переменным а1,…,аn, то получится система алгебраических уравнений относительно неизвестных а1,…, аn, решение которой дает «наилучшие» параметры при выбранном законе зависимости f. В этом и состоит метод наименьших квадратов.

Если f(х, а1,…, аn)=а1х+а2, то теоретической кривой регрессии Y на Х будет

прямая линия

 

Y x = а1х + а2.

(11.11)

В этом случае легко показать, что минимум функции (11.10) достигается при параметрах а1, а2, являющихся решением системы линейных алгебраических уравнений

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

а1 x2 + а2 x = xy ,

 

 

 

 

 

 

 

 

 

а1 x + а2 = y ,

(11.12)

где Z k - начальные моменты порядка k (см. (9.9))

и

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]