Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Российский государственный гуманитарный университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

МАТ.СТАТИСТ..doc

Скачиваний:

Добавлен:

16.04.2019

Размер:

1.36 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 67 / 167 8 9 10 11 12 13 14 15 16 > Следующая >>>

2. Элементы теории корреляции

Расчеты коэффициентов корреляции, регрессии достаточно трудоемки. Это объясняется тем, что приходится обрабатывать большое количество исходных данных; ведь одно наблюдение дает сразу две величины. Однако нужно иметь в виду, что если объем выборки невелик, то расчеты этих коэффициентов несложны. При малых выборках общую корреляционную таблицу не составляют, а результат наблюдений оставляют в том виде, каким он получается непосредственно в опыте, т. е. в виде так называемой простой корреляционной таблицы. В такой таблице каждому номеру наблюдений соответствует пара наблюдавшихся значений случайных величин. Конечно, вычисленный по малому числу наблюдений коэффициент в целом имеет меньшую надежность. В тех случаях, когда известен общий вид зависимости между средней одной величины и значениями другой, параметры этой зависимости могут быть найдены методом наименьших квадратов.

2.1. Линейная корреляция

Рассмотрим выборку двумерной случайной величины (Х, Y) . Примем в качестве оценок условных математических ожиданий компонент их условные средние значения, а именно: условным средним назовем среднее арифметическое наблюдавшихся значений Y, соответствующих Х = х. Аналогично условное среднее - среднее арифметическое наблюдавшихся значений Х, соответствующих Y = y. Введем уравнения регрессии Y на Х и Х на Y:

M (Y / x) = f (x), M ( X / y ) = φ (y).

Условные средние и являются оценками условных математических ожиданий и, следовательно, тоже функциями от х и у, то есть

= f*(x) - (1)

- выборочное уравнение регрессии Y на Х,

= φ*(у) - (2)

- выборочное уравнение регрессии Х на Y.

Соответственно функции f*(x) и φ*(у) называются выборочной регрессией Y на Х и Х на Y , а их графики – выборочными линиями регрессии. Выясним, как определять параметры выборочных уравнений регрессии, если этих уравнений известен.

Пусть изучается двумерная случайная величина (Х, Y), и получена выборка из п пар чисел (х₁, у₁), (х₂, у₂),…, (х_п, у_п). Будем искать параметры прямой линии среднеквадратической регрессии Y на Х вида

Y = ρ_yxx + b , (3)

Подбирая параметры ρ_ух и b так, чтобы точки на плоскости с координатами (х₁, у₁), (х₂, у₂), …, (х_п, у_п) лежали как можно ближе к прямой (3). Используем для этого метод наименьших квадратов и найдем минимум функции

. (4)

Приравняем нулю соответствующие частные производные:

В результате получим систему двух линейных уравнений относительно ρ и b:

. (5)

Ее решение позволяет найти искомые параметры в виде:

. (6)

При этом предполагалось, что все значения Х и Y наблюдались по одному разу.

Теперь рассмотрим случай, когда имеется достаточно большая выборка (не менее 50 значений), и данные сгруппированы в виде корреляционной таблицы:

Y	X
Y	x₁	x₂	…	x_k	n_y
y₁ y₂ … y_m	n₁₁ n₁₂ … n₁_m	n₂₁ n₂₂ … n₂_m	… … … …	n_k₁ n_k₂ … n_km	n₁₁+n₂₁+…+n_k₁ n₁₂+n₂₂+…+n_k₂ …………….. n₁_m+n₂_m+…+n_km
n_x	n₁₁+n₁₂+…+n₁_m	n₂₁+n₂₂+…+n₂_m	…	n_k₁+n_k₂+…+n_km	n=∑n_x = ∑n_y

Здесь n_ij – число появлений в выборке пары чисел (x_i, y_j). Поскольку , заменим в системе (5)

, где п_ху – число появлений пары чисел (х, у). Тогда система (5) примет вид:

. (7)

Можно решить эту систему и найти параметры ρ_ух и b, определяющие выборочное уравнение прямой линии регрессии:

Но чаще уравнение регрессии записывают в ином виде, вводя выборочный коэффициент корреляции. Выразим b из второго уравнения системы (7):

Подставим это выражение в уравнение регрессии: . Из (7)

, (8)

где Введем понятие выборочного коэффициента корреляции

и умножим равенство (8) на : , откуда . Используя это соотношение, получим выборочное уравнение прямой линии регрессии Y на Х вида

. (9)

Коэффициент корреляции – безразмерная величина, которая служит для оценки степени линейной зависимости между Х и Y: эта связь тем сильнее, чем ближе |r| к единице.

Для качественной оценки тесноты корреляционной связи между X и Y можно воспользоваться таблицей Чеддока (табл.1):

Таблица 1

Диапазон

изменения | r_B |

0,1-0,3

0,3-0,5

0,5-0,7

0,7-0,9

0,9-0,99

Характер

тесноты связи

слабая

умеренная

заметная

высокая

весьма

высокая

Итак, если для выборки двумерной случайной величины (X, Y): {(x_i, y_i), i = 1, 2,..., n} вычислены выборочные средние и и выборочные средние квадратические отклонения σ_х и σ_у, то по этим данным можно вычислить выборочный коэффициент корреляции

и получить линейные уравнения, описывающие связь между Х и Y, которые называются выборочным уравнением прямой линии регрессии Y на Х:

и выборочным уравнением прямой линии регрессии Х на Y :

Пример. Для выборки двумерной случайной величины

i	1	2	3	4	5	6	7	8	9	10
x_i	1,2	1,5	1,8	2,1	2, 3	3,0	3,6	4,2	5,7	6,3
y_i	5,6	6,8	7,8	9,4	10,3	11,4	12,9	14,8	15,2	18,5

вычислить выборочные средние, выборочные средние квадратические отклонения, выборочный коэффициент корреляции и составить выборочное уравнение прямой линии регрессии Y на Х.

Для определения выборочного коэффициента корреляции вычислим предварительно Тогда

Выборочное уравнение прямой линии регрессии Y на Х имеет вид: или ◄

Пример. По заданной корреляционной таблице найти выборочные средние среднеквадратические отклонения _Χ, _Υ, коэффициент корреляции ρ_ΧΥ и уравнение линейной регрессии Y на X. Вычислить условные средние по дан-ным таблицы и найти наибольшее их отклонение от значений, вычисляемых из уравнения регрессии.

Y X	0	2	4	6	8	n_X
1	3					3
3	2	3	5			10
5		9	8			17
7			2	6		8
9				4	1	5
11					7	7
n_Y	5	12	15	10	8	50

Вычислим выборочные средние и среднеквадратические отклонения для X,Y

Выборочный коэффициент корреляции между Х и У отыскивается по формуле

Согласно таблице

откуда

Выборочное линейное уравнение регрессии У на Х имеет вид

или, с учётом вычисленных значений,

Условное среднее при x = x_i вычисляется по формуле

где - число выборочных значений y_j, наблюдавшихся при данном x_i . Согласно данным из таблицы находим

Значения условных средних , отыскиваемые по уравнению регрессии:

Отклонения значений ,

будут d₁ = 0-0.45=-0.45; d₂ = 2.6- 1.96 = 0.65; d₃ = -0.51, d₄ = 0.55; d₅ = -0.05;

d₆ = 0.05. Наибольшее по абсолютной величине отклонение равно 0.65. ◄

Пример. Выборочно обследовано 100 снабженческо-сбытовых предприятий некоторого региона по количеству работников X и объёмам складской реализации Y (д.е.). Результаты представлены в корреляционной таблице;

X У	5	15	25	35	45	n_y
130	7	1				8
132	2	7	1			10
134	1	5	4	1		11
136		1	15	10	8	34
138			3	12	15	30
140				1	6	7
n_х	10	14	23	24	29	n=100

По данным исследования требуется:

1) в прямоугольной системе координат построить эмпирические ломаные регрессии Y на X и X на Y, сделать предположение в виде корреляционной связи;

2) оценить тесноту линейной корреляционной связи;

3) проверить гипотезу о значимости выборочного коэффициента корреляции, при уровне значимости α=0,05;

4) составить линейные уравнения регрессии У на X и X на У, построить их графики в одной системе координат;

5) используя полученные уравнения регрессии, оценить ожидаемое среднее значение признака Y при х=40 чел.; дать экономическую интерпретацию полученных результатов.

Для построения эмпирических ломаных регрессии вычислим условные средние и Вычисляем . Так как при х=5 признак Y имеет распределение

YY	130	132	134
n_i	7	2	1

то условное среднее .

При х=15 признак Y имеет распределение

Y	130	132	134	136
n_i	1	7	5	1

тогда .

Аналогично вычисляются все и . Получим таблицы, выражающие корреляционную зависимость Y от X (табл.2) и X от Y (табл.3).

Таблица 2

x	5	15	25	35	45
	130,8	132,86	135,74	137,08	137,86

Таблица 3

y	130	132	134	136	138	140
	6,25	14	19,54	32,35	39	43,57

В прямоугольной системе координат построим точки А_i(х_i, ), соединив их отрезками, получим эмпирическую линию регрессии Y на X. Аналогично строятся точки В_j( ,y_j) и эмпирическая линия регрессии X на Y (см. рис.).

Построенные эмпирические ломаные регрессии Y на X и X на Y свидетельствуют о том, что между количеством работающих (X) и объёмом складских реализаций (Y) существует линейная зависимость. Из графика видно, что с увеличением X величина также увеличивается, поэтому можно выдвинуть гипотезу о прямой линейной корреляционной зависимости между количеством работающих и объёмом складских реализаций.

2. Оценим тесноту связи. Вычислим выборочный коэффициент корреляции, предварительно вычислив характеристики по формулам

, , , , ,

, : ;

; ; ;

Это значение r_B говорит о том, что линейная связь между количеством работников и объемом складских реализаций высокая. Этот вывод подтверждает первоначальное предположение, сделанное исходя из графика.

3. Запишем теоретические уравнения линейной регрессии:

, .

Подставляя в эти уравнения найденные величины, получаем искомые уравнения регрессии:

1) уравнение регрессии Y на X:

, или ;

2) уравнение регрессии X на Y:

, или .

П остроим графики найденных уравнений регрессии. Зададим координаты двух точек, удовлетворяющих уравнению . Пусть х = 10, тогда , А₁(10; 132,41), Если х = 40, тогда , А₂(40; 137,51). Аналогично находим точки, удовлетворяющие уравнению , В₁(10,2; 131), В₂(43; 139). Графики прямых линий регрессии изображены ниже на рисунке.

Контроль: точка пересечения прямых линий регрессии имеет координаты . В нашем примере: С(29,8; 135,78).

4. Найдём среднее значение Y при х=40 чел., используя уравнение регрессии Y на X. Подставим в это уравнение х=40, получим

Ожидаемое в генеральной совокупности среднее значение объёма складских реализаций при заданном количестве работников (х=40) составляет 137,51 д.е.

Замечание 1. Если в корреляционной таблице даны интервальные распределения, то за значения вариант надо брать середины частичных интервалов.

Замечание 2. Если данные наблюдений над признаками X и Y заданы в виде корреляционной таблицы с равноотстоящими вариантами, то целесообразно перейти к условным вариантам:

, ,

где h₁ – шаг, т.е. разность между двумя соседними вариантами x_i; С₁ – «ложный нуль» вариант x_i (в качестве «ложного нуля» удобно принять варианту, которая расположена примерно в середине ряда); h₂ – шаг вариант Y; С₂ – «ложный нуль» вариант Y.

В этом случае выборочный коэффициент корреляции