Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Lektsii_Statistika_1_Razdel.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
2.31 Mб
Скачать

7.2. Парная корреляция и парная линейная регрессия

Простейшим приемом выявления связи между двумя признаками является построение корреляционной таблицы. В основу таблицы положена группировка двух изучаемых во взаимосвязи признаков – X и Y. Частоты fij показывают количество соответствующих сочетаний X и Y. Если fij расположены в таблице беспорядочно, можно говорить об отсутствии связи между переменными. В случае образования какого-либо характерного сочетания fij допустимо утверждать о связи между X и Y. При этом, если fij концентрируются около одной из двух диагоналей, имеет место прямая или обратная линейная связь.

Уровни признака

X

Уровни признака Y

Y1

Y2

Ym

Итого

X1

f11

f12

f1m

X2

f21

f22

f2m

Xk

fk1

fk2

fkm

Всего

n

Рисунок 7.1. Схема корреляционной таблицы

Наглядным отображением корреляционной таблицы служит корреляционное поле. Оно представляет график, где на оси абсцисс откладываются значения X, по оси ординат – Y, а точками показывается сочетание первичных наблюдений X и Y. По расположению точек, их концентрации в определенном направлении можно судить о наличии и форме связи.

В итогах корреляционной таблицы по строкам и столбцам приводятся два распределения – одно по X, другое по Y. Рассчитаем для каждого Xi среднее значение Y и для Yj среднее значение X.

; i = 1, 2, …, k ; j = 1, 2, …, m.

Последовательность точек на графике иллюстрирует зависимость среднего значения результативного признака Y от факторного X; соединяя точки линиями, получаем эмпирическую линию регрессии, наглядно показывающую, как изменяется Y по мере изменения X. Аналогичным образом, последовательность точек на графике иллюстрирует зависимость среднего значения факторного признака X от результативного Y; соединяя точки линиями, также получаем эмпирическую линию регрессии, наглядно показывающую, как изменяется X по мере изменения Y. Таким образом, на одном графическом поле можно расположить две линии регрессии.

Пример. Ниже в корреляционной таблице представлены итоги статистического наблюдения уровня оплаты труда и производственного стажа работников.

Стаж

работы (Xi), лет

Уровень оплаты (Yj), руб.

Итого

Средний уровень оплаты,

(руб.)

1500÷1750

1750÷2000

2000÷2250

2250 и выше

0

2

1

-

-

3

1708,3

1

1

1

1

-

3

1875,0

2

-

1

-

1

2

1875,0

3

-

-

-

1

1

2375,0

4

-

-

2

2

2375,0

Всего

3

3

1

4

11

-

Средний стаж – (лет)

0,333

1

1

3,25

-

На графике (рисунок 7.2) по данным таблицы показаны две эмпирические линии регрессии. Одна из них иллюстрирует изменение среднего уровня оплаты труда по мере увеличения производственного стажа (Х). Вторая линия показывает средний стаж работы при данном уровне оплаты труда (уровень Yi в серединах интервалов равен 1625, 1875, 2125 и 2375 руб.).

Рисунок 7.2. Эмпирические регрессии оплаты труда и стажа работы

Для количественной оценки тесноты связи в первую очередь используется линейный коэффициент корреляции (или коэффициент линейной корреляции). Корреляция переменных X и Y оценивается по формуле

.

Известны и другие модификации этого выражения. Здесь n – количество наблюдений; σX, σY – соответствующие средние квадратические отклонения. Коэффициент корреляции принимает значения в интервале от –1 до +1. Принято считать, что если |r| <0,3, то связь слабая; при |r| =(0,3÷0,7) – средняя; при |г| > 0,70 – сильная или тесная. Когда |r| =1, связь функциональная. Если же r0, то это дает основание говорить об отсутствии линейной связи между Y и X. Но в этом случае вполне возможно нелинейное взаимодействие, что требует дополнительной проверки и других измерителей (см. ниже).

Для характеристики влияния X на изменение уровня Y служат методы регрессионного анализа. В случае парной линейной зависимости строится регрессионная модель

Yi = a0+a1Xi+ i, i =1,…, n,

где i – номер наблюдения, n – число наблюдений; а0, а1, – неизвестные параметры уравнения регрессии; i – случайная составляющая (ошибка) переменной Y. Собственно уравнение регрессии записывается как

Yi теор = a0+a1·Xi,

где Yi.теор –рассчитанное по уравнению регрессии значение результативного признака (после подстановки в уравнение числового значения Xi.). Параметры а0 и а1 оцениваются с помощью процедур, наибольшую известность из которых получил метод наименьших квадратов. Суть его в том, что наилучшие оценки а0 и а1 получают, когда

Иначе говоря, сумма квадратов отклонений фактических значений зависимой переменной Y от значений, вычисленных по уравнению регрессии должна быть минимальной. Сумма квадратов отклонений является функцией параметров а0 и а1. Минимальному значению суммы квадратов отклонений соответствует решение системы линейных относительно а0 и а1 уравнений:

n·a0 + a1·X = Y;

a0·X + a1·X2 = XY.

Можно воспользоваться и другими формулами, вытекающими из метода наименьших квадратов, например:

Аппарат линейной регрессии достаточно хорошо разработан и обязательно имеется в наборе стандартных программ статистического анализа на ПЭВМ. Смысл параметров: а1 – это коэффициент регрессии, характеризующий влияние, которое оказывает изменение X на Y. Он показывает, на сколько единиц в среднем изменится Y при изменении X на одну единицу8. Если а1 больше 0, то наблюдается положительная связь. Если а1 отрицателен, то увеличение X на единицу влечет за собой уменьшение Y в среднем на а1. Параметр а1 обладает размерностью отношения Y к X. Например, по данным о стоимости оборудования X и уровне производительности труда Y методом наименьших квадратов получена зависимость Y = -12,14+0,208·X. Коэффициент а1=0,208 означает, что увеличение стоимости оборудования на 1 тыс. руб. ведет к среднему росту производительности труда на 0,208 тыс. руб. Параметр а0 – это постоянная величина в уравнении регрессии. Его интерпретируют как начальное значение Y (или значение Y при X=0). Значения функции Y = а0 + а1·X на графике образуют теоретическую линию регрессии. Смысл теоретической регрессии в том, что это оценка среднего значения переменной Y для любого возможного значения X.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]