Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Теория вероятности-математика..doc
Скачиваний:
3
Добавлен:
01.03.2025
Размер:
3.26 Mб
Скачать

Количественные критерии оценки тесноты связи (шкала Чеддока)

Величина коэффициента корреляции

0,1-0,3

0,3-0,5

0,5-0,7

0,7-0,9

0,9-1,0

Характеристика силы связи

слабая

умеренная

заметная

высокая

весьма высокая

средняя

сильная

Коэффициенты корреляции, как правило, рассчитываются для выборочных данных и поэтому являются случайными величинами. После вычисления r возникает необходимость проверки гипотезы о значимости полученной оценки, то есть распространения полученных частных результатов на генеральную совокупность. При этом допускается некоторая ошибка, которую можно оценить с помощью определенных критериев или понятия средней квадратической ошибки. Средняя квадратическая ошибка для линейного коэффициента корреляции достаточно большой выборки вычисляется по формуле , где ρ — коэффициент корреляции генеральной совокупности; n — объем выборки. Коэффициент корреляции достоверен если он больше или равен величине трёх своих ошибок.

Для оценки значимости r также применяется t-критерий Стьюдента. При этом определяется фактическое значение критерия tr

.

Исчисленное tr сравнивается с критерием tк, которое берется из таблицы значений t-Стьюдента с учетом заданного уровня значимости α и числа степеней свободы k. Если tr>tк, то величина коэффициента корреляции признается существенной.

Коэффициенты корреляции, представляя количественную характеристику тесноты связи между признаками, дают возможность определить «полезность» факторного признака при построении уравнения регрессии. Величина коэффициента корреляции служит также оценкой соответствия уравнения регрессии выявленным причинно-следственным связям.

К уравнениям регрессионного анализа относятся прямая, гипербола, парабола, экспонента, логарифмическая функция и др.

Применение метода наименьших квадратов позволяет получить достаточно точные теоретические значения линии однофакторной регрессии и, соответственно, ее графическое изображение. Подобранной считается та модель расчетов теоретической линии, для которой квадрат отклонений эмпирических данных у от теоретической линии регрессии минимальный, т.е. . Для определения параметров уравнения на основе требований метода наименьших квадратов необходимо решить систему нормальных уравнений

Множественные уравнения регрессии позволяют вычислить теоретические значения результативного признака в зависимости от всех включенных в множественное уравнение факторов (без графического его изображения одной теоретической линией).

Различный подход к истолкованию результатов регрессионного анализа исходит из разного понимания смысла параметров уравнений регрессии, полученных методом наименьших квадратов. Например, в уравнении однофакторной линейной регрессии параметр a1 означает среднее изменение величины результативного признака у в зависимости от изменения значений факторного признака х, если все остальные факторы, влияющие на результативный признак у и не связанные с факторным, рассматриваются как неизменные. Этот параметр показывает, насколько в среднем величина одного признака Y изменяется при изменении на единицу меры другого корреляционно связанного с Y признака X. Параметр а0 (свободный член) отражает усредненное влияние всех неучтенных факторов. Если первое требование трудно учесть, то второе - истолковать, особенно в тех случаях, когда он имеет отрицательное значение.

При исследовании корреляции между количественными признаками, значения которых можно точно измерить в единицах метрических шкал (рубли, секунды, килограммы и т.д.), очень часто принимается модель двумерной нормально распределенной генеральной совокупности. Такая модель графически отображает зависимость между переменными величинами xi и yi в системе прямоугольных координат. Эту графическую зависимость называют также диаграммой рассеивания или корреляционным полем.

Пример. В результате комбинационной группировки 100 рабочих по общему стажу работы и месячной заработной плате получена следующая корреляционная таблица

Группы рабочих по общему стажу работы (лет)

Группы рабочих по размеру заработной платы (руб.)

100-120

120-140

140-160

160-180

180-200

200-220

220-240

Итого

0-5

5

6

14

7

32

5-10

3

4

7

10

2

26

10—15

1

2

6

5

4

18

15-20

4

1

6

1

12

20—25

1

3

1

3

8

25—30

1

2

1

4

Итого

5

10

20

25

20

15

5

100

Для характеристики связи между рассматриваемыми показателями необходимо провести корреляционно-регрессионный анализ двумерной модели.

Решение. Обозначим общий производственный стаж рабочих через х, а их месячную заработную плату — через у.

Для графического изображения зависимости откладываем в прямоугольной системе координат по оси абсцисс значения группировочного признака-фактора (производственный стаж), а по оси ординат — средние значения зависимого признака (заработную плату).

Рис. 6.1. Корреляционное поле

На основе анализа корреляционного поля можно предположить, что между заработной платой и стажем рабочих существует прямая регрессия, уравнение которой будет:

.

Проведем сначала корреляционный анализ. Основная задача корреляционного анализа (являющаяся основной и в регрессионном анализе) состоит в оценке уравнения регрессии.

Для нахождения значений величин a0 и a1, входящих в систему нормальных уравнений, составим расчетные таблицы, введя в них одновременно и величины, необходимые для расчета коэффициента корреляции (в качестве вариант возьмем середины интервалов):

x

y

110

130

150

170

190

210

230

my

у my

у2 my

2,5

5

6

14

7

32

80

200

7,5

3

4

7

10

2

26

195

1462,5

12,5

1

2

6

5

4

18

225

2812,5

17,5

4

1

6

1

12

210

3675

22,5

1

3

1

3

8

180

4050

27,5

1

2

1

4

110

3025

mx

5

10

20

25

20

15

5

100

1000

15225

X mx

550

1300

3000

4250

3800

3150

1150

17200

X2 mx

60500

169000

450000

722500

722000

661500

264500

3050000

∑у mxy

12,5

50

90

237,5

250

247,5

112,5

1000

x∑у mxy

1375

6500

13500

40375

47500

51975

25875

187100

Коэффициент корреляции вычисляется по формуле

.

Из таблицы определяется величина тху, равная 187100. Подставим найденные величины в формулу коэффициента корреляции и получим

Полученное значение коэффициента корреляции указывает на наличие достаточно тесной линейной связи между общим производственным стажем и заработной платой рабочих.

Если имеются равные интервалы отдельно по факторному и по результативному признакам, как, например, в данной задаче, нахождение коэффициента корреляции целесообразно производить с помощью следующей формулы

,

где и условные варианты признаков при равных интервалах; тх, ту, и тхучастоты групп и подгрупп по х и у. Так, для рассматриваемой задачи х0=12,5, hх=5, y0=170 и hv = 20. Все дальнейшие вычисления аналогичны рассмотренным ранее.

Средняя ошибка коэффициента корреляции определяется по формуле , где r — коэффициент корреляции; n — объем совокупности. Подставим в эту формулу полученные данные

.

Отношение коэффициента корреляции к его погрешности равно 13 (0,69:0,052<0,52·3), следовательно, можно считать, что полученный коэффициент корреляции достаточно точно выражает степень связи рассматриваемых показателей.

Коэффициент корреляции, уменьшенный на трехкратную величину погрешности, дает гарантийный минимум, а увеличенный на трехкратную величину погрешности — соответственно гарантийный максимум. Так, в данной задаче гарантийный минимум составляет 0,534=0,69—3·0,052, а гарантийный максимум равен 0,846=0,69+З·0.052. Это означает, что для рассматриваемого примера можно ожидать, что не меньше 28,5% (0,534x0,534x100) вариации месячной заработной платы рабочих вызвано вариацией величины общего производственного стажа.

Проверим гипотезу Н0 о равенстве нулю генерального коэффициента корреляции против альтернативы Н1 о неравенстве нулю коэффициента корреляции. Для проверки гипотезы Н0 против альтернативы Н1 используем t-критерий Стьюдента с (n-2) степенями свободы . Вычисленное tr сравним с критерием tк, которое возьмем из таблицы значений t-Стьюдента с учетом заданного уровня значения α=0,05 и числа степеней свободы k=(n-2). В нашем примере tr= , а tк=1,98. Таким образом, принимается гипотеза Н1 с вероятностью ошибки α=0,05. Полученная оценка коэффициента корреляции является значимой.

Также проверить значимость коэффициента корреляции на уровне α=0,05 можно при помощи критерия Фишера. По таблицам распределения статистики r «Таблица Фишера-Иейтса» получаем:

гкр= rтабл(0,05;98)< rтабл(0,05;90)=0,205.

Критическая область имеет вид . Так, rрасч=0,69 попадает в критическую область (|0,69|>0,205>гкр). Гипотеза Н0:р=0 отвергается с вероятностью ошибки 0,05. Следовательно, коэффициент корреляции р значимо отличается от нуля. Можно считать доказанной связь между случайными величинами х и у.

Вычислим коэффициенты уравнения регрессии, для этого подставим найденные значения в систему уравнений и получим:

.

В результате совместного решения уравнений находим: a0=143,1 и a1=2,89. Искомое уравнение прямой регрессии примет вид:

.

Это уравнение показывает, что между общим производственным стажем и заработной платой рабочих имеется прямая связь - с увеличением стажа на один год размер месячной заработной платы возрастает в среднем на 2р.89к. (а1).

Корреляция и регрессия тесно связаны между собой - первая оценивает силу (тесноту) статистической связи, вторая исследует ее форму. И корреляция, и регрессия служат для установления соотношений между явлениями и для определения наличия или отсутствия связи между ними.