Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
m35674_15.DOC
Скачиваний:
4
Добавлен:
13.11.2022
Размер:
332.8 Кб
Скачать

Тема 13.

КОРРЕЛИЦИЯ И РЕГРЕССИЯ

Основные понятия

Во многих задачах теории и практики нас интересуют случайные величины в их взаимосвязи друг с другом. Напомним понятия типов зависимостей между случайными величинами.

Пусть рассматриваются две случайные величины X и Y. Если каждому значению x величины X соответствует одно значение у величины Y, то функциональная зависимость между величинами. Если же каждому значению x величины X соответствует конкретный закон распределения величины Y (условное распределение), зависящий от x, то зависимость между величинами X и Y называется стохастической.

Для каждого значения x математическое ожидание величины Y зависит от x, его называют условным математическим ожиданием и обозначают Mx(Y) или . Функциональную зависимость условного математического ожидания одной случайной величины от значений другой называют корреляционной зависимостью между этими величинами.

Уравнения

Mx(Y )= g(x), My(X )= h(y),

где g (x) ≠ const и h(y) ≠ const называют уравнениями регрессии Y на X и X на Y соответственно. Функции g(x) и h(y) называют функциями регрессии, а их графики – линиями регрессии. Если функция регрессии линейная, то соответствующее уравнение регрессии называется уравнением прямой регрессии. Так, уравнение прямой регрессии Y на X имеет вид

Mx(Y )=a + bx.

Статистический корреляционно-регрессионный анализ устанавливает на основе результатов наблюдений форму зависимости между признаками, оценивает ее тесноту, занимается построением выборочных уравнений регрессии и анализом качества этих уравнений.

Допустим, что в испытаниях совместно наблюдались значения признака и значения признака . Если каждую пару значений изобразить точкой на координатной плоскости, то совокупность таких точек образует корреляционное поле. Для корреляционной зависимости характерна разная степень тесноты (силы) связи, которая выражается разной структурой корреляционного поля (рис. 13.1). Простейшим видом корреляционной зависимости является линейная. На ее наличие указывает сосредоточенность корреляционного поля вдоль некоторой гипотетической прямой.

Рис. 13.1. Примеры корреляционных полей.

Числовой характеристикой тесноты линейной корреляционной связи между признаками и в статистике служит выборочный коэффициент корреляции , который вычисляется по формуле (сравните с формулой для вычисления коэффициента корреляции в теории вероятностей)

,

где пары ,  известные из предыдущих тем выборочные средние и средние квадратические отклонения признаков , соответственно, а .

Отметим ниже наиболее важные свойства выборочного коэффициента корреляции.

1. .

2. Чем ближе величина к –1 или к 1, тем более тесной является линейная корреляционная связь между признаками. С приближением к нулю эта связь ослабевает. Если , то говорят, что признаки не коррелируют, т.е. можно считать, что между ними нет линейной корреляционной связи (это не исключает существования какой-то нелинейной корреляционной зависимости).

Как и всякий выборочный показатель, коэффициент корреляции имеет свою ошибку репрезентативности

,

где число наблюдений.

Поскольку величина рассчитывается по выборочным значениям, то спрашивается, насколько правомерно переносить вывод о существовании линейной корреляционной зависимости между признаками с выборочной совокупности на генеральную. Иными словами, возникает вопрос о достоверности коэффициента корреляции, который решается с помощью критерия Стьюдента.

Сначала ищут

.

Затем по заданному уровню значимости (иначе говоря, по заданной надежности ) с учетом числа степеней свободы по таблицам приложения 4 определяют критическое значение критерия и сравнивают его с эмпирическим значением , делая итоговые выводы:

если , то коэффициент корреляции признают достоверным (статистически значимым);

если , то коэффициент корреляции определяется как недостоверный.

Анализ формул для и показывает, что при большом объеме выборки даже малый коэффициент корреляции может быть достоверным. В случае выборки небольшого объема достоверным может оказаться лишь такой коэффициент корреляции, абсолютная величина которого близка к 1.

Пример 13.1. При исследовании эффективности агротехнических мероприятий получены данные об объеме (%) задерживаемых осадков микрорельефом на склонах разной крутизны (град.). Полученные данные представлены следующей таблицей:

крутизна склона, град.

3

4

5

6

7

8

9

10

объем задерживаемых осадков, %

60

53

50

40

37

33

27

20

Требуется вычислить выборочный коэффициент корреляции и выяснить его достоверность (значимость) при уровне значимости .

Решение.

1. Проводим вычисление выборочного коэффициента корреляции:

В ы в о д. Линейная корреляционная зависимость сильная, прямая (положительная).

2. Проверяем значимость коэффициента корреляции.

Вычисляем ошибку репрезентативности:

.

Находим и (по таблицам приложения 4):

.

В ы в о д. Так как , то при уровне значимости можно утверждать достоверность коэффициента корреляции (значимость отличия от нуля), т.е. линейная корреляционная зависимость между рассматриваемыми признаками существует не только в выборочной, но и в генеральной совокупности.

Введем понятие условного среднего. Пусть  выборочное среднее по всем значениям признака , выборочное среднее по всем значениям признака . Через принято обозначать среднее значение вариант признака , соответствующих заданному значению признака . Эту величину и называют условным средним.

Под формой корреляционной связи понимают уравнение, связывающее значение одного признака (независимой переменной) с условными средними другого признака.

Количественные выводы о том, как изменяется один признак (зависимая переменная) при изменении другого признака (независимой переменной) позволяет сделать уравнение регрессии. Выборочное уравнение прямой линии регрессии на , полученное с помощью МНК, имеет вид

(13.1)

где  выборочный коэффициент регрессии.

Выборочное уравнение прямой регрессии определяет на плоскости прямую линию, проходящую через точку с угловым коэффициентом . Величина показывает, насколько в среднем изменится признак (точнее, насколько изменится ), если значение признака увеличить на 1.

Для удобства последующего изложения учебного материала выборочное уравнение (13.1) перепишем в виде

(13.2)

(здесь вместо записана переменная в предположении, что выборочные данные не преобразовывались для вычисления условных средних; выборочный коэффициент регрессии; свободный член выборочного уравнения).

Выборочное уравнение (13.2) является лишь оценочным для соответствующего теоретического уравнения прямой регрессии

, (13.3)

описывающего зависимость между независимой переменной и откликом . В этом уравнении неизвестные постоянные величины, а ε  случайная ошибка.

Важнейшую роль при оценке качества регрессии играет анализ остатков модели (13.2)

,

которые являются носителем как проявления неправильного выбора модели, так и случайных обстоятельств. Выводы регрессионного анализа считаются корректными лишь в предположении, что остатки теоретической регрессии являются независимыми случайными величинами, которые нормально распределены, имеют нулевые математические ожидания и одинаковые дисперсии. Проверка выполнения перечисленных условий и является предметом анализа остатков .

В статистическом анализе регрессии будут использованы следующие объекты:

остаточная сумма квадратов ( );

модельная (факторная) сумма квадратов;

общая сумма квадратов;

числа степеней свободы остаточной, модельной и общей сумм квадратов;

остаточная дисперсия;

модельная (факторная) дисперсия.

Ниже рассмотрим отдельные, наиболее важные приемы анализа модели регрессии.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]