- •3.1. Функциональная, статистическая
- •3.2. Линейная парная регрессия
- •3.3. Коэффициент корреляции
- •3.4. Основные положения регрессионного анализа. Оценка параметров парной регрессионной модели. Теорема Гаусса−Маркова
- •3.5. Интервальная оценка функции регрессии и ее параметров
- •4.1. Классическая нормальная линейная модель множественной регрессии
- •4.2. Оценка параметров классической регрессионной модели методом наименьших квадратов
- •4.4. Оценка дисперсии возмущений
- •4.5. Определение доверительных интервалов для коэффициентов и функции регрессии
- •4.6. Оценка значимости множественной регрессии.
- •Глава 5
- •5.1. Мультиколлинеарность
- •5.2. Отбор наиболее существенных объясняющих переменных в регрессионной модели
- •5.3. Линейные регрессионные модели с переменной структурой. Фиктивные переменные
3.3. Коэффициент корреляции
Представим уравнение (3.12) в эквивалентном виде:
В этой системе величина
(3.17)
показывает, на сколько величин sy изменится в среднем Y, когда X увеличится на одно sx.
Величина r является показателем тесноты связи и называется выборочным коэффициентом корреляции (или просто коэффициентом корреляции).
Рис. 3.2
Если r > 0 (b1 > 0), то корреляционная связь между переменными называется прямой, если, r < 0 (b1 < 0) − обратной.
Учитывая (3.13):
(3.18)
Или
(3.19)
(3.20)
Для практических расчетов наиболее удобна формула (3.20).
Свойства.
Коэффициент корреляции принимает значения на отрезке [−1;1], т. е. −1 < r <1.Чем ближе │r│к единице, тем теснее связь.
При r = ±1 корреляционная связь представляет линейную функциональную зависимость. При этом все наблюдаемые значения располагаются на прямой линии.
При r = 0 линейная корреляционная связь отсутствует. При этом линия регрессии параллельна оси Ох
Пример 3.2.
По данным табл. 3.1 вычислить коэффициент корреляции между переменными X и Y.
Решение.
;
По формуле (3.20)
т.е.связь между переменными тесная.
3.4. Основные положения регрессионного анализа. Оценка параметров парной регрессионной модели. Теорема Гаусса−Маркова
Рассмотрим
линейный регрессионный анализ,
для которого функции
линейна
относительно оцениваемых параметров:
(3.21)
Предположим, что для оценки параметров линейной функции регрессии (3.21) взята выборка, содержащая n пар значений переменных (xi yi), где i=1,2,..., п. В этом случае линейная парная регрессионная модель имеет вид:
(3.22)
Основные предпосылки регрессионного анализа.
В модели (3.22) возмущение
i
(или зависимая переменная yi)
есть величина случайная,
а
объясняющая переменная
xi
− величина неслучайная.Математическое ожидание возмущения i равно нулю:
(3.23)
(или
математическое ожидание зависимой
переменной yi
равно линейной функции регрессии:
.
Дисперсия возмущения i (или зависимой переменной уi) постоянна для любого i:
(3.24)
(или
)
−
условие
гомоскедастичности
или
равноизменчивости
возмущения (зависимой переменной)).
Возмущения i и j (или переменные и yj) не коррелированы:
(3.25)
Возмущение i (или зависимая переменная yi) есть нормально распределенная случайная величина.
Воздействие
неучтенных случайных факторов и ошибок
наблюдений в модели (3.22)
определяется с помощью
дисперсии возмущений (ошибок)
или
остаточной дисперсии
.
Несмещенной оценкой этой дисперсии
является
выборочная остаточная дисперсия
(3.26)
где
−
групповая средняя,
найденная по уравнению регрессии;
−
выборочная
оценка возмущения
i
или
остаток регрессии.
Теорема Гаусса−Маркова. Если регрессионная модель (3.22) удовлетворяет предпосылкам 1−4, то оценки b0 (3.11), b1 (3.13) имеют наименьшую дисперсию в классе всех линейных несмещенных оценок
Таким образом, оценки b0 и b1в определенном смысле являются наиболее эффективными линейными оценками параметров β0 и β1
3.5. Интервальная оценка функции регрессии и ее параметров
Доверительный интервал для функции регрессии (условного математического ожидания).
(3.34)
t−распределение Стьюдента с k = п − 2 степенями свободы
.
(3.33)
Доверительный интервал для индивидуальных значений зависимой переменной.
(3.36)
(3.35)
Доверительный интервал для параметров регрессионной модели.
.
(3.38)
(3.39)
Пример 3.
По данным табл. 3.1: 1) оценить сменную среднюю добычу угля на одного рабочего для шахт с мощностью пласта 8 м;
найти 95%-ные доверительные интервалы для индивидуального и среднего значений сменной добычи угля на 1 рабочего для таких же шахт;
найти с надежностью 0,95 интервальные оценки коэффициента регрессии β1 и дисперсии σ2.
Решение.
Уравнение регрессии
Y
по
X
(пример
3.1):
.
1. Оценим условное математическое ожидание Mx=8(Y).
(т).
Составим
таблицу (табл. 3.2) с учетом того, что
(м),
а значения определяются по полученному
уравнению регрессии.
Таблица 3.2
Xi |
8 |
11 |
12 |
9 |
8 |
8 |
9 |
9 |
8 |
12 |
∑ |
|
1,96 |
2,56 |
6,76 |
0,16 |
1,96 |
1,96 |
0,16 |
0,16 |
1,96 |
6,76 |
24,40 |
|
5.38 |
8.43 |
9,44 |
6,39 |
5.38 |
5,38 |
6,39 |
6,39 |
5,38 |
9,44 |
− |
|
0.14 |
2,48 |
0,31 |
0,37 |
0,14 |
0,39 |
0,15 |
1,94 |
0,39 |
2,08 |
8,39 |
по
(3.26):
,
по (3.33)
и
(т)
По
табл. Стьюдента
(приложений)
.
по (3.34) искомый доверительный интервал
,
или
(т)
Итак, средняя сменная добыча угля на одного рабочего для шахт с мощностью пласта 8 м с надежностью 0,95 находится в пределах от 4,38 до 6,38 т.
2.
доверительный интервал для индивидуального
значения
.
по (3.35):
и
(т)
по (3.36):
и
Таким образом, индивидуальная сменная добыча угля на одного рабочего для шахт с мощностью пласта 8 м с надежностью 0,95 находится в пределах от 2,81 до 7,95 т.
3. Найдем 95%-ный доверительный интервал для параметра. По (3.38)
или 0,537 ≤ β1 ≤ 1,495 , т. е. с надежностью 0,95 при изменении мощности пласта X на 1 м суточная выработка Y будет изменяться на величину, заключенную в интервале от 0,537 до 1,495 (т).
Найдем 95%-ный доверительный интервал для параметра σ2.
Учитывая,
что
=
1−0,95=0,05, найдем по таблице III приложений
формуле (3.39)
или
,
и
.
Таким образом, с надежностью 0,95 дисперсия возмущений заключена в пределах от 0,598 до 4,81, а их стандартное отклонение − от 0,773 до 2,19 (т).
Множественный регрессионный анализ
