
2.2. Линейная регрессия
Пусть задана система случайных величин Х и Y и случайные величины Х и Y зависимы.
Представим одну из случайных величин как линейную функцию другой случайной величины Х:
Y= g(x) = + x,
где , - параметры, которые подлежат определению.
Эти параметры могут быть определены различными способами, наиболее часто используется метод наименьших квадратов (МНК).
Функцию g(x) называют наилучшим приближением в смысле МНК, если математическое ожидание М[Y-g(x)]2 принимает возможное наименьшее значение.
В этом случае функцию g(x) называют средней квадратической регрессией Y на X.
Рассмотрим определение параметров выбранного уравнения прямой линии средней квадратической регрессии по не сгруппированным данным. Пусть изучается система количественных признаков (Х ,Y), т.е. ведутся наблюдения за случайной двухмерной величиной (Х , Y). Пусть в результате n наблюдений получено n пар чисел (х1,у1), (х2, у2), …, (хn, yn).
Требуется по полученным данным найти выборочное уравнение прямой линии средней квадратической регрессии:
Поскольку
данные несгруппированные, т.е. каждая
пара чисел встречается один раз, то
можно перейти от условной средней к
переменной у.
Угловой коэффициент k
обозначим через k
= p
и назовем ее выборочной оценкой
коэффициента регрессии
.
Итак,
требуется найти:
Метод наименьших квадратов (МНК) получили систему двух линейных уравнений относительно p и b. Решая эту систему, получим:
;
.
2.3. Основные понятия корреляционно-регрессионного анализа
Среднее значение переменной определяется по следующей формуле:
где х1 – эмпирическое значение переменной х; n – число наблюдений.
Дисперсия
Коэффициент корреляции
Коэффициент корреляции характеризует тесноту или силу связи между переменными у и х. Значения, переменные rху, заключены в пределах от –1 до +1. При положительном значении rху имеет место положительная корреляция, т.е. с увеличением (уменьшением) значений одной переменной (х) значение другой (у) соответственно увеличивается (уменьшается). При отрицательном значении rху имеет место отрицательная корреляция, т.е. с увеличением (уменьшением) значений х значения у соответственно уменьшаются (увеличиваются). При изучении экономического явления, зависящего от многих факторов, строится множественная регрессионная зависимость. В этом случае для характеристики тесноты связи используются коэффициент множественной корреляции:
где 2ост – остаточная дисперсия зависимой переменной;
2общ – общая дисперсия зависимой переменной.
Общая дисперсия определяется по формуле:
Величина
2общ
характеризует разброс наблюдений
фактических значений от среднего
значения
.
Остаточная дисперсия определяется по следующей формуле:
где уiт – теоретические значения переменной у, полученные по уравнению регрессии при подстановке в него наблюдаемых фактических значений хi.
Остаточная дисперсия характеризует ту часть рассеяния переменной у, которая возникает из-за всякого рода случайностей и влияния неучтенных факторов.
Коэффициент детерминации служит для оценки точности регрессии, т.е. соответствие полученного уравнения регрессии имеющимся эмпирическим данным, и вычисляется по формуле
Изменяется Д в пределах от 0 до 1, т.е.
0 Д 1
Модель считается тем точнее, чем ближе Д к 1, т.е. чем меньше 2ост.
Стандартная
ошибка оценки равна
.
Если
Д=0,
это значит отношение
,
т.е. 2ост
= 2общ,
и, следовательно,
.
В этом случае прямая регрессии будет
параллельна
оси X,
корреляционно-регрессионная
связь между X
и
Y
отсутствует.
Если
Д
= 1
, значит,
, т.е. 2ост
= 0. Отсюда уi
= yiT
т. е наблюдаемые точки лежат на построенной
прямой, следовательно, зависимость
функциональная.
8.
Корреляционное отношение используется
для оценки тесноты связи между двумя
явлениями, в частности для определения
тесноты связи
исходного
ряда уi,
с теоретическим рядом yiT
.
Корреляционное
отношение определяют по данным,
сгруппированным по объясняющей переменной
по следующей формуле: