- •3.1. Простая линейная регрессия.
- •Пример построения линейной регрессии.
- •3.1.1. Определение параметров уравнения регрессии с помощью метода наименьших квадратов.
- •3.1.2. Критерии значимости коэффициентов и в уравнении регрессии.
- •Коэффициент детерминации .
- •Гетероскедастичность.
- •Автокорреляция.
- •Мультиколлинеарность.
- •Фиктивные переменные.
- •Исходные данные
- •Результаты вычислений.
- •3.4. Использование регрессии для прогнозирования.
- •Матрица коэффициентов парной корреляции
- •Множественный коэффициент корреляции
- •Частный коэффициент корреляции
- •Исходные данные.
- •Результаты расчета.
- •Проверка точности.
- •Проверка адекватности и оценка точности модели парной линейной регрессии.
- •Проверка адекватности.
- •Курс доллара сша и предположительно влияющие на него факторы.
- •Корреляционная матрица системы показателей.
- •Параметры модели зависимости курса доллара от цены золота и ее статистические характеристики.
- •Параметры модели зависимости курса доллара от цены золота и dj-индекса и ее статистические характеристики.
- •Параметры модели зависимости курса доллара от цены золота, dj-индекса и тn-индекса и ее статистические характеристики.
- •Результаты моделирования зависимости курса доллара от цены золота и dj-индекса.
- •Исходные данные.
- •Коэффициенты корреляции.
- •Исходные данные.
- •Исходные данные.
Проверка адекватности.
Проверка адекватности модели заключается, во-первых, в определении ее значимости и, во-вторых, в установлении наличия или отсутствия систематической ошибки.
Проверка
значимости модели. Сначала
проверяется значимость
коэффициентов уравнения регрессии
,
т.е. проверяется гипотеза
о том, что параметр, измеряющий связь,
равен нулю. Статистическая
существенность связи считается принятой,
если нулевая
гипотеза об отсутствии связи будет
отклонена. Для проверки нулевой
гипотезы строится t-критерий
Стьюдента:
(3.27).
Если
для табличного значения
с уровнем значимости
и числом
степеней свободы
= (n
– k
-
1),
где k
- количество факторов,
включенных в модель, выполняется
неравенство
,
то
значение соответствующего коэффициента
регрессии признается
значимым.
Для
рассматриваемого примера модели парной
регрессии t
= 0.38 : 0.04 = 9.5;
,
т.е.
.
Следовательно,
нулевая
гипотеза с вероятностью 0.98 может быть
отвергнута. Стало быть,
коэффициент регрессии а1
можно
признать значимым с ошибкой
в 2%, но тогда и влияние фактора х
на
у
признается
значимым.
(Напомним, что мы приняли
= 0.02,
а число степеней свободы
для модели парной регрессии в нашем
случае равно 8.)
Значимость
уравнения регрессии в целом определяется
с помощью F-критерия
Фишера. На основе коэффициента
детерминации
рассчитывается значение критерия по
формуле (3.6). Расчетное
значение F
сравнивается с табличным c
заданным
уровнем вероятности Р
(обычно
принимают P=0.95,
т.е. уровень
значимости (
= 0.05) и числом степеней свободы
= k
и
=
n
– k
-
1
(для модели парной регрессии k
=
1).
Если выполняется
условие
,
то уравнение модели признается значимым.
Для построенного уравнения парной регрессии (3.24) расчетный F-критерий имеет значение 74.05, в то время как Fтабл. = 5.32, то уравнение модели признается значимым.
Проверка наличия или отсутствия систематической ошибки осуществляется на основе анализа ряда остатков. Модель считается адекватной, если ряд ее остатков удовлетворяет следующим требованиям:
1 . Математическое ожидание уровней ряда остатков равно нулю.
Уровни ряда остатков имеют случайный характер.
Значения уровней ряда остатков независимы друг от друга (отсутствует автокорреляция).
Уровни ряда остатков распределены по нормальному закону.
Проверка первого свойства, которое для краткости мы назовем свойством нулевого среднего, осуществляется следующим образом. Прежде всего, рассчитывается среднее значение ряда остатков по формуле:
(3.28).
Если оно близко к нулю, то считается, что модель не содержит постоянной систематической ошибки и адекватна по критерию нулевого среднего. Если средняя ошибка не равна нулю, то проверяется нулевая гипотеза о равенстве нулю математического ожидания. С этой целью по формуле
(3.29)
вычисляют t-критерий Стьюдента, который сравнивают с табличным значением. В том случае, если выполняется неравенство , модель неадекватна по данному критерию.
В табл. 3.7 представлены результаты проверки адекватности и оценки точности модели парной линейной регрессии. В предпоследней строке первой колонки приведено значение средней ошибки. Поскольку оно, как видим, равно нулю, модель не имеет постоянного смещения и признается адекватной по критерию нулевого среднего.
Свойство случайности ряда остатков может быть проверено различными методами. Например, можно использовать метод серий. Серией называется последовательность расположенных подряд значений ряда остатков, для которых разность
(3.30),
где М( ) - медиана ряда остатков, имеет один и тот же знак.
Если модель хорошо отражает исследуемую зависимость, то она часто пересекает линию графика исходных данных и тогда серий много, а их длина невелика. В противном случае серий мало и некоторые из них включают большое число членов. Для использования критерия серий по предварительно ранжированному ряду остатков вычисляются медиана М( ) и ряд разностей . Иногда медиана ряда остатков априорно принимается равной нулю исходя из предположения симметричности распределения ошибок и его нулевого среднего. Тогда в качестве серий рассматриваются расположенные подряд ошибки с одинаковыми знаками. Подсчитывается число серий N и длина максимальной из них L. В нашем примере (см. табл. 3.7) количество серий и длина максимальной серии подсчитываются в соответствии со знаками ошибок, приведенных в первой колонке: N= 7 и L = 2.
Полученные значения сравниваются с критическими Nкр и Lкр, которые рассчитывают по формулам (квадратные скобки в данном случае означают, что берется целая часть числа, заключенного в скобки):
= [3.3(lg
n
+1)];
(3.31)
=[1/2(n
+ 1) – 1.96
]
(3.32)
Для
нашего случая исходный ряд содержит 10
наблюдений, критические
значения равны
=
6,
=
2.
Если выполняется система неравенств:
;
,
то
модель признается адекватной по критерию
случайности. Если хотя
бы одно из неравенств нарушено, то модель
признается неадекватной
по данному критерию. Для нашего примера
первое неравенство
справедливо, а второе - нет (длина
максимальной
серии точно совпадает с критическим
значением
),
следовательно,
модель признается неадекватной по
данному критерию.
Независимость (отсутствие автокорреляции) последовательности остатков является важнейшим условием адекватности модели. Проверку этого условия можно выполнить, например, с помощью критерия Дарбина-Уотсона (3.11). В табл. 3.7 расчет коэффициента Дарбина-Уотсона приведен в колонке 4. Его значение равно 2.52, т.е. автокорреляция остатков отсутствует.
По совокупности трех критериев (нулевого среднего, случайности и независимости ряда остатков) делается вывод о принципиальной возможности использования модели: если модель адекватна по критерию нулевого среднего и хотя бы по одному из двух других критериев, то она может быть принята для использования. В нашем примере модель неадекватна по критерию случайности, но адекватна по критерию нулевого среднего и по критерию независимости последовательных остатков, следовательно, модель может быть рекомендована к использованию, хотя и не признается полностью адекватной.
Соответствие ряда остатков нормальному закону распределения (кратко: нормальность ряда остатков) проверяется с целью использования этого свойства в дальнейшем при построении доверительных интервалов. Ввиду малого числа наблюдений в большинстве случаев это свойство может быть проверено лишь приближенными методами. Таким, в частности, является метод, основанный на вычислении коэффициентов асимметрии Аs (1.13) и эксцесса Ех (1.14). Для ряда остатков эти коэффициенты будут выглядеть следующим образом:
и
.
Значения этих коэффициентов для нормально распределенной совокупности равны нулю. Расчетные значения Аs и Ех, вычисленные по формулам, сравниваются с критическими, которые вычисляются с учетом стандартных ошибок их оценок. Если одновременно выполняются неравенства
и
(3.33),
то гипотеза о нормальном распределении ряда остатков принимается и доверительные интервалы прогнозов, построенные в предположении нормальности, будут достаточно надежными; если хотя бы одно из неравенств не выполняется, то к доверительным интервалам следует относиться осторожно.
Для рассматриваемого примера расчетные значения коэффициентов асимметрии и эксцесса ряда остатков вычисляются по табл. 3.7 (см. нижнюю строку), их значения приведены в последней строке таблицы: Аs = 0.29 и Ех= -1.20. Проверка неравенств (3.33), которые в нашем случае принимают вид
|0.29|<0.87;
|-1.20+ 0.54|< 3.75,
свидетельствует о том, что согласно принятому критерию распределение ряда остатков не противоречит нормальному и, следовательно, границы доверительных интервалов могут оцениваться в предположении нормальности ряда остатков.
Построение доверительных интервалов.
Конечной целью моделирования обычно является оценка или прогнозирование показателя у в зависимости от значений х. Для рассмотренных моделей в качестве оценки или прогноза показателя у для конкретного х всегда определялось лишь одно число, которое представляет собой условное среднее и (при выполнении предпосылок регрессионного анализа) наиболее вероятное значение с точки зрения закономерности, отраженной в модели. Такой прогноз называется точечным и не учитывает отклонений от закономерности в результате воздействия случайных и не учтенных в модели факторов.
Чтобы учесть в прогнозе влияние случайности, помимо точечного строится также интервальный прогноз. В нем отклонение от закономерности в результате случайных воздействий определяется границами доверительных интервалов.
Доверительным интервалом называется такой интервал, которому с заданной степенью вероятности (называемой доверительной) принадлежат истинные значения показателя. Случайные отклонения от модели проявляются в виде ошибок. Поэтому при определении границ доверительных интервалов надо определить, из чего складываются возможные ошибки моделирования, оценки и прогнозирования. При условии, что модель адекватна и возможные ошибки носят только случайный характер, следует различать два основных источника ошибок:
ошибки аппроксимации (рассеяние наблюдений относительно модели);
ошибки оценок параметров модели.
Наличие
ошибок первого типа очевидно: даже
визуально видно рассеяние исходных
данных относительно модели и, конечно,
нельзя
предполагать, что за границами периода
наблюдений фактические
значения вдруг подтянутся к модели.
Величина ошибок аппроксимации
характеризуется остаточной дисперсией
или среднеквадратической
ошибкой
.
Распределение этих ошибок для
адекватных моделей нормально (нормальность
ошибок, как уже
отмечалось, - одно из условий адекватности).
Ошибки оценок параметров моделей обусловлены тем, что их параметры, фиксированные в модели как однозначные, в действительности являются случайными величинами, так как они оцениваются на основе фактических данных, в которых присутствуют как закономерная, так и случайная составляющие. Средние значения этих оценок при выполнении предпосылок регрессионного анализа соответствуют истинным значениям параметров, а их дисперсии зависят от остаточной дисперсии, числа наблюдений и вида модели. Так, для линейной модели ошибки оценок параметров вычисляются по формуле (3.17). Аналогично выводятся формулы для расчета дисперсий ошибок моделей параболы и экспоненты.
Итак, для моделей парной регрессии доверительные интервалы тем шире, чем:
- больше остаточная дисперсия (менее точна модель);
- меньше число наблюдений;
- значение Х больше удалено от своей средней величины;
- сложнее форма модели;
- больше заданная доверительная вероятность.
Попытаемся на основе построенной нами модели парной линейной регрессии Y(х) = -163.18 + 0.38Х оценить количество выставленных к продаже акций у для некоторого предприятия с уставным фондом Х = 2000 и рассчитаем доверительные интервалы такой оценки с доверительной вероятностью р = 0.95. Расчетное значение числа акций равно
Х(2000) = -163.18 + 0.388*2000 = 612.82.
Общая дисперсия ошибки оценки:
=
7378.17 (1 + 0.1 + (2000 – 787.7)2/5192436.56)
= 10181.87. Следовательно, среднеквадратическая
ошибка оценки равна 100.91.
Границы
доверительного интервала:
y = 612.82 ± 2 * 100.91 .
С учетом нормального распределения ряда ошибок количество акций, выставленных к продаже предприятием с уставным капиталом 2000, с вероятностью 0.95 составит от 411 до 815, при этом условное среднее (наиболее вероятное) число акций составит 613.
При
оценке границ доверительных интервалов
модели множественной
регрессии следует учитывать, что каждый
фактор модели
имеет собственную ошибку коэффициента.
Это надо учитывать при
расчете общей дисперсии оценки у.
Для
заданных значений вектора
переменных
общая
дисперсия ошибок отклонений
истинных значений от расчетных может
быть представлена как
Из
этого следует, что включение дополнительных
факторов в модель
оправдано только в том случае, если это
приводит к существенному
увеличению точности модели, т.е. сокращению
ее остаточной
дисперсии
,
в
противном случае доверительные интервалы
более подробной модели могут оказаться
шире, чем у более
простой модели.
Пример. Рассмотрим алгоритм последовательного включения факторов в модель (метод пошаговой регрессии). На первом шаге из факторов-претендентов выбирается фактор, оказывающий наиболее сильное влияние на Y (имеющий максимальное значение линейного коэффициента парной корреляции). На втором шаге для этой модели вычисляются ряд остатков и среднеквадратическая ошибка.
На третьем шаге вычисляются линейные коэффициенты парной корреляции между полученным рядом остатков и оставшимися показателями-факторами. Выбирается максимальный из них. Соответствующий ему фактор включается в модель. На четвертом шаге для этой новой модели также вычисляются ряд остатков и среднеквадратическая ошибка.
На
пятом шаге
количество
факторов k,
включенных
в модель, сравнивается с предельно
допустимым n/3,
а среднеквадратическая ошибка,
полученная на последнем шаге для модели,
включающей
k
переменных, сравнивается со
среднеквадратической ошибкой модели,
полученной на предыдущем шаге и включающей
k-1
переменных.
Если среднеквадратическая
ошибка
уменьшилась, а
,
то процесс включения в модель переменных
продолжается. На
шестом шаге
формируется
окончательный
вид модели.
При таком подходе к отбору факторов модели каждый следующий фактор максимально сокращает оставшуюся вариацию у и несет в себе дополнительную информацию, еще не отраженную в модели ранее включенными в нее факторами. Это позволяет не включать в модель факторы, оказывающие на у сходное влияние и тесно связанные между собой.
Проиллюстрируем использование изложенного подхода к отбору факторов и построению модели множественной линейной регрессии на примере исследования и моделирования курса доллара США по отношению к рублю в зависимости от следующих факторов: индексов деловой активности, а также цены золота. Исходные данные для исследования (условный пример) представлены в табл. 3.8. В качестве программного средства реализации анализа воспользуемся пакетом «Анализ данных» табличного процессора Excel.
Учитывая количество наблюдений (n = 20), в модель можно включить до шести факторов ( k < 20/3), т.е. согласно этому условию, все три фактора могут быть введены в модель и вопрос о целесообразности их включения должен решаться исходя из оценки существенности их влияния на курс доллара и анализа статистической связи между ними.
Таблица 3.8.
