- •3.1. Простая линейная регрессия.
- •Пример построения линейной регрессии.
- •3.1.1. Определение параметров уравнения регрессии с помощью метода наименьших квадратов.
- •3.1.2. Критерии значимости коэффициентов и в уравнении регрессии.
- •Коэффициент детерминации .
- •Гетероскедастичность.
- •Автокорреляция.
- •Мультиколлинеарность.
- •Фиктивные переменные.
- •Исходные данные
- •Результаты вычислений.
- •3.4. Использование регрессии для прогнозирования.
- •Матрица коэффициентов парной корреляции
- •Множественный коэффициент корреляции
- •Частный коэффициент корреляции
- •Исходные данные.
- •Результаты расчета.
- •Проверка точности.
- •Проверка адекватности и оценка точности модели парной линейной регрессии.
- •Проверка адекватности.
- •Курс доллара сша и предположительно влияющие на него факторы.
- •Корреляционная матрица системы показателей.
- •Параметры модели зависимости курса доллара от цены золота и ее статистические характеристики.
- •Параметры модели зависимости курса доллара от цены золота и dj-индекса и ее статистические характеристики.
- •Параметры модели зависимости курса доллара от цены золота, dj-индекса и тn-индекса и ее статистические характеристики.
- •Результаты моделирования зависимости курса доллара от цены золота и dj-индекса.
- •Исходные данные.
- •Коэффициенты корреляции.
- •Исходные данные.
- •Исходные данные.
Мультиколлинеарность.
Если некоторые или все независимые переменные в множественной регрессии являются высоко коррелированными, то регрессионной модели трудно разграничить их отдельные объясняющие воздействия на Y. В результате высококоррелированные независимые переменные действуют в одном направлении и имеют недостаточно независимое колебание, чтобы дать возможность модели изолировать влияние каждой переменной. Не существует точного граничного значения уровня корреляции переменных, при котором возникает проблема мультиколлинеарности. Это явление особенно часто имеет место при анализе фондовых переменных, таких, как доходность и объемы продаж, когда инфляция, например, может повлиять на оба временных ряда.
При мультиколлинеарности коэффициенты регрессии нестабильны как в отношении статистической значимости, так и по величине и знаку. Следовательно, они ненадежны. Значения коэффициентов R2 могут быть высокими, но стандартные ошибки тоже высоки, и отсюда t-критерии малы, отражая недостаток значимости.
Для уменьшения мультиколлинеарности может быть принято несколько мер:
Увеличивают объем выборки по принципу, что больше данных означает меньшие дисперсии оценок МНК. Проблема реализации этого варианта решения состоит в трудности нахождения дополнительных данных.
Исключают те переменные, которые высококоррелированны с остальными. Проблема здесь заключается в том, что возможно переменные были включены на теоретической основе, и будет неправомочным их исключение только лишь для то го, чтобы сделать статистические результаты "лучше".
Фиктивные переменные.
Иногда необходимо включение в регрессионную модель одной или более качественных переменных, например, степени качества управления инвестиционным портфелем. Альтернативно может понадобиться сделать качественное различие между наблюдениями одних и тех же данных. Например, если проверяется взаимосвязь между размером компании и ежемесячными доходами по акциям, может быть желательным включение качественной переменной, представляющей месяц январь, по причине хорошо известного "январского эффекта" во временных рядах доходов по ценным бумагам. Данный "январский эффект" - это феномен, заключающийся в том, что средние доходы по акциям, особенно небольших компаний, в среднем выше в январе, чем в другие месяцы. Таким образом, если мы рассматриваем январские наблюдения как качественно отличные от других наблюдений, фиктивная переменная позволит произвести подобное качественное различие. Фиктивные переменные используются также для отражения действия качественных эффектов изменений политики правительства на анализируемые данные.
3.2. Нелинейная регрессия.
До сих пор обсуждение было сфокусировано на линейной регрессии. Однако может случиться так, что взаимосвязь между зависимой переменной и одной или более независимыми переменными будет нелинейной. Существуют два пути решения этой проблемы:
преобразовать данные и применить линейную регрессию;
применить
методы нелинейной регрессии.
а)
б) в)
Рис. 3.2. Различные виды нелинейных регрессий.
Методы нелинейной регрессии выходят за рамки нашего курса, так что далее остановимся на преобразовании данных. Графики на рис. 3.2 показывают разнообразные взаимосвязи между Y и X, не являющиеся линейными. Однако при соответствующем преобразовании Y, и X взаимосвязь между Y и X может быть трансформирована в линейную для и . Таким образом, далее можно использовать МНК.
Рассмотрим три
нелинейные формы, отображенные на рис.
3.2. На левом графике (а) функциональной
формой является
,
где 0 <
< 1; (б)
,
где
> 1; (в)
при любом
.
Преобразование в этих случаях заключается
во взятии натурального логарифма от
левой и правой частях этих уравнений.
Получающееся уравнение регрессии
будет выглядеть так:
Преобразование для графика (в) очень простое, если учесть, что 1/Х может участвовать в расчете как независимая переменная.
При всех этих преобразованиях необходимо конвертировать результат в нелинейную форму для его правильного истолкования.
Таким образом, при отклонении парной статистической зависимости от линейной коэффициент корреляции теряет свой смысл как характеристика тесноты связи. В этом случае можно воспользоваться таким измерителем связи, как индекс корреляции (корреляционное отношение). Корреляционное отношение применяется в случае нелинейной зависимости между признаками и определяется через отношение межгрупповой дисперсии к общей дисперсии.
Применение корреляционного отношения возможно, если характер выборочных данных (количество, плотность расположения на диаграмме рассеяния) допускает, во-первых, их группирование по оси объясняющей переменной и, во-вторых, возможность подсчета «частных» математических ожиданий внутри каждого интервала группирования.
Для определения эмпирического корреляционного отношения совокупность значений результативного признака Y разбивают на отдельные группы. В основу группировки кладется исследуемый фактор X. Когда изучаемая совокупность (в виде корреляционной таблицы) разбивается на группы по одному (факторному) признаку X, то для каждой из этих групп можно вычислить соответствующие групповые средние результативного признака. Изменение групповых средних от группы к группе свидетельствует о наличии связи результативного признака с факторным признаком, а примерное равенство групповых средних - об отсутствии связи. Следовательно, чем большую роль в общем изменении результативного признака играет изменение групповых средних (за счет влияния факторного признака), тем сильнее влияние этого признака.
Приведем методику вычисления корреляционного отношения.
Пусть группирование
данных произведено, при этом k
- число интервалов группирования по оси
х;
-
количество элементов выборки в j-м
интервале группирования; n
- объем совокупности (
);
- общее среднее.
1. Вычислим среднее значение Y в j-й группе:
2. Вычислим общую среднюю Y, используя средние значения в каждой группе:
3. Найдем межгрупповую дисперсию и общую дисперсию:
;
Корреляционное
отношение
зависимой переменной Y
по независимой переменной X
может быть получено из отношения
межгрупповой дисперсии к общей дисперсии:
(3.12).
Величина корреляционного отношения изменяется от 0 до 1. Близость ее к нулю говорит об отсутствии связи, близость к единице - о тесной связи.
Как показатель тесноты связи корреляционное отношение имеет более универсальный характер, чем линейный коэффициент корреляции, поскольку его использование не ограничивается случаями линейной связи, а факторный признак может быть не количественным, а ранговым и даже номинальным.
Пример. Вычисление статистической связи между объемом продаж акции и её ценой.
В табл. 3.2 приведены данные, полученные в результате эксперимента, целью которого являлось определение тесноты связи между объемом продаж акции и ее рыночной ценой.
Построить диаграмму рассеяния (корреляционное поле) для этой совокупности данных.
Оценить тесноту связи между этими двумя переменными.
Таблица 3.2.
