
2.4. Случайная составляющая.
До сих пор ничего не было сказано о том, как осуществленные преобразования влияют на случайную составляющую.
Основное требование здесь состоит в том, чтобы случайная составляющая в преобразованном уравнении присутствовала в виде слагаемого (+и) и удовлетворяла условиям Гаусса-Маркова. В противном случае коэффициенты регрессии, полученные по методу наименьших квадратов, не будут обладать обычными свойствами и проводимые для них тесты окажутся недостоверными.
Регрессионная модель после приведения к линейному виду путем логарифмирования будет представлять собой уравнение (2.9), и оно должно будет также включать случайную составляющую возмущения, которая является аддитивной и удовлетворяет условиям Гаусса - Маркова:
(2.13)
Если вернуться к исходному уравнению, это означает, что формулу (2.4) следует переписать в следующем виде:
(2.14)
где v и u связаны соотношением log v = u. Следует помнить, что уравнение (2.14) приводится к линейному виду путем логарифмирования его обеих частей. В этом случае получается соотношение:
(2.15)
которое представляет собой уравнение (2.13) с соответствующими изменениями определений.
Следовательно, для получения аддитивной случайной составляющей в уравнении регрессии мы должны начать с мультипликативной случайной составляющей в исходном уравнении.
Случайная
составляющая v
изменяет выражение
путем
увеличения или уменьшения его в случайной
пропорции,
а не на случайную величину. Заметим, что
и=0,
если logv=0,
что происходит при v=1.
Случайная составляющая в оцениваемом
уравнении (2.13) будет равна нулю, если
v=1.
Это имеет смысл, так как если v=1,
то оно никак не изменяет значение
.
Для того чтобы были применимы t - и F - критерии, величина и должна иметь нормальное распределение. Это означает, что log v должен иметь нормальное распределение. Если предположить, что случайная составляющая в исходном уравнении является аддитивной, а не мультипликативной:
(2.16)
то при логарифмировании
невозможно математическим путем
упростить выражение
Данное преобразование не ведет к
линеаризации. В этом случае следует
использовать метод оценивания нелинейной
регрессии.
2.5. Выбор функции: тесты Бокса-Кокса
Возможность построения нелинейных моделей с помощью их приведения к линейному виду значительно повышает универсальность регрессионного анализа, но и усложняет задачу исследователя. Возникает вопрос: начинать ли с линейной зависимости или с нелинейной и если с последней, то какого типа.
При парном регрессионном анализе можно построить график наблюдений у и х как диаграмму разброса, и это поможет принять решение. Однако часто несколько разных нелинейных функций приблизительно соответствуют наблюдениям, если они лежат на некоторой кривой. В случае множественного регрессионного анализа невозможно даже построить график.
При рассмотрении альтернативных моделей с одним и тем же определением зависимой переменной процедура выбора достаточно проста. Наиболее разумным является оценивание регрессии на основе вероятных функций, которые можно вообразить, и выбор функции, в наибольшей степени объясняющей изменения зависимой переменной. Если две или более функции подходят примерно одинаково, то необходимо представить результаты для каждой из них.
В том случае, если разные модели используют разные функциональные формы, проблема выбора модели становится довольно сложной, так как нельзя непосредственно сравнить коэффициенты R2 или суммы квадратов отклонений. В частности - и это наиболее общий пример для данной проблемы, - нельзя сравнить эти статистики для линейного и логарифмического вариантов модели.
Например, сумма квадратов отклонений (СКО) в случае логарифмической модели может быть значительно меньше, но это ничего не решает. Значения log y значительно меньше соответствующих значений у, поэтому неудивительно, что остатки также значительно меньше. Величина R2 безразмерна, однако в двух регрессионных уравнениях она относится к разным понятиям. В одном уравнении она измеряет объясненную регрессией долю дисперсии у, а в другом - объясненную регрессией долю дисперсии log y. Если для одной модели коэффициент R2 значительно больше, чем для другой, то вы сможете сделать оправданный выбор без особых раздумий, однако, если значения R2 для двух моделей приблизительно равны, то проблема выбора существенно усложняется.
В этом случае следует использовать стандартную процедуру, известную под названием теста Бокса-Кокса. Если необходимо сравнить модели только с использованием у и log y в качестве зависимой переменной, то можно использовать вариант теста, разработанный Полом Зарембкой. Данный тест предполагает такое преобразование масштаба наблюдений у, при котором обеспечивалась бы возможность непосредственного сравнения СКО в линейной и логарифмической моделях. Процедура включает следующие шаги:
-
Вычисляется среднее геометрическое значение у в выборке. (Оно совпадает с экспонентой среднего арифметического log y, поэтому если вы уже оценили логарифмическую регрессию, то необходимо вычислить лишь экспоненту от этого значения.)
-
Пересчитываются наблюдения у, они делятся на это значение, то есть
(Среднее
геометрическое у),
(2.17)
где
-
пересчитанное значение для i-го
наблюдения.
-
Оценивается регрессия для линейной модели с использованием y* вместо у в качестве зависимой переменной и для логарифмической модели с использованием log (y*) вместо log y; во всех других отношениях модели должны оставаться неизменными. Теперь значения СКО для двух регрессий сравнимы, и, следовательно, модель с меньшей суммой квадратов отклонений обеспечивает лучшее соответствие.
-
Для того чтобы проверить, не обеспечивает ли одна из моделей значимо лучшее соответствие, можно вычислить величину
2расч=
,
(2.18)
где T - число наблюдений, а Z - отношение значений СКО в пересчитанных регрессиях, и взять ее абсолютное значение. Эта статистика имеет распределение 2 с одной степенью свободы. Если она превышает критическое значение 2крит при выбранном уровне значимости, то делается вывод о наличии значимой разницы в качестве оценивания.
Заметим, что регрессии, пересчитанные по методу Зарембки, могут быть использованы только для того, чтобы решить, какую предпочесть модель. Не следует обращать внимание на коэффициенты, важны только значения СКО. Коэффициенты определяются непосредственно из непересчитанного варианта выбранной модели.