Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Глава 3_1.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
1.53 Mб
Скачать

Проверка адекватности.

Проверка адекватности модели заключается, во-первых, в определении ее значимости и, во-вторых, в установлении нали­чия или отсутствия систематической ошибки.

Проверка значимости модели. Сначала проверяется значи­мость коэффициентов уравнения регрессии , т.е. проверяется ги­потеза о том, что параметр, измеряющий связь, равен нулю. Ста­тистическая существенность связи считается принятой, если ну­левая гипотеза об отсутствии связи будет отклонена. Для проверки нулевой гипотезы строится t-критерий Стьюдента:

(3.27).

Если для табличного значения с уровнем значимости и чис­лом степеней свободы = (n – k - 1), где k - количество факторов, включенных в модель, выполняется неравенство , то значение соответствующего коэффициента регрессии призна­ется значимым.

Для рассматриваемого примера модели парной регрессии t = 0.38 : 0.04 = 9.5; , т.е. . Следовательно, нуле­вая гипотеза с вероятностью 0.98 может быть отвергнута. Стало быть, коэффициент регрессии а1 можно признать значимым с ошибкой в 2%, но тогда и влияние фактора х на у признается зна­чимым. (Напомним, что мы приняли = 0.02, а число степеней свободы для модели парной регрессии в нашем случае равно 8.)

Значимость уравнения регрессии в целом определяется с по­мощью F-критерия Фишера. На основе коэффициента детерми­нации рассчитывается значение критерия по формуле (3.6). Расчетное значение F сравнивается с табличным c задан­ным уровнем вероятности Р (обычно принимают P=0.95, т.е. уровень значимости ( = 0.05) и числом степеней свободы = k и = n – k - 1 (для модели парной регрессии k = 1). Если выполня­ется условие , то уравнение модели признается значимым.

Для построенного уравнения парной регрессии (3.24) расчет­ный F-критерий имеет значение 74.05, в то время как Fтабл. = 5.32, то уравнение моде­ли признается значимым.

Проверка наличия или отсутствия систематической ошибки осуществляется на основе анализа ряда остатков. Модель счита­ется адекватной, если ряд ее остатков удовлетворяет следующим требованиям:

1 . Математическое ожидание уровней ряда остатков равно нулю.

  1. Уровни ряда остатков имеют случайный характер.

  2. Значения уровней ряда остатков независимы друг от друга (отсутствует автокорреляция).

  3. Уровни ряда остатков распределены по нормальному закону.

Проверка первого свойства, которое для краткости мы назовем свойством нулевого среднего, осуществляется следующим образом. Прежде всего, рассчитывается среднее значение ряда остатков по формуле:

(3.28).

Если оно близко к нулю, то считается, что модель не содержит постоянной систематической ошибки и адекватна по критерию нулевого среднего. Если средняя ошибка не равна нулю, то проверяется нулевая гипотеза о равенстве нулю математического ожидания. С этой целью по формуле

(3.29)

вы­числяют t-критерий Стьюдента, который сравнивают с табличным значением. В том случае, если выполняется неравенство , модель неадекватна по данному критерию.

В табл. 3.7 представлены результаты проверки адекватности и оценки точности модели парной линейной регрессии. В предпо­следней строке первой колонки приведено значение средней ошибки. Поскольку оно, как видим, равно нулю, модель не име­ет постоянного смещения и признается адекватной по критерию нулевого среднего.

Свойство случайности ряда остатков может быть проверено различными методами. Например, можно использовать метод серий. Серией называется последовательность расположенных подряд значений ряда остатков, для которых разность

(3.30),

где М( ) - медиана ряда остатков, имеет один и тот же знак.

Если модель хорошо отражает исследуемую зависимость, то она часто пересекает линию графика исходных данных и тогда серий много, а их длина невелика. В противном случае серий мало и некоторые из них включают большое число членов. Для исполь­зования критерия серий по предварительно ранжированному ряду остатков вычисляются медиана М( ) и ряд разностей . Иног­да медиана ряда остатков априорно принимается равной нулю ис­ходя из предположения симметричности распределения ошибок и его нулевого среднего. Тогда в качестве серий рассматриваются расположенные подряд ошибки с одинаковыми знаками. Подсчи­тывается число серий N и длина максимальной из них L. В нашем примере (см. табл. 3.7) количество серий и длина максимальной серии подсчитываются в соответствии со знаками ошибок, при­веденных в первой колонке: N= 7 и L = 2.

Полученные значения сравниваются с критическими Nкр и Lкр, которые рассчитывают по формулам (квадратные скобки в дан­ном случае означают, что берется целая часть числа, заключенно­го в скобки):

= [3.3(lg n +1)]; (3.31)

=[1/2(n + 1) – 1.96 ] (3.32)

Для нашего случая исходный ряд содержит 10 наблюдений, критические значения равны = 6, = 2. Если выполняется система неравенств: ; , то модель признается адекватной по критерию случайности. Если хотя бы одно из неравенств нарушено, то модель признается не­адекватной по данному критерию. Для нашего примера первое неравенство справедливо, а второе - нет (длина макси­мальной серии точно совпадает с критическим значением ), следовательно, модель признается неадекватной по данному критерию.

Независимость (отсутствие автокорреляции) последовательнос­ти остатков является важнейшим условием адекватности модели. Проверку этого условия можно выполнить, например, с помощью критерия Дарбина-Уотсона (3.11). В табл. 3.7 расчет коэффициента Дарбина-Уотсона приведен в колонке 4. Его значение равно 2.52, т.е. автокорреляция остатков отсутствует.

По совокупности трех критериев (нулевого среднего, случай­ности и независимости ряда остатков) делается вывод о принци­пиальной возможности использования модели: если модель аде­кватна по критерию нулевого среднего и хотя бы по одному из двух других критериев, то она может быть принята для использо­вания. В нашем примере модель неадекватна по критерию случай­ности, но адекватна по критерию нулевого среднего и по критерию независимости последовательных остатков, следовательно, модель может быть рекомендована к использованию, хотя и не признается полностью адекватной.

Соответствие ряда остатков нормальному закону распре­деления (кратко: нормальность ряда остатков) проверяется с це­лью использования этого свойства в дальнейшем при построении доверительных интервалов. Ввиду малого числа наблюдений в большинстве случаев это свойство может быть проверено лишь приближенными методами. Таким, в частности, является метод, основанный на вычислении коэффициентов асимметрии Аs (1.13) и экс­цесса Ех (1.14). Для ряда остатков эти коэффициенты будут выглядеть следующим образом:

и .

Значения этих коэффициентов для нормально распределенной совокупности равны нулю. Расчетные значения Аs и Ех, вычисленные по формулам, сравниваются с критическими, которые вычисляются с учетом стандартных ошибок их оценок. Если одновременно выполняют­ся неравенства

и (3.33),

то гипотеза о нормальном распределении ряда остатков принима­ется и доверительные интервалы прогнозов, построенные в пред­положении нормальности, будут достаточно надежными; если хотя бы одно из неравенств не выполняется, то к доверительным ин­тервалам следует относиться осторожно.

Для рассматриваемого примера расчетные значения коэффи­циентов асимметрии и эксцесса ряда остатков вычисляются по табл. 3.7 (см. нижнюю строку), их значения приведены в послед­ней строке таблицы: Аs = 0.29 и Ех= -1.20. Проверка неравенств (3.33), которые в нашем случае принимают вид

|0.29|<0.87;

|-1.20+ 0.54|< 3.75,

свидетельствует о том, что согласно принятому критерию распре­деление ряда остатков не противоречит нормальному и, следовательно, границы доверительных интервалов могут оцениваться в предположении нормальности ряда остатков.

Построение доверительных интервалов.

Конечной целью моделирования обычно является оценка или прогнозирование показателя у в зависимости от значений х. Для рассмотренных моделей в качестве оценки или прогноза показателя у для конкретного х всегда определялось лишь одно число, которое представляет собой условное среднее и (при вы­полнении предпосылок регрессионного анализа) наиболее веро­ятное значение с точки зрения закономерности, отраженной в модели. Такой прогноз называется точечным и не учитывает от­клонений от закономерности в результате воздействия случайных и не учтенных в модели факторов.

Чтобы учесть в прогнозе влияние случайности, помимо точеч­ного строится также интервальный прогноз. В нем отклонение от закономерности в результате случайных воздействий определяет­ся границами доверительных интервалов.

Доверительным интервалом называется такой интервал, которому с заданной степенью вероятности (называемой доверительной) принадлежат истинные значения показателя. Случайные отклонения от модели проявляются в виде ошибок. Поэтому при определении границ доверительных интервалов надо определить, из чего складываются возможные ошибки моделиро­вания, оценки и прогнозирования. При условии, что модель адек­ватна и возможные ошибки носят только случайный характер, следует различать два основных источника ошибок:

  • ошибки аппроксимации (рассеяние наблюдений относительно модели);

  • ошибки оценок параметров модели.

Наличие ошибок первого типа очевидно: даже визуально вид­но рассеяние исходных данных относительно модели и, конечно, нельзя предполагать, что за границами периода наблюдений фак­тические значения вдруг подтянутся к модели. Величина ошибок аппроксимации характеризуется остаточной дисперсией или среднеквадратической ошибкой . Распределение этих ошибок для адекватных моделей нормально (нормальность ошибок, как уже отмечалось, - одно из условий адекватности).

Ошибки оценок параметров моделей обусловлены тем, что их параметры, фиксированные в модели как однозначные, в действи­тельности являются случайными величинами, так как они оцени­ваются на основе фактических данных, в которых присутствуют как закономерная, так и случайная составляющие. Средние зна­чения этих оценок при выполнении предпосылок регрессионного анализа соответствуют истинным значениям параметров, а их дисперсии зависят от остаточной дисперсии, числа наблюдений и вида модели. Так, для линейной модели ошибки оценок параметров вычисляются по формуле (3.17). Аналогично выводятся формулы для расчета дисперсий оши­бок моделей параболы и экспоненты.

Итак, для моделей парной регрессии доверительные интерва­лы тем шире, чем:

- больше остаточная дисперсия (менее точна модель);

- меньше число наблюдений;

- значение Х больше удалено от своей средней величины;

- сложнее форма модели;

- больше заданная доверительная вероятность.

Попытаемся на основе построенной нами модели парной ли­нейной регрессии Y(х) = -163.18 + 0.38Х оценить количество вы­ставленных к продаже акций у для некоторого предприятия с ус­тавным фондом Х = 2000 и рассчитаем доверительные интервалы такой оценки с доверительной вероятностью р = 0.95. Расчетное значение числа акций равно

Х(2000) = -163.18 + 0.388*2000 = 612.82.

Общая дисперсия ошибки оценки:

= 7378.17 (1 + 0.1 + (2000 – 787.7)2/5192436.56) = 10181.87. Следовательно, среднеквадратическая ошибка оценки равна 100.91. Границы доверительного интервала:

y = 612.82 ± 2 * 100.91 .

С учетом нормального распределения ряда ошибок количество акций, выставленных к продаже предприятием с уставным капи­талом 2000, с вероятностью 0.95 составит от 411 до 815, при этом условное среднее (наиболее вероятное) число акций составит 613.

При оценке границ доверительных интервалов модели множе­ственной регрессии следует учитывать, что каждый фактор моде­ли имеет собственную ошибку коэффициента. Это надо учитывать при расчете общей дисперсии оценки у. Для заданных значений век­тора переменных общая дисперсия ошибок отклоне­ний истинных значений от расчетных может быть представлена как

Из этого следует, что включение дополнительных факторов в модель оправдано только в том случае, если это приводит к су­щественному увеличению точности модели, т.е. сокращению ее остаточной дисперсии , в противном случае доверительные ин­тервалы более подробной модели могут оказаться шире, чем у более простой модели.

Пример. Рассмотрим алгоритм последовательного включения факторов в модель (метод пошаговой регрессии). На первом шаге из факторов-претендентов выбирается фактор, оказывающий наиболее сильное влияние на Y (имеющий максимальное значение линейного коэффициента парной корреляции). На втором шаге для этой модели вычисляются ряд остатков и среднеквадратическая ошибка.

На третьем шаге вычисляются линейные коэффициенты пар­ной корреляции между полученным рядом остатков и оставши­мися показателями-факторами. Выбирается максимальный из них. Соответствующий ему фактор включается в модель. На четвертом шаге для этой новой модели также вычисляются ряд остатков и среднеквадратическая ошибка.

На пятом шаге количество факторов k, включенных в модель, сравнивается с предельно допустимым n/3, а среднеквадратическая ошибка, полученная на последнем шаге для модели, включаю­щей k переменных, сравнивается со среднеквадратической ошиб­кой модели, полученной на предыдущем шаге и включающей k-1 переменных. Если среднеквадратическая ошибка уменьшилась, а , то процесс включения в модель переменных продолжается. На шестом шаге формируется окончательный вид модели.

При таком подходе к отбору факторов модели каждый следу­ющий фактор максимально сокращает оставшуюся вариацию у и несет в себе дополнительную информацию, еще не отраженную в модели ранее включенными в нее факторами. Это позволяет не включать в модель факторы, оказывающие на у сходное влияние и тесно связанные между собой.

Проиллюстрируем использование изложенного подхода к от­бору факторов и построению модели множественной линейной регрессии на примере исследования и моделирования курса дол­лара США по отношению к рублю в зависимости от следующих факторов: индексов деловой активности, а также цены золота. Исходные данные для исследования (условный пример) представ­лены в табл. 3.8. В качестве программного средства реализации анализа воспользуемся пакетом «Анализ данных» табличного про­цессора Excel.

Учитывая количество наблюдений (n = 20), в модель можно включить до шести факторов ( k < 20/3), т.е. согласно этому усло­вию, все три фактора могут быть введены в модель и вопрос о целесообразности их включения должен решаться исходя из оцен­ки существенности их влияния на курс доллара и анализа статис­тической связи между ними.

Таблица 3.8.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]