Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Глава 8.doc
Скачиваний:
0
Добавлен:
01.03.2025
Размер:
1.35 Mб
Скачать

Глава 8. Оценка спроса: множественный регрессионный анализ

Д ля того чтобы уделить должное внимание степеням свободы, определяемым количеством наблюдений и количеством параметров,_статистики ввели скорректи­рованный множественный коэффициент детерминации, R2. Его формула имеет следу­ющий вид:

n-k-l

Id-*').

(И)

где п — количество наблюдений, а к — количество независимых переменных.

Каковы приемлемые значения для R21 Это, в основном, дело индивидуальных соображений, и соображения эти меняются в зависимости от исследуемого объекта. Кросс-секционный анализ, рассматривающий демографические связи, имеет тенден­цию занижать уровень R по сравнению с методом временных рядов, работающим с ретроспективными связями. Обычно если количество наблюдений по крайней мере в три или четыре раза больше количества независимых переменных, то приемлемым считается R > 0,75.

Чтобы выяснить, объясняет ли регрессионное уравнение статистически значимую часть полной вариации зависимой переменной, рассмотрим F-тестирование на пол­ную значимость.

F-тестирование на полную значимость. Множественный коэффициент детермина­ции, R2, и скорректированный множественный коэффициент детерминации, R 2, показывают величину объяснимой вариации. Однако эти коэффициенты ничего не говорят о статистической значимости объяснимой вариации. Чтобы ответить на этот вопрос, мы используем отношение вариаций, известное как /-"-статистика. Подоб­но R 2, /"-статистика зависит от числа степеней свободы. Критерий /"-статистики рас­считывается как

Е"„

(Полная объяснимая вариация)/(Л:) (Полная необъяснимая вариация )/[п-к-1) Y\Q.~ Q.Y/n-k-l

(12)

где F — критерий /"-статистики;

к — количество независимых переменных; п — количество наблюдений.

Числитель уравнения (12) представляет собой дисперсию зависимой переменной1 вследствие вариации независимых переменных. Она рассчитывается как сумма квад­ратов дисперсии (объяснимая вариация), деленная на число степеней свободы, df. Так как для каждой независимой переменной существует только одна возможность изме­нения, то df = к.

Знаменатель уравнения (12) представляет собой остаточную дисперсию, кото­рая не может быть объяснена вариацией независимых переменных. Она рассчиты­вается как разность или погрешность суммы квадратов (необъяснимая вариация), деленная на число степеней свободы. В знаменателе вариация зависит от количе­ства наблюдений, п, за вычетом (к + 1) оцененных параметров, bg, bv..., bk. Следо­вательно, df= n — к — 1.

1 Факторную дисперсию. — Примеч. ред.

242

Тестирование и оценка результатов

Т ак как /"-параметр близко связан с коэффициентом детерминации, R2, он может быть рассчитан как1

/"=


RJk

(13)

/"-тест на полную значимость основан на том, что для статистической значимости регрессионного уравнения по крайней мере один из истинных параметров регрессии должен быть равен нулю. Расчетное значение /"-критерия используется для проверки нулевой гипотезы2 о том, что все истинные регрессионные параметры равны нулю.

Если эта гипотеза верна, то не существует действительной связи между зависимой и независимой переменными. В экстремальном случае как R1, так и /"-критерий должны быть равными нулю, но в любом случае они очень малы. По мере возрастания /"-крите­рия в какой-то точке он становится достаточно большим, чтобы можно было с достаточ­ной степенью уверенности отвергнуть нулевую гипотезу. Это значение /"-критерия уста­навливает верхний предел значений F, которые возможны в случае выполнения нулевой гипотезы. Это значение известно как критическое значение /"-распределения.

Таблицы для критических значений /"-распределения строятся для четырех уровней статистической значимости. Табл. Gb Приложении, расположенном в конце книги, пред­ставляет собой матрицу критических значений /"с уровнем значимости 0,05 и 0,01, что соответствует уровням доверия 95 и 99% соответственно. Чтобы воспользоваться табли­цей, необходимо знать число степеней свободы, к, в числителе и число степеней свобо­ды, п—к—1, в знаменателе уравнения (12) или уравнения (13). Для каждой комбинации к и п — к — 1 записано критическое значение критерия F. Например, как следует из таб­лицы, для уровня значимости 0,05 критическое значение F для 3 степеней свободы в числителе и 15 степеней свободы в знаменателе составляет 3,29. Это означает, что если

1 Уравнение (13) получено путем преобразования знаменателя уравнения (12):

(Полная необъяснимая вариация)/(п - к — 1) = = (Полная вариация - Полная объяснимая вариация)/(л - к — 1). Затем, разделив числитель и знаменатель на полную вариацию, мы имеем

F=-


Полная вариация - Полная объяснимая вариация (Полная вариация) Дп—Jt-1)

Полная объяснимая вариация

(Полная вариация) Полная вариация


Полиая объяснимая вариация (Полная вариация)

_ Полная объяснимая вариация (Полная варизция)/(п-Иг-1) (Полная вариация)/(л-к- \)

Т еперь как в числителе, так и в знаменателе мы имеем выражение (Полная объяснимая ва­риация/Полная вариация), которое, согласно уравнению (9), есть R2. Следовательно,

F=-


R2/k

(\-R2)/(n-k-\)

2 Отказ от нулевой гипотезы в то время, как она состоятельна, называется ошибкой типа 1. Принятие нулевой гипотезы в то время, как она несостоятельна, называется ошибкой типа 2. i Уровень значимости определяется как максимально возможная вероятность совершения ошиб­ки типа 1. Существует взаимосвязь между ошибками типа 1 и типа 2: чем ниже уровень значи­мости, тем выше вероятность совершения ошибки типа 2.

243

Главе 8. Оценка спроса: множественный регрессионный анализ

н улевая гипотеза выполняется, то вероятность превышения F= 3,29 составляет 0,05, или 5%. Иначе говоря, если расчетное значение /■" превышает 3,29, то мы на 95% можем быть уверены, что коэффициенты регрессии не равны нулю. Если мы хотим быть уверены в этом на 99%, то мы должны найти критическое значение /-"для уровня значимости 0,01. Это значение составляет 5,42 для того же числа степеней свободы.

На распечатке в табл. 8.2 представлено расчетное значение /"(строка «Анализ дис­персии»). В данном примере на распечатке содержится информация о регрессии двух независимых переменных, базирующаяся на 15 наблюдениях. Следовательно, числи­тель имеет 2 степени свободы, а знаменатель имеет 15 — 2 — 1 = 12 степеней свободы. Таким образом, расчетное значение /"-критерия составляет

■ = 5681,878458 = 5681,6


53 844,7 г 2 26 922,35

5 6,8594 : 12 4,738283333

Это значит, что объяснимая (факторная) дисперсия в 5681,88 раз больше, чем не­объяснимая (остаточная).

Согласно табл. G для 2 степеней свободы в числителе и 12 степеней свободы в знаме­нателе при уровне значимости 0,01 критическое значение /^составляет 6,93. Иными сло­вами, если нулевая гипотеза (о том, что все параметры регрессии равны нулю) выполня­ется, то критическое значение F= 6,93 может быть превышено только один раз из ста попыток. Так как расчетное значение Fсоставляет 5681,88, мы отвергаем нулевую гипо­тезу и делаем вывод, что регрессия в целом статистически значима на уровне 0,01.

Однако это не означает, что все независимые переменные значимы. Каждая неза­висимая переменная.должна быть подвергнута отдельной проверке на статистическую значимость. Мы это сделаем, когда будем проверять отдельные параметры. Но вначале мы хотим рассмотреть еще один способ полного статистического тестирования по средней квадратичной ошибке оценки.

Средняя квадратичная ошибка оценки. Средняя квадратичная ошибка оценки характе­ризует разброс наблюденных точек от теоретической линии регрессии. Если имеется сред­няя квадратичная ошибка оценки, Se, то можно рассчитать доверительные интервалы для оцененных значений зависимой переменной при различных уровнях доверия. Довери­тельный интервал представляет собой такой диапазон значений, в котором в течение не­которого заданного отрезка времени можно ожидать данное наблюдение.

Средняя квадратичная ошибка оценки — это оцененное среднее квадратичное от­клонение вероятностного распределения значений зависимой переменной при под­держании на постоянном уровне всех независимых переменных. Иными словами, она определяет разброс случайных наблюденных значений Q относительно оцененных зна­чений Q . Для множественной регрессии средняя квадратичная ошибка оценки рас­считывается как квадратный корень среднего значения суммы квадратичных отклоне­ний (погрешность среднего квадрата) по формуле:

где S

n k n - k- 1

(14) n-k-l

средняя квадратичная ошибка оценки;

наблюденное значение зависимой переменной спроса в /-и

точке;

оцененное значение зависимой переменной спроса, рассчитанное для

/-й точки по уравнению регрессии;

количество наблюденных точек;

количество независимых переменных;

число степеней свободы.

244

Тестирование и оценка результатов

Н а компьютерной распечатке, представленной в табл. 8.2, средний квадрат ошибки составляет 4,73828. Тогда средняя квадратичная ошибка оценки составит

^ = ^4,73828 =2,17676.

Так как мы предположили нормальное распределение отклонений от оптимальной плоскости, можно ожидать, что около 68% всех наблюденных значений Q будет нахо­диться относительно плоскости регрессии внутри некоторого интервала, равного од­ной средней квадратичной ошибке; около 95% значений можно ожидать лежащими внутри интервала, равного двум средним квадратичным ошибкам, и практически все точки можно ожидать лежащими внутри интервала, равного трем средним квадратич­ным ошибкам. Конечно, чем меньше средняя квадратичная ошибка, тем больше связь между зависимой и независимой переменными и тем лучше подходит уравнение рег­рессии к наблюденным данным.

Тестирование отдельных параметров

До сих пор мы проводили проверку надежности и значимости независимых пере­менных как группы, предполагая при этом, что все они изменяются одновременно. Необходимо провести для каждой независимой переменной отдельную проверку на надежность и значимость, «заморозив» при этом все остальные переменные. Для этого мы используем среднюю квадратичную ошибку коэффициента регрессии и /-тестиро­вание. Обе эти величины включены в стандартную компьютерную распечатку.

Средняя квадратичная ошибка коэффициента регрессии (Standard Error of the Regression I' Coefficient SERC). Каждый регрессионный коэффициент, b., является средним зна­чением нормально распределенных вероятностных значений. Средняя квадратичная ошибка коэффициента регрессии определяет разброс значений относительно коэффи­циента регрессии так же, как среднее квадратичное отклонение определяет разброс случайных переменных относительно их среднего значения. Чтобы рассчитать SERC, компьютерная программа использует сложную формулу для каждого коэффициента регрессии, а результаты расчета выводятся на распечатку.

SERC позволяет определять надежность каждого параметра по отдельности. Если средняя квадратичная ошибка мала по сравнению с оцениваемым параметром, то это говорит о том, что этот параметр близок к истинному значению. Тем не менее следует определить, может ли истинный параметр быть равным нулю. С этой целью для полу­чения соотношения /-тестирования коэффициент регрессии делится на среднюю ква­дратичную ошибку, а результат этой операции также выводится в числе стандартных выводимых данных компьютерной программы. Иными словами, /-соотношение есть количество средних квадратичных ошибок, содержащееся в коэффициенте регрессии1. Оно рассчитывается как

/-соотношение =


Коэффициент регрессии

С редняя квадратичная ошибка коэффициента регрессии

и используется для проверки статистической значимости каждого отдельного параметра.

Определение индивидуальной значимости с помощью /-тестирования. Если отдель­ная переменная является статистически значимой, то истинное значение ее параметра

' Так как средняя квадратичная ошибка коэффициента регрессии всегда положительна, I /-соотношение принимает знак коэффициента регрессии. Знак не играет роли - нам важно толь-

ко значение.

(I

245

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]