Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Статистика Гусаров.doc
Скачиваний:
136
Добавлен:
22.02.2015
Размер:
10.85 Mб
Скачать

9.2.2.3 Проверка адекватности регрессионной модели

Для практического использования моделей регрессии очень важна их адекватность,т. е. соответствие фактическим статистическим данным.

192

Корреляционный и регрессионныйанализобычно (особенно в условиях так называемого малого и среднего бизнеса) проводится для ограниченной по объему совокупности. Поэтому показатели регрессии и корреляции - параметры уравнения регрессии, коэффициенты корреляции и детерминации могут быть искажены действием случайных факторов. Чтобы проверить насколько эти показатели характерны для всей генеральной совокупности, не являются ли они результатом стечения случайных обстоятельств, необходимо проверить адекватность построенных статистических моделей.

При численности объектов анализа до 30 единиц возникает необходимость проверки значимости (существенности) каждого коэффициента регрессии. При этом выясняют насколько вычисленные параметры характерны для отображения комплекса условий: не являются ли полученные значения параметров результатами действия случайных причин.

Значимость коэффициентовпростой линейной регрессии (применительно к совокупностям, у которых n < 30 ) осуществляют с помощьюt-критерия Стьюдента.При этом вычисляют расчетные (фактические) значенияt-критерия:

для параметра a0

(9.4)

для параметра a1

(9.5)

где n - объем выборки;

среднее квадратическое отклонение результативного признака у от выравненных значений ŷ ;

илисреднее квадратическое отклонение факторного признака хот общей средней x-.

Вычисленные по формулам (9.4) и (9.5) значения, сравнивают с критическимиt , которые определяют по таблице Стьюдента с учетом принятого уровня значимости1а и числом

193

степеней свободы2вариацииv = n - 2. В социально-экономических исследованиях уровень значимостиaобычно принимают равным 0,05. Параметр признается значимым (существенным) при условии, если tрасч> tтабл. В таком случае практически невероятно, что найденные значения параметров обусловлены только случайными совпадениями. Для проверки значимости коэффициентов регрессии исследуемого уравнения ŷ = 4,0 + 0,6x исчислимt-критерий Стьюдента сv= 10-2 = 8 степенями свободы. Рассмотрим вспомогательную таблицу (табл. 9.2).

Таблица 9.2

Расчетные значения, необходимые для исчисления

Средние квадратические отклонения (см. табл. 9.1):

194

Расчетные значения г-критерия Стьюдента:

По таблице распределения Стьюдента для v= 8 находим критическое значениеt-критерия: (tтабл = 3,307 при a = 0,05).

Поскольку расчетное значение tрасч > tтабл, оба параметра a0, a1признаются значимыми (отклоняется гипотеза о том, что каждый из этих параметров в действительности равен нулю, и лишь в силу случайных обстоятельств оказался равным проверяемой величине).

Проверка адекватности регрессионной модели может быть дополнена корреляционным анализом. Для этого необходимо определить теснотукорреляционной связи между переменными х и у. Теснота корреляционной связи, как и любой другой, может быть измеренаэмпирическим корреляционньм отношениемηэкогда δ2(межгрупповая дисперсия) характеризует отклонения групповых средних результативного признака от общей средней:.

Говоря о корреляционном отношении как о показателе измерения тесноты зависимости, следует отличать от эмпирического корреляционного отношения - теоретическое.

Теоретическое корреляционное отношениеη представляет собой относительную величину, получающуюся в результате сравнения среднего квадратического отклонения выровненных значений результативного признака δ, т. е. рассчитанных по уравнению регрессии, со средним квадратическим отклонением эмпирических (фактических) значений результативного признака σ:

(9.6)

195

Изменение значения η объясняется влиянием факторного признака.

В основе расчета корреляционного отношения лежит правило сложения дисперсий (см. главу 5), т. е. - отражает вариацию у за счет всех остальных факторов, кроме х , т. е. являетсяостаточной дисперсией:

Тогда формула теоретического корреляционного отношенияпримет вид:

Подкоренное выражение корреляционного отношения представляет собой коэффициент детерминации(меры определенности, причинности). Коэффициент детерминации показывает долю вариации результативного признака под влиянием вариации признака-фактора.

Теоретическое корреляционное отношение применяется для измерения тесноты связи при линейной и криволинейной зависимостях между результативным и факторным признаком. При криволинейных связях теоретическое корреляционное отношение, исчисляемое по формулам (9.7), (9.8), часто называют индексом корреляции R.При значительной корреляции расчет по формулам (9.7) и (9.8) значительно проще, так как отклонение (ŷ - y), как правило, по значению меньше, чем отклонение (ŷ - y-).

Как видно из формул (9.7) и (9.8), корреляционное отношение может находиться в пределах от 0 до 1, т. е. (0 ≤ η ≤ 1) Чем ближе корреляционное отношение к 1, тем связь между признаками теснее.

Проиллюстрируем расчет теоретического корреляционного отношения как меры тесноты связи на примере, рассмотренном в табл.9.1, для которого по уравнению прямой регрессии ŷ = 4 + 0,6х найдены значения дневной выработки каждого рабочего.

Теоретическое корреляционное отношениерассчитываем двумя способами (см. данные табл.9.2):

196

по формуле (9.6)

по формуле (9.8)

Полученное значение теоретического корреляционного отношения свидетельствует о возможном наличии весьма тесной прямой зависимости между рассматриваемыми признаками.

Коэффициент детерминации равен 0,925. Отсюда заключаем, что 92,5% общей вариации выработки в изучаемой бригаде обусловлено вариацией фактора - стажа работы рабочих (и только 7,5% обшей вариации нельзя объяснить изменением стажа работы).

Кроме того, при линейной форме уравнения применяется другой показатель тесноты связи -линейный коэффициент корреляции1.

где n- число наблюдений.

Для практических вычислений при малом числе наблюдений. п≤ (20 - 30), линейный коэффициент корреляции удобнее исчислять по следующей формуле:

Значение линейного коэффициента корреляции важно для исследования социально-экономических явлений и процессов, распределение которых близко к нормальному. Он принимает значения в интервале: -1 ≤ r ≤ +1.

Отрицательные значения указывают на обратную связь, положительные - на прямую. При r= 0 линейная связь

197

отсутствует. Чем ближе коэффициент корреляции по абсолютной величине к единице, тем теснее связь между признаками. И. наконец, приr= ± 1 связь - функциональная.

Используем данные табл. 9.1 и рассчитаем линейный коэффициент корреляции по формуле (9.10):

Квадрат линейного коэффициента корреляции r2называетсялинейным коэффициентом детерминации.Из определения коэффициента детерминации очевидно, что его числовое значение всегда заключено в пределах от 0 до 1, т. е. 0 ≤r2≤ 1. Степень тесноты связи полностью соответствует теоретическому корреляционному отношению, которое является более универсальным показателем тесноты связи по сравнению с линейным коэффициентом корреляции.

Факт совпадений и несовпадений значений теоретического корреляционного отношения η и линейного коэффициента корреляции rиспользуется для оценки формы связи.

Выше отмечайтесь, что посредством теоретического корреляционного отношения измеряется теснота связи любой формы, а с помощью линейного коэффициента корреляции - только прямолинейной. Следовательно, значения η и rсовпадают только при наличии прямолинейной связи. Несовпадение этих значений свидетельствует, что связь между изучаемыми признаками не прямолинейная, а криволинейная. Установлено, что если разность квадратов η2иr2не превышает 0,1, то гипотезу о прямолинейной форме связи можно считать подтвержденной. В приведенном ранее примере совпадение значений n иr(η =r= 0,962) дает основание считать связь между выработкой рабочих и их стажем прямолинейной.

Показатели тесноты связи, исчисленные по данным сравнительно небольшой статистической совокупности, могут искажаться действием случайных причин. Это вызывает необходимость проверки их существенности,дающей возможность распространять выводы по результатам выборки на генеральную совокупность.

Для оценки значимости коэффициента корреляцииrиспользуютt-критерий Стьюдента, который применяется приt-распределении, отличном от нормального.

198

При линейной однофакторной связи t-критерий можно рассчитать по формуле:

(9.11)

где (n-2) - число степеней свободы при заданном уровне значимостиaи объеме выборкиn.

Полученное значение tрасчсравнивают с табличным значениемt-критерия (для а = 0.05 и 0.01). Если рассчитанное значениеtрасчпревосходит табличное значение критерияtтабл, то практически невероятно, что найденное значение обусловлено только случайными колебаниями (т. е. отклоняется гипотеза о его случайности).

Так. для коэффициента корреляции между выработкой и стажем работы получим:

Это значительно больше критического значения t дляп- 2 = 8 степеней свободы иa== 0,01 (tтабл= 3,356), что свидетельствует о значимости коэффициента корреляции и существенности связи между выработкой и стажем работы.

Таким образом, построенная регрессионная модель ŷ = 4+0,6хв целом адекватна, и выводы, полученные по результатам малой выборки, можно с достаточной вероятностью распространить на всю гипотетическую генеральную совокупность.

1 Уровень значимости применительно к проверке статистических гипотез - это вероятность, с которой может быть опровергнута гипотеза о том или ином законе распределения. Так, двум доверительным вероятностям 0.95 и 0.99 соответствует 5%-ный и 1%-ный уровни значимости, т.е. 2 Число степеней свободы вариации представляет собой число свободно (неограниченно) варьирующих элементов совокупности где - число факторных признаков в уравнении 1 Коэффициент корреляции был предложен английским математиком К.Пирсоном.