Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции поТВ (140с).doc
Скачиваний:
31
Добавлен:
01.05.2019
Размер:
5.88 Mб
Скачать

Вопросы для самопроверки

1. Сформулируйте задачу регрессионного анализа.

2. Что такое "линия регрессии" и "уравнение регрессии"?

3. Что такое "сопряженные" уравнения и линии регрессии?

4. В чем заключается принцип наименьших квадратов?

5. Как составляется "система нормальных уравнений"?

6. Что такое "коэффициент детерминации"?

7. Чем "коэффициент детерминации" отличается от "индекса детерми­нации"? Перечислите их свойства.

8. Опишите наиболее распространенные двухпараметрические нели­нейные зависимости.

9. Как графически проверить правильность выбора формы связи?

Лекция 15. Проблема значимости и адекватности регрессионной модели Оценка значимости регрессионной модели

В регрессионной модели "полный сигнал" – наблюдаемые значения у – разлагается на две компоненты: "полезный сигнал" – расчетные значения ур , которые определяются моделью (значениями аргументов х, х2), и "помеху" – ошибки модели е

у = ур + е,

где (например, для двухфакторной линейной модели) y= bb1xb2x.

В предыдущей лекции (лекция 14 об основах регрессионного анализа) было показано, что точно такое же разложение имеет общая сумма квадратов отклонений SSy = SSp + SSe. Покажем, что такое же разложение имеет также число степеней свободы dfy = dfp + dfe.

dfy = n – 1, т.к. на n отклонений наложена одна связь – сумма всех этих отклонений равна нулю (центральное свойство среднего).

dfе = n – 1 – m, где m – число объясняющих переменных. Для определения параметров модели принимаются условия ортогональности ошибок к каждому члену модели [e] = 0, [ex1] = 0, [ex2] = 0 – это связи, наложенные на отклонения ошибок от их среднего значения. Обычно в модели число определяемых параметров на единицу превышает число аргументов из-за обязательного наличия в модели свободного члена b0 (кстати, наличие в модели свободного члена приводит к равенству нулю среднего значения ошибки и равенству средних ).

Для числа степеней свободы расчетных значений должно получиться dfp = dfy – dfe = (– 1) – (–1 – m) = m. Рассмотрим отклонения расчетных значений от среднего значения: . При преобразовании было использовано первое уравнение нормальной системы (см. предыдущую лекцию) – следствие условия [e] = 0. Напоминаем, что в регрессионном анализе все объясняющие переменные xj считаются не случайными, поэтому оказалось, что все отклонения расчетных значений от своего среднего являются разными линейными комбинациями m случайных величин bj с не случайными коэффициентами . Отсюда следует, что независимыми могут быть только m таких комбинаций, т.е. dfp = m.

Для проверки значимости модели заполним таблицу дисперсионного анализа 1, причем выразим суммы квадратов SSp = R2SSy и SSe = (1 – R2)SSy через общую сумму квадратов SSy и коэффициент детерминации R2.

Таблица дисперсионного анализа 1 для оценки значимости модели

Источник изменчивости

Суммы квадратов

ЧСС

Средние квадраты

Дисперсионное отношение

Регрессия

SSp = R2SSy

dfp = m 

MSp = SSp / dfp

F= MSp / MSe

Остаток модели

SSe = (1 – R2)SSy

dfe = n – 1 – m

MSe = SSe / dfe

Общая

dfy = n – 1

Получено следующее выражение для дисперсионного отношения Фишера

,

которое надо сравнивать с табличными значениями F0,05(dfpdfe) и F0,01(dfpdfe).

Для одномерного случая (= 1) ЧСС dfp = 1 и дисперсионное отношение

надо сравнивать с табличными значениями , где  =0,05 и 0,01. Интересно, что для линейной однофакторной зависимости мера тесноты связи и характеристика ее значимости Fp получаются одинаковыми для обеих сопряженных моделей.

Регрессионная модель считается значимой, если вычисленное значение дисперсионного отношения будет больше верхней границы FF0,01 ; модель признается незначимой, если FF0,05 .