Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ЛР5.doc
Скачиваний:
25
Добавлен:
05.11.2018
Размер:
733.7 Кб
Скачать

2.4 Разложение дисперсии

В идеале, когда все точки лежат на прямой регрессии, все остатки равны нулю и значения Y полностью вычисляются или объясняются линейной функцией от Х.

Используя формулу отклонений и отнимая от обеих частей равенства, имеем следующее.

Несложными алгебраическими преобразованиями можно показать, что суммы квад­ратов складываются:

или

где

Здесь SS обозначает "сумма квадратов" (Sum of Squares), a T, R, Е— соответственно "общая" (Total), "регрессионная" (Regression) и "ошибки" (Error). С этими суммами квадратов связаны следующие величины степеней свободы.

Если линейной связи нет, Y не зависит от X и дисперсия Y оценивается значением выборочной дисперсии.

Если связь между X и Y имеется, она может влиять на некоторые разности значений Y.

Регрессионная сумма квадратов, SSR, измеряет часть дисперсии Y, объясняемую линейной зависимостью. Сумма квадратов ошибок, SSE - это оставшаяся часть дисперсии Y, или дисперсия Y, не объясненная линейной зависимостью.

2.5 Коэффициент детерминации

Как было указано в предыдущем разделе, показатель SST измеряет общую вариацию относительно Y, а ее часть, объясненная изменением X, соответствует SSR. Оставшаяся, или необъясненная вариация, соответствует SSE. Отношение объясненной вариации к общей называется выборочным коэффициентом детерминации и обозначается

Коэффициент детерминации измеряет долю изменчивости Y, которую можно объяснить с помощью информации об изменчивости (разнице значений) независимой переменной X.

В случае прямолинейной регрессии коэффициент детерминации равен квадрату коэффициента корреляции .

В регрессионном анализе коэффициенты и необходимо рассматривать отдельно, так как они несут различную информацию. Коэффициент корреляции выявляет не только силу, но и направление линейной связи. Следует отметить, что когда коэффициент корреляции возводится в квадрат, полученное значение всегда будет положительным и информация о характере взаимосвязи теряется.

Коэффициент детерминации измеряет силу взаимосвязи между Y и X иначе, чем коэффициент корреляции . Значение измеряет долю изменчивости Y, объясненную разницей значений X. Эту полезную интерпретацию можно обобщить на взаимосвязь между Y и более чем одной переменной X.

2.6 Проверка гипотез

Прямая регрессии вычисляется по выборке пар значений Х-Y. Статистическая модель простой линейной регрессии предполагает, что линейная связь величин X и Y имеет место для всех возможных пар X-Y. Для проверки гипотезы, что соотношение истинно для всех X и Y рассмотрим гипотезу:

,

Если эта гипотеза справедлива, в генеральной совокупности нет связи между значениями X и Y. Если мы не можем опровергнуть гипотезу, то, несмотря на ненулевое значение вычисленного по выборке углового коэффициента регрессионной прямой, мы не имеем оснований гарантированно утверждать, что значения X и Y взаимозависимы. Иными словами, нельзя исключить возможность того, что регрессионная прямая совокупности горизонтальна.

Если гипотеза верна, проверочная статистика t со значением имеет t-распределение с количеством степеней свободы df = n-2. Здесь оценка стандартного отклонения (или стандартная ошибка) равна

Для выборки очень большого объема можно отклонить гипотезу и заключить, что между X и Y есть линейная связь даже в тех случаях, когда значение мало (например, 10%). Аналогично для малых выборок и очень большого значения (например, 95%) можно сделать вывод, что регрессионная зависимость имеет место. Малое значение коэффициента детерминации означает, что вычисленное уравнение регрессии не имеет большого значения для прогноза. С другой стороны, большое значение при очень малом объеме выборки не может удовлетворить исследователя, и потребуются дополнительные обоснования, чтобы вычисленную функцию регрессии использовать для целей прогноза. Такова разница между статистической и практической значимостью. В то же время вся собранная информация, а также понимание сущности рассматриваемого объекта будут необходимы, чтобы определить, может ли вычисленная функция регрессии быть подходящим средством для прогноза.

Еще один способ проверки гипотезы возможен с помощью таблицы ANOVA. При предположении, что статистическая модель линейной регрессии правильна и нулевая гипотеза истинна, отношение

имеет F-распределение со степенями свободы df= 1, n-2. Если гипотеза истинна, каждая из величин MSR и MSE будет оценкой , дисперсии слагаемого ошибки в статистической модели прямолинейной регрессии. С другой стороны, если верна гипотеза , числитель в отношении F стремится стать большим, чем знаменатель. Большое значение F согласуется с истинностью альтернативной гипотезы.

Для модели прямолинейной регрессии проверка гипотезы при альтернативе основывается на отношении с df= 1, n-2. При уровне значимости область отклонения гипотезы:.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]