- •К лабораторной работе № 5
- •Севастополь
- •1 Цель работы
- •2 Теоретические сведения
- •2.1 Простая линейная регрессия. Прямая регрессии
- •2.2 Стандартная ошибка оценки
- •2.3 Прогнозирование величины y
- •2.4 Разложение дисперсии
- •2.5 Коэффициент детерминации
- •2.6 Проверка гипотез
- •2.7 Анализ остатков
- •2.8 Преобразования переменных
- •3 Практическая часть
- •3.1 Постановка задачи
- •3.2 Пример использования Minitab for Windows для построения уравнений регрессии
- •3.3 Пример использования ms Excel для построения уравнений регрессии
- •4 Порядок выполнения работы
- •5 Контрольные вопросы
- •Библиографический список
- •Приложение а Исходные данные для задания 1
2.4 Разложение дисперсии
В идеале, когда все точки лежат на прямой регрессии, все остатки равны нулю и значения Y полностью вычисляются или объясняются линейной функцией от Х.
Используя формулу отклонений и отнимая от обеих частей равенства, имеем следующее.
Несложными алгебраическими преобразованиями можно показать, что суммы квадратов складываются:
или
где
Здесь SS обозначает "сумма квадратов" (Sum of Squares), a T, R, Е— соответственно "общая" (Total), "регрессионная" (Regression) и "ошибки" (Error). С этими суммами квадратов связаны следующие величины степеней свободы.
Если линейной связи нет, Y не зависит от X и дисперсия Y оценивается значением выборочной дисперсии.
Если связь между X и Y имеется, она может влиять на некоторые разности значений Y.
Регрессионная сумма квадратов, SSR, измеряет часть дисперсии Y, объясняемую линейной зависимостью. Сумма квадратов ошибок, SSE - это оставшаяся часть дисперсии Y, или дисперсия Y, не объясненная линейной зависимостью.
2.5 Коэффициент детерминации
Как было указано в предыдущем разделе, показатель SST измеряет общую вариацию относительно Y, а ее часть, объясненная изменением X, соответствует SSR. Оставшаяся, или необъясненная вариация, соответствует SSE. Отношение объясненной вариации к общей называется выборочным коэффициентом детерминации и обозначается
Коэффициент детерминации измеряет долю изменчивости Y, которую можно объяснить с помощью информации об изменчивости (разнице значений) независимой переменной X.
В случае прямолинейной регрессии коэффициент детерминации равен квадрату коэффициента корреляции .
В регрессионном анализе коэффициенты и необходимо рассматривать отдельно, так как они несут различную информацию. Коэффициент корреляции выявляет не только силу, но и направление линейной связи. Следует отметить, что когда коэффициент корреляции возводится в квадрат, полученное значение всегда будет положительным и информация о характере взаимосвязи теряется.
Коэффициент детерминации измеряет силу взаимосвязи между Y и X иначе, чем коэффициент корреляции . Значение измеряет долю изменчивости Y, объясненную разницей значений X. Эту полезную интерпретацию можно обобщить на взаимосвязь между Y и более чем одной переменной X.
2.6 Проверка гипотез
Прямая регрессии вычисляется по выборке пар значений Х-Y. Статистическая модель простой линейной регрессии предполагает, что линейная связь величин X и Y имеет место для всех возможных пар X-Y. Для проверки гипотезы, что соотношение истинно для всех X и Y рассмотрим гипотезу:
,
Если эта гипотеза справедлива, в генеральной совокупности нет связи между значениями X и Y. Если мы не можем опровергнуть гипотезу, то, несмотря на ненулевое значение вычисленного по выборке углового коэффициента регрессионной прямой, мы не имеем оснований гарантированно утверждать, что значения X и Y взаимозависимы. Иными словами, нельзя исключить возможность того, что регрессионная прямая совокупности горизонтальна.
Если гипотеза верна, проверочная статистика t со значением имеет t-распределение с количеством степеней свободы df = n-2. Здесь оценка стандартного отклонения (или стандартная ошибка) равна
Для выборки очень большого объема можно отклонить гипотезу и заключить, что между X и Y есть линейная связь даже в тех случаях, когда значение мало (например, 10%). Аналогично для малых выборок и очень большого значения (например, 95%) можно сделать вывод, что регрессионная зависимость имеет место. Малое значение коэффициента детерминации означает, что вычисленное уравнение регрессии не имеет большого значения для прогноза. С другой стороны, большое значение при очень малом объеме выборки не может удовлетворить исследователя, и потребуются дополнительные обоснования, чтобы вычисленную функцию регрессии использовать для целей прогноза. Такова разница между статистической и практической значимостью. В то же время вся собранная информация, а также понимание сущности рассматриваемого объекта будут необходимы, чтобы определить, может ли вычисленная функция регрессии быть подходящим средством для прогноза.
Еще один способ проверки гипотезы возможен с помощью таблицы ANOVA. При предположении, что статистическая модель линейной регрессии правильна и нулевая гипотеза истинна, отношение
имеет F-распределение со степенями свободы df= 1, n-2. Если гипотеза истинна, каждая из величин MSR и MSE будет оценкой , дисперсии слагаемого ошибки в статистической модели прямолинейной регрессии. С другой стороны, если верна гипотеза , числитель в отношении F стремится стать большим, чем знаменатель. Большое значение F согласуется с истинностью альтернативной гипотезы.
Для модели прямолинейной регрессии проверка гипотезы при альтернативе основывается на отношении с df= 1, n-2. При уровне значимости область отклонения гипотезы:.