
- •К лабораторной работе № 5
- •Севастополь
- •1 Цель работы
- •2 Теоретические сведения
- •2.1 Простая линейная регрессия. Прямая регрессии
- •2.2 Стандартная ошибка оценки
- •2.3 Прогнозирование величины y
- •2.4 Разложение дисперсии
- •2.5 Коэффициент детерминации
- •2.6 Проверка гипотез
- •2.7 Анализ остатков
- •2.8 Преобразования переменных
- •3 Практическая часть
- •3.1 Постановка задачи
- •3.2 Пример использования Minitab for Windows для построения уравнений регрессии
- •3.3 Пример использования ms Excel для построения уравнений регрессии
- •4 Порядок выполнения работы
- •5 Контрольные вопросы
- •Библиографический список
- •Приложение а Исходные данные для задания 1
2.4 Разложение дисперсии
В идеале, когда все точки лежат на прямой регрессии, все остатки равны нулю и значения Y полностью вычисляются или объясняются линейной функцией от Х.
Используя
формулу отклонений и отнимая
от обеих частей равенства, имеем
следующее.
Несложными алгебраическими преобразованиями можно показать, что суммы квадратов складываются:
или
где
Здесь
SS
обозначает "сумма квадратов" (Sum
of Squares), a T, R, Е— соответственно "общая"
(Total), "регрессионная" (Regression) и
"ошибки" (Error). С этими суммами
квадратов связаны следующие величины
степеней свободы.
Если линейной связи нет, Y не зависит от X и дисперсия Y оценивается значением выборочной дисперсии.
Если связь между X и Y имеется, она может влиять на некоторые разности значений Y.
Регрессионная сумма квадратов, SSR, измеряет часть дисперсии Y, объясняемую линейной зависимостью. Сумма квадратов ошибок, SSE - это оставшаяся часть дисперсии Y, или дисперсия Y, не объясненная линейной зависимостью.
2.5 Коэффициент детерминации
Как
было указано в предыдущем разделе,
показатель SST измеряет общую вариацию
относительно Y,
а ее часть, объясненная изменением X,
соответствует SSR. Оставшаяся, или
необъясненная вариация, соответствует
SSE. Отношение объясненной вариации к
общей называется выборочным коэффициентом
детерминации и обозначается
Коэффициент детерминации измеряет долю изменчивости Y, которую можно объяснить с помощью информации об изменчивости (разнице значений) независимой переменной X.
В
случае прямолинейной регрессии
коэффициент детерминации
равен квадрату коэффициента корреляции
.
В
регрессионном анализе коэффициенты
и
необходимо рассматривать отдельно, так
как они несут различную информацию.
Коэффициент корреляции выявляет не
только силу, но и направление линейной
связи. Следует отметить, что когда
коэффициент корреляции возводится в
квадрат, полученное значение всегда
будет положительным и информация о
характере взаимосвязи теряется.
Коэффициент
детерминации
измеряет силу взаимосвязи между Y и X
иначе, чем коэффициент корреляции
.
Значение
измеряет долю изменчивости Y, объясненную
разницей значений X. Эту полезную
интерпретацию можно обобщить на
взаимосвязь между Y и более чем одной
переменной X.
2.6 Проверка гипотез
Прямая
регрессии вычисляется по выборке пар
значений Х-Y. Статистическая модель
простой линейной регрессии предполагает,
что линейная связь величин X и Y имеет
место для всех возможных пар X-Y. Для
проверки гипотезы, что соотношение
истинно
для всех X и Y рассмотрим гипотезу:
,
Если эта гипотеза справедлива, в генеральной совокупности нет связи между значениями X и Y. Если мы не можем опровергнуть гипотезу, то, несмотря на ненулевое значение вычисленного по выборке углового коэффициента регрессионной прямой, мы не имеем оснований гарантированно утверждать, что значения X и Y взаимозависимы. Иными словами, нельзя исключить возможность того, что регрессионная прямая совокупности горизонтальна.
Если
гипотеза
верна, проверочная статистика t со
значением
имеет t-распределение с количеством
степеней свободы df = n-2.
Здесь оценка стандартного отклонения
(или стандартная ошибка) равна
Для
выборки очень большого объема можно
отклонить гипотезу
и заключить, что между X и Y
есть линейная связь даже в тех случаях,
когда значение
мало (например, 10%). Аналогично для малых
выборок и очень большого значения
(например, 95%) можно сделать вывод, что
регрессионная зависимость имеет место.
Малое значение коэффициента детерминации
означает, что вычисленное уравнение
регрессии не имеет большого значения
для прогноза. С другой стороны, большое
значение
при очень малом объеме выборки не может
удовлетворить исследователя, и потребуются
дополнительные обоснования, чтобы
вычисленную функцию регрессии использовать
для целей прогноза. Такова разница между
статистической и практической значимостью.
В то же время вся собранная информация,
а также понимание сущности рассматриваемого
объекта будут необходимы, чтобы
определить, может ли вычисленная функция
регрессии быть подходящим средством
для прогноза.
Еще
один способ проверки гипотезы
возможен с помощью таблицы ANOVA. При
предположении, что статистическая
модель линейной регрессии правильна и
нулевая гипотеза
истинна, отношение
имеет
F-распределение со степенями свободы
df= 1, n-2.
Если гипотеза
истинна, каждая из величин MSR и MSE будет
оценкой
,
дисперсии слагаемого ошибки
в
статистической модели прямолинейной
регрессии. С другой стороны, если верна
гипотеза
,
числитель в отношении F стремится стать
большим, чем знаменатель. Большое
значение F согласуется с истинностью
альтернативной гипотезы.
Для
модели прямолинейной регрессии проверка
гипотезы
при альтернативе
основывается на отношении
с df= 1, n-2.
При уровне значимости
область отклонения гипотезы:
.