
9.4. Регрессионный анализ.
Регрессионный анализ заключается в прогнозировании одной переменной на основании другой. Линейный регрессионный анализ прогнозирует значение одной переменной на основании другой с помощью прямой линии. Наклон этой линии, выражается в единицах измерения у на одну единицу х и характеризует крутизну подъема или спуска (если b отрицательное) линии. Сдвиг, a, равен значению, которое принимает у при х, равном 0.
Линия наименьших квадратов характеризуется наименьшей из всех возможных линий суммой возведенных в квадрат ошибок прогнозирования по вертикали и используется как лучшая линия прогнозирования, основанная на данных. Наклон этой линии, b, называют также коэффициентом регрессии у по х, а сдвиг а (отрезок отсекаемый на оси у) называют также постоянным членом регрессии.
(9.7)
(9.8)
Прогнозируемое значение для у при заданном значении х определяется путем подстановки этого значения х в уравнение для линии наименьших квадратов. Каждая из точек данных характеризуется остатком – ошибкой прогнозирования, указывающей, насколько выше или ниже линии находится точка.
Существуют
две меры соответствия линии наименьших
квадратов имеющимся данным. Стандартная
ошибка оценки,
которую обозначают
,
приблизительно
указывает величину ошибок прогнозирования
(остатков) для имеющихся данных в
тех же единицах, в которых измерена и
переменная у.
Соответствующие формулы приведены
ниже.
Для вычисления:
(9.9)
Для интерпретации:
(9.10)
Значение
,
часто называемое
коэффициентом
детерминации,
говорит о том, какой
процент вариации у
объясняется поведением
х.
Доверительные интервалы и проверка гипотез для коэффициента регрессии связаны с определенными предположениями относительно анализируемой совокупности данных, которые должны гарантировать, что она состоит из независимых наблюдений, характеризующихся линейной взаимосвязью с равной вариацией и приблизительно нормально распределенной случайностью. Во-первых, эти данные должны представлять собой произвольную выборку из интересующей нас генеральной совокупности. Во-вторых, линейная модель указывает, что наблюдаемое значение у определяется взаимосвязью в генеральной совокупности плюс случайная ошибка, имеющая нормальное распределение. Существуют параметры генеральной совокупности, соответствующие наклону и сдвигу линии наименьших квадратов, построенной на данных выборки:
(9.11)
где
– взаимосвязь
в генеральной совокупности;
– случайность,
которая имеет
нормальное распределение со средним
значением, равным 0, и постоянным
стандартным отклонением
.
Статистические выводы (использование доверительных интервалов и проверки статистических гипотез) относительно коэффициентов линии наименьших квадратов основываются, как обычно, на их стандартных ошибках и значениях из t-таблицы для п – 2 степеней свободы.
Стандартная
ошибка коэффициента наклона,
,
указывает приблизительную
величину отклонения оценки наклона, b
(коэффициент регрессии,
вычисленный на основе данных выборки),
от наклона в генеральной совокупности,
β,
вызванного случайным характером выборки.
(9.12)
Стандартная
ошибка сдвига,
,
указывает приблизительно, насколько
далеко оценка сдвигаа
отстоит от истинного
сдвига α
в генеральной совокупности.
(9.13)
Доверительный интервал для наклона в генеральной совокупности, β:
. (9.14)
Доверительный интервал для сдвига в генеральной совокупности, α:
. (9.15)
Один из способов проверки, является ли обнаруженная взаимосвязь между х и у реальной или это просто случайное совпадение, заключается в сравнении β с заданным значением β0 = 0. О значимой связи можно говорить в том случае, если 0 не попадает в доверительный интервал, базирующийся на b и Sb, или если абсолютное значение t = b/Sb превосходит соответствующее t-значение в t-таблице. Эта проверка эквивалентна проверке значимости коэффициента корреляции и означает, по сути, то же самое, что и F-тест для случая, когда уравнение содержит только одну переменную х. Разумеется, любой из коэффициентов (a или b) можно сравнить с любым подходящим заданным значением, воспользовавшись одно- или двусторонней проверкой (в зависимости от конкретных обстоятельств) и с использованием тех же методов проверки, что были рассмотрены для среднего генеральной совокупности.
Для
прогнозирования среднего
значения нового наблюдения у
при условии, что х =
х0,
неопределенность прогноза оценивают
с помощью стандартной ошибки ,
которая также имеет
п – 2
степеней свободы. Это позволяет построить
доверительные интервалы и проверить
гипотезы для нового наблюдения:
(9.16)
Доверительный интервал для прогнозируемого (среднего) значения упри заданном значениих0 имеет следующий вид:
от
до
. (9.17)