
- •1.1.2 Выборка и генеральная совокупность. Типы выборок.
- •1.1.3 Ранжирование (группировка, классификация) данных.
- •1.1.4 Распределение вариант и распределение средних. Выборочные характеристики как оценки характеристик генеральной совокупности. Свойства оценок: несмещенность, состоятельность, эффективность.
- •1.1.5 Оценка стандартного отклонения для распределения средних.
- •1.1.6 Доверительный интервал -1. Интервал для среднего случайной выборки, если генеральное среднее известно
- •1.1.7 Доверительный интервал -2. Интервал для генерального среднего
- •1.1.8 Нулевая гипотеза - 1. Основные понятия.
- •1.1.9 Нулевая гипотеза - 2. Зачем нам два уровня значимости
- •1.1.10 Критерий χ-квадарат.
- •1.2 Двумерные случайные величины
- •1.2.1 Правила вычислений моментов второго порядка
- •1.1.2 Коэффициент корреляции
- •2. Регрессионный анализ
- •2.1 Парная линейная регрессия
- •2.1.1 Простейшая модель – парная линейная регрессия
- •2.1.2 Мера оценки отклонений – метод наименьших квадратов (мнк).
- •2.1.3 Практические вычисления для линейной модели.
- •2.1.4 Условия применимости метода наименьших квадратов
- •2.1.5 Качество оценки переменной y, полученное с помощью уравнения регрессии.
- •2.1.6 Качество модели – f-критерий (критерий Фишера)
- •2.1.7 Оценки ошибок коэффициентов регрессии
- •2.1.8 Проверка гипотез для коэффициентов регрессии
- •2.2 Парная нелинейная регрессия
- •2.2.1 Распространение методов парной линейной регрессии на нелинейные задачи
- •2.2.2 Квадратичная регрессия
2.1.7 Оценки ошибок коэффициентов регрессии
Напомним, что при вычислении коэффициентов регрессии мы исходим из предположения, что в каждом наблюдении величина yj состоит из двух компонент: 1)неслучайной составляющей 1 + 2 xi и 2)случайного члена ui: yi = 1 + 2 xi + ui (2.1).
В результате мы получаем
представление случайной величины Y
в виде
, причем
.
Заметим, что в силу предположения о
наличии случайной составляющей u
в составе величины Y,
найденные нами коэффициенты регрессии
тоже являются случайными величинами.
Соответственно, возникает задача оценить
стандартные ошибки для этих случайных
величин, построить доверительные
интервалы и т.п.
Если исходить из того, что
нам известна дисперсия
случайной составляющей u
в составе величины Y,
то для вычисления
величин стандартных отклонений
коэффициентов регрессии можно получить
следующие выражения:
(2.10)
Из приведенных выражений следуют очевидные заключения.
Во-первых, дисперсии коэффициентов регрессии обратно пропорциональны количеству наблюдений в выборке.
Во-вторых, дисперсии коэффициентов прямо пропорциональны дисперсии случайного члена и обратно пропорциональны дисперсии Х. Дело в том, что наблюдаемые изменения величины Y отчасти вызваны изменениями Х, а отчасти случайным членом u. И чем меньше вариация Х, тем большая доля в изменении объясняемой величины порождена именно случайным членом; соответственно тем больше будет и дисперсия коэффициентов регрессии. Как видим, важны не абсолютные значения величин и Var(X), а их отношение: чем оно больше, тем большая доля в изменении Y порождена случайными причинами. Соответственно, тем большей окажется и дисперсия коэффициентов регрессии.
В реальной ситуации мы разумеется не можем знать величину , но мы можем построить ее оценку. Если мы провели прямую регрессии, значит нам уже известны величины εi = yi – , следовательно мы можем вычислить вариацию Var(ε). Тогда несмещенная оценка дисперсии случайного члена u примет вид:
(2.11)
При этом вариацию Var(ε)
следует умножить на корректирующий
множитель
,
т.к. число степеней свободы при вычислении
характеристик коэффициентов линейной
регрессии составляет n–2
(мы уже знаем два коэффициента).
Теперь располагая оценкой (2.11) мы можем получить несмещенные оценки дисперсии коэффициентов регрессии:
(2.12)
где
вычисляется
по формуле (2.11). Корни квадратные из
величин
и
называются стандартными отклонениями
коэффициентов регрессии:
(2.13)
2.1.8 Проверка гипотез для коэффициентов регрессии
Располагая оценками величин дисперсии коэффициентов регрессии мы можем обычным образом построить механизм проверки достоверности гипотез, относящихся к значениям коэффициентов регрессии.
Рассмотрим гипотетический пример. Пусть в течении последних 5-ти лет темп роста производительности труда составил t процентов в год, а зарплата росла опережающими темпами Х процентов в год, W = X – t >0. Мы выдвинули гипотезу, что темп роста инфляции Y определяется именно опережающим темпом роста зарплат, причем мультипликатор 2 равен 1,5; это эквивалентно предположению, что Y = 1 + 1,5 Х .
Построив уравнение регрессии, мы получили, что Y = b1 + 1,77 W. Противоречат наши данные выдвинутой гипотезе или нет?
Заметим, что если случайный
член нашей зависимости удовлетворяет
условиям Гаусса-Маркова, то коэффициенты
линейной регрессии также будут нормально
распределенными величинами. В соответствии
с общими принципами оценки достоверности
гипотез мы вычислим параметр z
:
18
Если значение параметра z по модулю не превосходит стандартного значения 1,96 (–1,96 z 1,96), которое отвечает 5% уровню значимости для нормально распределенных величин, мы заключаем, что у нас нет оснований отвергнуть нулевую гипотезу и что отклонение полученного значения коэффициента 1,77 от теоретического 1,5 вызвано случайными факторами.
Если значение параметра z по модулю превосходит стандартное значение 2,58, которое отвечает 1% уровню значимости для нормально распределенных величин, мы заключаем, что у нас нет оснований принять нулевую гипотезу и что отклонение полученного значения коэффициента 1,77 от теоретического 1,5 вызвано неадекватностью нашей гипотезы.
Как обычно, получение значения в интервале между 1,96 и 2,58 требует принятия волевого решения.
Заметим, что при сравнительно небольших объемах выборки вместо значений 1,96 и 2,58 следует пользоваться таблицами распределения Стьюдента, принимая число степеней свободы в случае линейной регрессии равным n–2. В этом случае значение параметра сравниваются со значениями tкрит , которые соответствуют 5%-ному и 1%-ному уровню значимости критерия Стьюдента для нашего значения числа степеней свободы.