- •1. Введение в статистику связей случайных величин
- •1.1. Краткие сведения об используемых понятиях и терминах
- •1.1.1. Эмпирические данные
- •1.1.2. Стохастическая эмпирическая зависимость случайных величин
- •1.1.3. Математическая модель эмпирической зависимости и ее остатки
- •1.1.4. Зависимая и независимая переменные эмпирической зависимости
- •1.2. Основные методы построения стохастической зависимости
- •1.2.1. Корреляционный анализ
- •1.2.2. Регрессионный анализ
- •1.2.3. Меры расхождений и методы приближений
- •1.3. Задача аппроксимации и принципы оптимального решения
- •1.3.1. Постановка задачи аппроксимации эмпирической зависимости
- •1.3.2. Неопределенность и неоднозначность задачи аппроксимации
- •1.3.3. Оптимальное приближение эмпирической зависимости
- •2. Основы линейного приближения стохастической зависимости
- •2.1. Задача линейного приближения при парной связи
- •2.1.1. Виды математических моделей парной линейной зависимости
- •2.1.2. Неопределенность задачи построения линейной модели
- •2.1.3. Правила оптимального решения задачи линейной аппроксимации
- •2.2. Оценка реальности парной линейной связи и ее тесноты
- •2.2.1. Случайное рассеяние и неопределенность парной линейной связи
- •2.2.2. Корреляционное отношение – показатель тесноты связи
- •2.2.3. Ковариация – признак линейной стохастической связи
- •2.2.4. Коэффициент корреляции – показатель силы линейной связи
- •2.2.5. Коэффициент детерминации – показатель определенности связи
- •2.2.6. Интерпретация линейной корреляции
- •2.3. Методы определения параметров линейной модели
- •2.3.1. Суть и эффективность методов определения параметров модели
- •2.3.2. Максимально правдоподобные меры расхождения
- •2.4. Качество линейной модели эмпирической зависимости
- •2.4.1. Значимость и доверительные интервалы параметров регрессии
- •2.4.2. Доверительные интервалы линейной эмпирической зависимости
- •2.4.3. Дисперсия и доверительная область прогнозных оценок
- •2.4.4. Оценка адекватности линейной модели
- •3. Компьютерный практикум
- •3.1. Исходные данные для построения парной зависимости
- •3.1.1 Регулярная составляющая аукционных цен
- •3.1.1. Случайная составляющая аукционных цен
- •3.1.3. Линейное приближение зависимости и его приложения
- •3.2. Линейное приближение парной зависимости в Excel
- •3.2.1. Ввод данных
- •3.2.2. Оценка тесноты линейной связи
- •3.2.3 Построение регрессии процедурой вывода тренда на график
- •3.2.4. Вывод параметров линейной регрессии встроенными функциями
- •3.2.5. Оценки качества линейной модели
- •3.2.6. Оценка регрессии и ее качества встроенной функцией линейн
- •3.2.7. Применение процедуры Регрессия для линейной модели
- •3.6. Вопросы для самопроверки
2.4.2. Доверительные интервалы линейной эмпирической зависимости
Обсуждавшиеся выше случайные колебания оценок параметров (углового коэффициента и свободного члена), которые находятся методом наименьших квадратов по эмпирическим данным, вызывают случайные отклонения самой линии регрессии от истинной линейной зависимости с неизвестными точными значениями параметров.
Дисперсия линии регрессии, обозначаемая далее, как D(y), складывается из дисперсий параметров D( ) и D( ), вычисляемых по формулам (2.65) и (2.67). Однако при этом необходимо учитывать, что параметры и , определяемые методом наименьших квадратов, являются зависимыми величинами. В этом случае дисперсии D( ) и D( ) суммируются по правилам для зависимых случайных величин.
1. Взаимозависимость параметров линейной регрессии следует из уравнения (2.55). При средних значениях переменных и уравнение (2.55) записывается как
, (2.77)
и позволяет представить параметр в виде функции другого параметра :
. (2.78)
В уравнении (2.78): – зависимая переменная; – независимая переменная; – угловой коэффициент; – свободный член.
В соответствии с уравнениями (2.28) и (2.78) коэффициент корреляции между и , как переменными, можно представить в виде
. (2.79)
Ковариация между переменными и выражается через коэффициент корреляции (2.79) в соответствии с уравнением (2.18):
. (2.80)
2. Дисперсия эмпирической линейной функции (2.55), вызванная случайными колебаниями параметров, определяется с учетом связи между ними (2.80). Дисперсия свободного члена отвечает выражению (2.67); дисперсия произведения есть , поскольку х рассматривается как постоянная, следовательно:
D(y) = D( ) + 2Cov( , ) + х2D( ) = D( ) + 2Cov( , )х + х2D( ). (2.81)
Подстановка выражений (2.65), (2.67) и (2.80) в дисперсию линейной функции (2.82) приводит к уравнению
D(y) = . (2.82)
Из выражения (2.82) видно, что дисперсия является функцией независимой переменной х – параболой с минимумом при х = . При отклонении от нее в обе стороны дисперсия увеличивается и уменьшается точность прогноза.
3. Доверительная область графика регрессии ограничивается отстоящими от нее линиями на удалении 2-х или 3-х стандартов s(y), определяемого из дисперсии (2.82):
s(y) = . (2.83)
При нормальном распределении случайной составляющей зависимой переменной ограничение линиями 2s(y) охватывает около 95% возможных отклонений от математического ожидания (графика регрессии). Ограничение линиями 3s(y) включает 99,7% отклонений.
Если объем данных n < 30, взятых из нормальной генеральной совокупности, то отношение отклонения зависимой переменной от математического ожидания (линии регрессии) к стандарту, имеет t-распределение Стьюдента.
Вероятность в t-распределении Стьюдента зависит от числа степеней свободы, которое при линейной регрессии с 2 параметрами равно n – 2. Для малых выборок t-отношение (и доверительная область) возрастает при уменьшении числа степеней свободы.
В соответствии с этим, исходя из выражения дисперсии (2.82) и соответствующего ей стандарта, доверительная граница сверху в общем случае описывается уравнением
y+ = x + + t , (2.84)
доверительная граница снизу
y– = x + – t , (2.85)
где t – число стандартов в больших выборках (2 или 3), в малых выборках – берется по t-распределению
Графики функций (2.84) и (2.85), ограничивающих доверительную область, – гиперболы, проходящие первая выше, вторая – ниже линии регрессии (2.55), как на рис. 2.7.