
- •1. Введение в статистику связей случайных величин
- •1.1. Краткие сведения об используемых понятиях и терминах
- •1.1.1. Эмпирические данные
- •1.1.2. Стохастическая эмпирическая зависимость случайных величин
- •1.1.3. Математическая модель эмпирической зависимости и ее остатки
- •1.1.4. Зависимая и независимая переменные эмпирической зависимости
- •1.2. Основные методы построения стохастической зависимости
- •1.2.1. Корреляционный анализ
- •1.2.2. Регрессионный анализ
- •1.2.3. Меры расхождений и методы приближений
- •1.3. Задача аппроксимации и принципы оптимального решения
- •1.3.1. Постановка задачи аппроксимации эмпирической зависимости
- •1.3.2. Неопределенность и неоднозначность задачи аппроксимации
- •1.3.3. Оптимальное приближение эмпирической зависимости
- •2. Основы линейного приближения стохастической зависимости
- •2.1. Задача линейного приближения при парной связи
- •2.1.1. Виды математических моделей парной линейной зависимости
- •2.1.2. Неопределенность задачи построения линейной модели
- •2.1.3. Правила оптимального решения задачи линейной аппроксимации
- •2.2. Оценка реальности парной линейной связи и ее тесноты
- •2.2.1. Случайное рассеяние и неопределенность парной линейной связи
- •2.2.2. Корреляционное отношение – показатель тесноты связи
- •2.2.3. Ковариация – признак линейной стохастической связи
- •2.2.4. Коэффициент корреляции – показатель силы линейной связи
- •2.2.5. Коэффициент детерминации – показатель определенности связи
- •2.2.6. Интерпретация линейной корреляции
- •2.3. Методы определения параметров линейной модели
- •2.3.1. Суть и эффективность методов определения параметров модели
- •2.3.2. Максимально правдоподобные меры расхождения
- •2.4. Качество линейной модели эмпирической зависимости
- •2.4.1. Значимость и доверительные интервалы параметров регрессии
- •2.4.2. Доверительные интервалы линейной эмпирической зависимости
- •2.4.3. Дисперсия и доверительная область прогнозных оценок
- •2.4.4. Оценка адекватности линейной модели
- •3. Компьютерный практикум
- •3.1. Исходные данные для построения парной зависимости
- •3.1.1 Регулярная составляющая аукционных цен
- •3.1.1. Случайная составляющая аукционных цен
- •3.1.3. Линейное приближение зависимости и его приложения
- •3.2. Линейное приближение парной зависимости в Excel
- •3.2.1. Ввод данных
- •3.2.2. Оценка тесноты линейной связи
- •3.2.3 Построение регрессии процедурой вывода тренда на график
- •3.2.4. Вывод параметров линейной регрессии встроенными функциями
- •3.2.5. Оценки качества линейной модели
- •3.2.6. Оценка регрессии и ее качества встроенной функцией линейн
- •3.2.7. Применение процедуры Регрессия для линейной модели
- •3.6. Вопросы для самопроверки
2.4.4. Оценка адекватности линейной модели
Качество линейной модели, то есть ее соответствие, пусть неизвестной, но объективно существующей истинной зависимости предполагает адекватность математических свойств модели и исходных данных.
1. Поведение и области определения переменных и производных модели должны соответствовать сущности искомой зависимости.
Необходимость соблюдения этого требования поясняется примером (рис. 2.7) линейной регрессии цен вин на годы их выдержки, которая, хотя и характеризуется значимым коэффициентом корреляции (0,961), не адекватна сущности зависимости, поскольку:
– области определения переменных модели не ограничены, тогда как годы выдержки вина и цены, естественно, не могут быть отрицательными;
– производная модели положительна и постоянна (график имеет постоянный угол наклона), а фактическиt приращения цен монотонно убывают с уменьшением выдержки и асимптотически приближаются нулю;
– свободный член модели (отрезок, отсекаемый на оси ординат) значим и отрицателен, что противоречит смыслу цены вина.
2. Статистическое распределение остатков модели должно соответствовать рассеянию случайной составляющей исходных данных.
Остатки (residuals) являются разностями фактических и аппроксимирующих значений зависимой переменной.
В идеале, когда модель адекватна исследуемому явлению, остатки отвечают случайной составляющей зависимой переменной (являются латентными). Дисперсия D2 остатков (2.34) при этом рассматривается как оценка дисперсии случайной составляющей.
Соответствие остатков свойствам и характеру случайной составляющей (погрешностям) зависимой переменной – необходимый критерий адекватности модели исследуемому явлению, выполнение которого проверяется:
– отсутствием статистически значимых расхождений дисперсий остатков и исходных данных по критерию Фишера для отношения этих дисперсий;
– согласием статистического распределения остатков с законом (обычно нормальным) распределения случайной составляющей исходных данных.
3. Отсутствие нелинейного компонента в последовательности остатков линейной аппроксимации – условие линейности искомой истинной зависимости эмпирических данных, то есть адекватности модели.
Последовательность остатков должна иметь случайный характер, когда между значениями остатков отсутствует корреляционная связь – так называемая автокорреляция.
Так, например, остатки линейной зависимости, показанной на рис. 2.07, образуют неслучайную последовательность, которая (рис. 2.08), приближенно описывается параболой с квадратом корреляционного отношения 0,66 и самим корреляционным отношением 0,82.
Рис. 2.08. Графики остатков: 1 – фактические; 2 –приближения параболой
Очевидно, в данном случае линейная модель не адекватна истинной зависимости, то есть линейная аппроксимация формально допустима, однако не является оптимальной, так как не адекватна рассматриваемым связям, приводит к некорректной области определения переменных и игнорированию нелинейной составляющей зависимости, что снижает качество моделирования и его разрешающие возможности, в частности:
– уменьшается точность прогнозных оценок;
– сужается область корректного моделирования зависимости, даже в интервале заданных значений выдержки;
– слишком упрощенная аппроксимация не позволяет раскрыть особенности зависимости и правильно проинтерпретировать их.