
- •1. Введение в статистику связей случайных величин
- •1.1. Краткие сведения об используемых понятиях и терминах
- •1.1.1. Эмпирические данные
- •1.1.2. Стохастическая эмпирическая зависимость случайных величин
- •1.1.3. Математическая модель эмпирической зависимости и ее остатки
- •1.1.4. Зависимая и независимая переменные эмпирической зависимости
- •1.2. Основные методы построения стохастической зависимости
- •1.2.1. Корреляционный анализ
- •1.2.2. Регрессионный анализ
- •1.2.3. Меры расхождений и методы приближений
- •1.3. Задача аппроксимации и принципы оптимального решения
- •1.3.1. Постановка задачи аппроксимации эмпирической зависимости
- •1.3.2. Неопределенность и неоднозначность задачи аппроксимации
- •1.3.3. Оптимальное приближение эмпирической зависимости
- •2. Основы линейного приближения стохастической зависимости
- •2.1. Задача линейного приближения при парной связи
- •2.1.1. Виды математических моделей парной линейной зависимости
- •2.1.2. Неопределенность задачи построения линейной модели
- •2.1.3. Правила оптимального решения задачи линейной аппроксимации
- •2.2. Оценка реальности парной линейной связи и ее тесноты
- •2.2.1. Случайное рассеяние и неопределенность парной линейной связи
- •2.2.2. Корреляционное отношение – показатель тесноты связи
- •2.2.3. Ковариация – признак линейной стохастической связи
- •2.2.4. Коэффициент корреляции – показатель силы линейной связи
- •2.2.5. Коэффициент детерминации – показатель определенности связи
- •2.2.6. Интерпретация линейной корреляции
- •2.3. Методы определения параметров линейной модели
- •2.3.1. Суть и эффективность методов определения параметров модели
- •2.3.2. Максимально правдоподобные меры расхождения
- •2.4. Качество линейной модели эмпирической зависимости
- •2.4.1. Значимость и доверительные интервалы параметров регрессии
- •2.4.2. Доверительные интервалы линейной эмпирической зависимости
- •2.4.3. Дисперсия и доверительная область прогнозных оценок
- •2.4.4. Оценка адекватности линейной модели
- •3. Компьютерный практикум
- •3.1. Исходные данные для построения парной зависимости
- •3.1.1 Регулярная составляющая аукционных цен
- •3.1.1. Случайная составляющая аукционных цен
- •3.1.3. Линейное приближение зависимости и его приложения
- •3.2. Линейное приближение парной зависимости в Excel
- •3.2.1. Ввод данных
- •3.2.2. Оценка тесноты линейной связи
- •3.2.3 Построение регрессии процедурой вывода тренда на график
- •3.2.4. Вывод параметров линейной регрессии встроенными функциями
- •3.2.5. Оценки качества линейной модели
- •3.2.6. Оценка регрессии и ее качества встроенной функцией линейн
- •3.2.7. Применение процедуры Регрессия для линейной модели
- •3.6. Вопросы для самопроверки
2.1.3. Правила оптимального решения задачи линейной аппроксимации
Линейная аппроксимация искомой эмпирической зависимости оптимальна, если связь реальна и математическая модель адекватна объективно существующей истинной зависимости между явно не заданными значениями регулярной составляющей эмпирических данных.
Фактически заданы эмпирические данные. Постановка задачи оптимальной линейной аппроксимации предполагает такое приближение к эмпирическим данным, которое:
– минимизирует расхождение с явно не заданной регулярной составляющей эмпирических данных;
– образует остатки, в последовательности которых отсутствует нелинейный компонент, а статистическое распределение согласно распределению случайной составляющей.
Для решения задачи линейного приближения в такой постановке необходимо соблюдение определенных правил, которые образуют целостную систему принципов и алгоритмов оптимальной аппроксимации.
1. Оценка реальности линейной связи состоит в выяснении значимости коэффициента корреляции. Если коэффициент корреляции значим, то есть его абсолютная величина отличается от нуля более чем на 2-3 стандарта ошибки оценки, то задача линейной аппроксимации имеет решение, иначе – его нет.
2. Выбор подходящей меры расхождения и соответствующего метода приближения для получения наилучших (наиболее правдоподобных) оценок параметров модели при условии реальности линейной связи.
3. Оценка значимости (отличия от нуля) параметров модели для уточнения вида формулы линейной зависимости (2.1), которая может иметь вид (2.2), (2.3), (2.4) или (2.5).
4. Исследование согласия статистических распределений остатков модели и случайной составляющей исходных данных – необходимого условия соответствия модели регулярной составляющей.
Часто случайная составляющая исходных данных подчиняется нормальному закону с нулевым математическим ожиданием и оценивается согласие фактического распределения остатков с нормальным законом, его дисперсии с дисперсией случайной составляющей.
5. Проверка отсутствия нелинейного компонента в последовательности остатков подбираемой модели позволяет сделать вывод о линейности или нелинейности искомой истинной зависимости эмпирических данных.
Последовательность остатков (их зависимость от аргумента) при оптимальной аппроксимации, отвечая случайной составляющей, является случайной функцией.
Если регулярная составляющая эмпирических данных включает линейный и нелинейный компоненты, то последний из них при линейной аппроксимации переходит в остатки и проявляется не только в увеличении дисперсии, но и в последовательности остатков. Последовательность утрачивает свойства случайной функции: ее значения оказываются взаимосвязанными, то есть находятся в корреляционной связи, которая называется автокорреляцией.
Случайное поведение последовательности остатков, отсутствие в них автокорреляции и нелинейного компонента указывает на его отсутствие в регулярной составляющей исходных данных. Отсюда следует, что линейная модель адекватна истинной зависимости.
6. Адекватность линейной модели сущности искомой зависимости – необходимое условие оптимальной аппроксимации. К сожалению, даже большая сила линейной связи, согласие статистических распределений случайной составляющей и остатков, а также отсутствие в их последовательности нелинейного компонента являются необходимыми, но недостаточными условиями оптимальности линейной модели.
Дело в том, что на достаточно ограниченном интервале задания независимой переменной любые зависимости допускают как угодно точное линейное приближение, что не позволяет выявить отсутствие согласия статистических распределений случайной составляющей и остатков, а также нелинейного компонента в их последовательности.
Например, обсуждаемая эмпирическая зависимость (рис. 4) силы тока от сопротивления нагрузки на интервале более 180 Ом практически линейна и совпадает с истинной зависимостью – законом Ома (1). При этом абсолютная величина коэффициента корреляции превышает 0,91 и в последовательности остатков нелинейный компонент не прослеживается. Но отсюда, не следует, что искомая истинная зависимость является линейной.
Необходимым условием истинности линейной связи (и ее оптимальности) является адекватность сущности и математическим свойствам эмпирической зависимости. Практически это означает, что область определения и нулевые значения линейной модели должны соответствовать искомой истинной зависимости и их проявлениям в эмпирических данных, которые могут иметь своей асимптотой только саму аппроксимирующую прямую.
Формально подобранная линейная модель, не адекватная сущности истинной зависимости, не удовлетворяет этим условиям. В частности, линейное приближение силы тока имеет неприемлемую область определения переменных (от - до +), тогда как сопротивление нагрузки и сила тока (при одинаковой полярности источника) не могут быть отрицательными. Эмпирические данные на интервале более 200 Ом имеют тенденцию приближения к горизонтальной асимптоте, которая не совпадает с аппроксимирующей прямой. Следовательно, линейная модель не адекватна сущности эмпирической зависимости и не оптимальна, но на интервале аппроксимации пригодна для интерполяции значений зависимой переменной.
Примером оптимальной линейной модели является линейное приближение пути, как зависимости от времени, при движении с постоянной скоростью. Такое приближение, построенное на любом интервале, сохраняет смысл во всей области определения, адекватно сущности истинной зависимости (закону равномерного движения) и позволяет не только интерполировать, но и экстраполировать значения зависимой переменной.