
- •1. Введение в статистику связей случайных величин
- •1.1. Краткие сведения об используемых понятиях и терминах
- •1.1.1. Эмпирические данные
- •1.1.2. Стохастическая эмпирическая зависимость случайных величин
- •1.1.3. Математическая модель эмпирической зависимости и ее остатки
- •1.1.4. Зависимая и независимая переменные эмпирической зависимости
- •1.2. Основные методы построения стохастической зависимости
- •1.2.1. Корреляционный анализ
- •1.2.2. Регрессионный анализ
- •1.2.3. Меры расхождений и методы приближений
- •1.3. Задача аппроксимации и принципы оптимального решения
- •1.3.1. Постановка задачи аппроксимации эмпирической зависимости
- •1.3.2. Неопределенность и неоднозначность задачи аппроксимации
- •1.3.3. Оптимальное приближение эмпирической зависимости
- •2. Основы линейного приближения стохастической зависимости
- •2.1. Задача линейного приближения при парной связи
- •2.1.1. Виды математических моделей парной линейной зависимости
- •2.1.2. Неопределенность задачи построения линейной модели
- •2.1.3. Правила оптимального решения задачи линейной аппроксимации
- •2.2. Оценка реальности парной линейной связи и ее тесноты
- •2.2.1. Случайное рассеяние и неопределенность парной линейной связи
- •2.2.2. Корреляционное отношение – показатель тесноты связи
- •2.2.3. Ковариация – признак линейной стохастической связи
- •2.2.4. Коэффициент корреляции – показатель силы линейной связи
- •2.2.5. Коэффициент детерминации – показатель определенности связи
- •2.2.6. Интерпретация линейной корреляции
- •2.3. Методы определения параметров линейной модели
- •2.3.1. Суть и эффективность методов определения параметров модели
- •2.3.2. Максимально правдоподобные меры расхождения
- •2.4. Качество линейной модели эмпирической зависимости
- •2.4.1. Значимость и доверительные интервалы параметров регрессии
- •2.4.2. Доверительные интервалы линейной эмпирической зависимости
- •2.4.3. Дисперсия и доверительная область прогнозных оценок
- •2.4.4. Оценка адекватности линейной модели
- •3. Компьютерный практикум
- •3.1. Исходные данные для построения парной зависимости
- •3.1.1 Регулярная составляющая аукционных цен
- •3.1.1. Случайная составляющая аукционных цен
- •3.1.3. Линейное приближение зависимости и его приложения
- •3.2. Линейное приближение парной зависимости в Excel
- •3.2.1. Ввод данных
- •3.2.2. Оценка тесноты линейной связи
- •3.2.3 Построение регрессии процедурой вывода тренда на график
- •3.2.4. Вывод параметров линейной регрессии встроенными функциями
- •3.2.5. Оценки качества линейной модели
- •3.2.6. Оценка регрессии и ее качества встроенной функцией линейн
- •3.2.7. Применение процедуры Регрессия для линейной модели
- •3.6. Вопросы для самопроверки
2.2.6. Интерпретация линейной корреляции
Линейную стохастическую связь можно полагать реальной, если абсолютная величина коэффициента корреляции в 2-3 раза превышает стандарт оценки коэффициента.
Если это условие не выполняется, то есть величина коэффициента корреляции близка к нулю, то это указывает на отсутствие линейной связи, но не исключает нелинейной стохастической зависимости тех же переменных.
Значимая абсолютная величина коэффициента корреляции, в 2-3 раза превышающая стандартное отклонение оценки коэффициента, свидетельствует о значимом проявлении линейной составляющей стохастической связи, но не исключает более тесной нелинейной стохастической зависимости.
Стохастическая связь (линейная или нелинейная), если она реальна, сама по себе не указывает на причинно-следственную связь переменных, даже в случае надежного предсказания одной переменной по значениям другой. Требуются дополнительные основания для выяснения, какой из признаков является причиной другого.
Вследствие этого, корреляционные зависимости переменных принято подразделять на действительные (или истинные) и мнимые (или ложные).
Действительные (истинные) корреляционные связи вызваны причинными отношениями между зависимой и независимыми переменными:
– непосредственно, например, в зависимости Z – числа междугородних телефонных переговоров от X – количества АТС, то есть X Z;
– через промежуточные переменные (одну или несколько) – в примере выше это может быть число телефонов Y в АТС, то есть X Y Z.
Ложные (мнимые) корреляционные зависимости могут возникать между переменными, которые не находятся между собой в причинной связи:
– кажущаяся корреляционная связь проявляется между переменными, если они зависят от одной и той же третьей переменной, как в отмечавшейся ложной зависимости числа поселившихся аистов и рождений детей, вызываемой образованием новых семей и подворий;
– к кажущейся корреляционной связи переменных ведет их зависимость от взаимосвязанных переменных, например, зарплаты от возраста работающих, отражая причинную зависимость квалификации от стажа (зарплата определяется квалификацией, а стаж – возрастом);
– кажущаяся обратная связь существует между процентными значениями компонент, например, суммарного показателя Xi + Yi = 100 %, так как выполняется линейное уравнение регрессии Yi = 100 % – Xi с отрицательным коэффициентом корреляции (- 1) при любых i.
2.3. Методы определения параметров линейной модели
Если выполнение первого правила аппроксимации показывает, что линейная связь между переменными реальна, то построение для них линейной эмпирической зависимости имеет смысл. Для этого, следуя второму правилу оптимальной аппроксимации, необходимо подобрать наиболее эффективный метод определения параметров линейной модели.
2.3.1. Суть и эффективность методов определения параметров модели
Искомые параметры модели входят в выражение выбранной меры расхождений с исходными данными и ищутся из условия минимума меры. Отыскание точек минимума (параметров модели) составляет суть метода определения параметров.
1. Понятие меры расхождений модели с исходными данными является более широким по сравнению с мерой погрешностей в теории приближения функций. Это объясняется тем, что в теории приближения функций, рассматривающей точные значения аппроксимируемой функции, отклонения от них являются погрешностями аппроксимации, а при аппроксимации эмпирической зависимости ее расхождения с исходными данными определяются главным образом их случайной составляющей.
Иными словами, мера расхождений эмпирической зависимости значительно больше меры погрешностей и включает ее.
Хотя с математической точки зрения мера расхождений используется так же, как мера погрешностей, в качестве минимизируемой функции для определения параметров модели, результаты интерпретируются по-разному:
– в теории приближения функций минимизация меры погрешностей является методом приближения к заданной аппроксимируемой функции, причем сама минимальная мера погрешностей и остатки модели характеризуют точность такого приближения;
– при аппроксимации эмпирической зависимости минимизация меры расхождений является методом приближения к, вообще говоря, неизвестной регулярной составляющей исходных данных, а сама мера расхождений и остатки модели характеризуют в основном случайную составляющую самих исходных данных.
При аппроксимации эмпирической зависимости оптимальны мера расхождений и метод приближения, обеспечивающие адекватность случайной составляющей остаткам модели.
2. Меры расхождения и методы определения параметров моделей:
– наименьших квадратов (минимизируется сумма квадратов расхождений между моделью и исходными данными);
– наименьших степеней не второго порядка (минимизируется сумма степеней абсолютных расхождений между моделью и исходными данными);
– наименьших модулей (минимизируется сумма абсолютных расхождений между моделью и исходными данными);
– минимакса (равномерного приближения по Чебышеву), когда минимизируется максимальное расхождение между моделью и исходными данными.
3. Оптимизация последовательности остатков модели, предложенная Р.И. Дубовым, использует другой подход определения параметров модели. Подходящими считаются параметры модели, при которых достигается максимальное число пересечений отрезков, соединяющих смежные точки фактических данных (их чередований выше и ниже аппроксимирующего графика). Оптимальному приближению отвечает положение графика аппроксимирующей функции с максимальным числом чередований фактических данных (точек), расположенных выше и ниже графика.
4. Выбор подходящего метода определения параметров определяется максимальным правдоподобием соответствующей меры расхождений при предполагаемом распределении случайной составляющей исходных данных.
В математической статистике показывается, что максимально правдоподобные оценки параметров модели ближе к истинным по сравнению с полученными другими методами.
Принцип (метод) максимального правдоподобия позволяет получить асимптотически несмещенные, нормальные и эффективные оценки, исходя из чего, полагается эталонным.
Идея метода максимального правдоподобия состоит в расчете для выполненных наблюдений плотности вероятностей совместного распределения модели с возможными параметрами. Такая плотность распределения рассматривается как функция правдоподобия, а параметры, при которых она достигает максимума, называются оценками максимального правдоподобия. На практике иногда удобнее минимизировать не саму функцию правдоподобия, а ее логарифм, имеющего такую же точку максимума.