- •1. Введение в статистику связей случайных величин
- •1.1. Краткие сведения об используемых понятиях и терминах
- •1.1.1. Эмпирические данные
- •1.1.2. Стохастическая эмпирическая зависимость случайных величин
- •1.1.3. Математическая модель эмпирической зависимости и ее остатки
- •1.1.4. Зависимая и независимая переменные эмпирической зависимости
- •1.2. Основные методы построения стохастической зависимости
- •1.2.1. Корреляционный анализ
- •1.2.2. Регрессионный анализ
- •1.2.3. Меры расхождений и методы приближений
- •1.3. Задача аппроксимации и принципы оптимального решения
- •1.3.1. Постановка задачи аппроксимации эмпирической зависимости
- •1.3.2. Неопределенность и неоднозначность задачи аппроксимации
- •1.3.3. Оптимальное приближение эмпирической зависимости
- •2. Основы линейного приближения стохастической зависимости
- •2.1. Задача линейного приближения при парной связи
- •2.1.1. Виды математических моделей парной линейной зависимости
- •2.1.2. Неопределенность задачи построения линейной модели
- •2.1.3. Правила оптимального решения задачи линейной аппроксимации
- •2.2. Оценка реальности парной линейной связи и ее тесноты
- •2.2.1. Случайное рассеяние и неопределенность парной линейной связи
- •2.2.2. Корреляционное отношение – показатель тесноты связи
- •2.2.3. Ковариация – признак линейной стохастической связи
- •2.2.4. Коэффициент корреляции – показатель силы линейной связи
- •2.2.5. Коэффициент детерминации – показатель определенности связи
- •2.2.6. Интерпретация линейной корреляции
- •2.3. Методы определения параметров линейной модели
- •2.3.1. Суть и эффективность методов определения параметров модели
- •2.3.2. Максимально правдоподобные меры расхождения
- •2.4. Качество линейной модели эмпирической зависимости
- •2.4.1. Значимость и доверительные интервалы параметров регрессии
- •2.4.2. Доверительные интервалы линейной эмпирической зависимости
- •2.4.3. Дисперсия и доверительная область прогнозных оценок
- •2.4.4. Оценка адекватности линейной модели
- •3. Компьютерный практикум
- •3.1. Исходные данные для построения парной зависимости
- •3.1.1 Регулярная составляющая аукционных цен
- •3.1.1. Случайная составляющая аукционных цен
- •3.1.3. Линейное приближение зависимости и его приложения
- •3.2. Линейное приближение парной зависимости в Excel
- •3.2.1. Ввод данных
- •3.2.2. Оценка тесноты линейной связи
- •3.2.3 Построение регрессии процедурой вывода тренда на график
- •3.2.4. Вывод параметров линейной регрессии встроенными функциями
- •3.2.5. Оценки качества линейной модели
- •3.2.6. Оценка регрессии и ее качества встроенной функцией линейн
- •3.2.7. Применение процедуры Регрессия для линейной модели
- •3.6. Вопросы для самопроверки
2.2.4. Коэффициент корреляции – показатель силы линейной связи
Коэффициент корреляции k – ковариация при нормировании (хi – )/х и (yi – )/у:
. (2.11)
1. Коэффициент корреляции независимых случайных величин х и y равен нулю, так как в этом случае Cov (хi, уi) = 0. Случайные величины, для которых ковариация и коэффициент корреляции равны 0 линейно некоррелированы (линейно несвязанны).
Иными словами, если случайные величины независимы, то всегда
k = 0, (2.12)
но из того, что выполняется условие (2.12) не следует независимость случайных величин – можно говорить лишь об отсутствии между ними линейной связи (рис. 2.5).
Рис. 2.3. График y = х2
Пусть переменные связаны функциональной зависимостью y = х2, график которой приведен на рис. 2.5 ( ). Вследствие симметрии каждому отклонению по оси абсцисс от среднего со знаком плюс отвечает такое же отклонение со знаком минус с одними и теми же отклонениями от среднего ординат, поэтому математическое ожидание смешанных произведений в формулах ковариации (2.8) и коэффициента корреляции (2.12) равно нулю. Следовательно, k = 0, хотя переменные связаны функциональной зависимостью y = х2.
2. Коэффициент корреляции линейно связанных случайных величин х и y отличается от нуля (k 0), но находится в некоторых границах.
Существование границ коэффициента корреляции следует из дисперсии суммы зависимых случайных величин ух + хy. По определению их дисперсия
(2.13)
Поскольку дисперсия всегда положительна, то D(ух + хy) > 0. Из выражения (2.12) следует, что Cov(хi, yi) = ухk. С учетом этого из равенства (2.13) получается
1 k > 0 или –1 k 1. (2.14)
Таким образом, величина коэффициента корреляции находится в границах, определяемых неравенством (2.14). Как и для ковариации, знак k указывает:
– плюс – на возрастание линейной стохастической зависимости;
– минус – на убывание линейной стохастической зависимости.
Сами граничные значения k = 1 отвечают вырождению линейной стохастической зависимости в функциональную. В том случае, когда строго выполняется уравнение (2.1), то есть линейная зависимость является детерминированной, ковариация (2.9) определяется как
Cov(хi, уi) = M[(хi – )(yi – )] = M[(хi – )(ax + b – a – b)] = aM[(хi – )2] = a . (2.15)
Дисперсия линейной зависимости (2.1) составляет
D(ax + b) = M(ax + b – a – b) 2 = a2 . (2.16)
Так как ax + b = y, то D(ax + b) = , когда линейная зависимость детерминирована, и
у=|a|х, (2.17)
поэтому согласно формуле (2.11) с учетом выражений (2.15) и (2.16)
. (2.18)
Очевидно, k = 1 соответствует линейно возрастающей функциональной зависимости с угловым коэффициентом a > 0, k = –1 – линейно убывающей функциональной зависимости с угловым коэффициентом a < 0.
3. Коэффициенты корреляции, регрессии и корреляционное отношение при линейной зависимости взаимосвязаны.
При нормальном распределении зависимой переменной y коэффициенты регрессии в уравнении линейной зависимости (2.1) удовлетворяют условию наименьших квадратов (5):
U(a, b) = min, (2.19)
где сумма является функцией U(a, b) двух переменных (параметров a и b).
Из теоремы о необходимом и достаточном условии существования экстремума применительно к функции двух переменных U(a, b) следует система уравнений:
(2.20)
Решение системы уравнений (2.20) позволяет определить коэффициенты регрессии:
. (2.21)
. (2.22)
Коэффициент корреляции (2.11) может быть представлен как
. (2.23)
Из формул (2.21) и (2.23) следует связь коэффициентов регрессии и корреляции
, (2.24)
и, наоборот, коэффициент корреляции можно представить через коэффициент регрессии
. (2.25)
При линейной связи коэффициент корреляции равен корреляционному отношению, что следует из преобразований числителя выражения (2.7) с учетом соотношения (2.24):
(yi – axi – b)2 = (yi – axi – –a )2 = [(yi – ) – a(xi – )]2 = (yi – )2 –
– 2 a(xi – )(yi – ) + a2(xi – )2 = (n – 1) – 2a(n – 1)kху+ a2(n – 1) =
= (n – 1)[ – 2k + k2 ] = (n – 1) (1 – k2). (2.26)
Полученное представление (2.26) позволяет упростить выражения (2.7)
, (2.27)
следовательно, параметры линейной зависимости связаны:
R = . (2.28)
4. Доверительный интервал выборочного коэффициента корреляции требует оценки, так как величина k определяется по формуле (2.11) с использованием случайных значений зависимой переменной y. Следовательно, выборочный коэффициент корреляции k, также является случайной величиной, которая может отличаться от нуля, даже если между переменными нет корреляции. Отсюда возникает необходимость проверки гипотезы о значимости отличия выборочного коэффициента корреляции k от нуля.
В такой суженной, но практически важной постановке задачи можно принять, что математическое ожидание коэффициента корреляции равно нулю, и случайные отклонения k подчиняются зависящему от объема выборки n так называемому r – распределению с нулевым математическим ожиданием (рис. 2.4).
Рис. 2.4. Графики выборочных коэффициентов корреляции, как функций достоверности (вероятности) линейной связи в выборках объемом от 5 до 80 вариант (согласно r – распределения)
Из графиков (рис. 2.4) видно, что с обычно принимаемой вероятностью 0,95 линейная связь может полагаться значимой при абсолютных значениях выборочного коэффициента корреляции не менее 0,183 в выборке объемом 80 вариант; 0,257 – в случае 40 вариант; 0,360 – в случае 20 вариант и т.д.
При малом объеме выборки (около 5 вариант) даже значительный выборочный коэффициент корреляции |0,66| не является достоверным признаком реальности связи (рис. 2.4).
В выборках с более чем 20 вариантами доверительный интервал выборочного коэффициента корреляции k можно оценить по его среднеквадратичному отклонению sk
(2.29)
от нулевого математического ожидания.
Для сравнения в таблице 2.1 при разных объемах выборок n приведены допустимые абсолютные отклонения выборочного коэффициента корреляции k0,95, отвечающие достоверности линейной связи 0,95 и удвоенные среднеквадратичные отклонения sk, рассчитанные по формуле (2.29).
Таблица 2.1
Оценки доверительного интервала k при достоверности линейной связи 0,95
n |
5 |
10 |
20 |
40 |
80 |
k0,95 |
0,67 |
0,50 |
0,36 |
0,26 |
0,18 |
2 sk, |
0,49 |
0,48 |
0,39 |
0,30 |
0,22 |
Из таблицы 2.1 видно, что в выборках объемом 10 вариант и более удвоенные среднеквадратичные отклонения sk, рассчитанные по формуле (2.17), приближенно соответствуют допустимым абсолютным отклонениям выборочного коэффициента корреляции k0,95 (при достоверности линейной связи 0,95).
Величина k – 3sk (уменьшение на утроенный стандарт) может рассматриваться как гарантированный минимум, а величина k + 3sk (увеличение на утроенный стандарт) – как гарантированный максимум оценки коэффициента корреляции с достоверностью линейной связи около 0,98.