
Задание № 6 Исследование взаимосвязи ряда переменных величин в гидрологии Общее описание
Цель работы
Изучить методы анализа связи гидрологических процессов, представленных рядами Y, X1 и X2, на основе математической модели множественной линейной корреляции.
Основные задачи
1. Исследовать связь процессов Y, X1 и X2 и определить ее характеристики на основе математической модели множественной линейной корреляции.
2. Оценить стационарность связи
3. Определить адекватность математической модели множественной линейной корреляции основным характеристикам рассматриваемой связи.
Исходные данные
- три временных ряда данных Y, X1 и X2 характеристик гидрометеорологических процессов, желательно каким либо образом связанных между собой, за совместный период наблюдений, продолжительностью не менее 40 расчетных единиц времени;
Содержание
1. Построить в поле декартовых координат график зависимости Y=f(X1, X2) методом контуров
2. Рассчитать коэффициенты корреляции и проанализировать связь между рядом Y и рядами X1 и X2 и между рядами X1 и X2, предварительно исключив из набора данных 1, 11, 21, 31 и 40 члены.
3. Исключить дублирующий и неэффективные аргументы, если они есть.
4. Определить параметры уравнения множественной линейной корреляции.
5. Оценить погрешности расчетов параметров уравнений регрессии и погрешности расчетов по уравнению регрессии.
6. Определить с помощью сводного коэффициента корреляции общую определенность ряда Y по отношению к рядам X. Найти доверительные интервалы сводного коэффициента корреляции..
7. Оценить стационарность связи Y=f(X).
8. Рассчитать по уравнению регрессии значения Y (y1, y11, y21, y31, y40), не включенные ранее в исходные данные, и сопоставить рассчитанные значения Y с фактическими значениями.
9. Сделать выводы о адекватности полученной математической модели характеристикам связи ряда Y с рядами X.
Теоретические положения
Математическая модель линейной множественной корреляции
Наряду с рассмотренными в предыдущей лабораторной работе парными связями Y = f(X) в гидрологических исследованиях часто встречаются ситуации, когда одна случайная величина - Y каким либо образом определена по отношению к множеству случайных величин, каждую из которых обозначим через Xj (j = 1, 2, …, m, m – число случайных величин X). Эта определенность используется для описания различных природных явлений и часто реализуется здесь в виде математической модели линейной множественной корреляции с независимыми нормально распределенными погрешностями и равноточными измерениями. Эта модель в ряде случаев позволяет провести полный статистический анализ исследуемого явления в его многофакторной связи с внешней средой. Такой анализ является основой для физической интерпретации и практического использования математической модели стока в расчетах и прогнозах.
Задачи исследования многофакторных связей обычно решаются в два этапа. На первом этапе определяется степень влияния каждого фактора Xj (j = 1, 2, …, m) на исследуемое явление Y. На втором этапе по известным функциям влияния каждого фактора определяются неизвестные значения исследуемого процесса.
При построении математической модели множественной линейной корреляции решаются следующие задачи:
1. Оценка тесноты связи между отдельными переменными X.
N
rhj =( ∑δxji δxhi )/(Nσj σh) , (6.1)
i=1
где rhj - коэффициент линейной парной корреляции между h и j переменной (h = 1, 2, … , m; j = 1, 2, … , m), m – число переменных X, δxhi и δxji – центрированные значения (отклонения от математического ожидания) h-ой и j- той переменной
δxji = xji – mj , δxhi =xhi -mh, (6.2)
mj , mh и σj и σh - соответственно математические ожидания и средние квадратические отклонения переменных, N- число совместных значений h и j переменной.
2. Оценка тесноты связи каждой из переменных X с переменной Y
N
r0h =( ∑δyi δxhi )/(Nσy σh) , (6.3)
i=1
где r0h -коэфициент линейной парной корреляции между переменной Y и переменной Xh (h = 1, 2, …, m).
3. Оценка общей связи исследуемого явления Y c переменными X по общему (сводному) коэффициенту корреляции
N
R0 =( ∑δyi δyiр)/(Nσy σyр) , (6.4)
i=1
где δyiр и σyр – рассчитанные по уравнению множественной корреляции значения Y и среднее квадратическое отклонение рассчитанных значений.
Сводный коэффициент корреляции, в отличие от парного коэффициента всегда является положительным и меняется в пределах от 0 до 1.
4. Определение структуры и параметров математической модели множественной линейной корреляции
m
δyiр = ∑ai δxji, (6.5)
j=1
где ai - коэффициент веса или влияния j – го аргумента на исследуемое явление. Уравнение множественной линейной корреляции позволяет по заданным значениям переменных Xj определить возможные значения Y.
При идентификации структуры математической модели множественной корреляции необходимо установить число независимых переменных, включаемых в модель, и сам набор этих переменных. Обычно на первом этапе, исходя из общих теоретических представлений или предположений о механизме физических явлений данного класса, определяется так называемый потенциальный набор переменных X, который может быть очень большим. Затем, исходя из объема сопоставляемых переменных, точности их определения, степени влияния на переменную Y, наличия общей информации с другими переменными X, производиться первичное отсеивание переменных. При этом из потенциального набора исключаются неэффективные и дублирующие переменные.
Неэффективными переменными считаются переменные, которые дают объем полезной информации, не превышающий по своей эффективности возможное увеличение погрешности расчетов по математической модели при их включении.
Для оценки эффективности учета h–ой переменной в уравнении регрессии необходимо оценить ее вклад δ в общую взаимосвязь
δh = r0hahσh/(R02σ0). (6.6)
Если
δh < 2σR0 / R0,, (6.7)
то аргумент Xh считается неэффективным и исключается из дальнейшего анализа.
Дублирующими переменными называются переменные X, имеющие высокий коэффициент корреляции.
Для повышения устойчивости определения коэффициентов веса необходимо исключить одну из дублирующих переменных. При этом в качестве критерия для определения дублирующих аргументов рекомендуется использовать выполнение следующего неравенства [ Ал]
rhj> 1 – 2 σr, j ≠ h (6.8)
Соотношение (6.8) не всегда достаточно оправдано, поэтому нами обычно рекомендуется считать переменные X дублирующими, если коэффициент корреляции между ними равен или больше 0,9.
Однако и после исключения неэффективных и дублирующих переменных число оставшихся потенциальных переменных может быть излишне велико, и не соответствовать объему имеющихся совместных наблюдений. Необходимо продолжить перебор оставшихся переменных с целью их уменьшения. Обычно в гидрологических исследованиях число переменных X не должно превышать 5 – 6, а чаще всего 3- 4. Этот перебор совершается различными методами, которые в достаточной степени освещены в литературных источниках.
Идентификация параметров математической модели множественной линейной корреляции, как и математической модели парной корреляции, производиться, исходя из принципа наименьших квадратов, основанном на предположении, что, при нормальном законе распределения оценка коэффициентов веса ai считается наилучшей, если средний квадрат разности между фактическими и рассчитанными значениями является наименьшим.
Исходя из этого принципа, получаем для определения параметров ai систему нормальных уравнений
r01 = α1 + α2 r12 + …+ αm r1m;
r02 = α1r12 + α2 + …+ αm r2m; (6.9)
. . . . . . . . . . . . . . . .
r01 = α1 + α2 r12 + …+ αm r1m;
где
αj = (σj/σy) /aj (6.10)
Для решения уравнения (6.9) используются точные (метод Гаусса, метод Крамера и др.) и приближенные (метод итераций, иначе метод последовательных приближений, и как его развитие – метод Зейделя) методы. . При расчете системы уравнений методом Крамера коэффициенты αj определяются по формуле
αj = D0j /D00 (6.11)
Отсюда с учетом формулы (6.7) получаем выражение для определения коэффициента веса в уравнении множественной линейной корреляции (6.5)
aj = (σy/σj)( D0j /D00), (6.12)
где D00 – главный определитель системы уравнений (6.9)
-
1
r12
r13
. . .
r1m
D00 =
r21
1
r23
. . .
r 2m
(6.13)
. . .
. . .
. . .
. . .
. . .
Rm1
Rm2
Rm3
. . .
1
D0j - определитель, получаемый заменой j-го столбца или j –ой строки определителя (6.13) вектором свободных членов (r01 , r02 ,…, r0m) системы уравнений (6.9). Например, определитель D02 записывается следующим образом
-
1
r01
r13
. . .
r1m
D02 =
r21
1
r23
. . .
r 2m
(6.14)
. . .
. . .
. . .
. . .
. . .
Rm1
R0m
Rm3
. . .
1
Подставляя выражение коэффициентов aj в уравнение (6.5) получаем расчетное уравнение
n
δyiр = ∑ (σy/σj)( D0j /D00) δxji, (6.15)
j=1
Следует отметить, что сводный коэффициент корреляции обычно оценивается по формуле
R0 = (1 – D0/D00)0,5 , (6.16)
полученной из формулы (6.3) путем не сложных преобразований. В формуле (6.16) D0 – расширенный определитель, получаемый из определителя D00 путем приписывании сверху и слева вектор строки и вектор столбца из коэффициентов корреляции r0j (1, r01 , r02 , … ,. r0m )
-
1
r 01
r02
r03
. .
r0m
r 01
1
r12
r13
. . .
r1m
D0 =
r02
r21
1
r23
. . .
r 2m
(6.17)
. .
. . .
. . .
. . .
. . .
. . .
r0m
Rm1
Rm2
Rm3
. . .
1
Обычно математическая модель линейной множественной корреляции реализуется на ЭВМ с помощью одного из целого ряда статистических пакетов (STATGRAPHICS, STADIA и др).
Для иллюстрации применения математической модели множественной корреляции ниже рассматривается простейший пример, когда переменная Y является функцией двух переменных X1 и X2 , Y = f(X1, X2). В этом случае определители D00, D01, D02 и D0 имеют следующий вид (см. формулы 6.13, 6.14 и 6.17):
|
1 |
r 12 |
|
|
D00 = |
|
|
= 1 - r122 |
(6.18) |
|
r 12 |
1 |
|
|
|
r01 |
r 12 |
|
|
D01 = |
|
|
= r01 –r02 r12 |
(6.19) |
|
r 02 |
1 |
|
|
|
1 |
r 01 |
|
|
D02 = |
|
|
= r02 - r01r12 |
(6.20) |
|
r 12 |
r02 |
|
|
|
|
|
|
|
|
1 |
r01 |
r02 |
|
|
|
|
|
|
D0 = |
r01 |
1 |
r 12 |
= 1- r122 - r012- r022+2 r 12 r01 r02 (6.21) |
|
|
|
|
|
|
r02 |
r 12 |
1 |
|
В этих формулах r01 , r02 - коэффициенты корреляции ряда Y с рядами X1 и X2, r12 – коэффициент корреляции рядов X1 и X2 . Отсюда формулы коэффициентов веса в данном случае могут быть представлены в виде
a1 = (σy/σ1)( r01 - r02 r12)/( 1 - r122 ) (6.22)
a2 = (σy/σ2)( r02 - r01 r12)/( 1 - r122 )
Оценка параметров математической модели множественной линейной корреляции по выборочным данным
Как отмечалось в предыдущей лабораторной работе расчеты по уравнениям регрессии всегда необходимо сопровождать оценкой погрешностей определения параметров и оценкой их устойчивости.
Первичный анализ результатов расчета на основе математической модели множественной корреляции производиться на основе точечных оценок параметров этой модели. При этом для оценки средней квадратической погрешности сводного коэффициента корреляции используется формула
σRo
= (1-R02)/(n-m-1)0,5
.
(6.23)
Средняя квадратическая погрешность весовых коэффициентов регрессии определяется по формуле
σaj = (σy/ σj) [(1-R02)/(n-m-1) (∆0j/D00)]0,5 (6.24)
где ∆0j -минор определителя D00, соответствующий его элементу rjj; получается вычеркиванием j -й строки и j -го столбца в определителе D00 .
Средняя квадратическая погрешность расчетов по уравнению множественной линейной корреляции оценивается по формуле
σ∆ ≈ σy (1 –R02)0,5 (6.25)
Практически точечная оценка параметров уравнения регрессии всегда отличается от истинного значения. В некоторых случаях важно иметь надежное представление о возможных границах, в которых с заданной вероятностью 1 - 2α находится действительное значение оцениваемого параметра, а также рассчитываемого значения Y. В этих случаях строятся доверительные интервалы:
сводного коэффициента корреляции При этом также как и для парного коэффициента корреляции доверительный интервал строиться или непосредственно по коэффициенту корреляции
R0 - tα σR0 ≤ R0 ≤ R0 + tα σR0 (6.26)
или с помощью преобразования Фишера (см. задание 5)
- tp
σz ≤ z
<
+ tp
σz ,
(6.27)
В практических приложениях доверительные интервалы коэффициентов
веса обычно строятся по упрощенной формуле
a - tα σα ≤ a ≤ a+ tα σa (6.28)
Точно также по приближенной формуле рассчитывается доверительный интервал действительных значений Y при данных значениях X
Yр - tασ∆ ≤ Y ≤ Yр + tασ∆ (6.29)
Анализ адекватности математической модели множественной линейной корреляции
В заключение исследования связей рассматриваемых процессов, производится анализ адекватности подобранной математической модели множественной линейной корреляции, то есть определяется насколько хорошо и в достаточной ли мере определяет эта модель характеристики связей, и может ли она использоваться на практике для определения ряда Y по рядам X.
При этом, как отмечалось в предыдущем задании, необходимо, прежде всего, учитывать соблюдение граничных условий применения этой модели [ ].
Как правило, гидрологические ряды не полностью соответствуют граничным условиям математической модели множественной линейной корреляции. Это обязывает нас, как можно более аккуратно подходить к проверке адекватности математической модели и в частности почти во всех случаях завершать эту проверку на независимом материале, то есть материале, не использованном при идентификации структуры и параметров модели.
Кроме того, любая математическая модель, в том числе модель множественной корреляции, становится адекватной и приобретает объективное содержание только при выполнении условий, перечисленных в предыдущем задании.
Например, в гидрологических прогнозах методика, основанная на той или иной математической модели, во многих случаях считается эффективной, если выполняются условия (5.38).
В гидрологических расчетах в соответствии с действующими нормативами математическая модель множественной линейной корреляции считается адекватной, если выполняются следующие условия:
/R0 / ≥ 0,7, /R0/σR0/ ≥ 2 , aj /σaj ≥ 2, n ≥ 10. (6.30)
Вообще говоря второе из этих требований автоматически выполняется при /r/ ≥ 0,7 и n ≥ 10.