Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ЛАБ_РАБ5.doc
Скачиваний:
0
Добавлен:
01.05.2025
Размер:
599.55 Кб
Скачать

115

Задание № 5 Исследование взаимосвязи двух переменных величин в гидрологии Общее описание

Цель работы

Изучить методы анализа связи гидрологических процессов, представленных рядами Y и X, на основе математической модели парной линейной корреляции.

Основные задачи

1. Исследовать связь двух процессов Y и X и определить ее характеристики на основе математической модели парной линейной корреляции.

2. Оценить стационарность связи

3. Определить адекватность математической модели парной линейной корреляции основным характеристикам рассматриваемой связи.

Исходные данные

- два временных ряда данных Y и X характеристик гидрометеорологических процессов, желательно каким либо образом связанных между собой, за совместный период наблюдений, продолжительностью не менее 40 расчетных единиц времени;

Содержание работы

1. Построить в поле декартовых координат график зависимости Y=f(X).

2. Определить параметры уравнения регрессии Y по X и X по Y, предварительно исключив из набора данных 1, 11, 21, 31 и 40 члены ряда.

3. Оценить погрешности расчетов параметров уравнений регрессии и погрешности расчетов по уравнению регрессии.

4. Определить доверительные интервалы коэффициента корреляции и уравнения регрессии.

5. Оценить стационарность связи Y=f(X).

6. Определить по значениям X, не включенным в исходные данные при оценке параметров уравнения регрессии (х1, х11, х21, х31, x40), значения Y и сопоставить их с фактическими значениями

7. Сделать выводы о адекватности полученной математической модели характеристикам связи рядов Y и X.

Теоретические положения

Математическая модель линейной регрессии

В гидрологических исследованиях большое внимание уделяется анализу взаимосвязей между различными природными процессами, определяющими общий фон гидрологического режима исследуемых объектов.

Гидрологические процессы формируются цепью причинно следственных связей, изменяющихся во времени и пространстве. Для изучения этих процессов необходимо установить их причины, движущие силы или источники и тенденцию развития. Именно при этом возникает необходимость в исследовании зависимостей, связывающих рассматриваемые процессы между собой и с другими процессами и явлениями.

Связь исследуемых процессов оценивается по соответствию изменений их значений во времени или пространстве. Эта связь может быть линейной или нелинейной, более или менее тесной. По тесноте связи, или иначе, степени определенности одного из сопоставляемых процессов относительно другого, связи природных процессов, если они есть, могут быть разделены на функциональные и стохастические.

Функциональными связями между процессами Y и X называются такие связи, когда каждому значению X соответствует только одно возможное значение Y.

Для описания линейной функциональной связи Y=f(X) или X=f(Y) может быть использовано уравнение прямой линии

Y = a X + b (5.1)

или

X = a, Y + b, (5.2)

Параметры этих линий легко определяются по двум точкам связи. Сами эти линии в случае функциональной связи совпадают.

Стохастическими (вероятностными) связями называются такие связи, когда каждому значению X соответствует определенное множество значений Y.

Для исследования линейных стохастических связей природных процессов или явлений чаще всего используется математическая модель линейной регрессии. Исследование состоит из двух этапов:

-выявление на основе большого количества наблюдений изменений переменной Y в зависимоcти от изменения переменной X. (В гидрологических прогнозах и расчетах Y часто называют предиктантом, а X – предиктором). При этом определяется форма и находится уравнение связи двух переменных.

- определение степени взаимосвязи исследуемых переменных (если это связь сопряженности) или степени влияния X на Y (если эта связь носит причинно-следственный характер).

В данном случае при решении первой задачи форма связи принимается линейной. Поэтому в основе уравнения связи лежат уравнения прямой линии (5.1) и (5.2), параметры которых a, а, и b, b, устанавливаются на основе принципа наименьших квадратов :

a = ∑ δyi δxi/∑ δxi2 , (5.3)

а, = ∑ δyi δxi/∑ δyi2 , (5.4)

b = my - amx., (5.5)

b, = mx – a, my , (5.6)

где δyi и δxi - центрированные значения случайных величин Y и X:

δyi = yi – my , δxi = xi – mx , (5.7)

my и mx - математические ожидания этих рядов.

Подставляя значения параметров a, а, и b, b в уравнения (5.1) и (5.2) получаем уравнения регрессии Y по X и X по Y :

δyi =( ∑ δyi δxi / ∑ δxi2) δxi , (I =1, 2, … , N), (5.8)

δxi =( ∑ δyi δxi / ∑ δyi2) δyi , (I =1, 2, … ,N), (5.9)

описывающие соответствующие линии связи.

Второй задачей исследования математической модели линейной регрессии является определение тесноты связи исходных рядов. Для этого чаще всего используется коэффициент корреляции, служащей мерой разброса точек связи (y,x) относительно линии регрессии

ryx = ∑ δyi δxi/N/ (σy σx), (5.10)

где σy и σx - средние квадратические отклонения рядов Y и X.

Если все точки связи ложатся на линию регрессии и каждому значению X в поле графика Y=f(X) соответствует одно единственное значение Y , то есть связь является функциональной, то коэффициент корреляции равен 1. Если каждому значению X соответствует весь возможный диапазон значений Y, то есть связь отсутствует, коэффициент корреляции равен 0.Если Y возрастает с увеличением X, то коэффициент корреляции положительный, если уменьшается - то отрицательный. Таким образом, все возможные значения коэффициента корреляции находятся в пределах

-1 ryx ≤ 1 (5.11)

Подставляя выражениеδyi δxi через коэффициент корреляции по формуле (5.10) в формулы (5.3), (5.4) и (5.8), (5.9) получаем следующие формулы параметров а , а, и уравнений регрессии, часто используемые на практике

a = ryxy/ σx) (5.12)

a, = ryxx / σy) (5.13)

δyi = ryxy/ σx) δxi , (I =1, 2, … , N), (5.14)

δxi = ryxx/ σy) δyi , (I =1, 2, … ,N). (5.15)

Оценка параметров математической модели линейной парной корреляции по выборочным данным

Параметры уравнения регрессии в практических расчетах определяются по выборкам и, естественно, что они носят выборочный характер и могут использоваться лишь как более или менее достоверные оценки действительных значений.

Формулы расчета по выборочным данным аналогичны формулам (5.3 – 5.10). Отличие заключается в том, что вместо действительных значений my , mx , σy, σx, δyi, δxi, ryx в названные формула вводятся выборочные значения этих характеристик x, y , x, x, y, δyi, δxi , yx и др. Поэтому расчеты по уравнениям регрессии всегда необходимо сопровождать оценкой погрешностей определения параметров и оценкой их устойчивости.

Оценка коэффициента корреляции производится разными методами в зависимости от величины коэффициента корреляции.

При yx <0,5 или/и n > 30 оценка производится следующим образом. Определяется средняя квадратическая погрешность коэффициента корреляции:

. (5.16)

По значению определяется доверительный интервал, в котором с заданной вероятностью p = 1-α, где α - двусторонний уровень значимости, находится действительное значение коэффициента корреляции,

yxt α < ryx < yx + t α , (5.17)

где t α - статистика Стьюдента ( см.задание 4) при двухстороннем уровне значимости .

При малых значениях коэффициента корреляции возникает вопрос о реальности связи вообще, то есть вопрос о том являются ли полученные коэффициенты корреляции значимыми и не объясняются ли они случайностями выборок. Обычно этот вопрос решается на основе нулевой гипотезы относительно рассматриваемой связи H0 : r = 0. Оценка гипотезы производится по выборочному коэффициенту корреляции . Для этого в соответствии с формулой (5.17) строится критическая область нулевой гипотезы

| rα| > t α (5.18)

при уровне значимости α. Если полученное выборочное значение окажется в критической области то гипотеза о равенстве действительного значения коэффициента корреляции нулю опровергается, то есть связь является значимой.

Если yx ≥ 0,4 или/и n ≤ 30 то для оценки коэффициента корреляции и его доверительного интервала используется преобразование Фишера:

r =th z, (5.19 )

где th zгиперболический тангенс z.

Отсюда

z = ln[(1+r)/(1-r)]/2. (5.20)

Распределение статистики z почти не зависит от r и n и с возрастанием n быстро приближается к нормальному со средним значением

z = ln[(1+r)/(1-r)]/2 +r/[2(n-1)] (5.21)

и дисперсией

σz2 = 1/(n-3). (5.22)

Зная z можно построить доверительный интервал значений z и затем коэффициента корреляции r при двухстороннем уровне значимости

- tp σzz < + tp σz , (5.23)

где - выборочное значение z, полученное по выборочному коэффициенту корреляции (см. формулу 5.20), tp - нормированная ордината нормального закона распределения при обеспеченности P =1 -2 α. Определив граничные значения z в левой и правой части (5.23) ( zн и zв ), можно по формуле (5.19) определить верхнюю и нижнюю границу доверительного интервала коэффициента корреляции.

При ручном счете переход от к z и обратно является довольно трудоемким процессом. Поэтому он совершается обычно по таблицам (приложения 11 и 12) или по графикам (рис.7.7, [1]). При расчете на ЭВМ определение z по r или r по z производится непосредственно по формулам (5.19) и (5.20), которые включаются в алгоритм программы.

Оценка возможных погрешностей определения параметров a и b уравнения регрессии, производиться обычно по средней квадратической погрешности

(5.24)

(5.25)

а доверительные интервалы значений a и b определяются по формулам:

- tp ≤ a < + tp (5.26)

- tp ≤ b < + tp (5.27)

Фактические значения Y могут существенно отклоняться от оценок, полученных по уравнению регрессии. При этом, чем меньше теснота связи, тем больше могут быть эти отклонения. Таким образом, оценка Y по X на основе уравнения регрессии всегда сопровождается погрешностями, во-первых, за счет аппроксимации стохастической связи прямой линией, во-вторых, за счет выборочности исходных данных, вследствие чего все параметры уравнения регрессии определяются с теми или иными погрешностями. Для оценки погрешностей по уравнению регрессии обычно определяется средняя квадратическая погрешность расчетов за счет разброса точек относительно аппроксимирующей линии связи.

(5.28)

В некоторых случаях, когда требуются более точные расчеты, при определении погрешности определения Y по уравнению регрессии учитывается также погрешность аппроксимации стохастической связи прямой линией. Для этого используется более общая и более точная формула

, (5.29)

где t – нормированное значение x.

На основе формул (5.28) и / или (5.29) может быть поcтроен доверительный интервал уравнения регрессии в поле графика Y= f(X) соответственно по формуле

- tασΔ < y < + tασΔ , (5.30)

или с учетом погрешности аппроксимации связи прямой линией

- t α < y + t α . (5. 31)

Следует отметить, что формула (5.31) фиксирует увеличение доверительного интервала с увеличением отклонения значений X от mx, то есть тот факт, что с увеличением отклонения X от математического ожидания оценка Y по уравнению регрессии становится менее точной.

Одним из основных условий возможности применения уравнения регрессии в практических расчетах является стационарность связи.

Проверка этого условия представляет известные трудности, поэтому чаще всего не проводится. Между тем, уже неоднократно встречались случаи, когда связи установленные по имеющимся рядам наблюдений с течением времени весьма значительно менялись, вплоть до изменения знака связи. В настоящее время для проверки стационарности связи чаще всего используется метод, основанный на сопоставлении параметров уравнения регрессии по различным выборкам из имеющихся рядов наблюдений и проверки их равенства, исходя из нулевой гипотезы, допустим:

H0: r1 = r2 (5.32)

где r1 и r2 – действительные значения коэффициентов корреляции по первой и второй части совместного периода наблюдений Y и X. Оценка гипотезы в этом случае производится с помощью критерия Стьюдента. Если значение статистики окажется меньше критического при данном уровне значимости, то гипотеза не опровергается. В противном случае гипотеза опровергается.

При r < 0,4 и / или n < 30 оценка статистики производится непосредственно по коэффициенту корреляции

, (5.33)

где – среднее квадратическое отклонение разности выборочных коэффициентов корреляции, рассчитанных по первой и второй части совместного периода наблюдений

= ( 2 + 2 )0,5 (5.34)

При других значениях r и n для расчета статистики используется преобразование Фишера. В этом случае

= ( 1 - 2)/ (5.35)

где – среднее квадратическое отклонение разности выборочных значений :

= ( 2 + 2 )0,5 =(1/(n1-3)+ 1/(n2-3))0,5. (5.36)

при равенстве продолжительности периодов наблюдений определяется по формуле:

σz (5.37)

Анализ адекватности математической модели линейной парной корреляции

В заключение исследования связи рассматриваемых процессов обычно проводится анализ адекватности подобранной математической модели линейной парной корреляции, то есть определяется насколько хорошо и в достаточной ли мере определяет эта модель характеристики связи между рядами Y и X, и может ли она использоваться на практике для определения Y по X.

Здесь следует отметить, что понятие адекватности нередко подменяется понятием значимости связи Y=f(X). Однако значимость связи Y с X еще не означает, что ее использование может дать достаточно полное описание процесса Y [ ].

Любая математическая модель, в том числе модель парной корреляции, становится адекватной и приобретает объективное содержание только при выполнении, как минимум, следующих условий:

- представления, составляющие априорное содержание модели, должны быть связаны определенными соотношениями с объективными характеристиками изучаемого объекта.

- должна быть разработана и использована четкая процедура проверки справедливости системы умозаключений, следующих из данной математической модели.

- должна быть обеспечена определенная степень согласованности между результатами, полученными при экспериментировании с объектами, и соответствующими значениями, вычисленными или снятыми с модели.

- должно быть определенное соответствие между предсказаниями на основе математической модели и реальным поведением объекта.

Если первые два условия формулируются и проверяются специалистами в той или иной области для решения конкретной задачи и могут иметь самые различные алгоритмы проверки, то остальные условия формулируются и проверяются на основе статистических методов. Однако и в этом случае условия адекватности во многом определяются конечной целью исследования. Поэтому в каждой области исследования могут быть выдвинуты свои критерии выполнения условий.

Например, в гидрологических прогнозах методика, основанная на той или иной математической модели, в том числе на математической модели линейной парной корреляции, во многих случаях считается эффективной (адекватной), если выполняются следующие условия [ ]

σ /σ ≤ 0,70, n ≤ 15

σ/σ ≤ 0,75, 15 < n < 25 (5.38)

σ /σ ≤ 0,80, n ≥ 25,

где σ – средний квадрат отклонений значений, рассчитанных на основе уравнения регрессии, - yрi от фактических - yi ,определяется или по формуле

(5.28) или непосредственно по формуле

S = [∑(yрiyi)2/ (n-1)] 0,5; (5.39)

σсреднее квадратическое отклонение ряда предиктанта, n – период совместных наблюдений.

В гидрологических расчетах в соответствии с действующими нормативами математическая модель парной корреляции может использоваться при решении ряда задач, если /r/ ≥ 0,7.

В последнее время в целях более объективного анализа адекватности той или математической модели большое внимание уделяется проверке выполнения четвертого из названных выше условий. Эта проверка производиться на независимых материалах, то есть материалах, не использованных при идентификации структуры и параметров модели.

Следует отметить, что для линейных связей коэффициент корреляции функционально связан с отношением дисперсии погрешностей расчетов (DΔ) к дисперсии исходного ряда (D) или с отношением дисперсии ряда, рассчитанного по уравнению регрессии (Dy/x ), к дисперсии исходного ряда [ ]

r2 = 1 - DΔ/ D (5.40)

r2 = Dy/x/ D (5.41)

Если связь нелинейная, то эти равенства нарушаются, и несоответствие коэффициента корреляции и отношений указанных дисперсий может служить хорошим признаком нелинейности связей.

В практике гидрологических расчетов отношение DΔ/ D называется критерием случайности, а отношение Dy/x/ D – критерием детерминации.