Добавил:
nastia.sokolowa2017@yandex.ru Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Общая_климатологияКн1

.pdf
Скачиваний:
5
Добавлен:
20.02.2024
Размер:
10.41 Mб
Скачать

уровне значимости (не более 0,01). Но для науки, как правило, требуются люди с относительно большим риском I, т. е. «первооткрыватели».

Статистические критерии бывают односторонними и двухсторонними. Односторонний критерий применяется тогда, когда из каких-либо дополнительных соображений известен знак различия, например, среднее значение второй части временного ряда больше, чем первой части. Или одна генеральная совокупность имеет среднее значение больше, чем другая. В этом случае с помощью одностороннего критерия оценивают имеет ли место статистически значимое различие между средними значениями. Обычно же надо проверять и само различие, и его знак, поэтому чаще всего применяются двухсторонние критерии, как на рис. 3.12, когда заданный уровень значимости α делится пополам и ошибка 1 рода имеет место, как на правом, так и на левом краю распределения статистики критерия.

Мощность критериев

При принятии решения на основе статистического критерия надо помнить о существовании двух типов ошибок: 1-го и 2-го рода. Соотношение между этими ошибками, также, как и наличие распределений нулевой (Н0) и альтернативной (НА) гипотез, показано на рис. 3.13.

На рис. 3.13 слева показано распределение нулевой гипотезы, а справа – альтернативной. Если на основе статистического критерия получено его численное значение (TS), то возможны два решения. В том случае, если значение статистики достигает или превосходит критическое значение (TS*) при заданном уровне значимости (α), т. е. TS TS*, то нуль-гипотеза отклоняется и принимается альтернативная. Если же TS < TS*, то нет основания для отклонения нулевой гипотезы, т. е. она подтверждается. Как следует из соотношения двух распределений, чем меньше α, тем больше будет ошибка 2-го рода β. При этом риск II или вероятность принять неверную нуль-гипотезу, зависит:

- от объема выборки n и чем больше выборка, тем надежнее при данном уровне значимости α будет установлено различие между двумя генеральными совокупностями;

180

-от степени различия, например, расстояния между центрами генеральных совокупностей;

-от свойства критерия, которое называют мощностью критерия (power of a test) и которая равна 1- β, т. е. вероятности отклонения нулевой гипотезы, когда она фактически неверна и должна быть отвергнута.

Рис. 3.13. Мощность критерия

Мощность критерия – это вероятность попадания рассматриваемой статистики в критическую область, когда верна альтернативная гипотеза. Увеличение мощности статистического критерия зависит от двух обстоятельств.

1)Мощность критерия тем больше, чем больше информации в данных, которые используются при расчете статистики критерия. Например, при переходе от двухстороннего критерия к одностороннему мощность его увеличивается.

2)Мощность критерия тем больше, чем больше предположений сделано о распределении значений. Так, критерий, требующий нормальности распределения и однородности дисперсии, как правило, существенно мощнее критерия, не требующего этих предположений. Параметрический критерий обычно более мощный, чем непараметрический.

Кроме того, мощность критерия зависит от заданной меры различия между нулевой и альтернативной гипотезами, например, от заданного расстояния между вершинами распределений двух гипотез на рис. 3.13 (dH). Поэтому, чем меньше dH, тем больше

181

область перекрытия двух гипотез (β), тем меньше мощность критерия (1-β) и тем сложнее разделить две гипотезы. Если же расстояние между вершинами распределений большое, то и мощность критерия увеличивается. Во всех случаях мощность критерия увеличивается только при увеличении объема выборки, т. к. при этом уменьшается разброс относительно центров распределений за счет выборочности.

Три основных распределения выборочных статистик

К наиболее важным распределениям в области математической статистики относятся распределения Стьюдента, χ2 и Фишера. Они определяют соотношения между выборочными и генеральными значениями главных параметров распределения, к которым относятся средние значения и дисперсии.

В 1908 г. В.С. Госсет (1876–1937) доказал (под псевдонимом «Стьюдент», т. е. «студент»), что распределение отношения разности между выборочным средним (xср) и средним значением генеральной совокупности (µ) к стандартной ошибке среднего генеральной совокупности:

xср

 

/ n ,

(3.40)

где: σ – стандартное отклонение генеральной совокупности, n – объем выборки, только тогда подчиняется нормальному закону, когда σ является стандартным отклонением единичного значения от среднего генеральной совокупности.

На рис. 3.14 показана плотность вероятности распределения Стьюдента (Tk) и для сравнения с ним – плотность вероятности стандартизированного нормального распределения (N, µ = 0 и

σ = 1).

182

Рис. 3.14. Плотность нормального распределения и распределения Стьюдента

Как следует из рис. 3.14, максимум распределения Стьюдента меньше максимума нормального распределения (и уменьшается с уменьшением числа степеней свободы), а края распределения Стьюдента больше, чем нормального, т. е. вероятности на хвостах распределения выше.

Если параметр генеральной совокупности σ неизвестен, то в формуле (3.40) вместо него подставляется выборочное s и тогда такое распределение называется распределением Стьюдента или t- распределением. Распределение Стьюдента также, как и нормальное распределение, непрерывно, симметрично, колоколообразно, но в отличие от нормального, его форма зависит не от параметров, а от числа степеней свободы. Число степеней свободы для распределения Стьюдента равно ν = n – 1, где n – объем выборки. Поэтому, чем меньше число степеней свободы, тем больше отклонения t-распределения от нормального, и тем оно более пологое. При этом t-распределение быстро сходится к нормальному. Так при 5 степенях свободы 5% и 1% площади t-распределения лежат за пределами границ ±2,57 и ±4,03, а при 10 степенях свободы уже за пределами границ ±1,98 и ±2,62, т. е. близки к нормальному, для которого 5% и 1% площади распределения лежат за пределами границ ±1,96 и ±2,58. Ординаты t-распределения представлены в таблице для разного числа степеней свободы и уровней значимости, например, в «Практикуме по климатологии. Часть 1».

183

Еще одним важным распределением статистического оценивания является распределение χ2, открытое Хельмертом (1876) и Пирсоном (1900), которое рассматривает отношение выборочной и генеральной дисперсии. Если s2 – дисперсия случайной выборки объема n из генеральной совокупности с дисперсией σ2, тогда случайная переменная

2

 

(n 1)s 2

(3.41)

2

 

 

 

подчинена χ2 –распределению с числом степеней свободы ν = n

– 1. Область изменения случайной величины χ2 от 0 до +∞ и с ростом n χ2–распределение приближается к нормальному, и его форма также зависит только от числа степеней свободы. Дифференциальные кривые χ2–распределения при разных степенях свободы (k) приведены на рис. 3.15.

Рис. 3.15. Плотность χ2–распределения при разных степенях свободы (k)

Как следует из рис. 3.15, чем больше число степеней свободы, тем более пологой и симметричной становится асимметричная кривая распределения. Важным свойством χ2 –распределения яв-

184

ляется его аддитивность. Так, если две независимые величины распределены по закону χ2, со степенями свободы ν1 и ν2, то их сумма имеет χ2 –распределение со степенями свободы ν1 + ν2. Это свойство широко используется при проверке гипотез о сопряженности, например, известный критерий χ2, согласия предназначен для проверки соответствия эмпирического выборочного распределения аналитическому распределению генеральной совокупности.

Однако же самым популярным распределением, которое широко используется и в статистическом оценивании и в регрессионном анализе, является распределение Фишера или F- распределение, основанное на отношении выборочных дисперсий:

s 2

F 1 , s21>s22, (3.42)

s22

где F – случайная величина F-распределения со степенями свободы ν1 = n1 – 1. ν2 = n2 – 1, s21 и s22 – дисперсии независимых случайных выборок объема n1 и n2.

Плотность F-распределения при разных степенях свободы и с пределами изменения случайной величины от 0 до +∞ показана на рис. 3.16, где d1 и d2 – степени свободы. Таблицы с доверительными границами F-распределения для уровня значимости α = 5% и разного числа степеней свободы приведены в «Практикуме по климатологии. Часть 1» [2]. Распределение Фишера также лежит в основе дисперсионного анализа и обладает свойством «обратной симметрии» для статистики 1/F.

185

Рис.3.16. Плотность F–распределения при разных степенях свободы (d1 и d2)

3.2. Основные сведения из регрессионного анализа

Регрессионный анализ является одним из основных математических инструментов, применяемых в климатологии для получения эмпирических статистических зависимостей и взаимосвязей между разными климатическими характеристиками. Так, например, в практической климатологии и в методах прогнозов широко применяются региональные зависимости сумм осадков от высоты местности. При климатической обработке рядов наблюдений регрессионный анализ применяется при построении уравнений связи между многолетними рядами наблюдений за климатической характеристикой на рассматриваемой метеостанции и метеостанциях – аналогах для целей восстановления пропусков и увеличения продолжительности рядов наблюдений.

186

Линейная зависимость между переменными

Во многих экспериментальных исследованиях требуется определить, как изменения одной переменной влияют на другую. Например, даже не зная закона Ома, но изменяя и измеряя напряжение V в электрической цепи, и в соответствии с ним измеряя изменяющуюся силу тока I при неизменном сопротивлении R, можно установить, что между I и V существует прямо пропорциональная зависимость, график которой представляет собой прямую линию, проходящую через начало координат. В связи с тем, что измерения имею погрешности, точки на графике будут иметь случайный разброс относительно этой прямой. Этот разброс называется облаком или эллипсом рассеяния. Поэтому зависимость будет не функциональной, а статистической, как показано на рис. 3.17. Обычно по вертикальной оси Y откладывают ту переменную, которую надо определить, и она имеет название «зависимая переменная», «функция», «отклик». По горизонтальной оси откладывается переменная, которая обозначается X, на ее основе определяют Y и она соответственно называется «независимая переменная», «аргумент», «фактор». Если зависимость Y = f(X) имеет прогнозное значение, то X – это предиктор, а Y – предиктант.

Рис. 3.17. Статистическая зависимость между переменными

187

Мерой тесноты связи зависимости Y = f(X) является коэффициент корреляции R, который вычисляется по формуле:

n

(Yi Yср )( X i X ср )

R

i 1

 

 

 

 

 

 

,

(3.43)

 

 

 

 

 

 

 

 

 

(Y Y )2

( X

i

X

ср

)2

 

 

 

 

 

 

 

i ср

 

 

 

 

 

 

где: Yср, Xср – средние значения Y и X, n – объем выборки.

Коэффициент корреляции R при прямо пропорциональной зависимости между Y и X изменяется от 0 до 1, при обратно пропорциональной зависимости изменяется от 0 до –1. Коэффициент корреляции, определяемый по (3.43) называется коэффициентом корреляции Пирсона (корреляция моментов произведений) и справедлив для нормально распределенных переменных X и Y при условии прямолинейной связи между ними. Если связь не является прямолинейной, то требуется применить или функциональные преобразования X и Y, чтобы свести ее к линейной или использовать методы нелинейного регрессионного анализа [4]. В случае, если рассматривается зависимость между рангами или, по крайней мере, одна из переменных имеет порядковую шкалу или распределения X и Y не являются нормальными, то для оценки меры тесноты связи используется коэффициент ранговой корреляции Спирмена или Кендалла [3]. Примеры разных коэффициентов корреляции Пирсона при разной тесноте связи приведены на рис. 3.18. Для оценки статистической значимости коэффициента корреляции Пирсона применима практически та же таблица критических значений, что и для коэффициента автокорреляции, которая приведена, например, в «Практикуме по климатологии. Часть 1» [2].

На рис. 3.18 приведены четыре разные ситуации (группы данных) тесноты связи:

-отсутствие взаимосвязи между переменными (R = 0), когда зависимость Y = f(X) параллельна оси X и Y = Yср;

-слабая зависимость между переменными при R = 0,3, которая может и не быть статистически значимой;

188

-средняя зависимость между переменными при R = 0,6;

-очень тесная зависимость между переменными при R = 0,9.

Рис. 3.18. Коэффициент корреляции при разной тесноте связи между переменными

Коэффициент корреляции R не всегда однозначно и правильно характеризует тесноту взаимосвязи между переменными. На рис.3.19 показаны ситуации, в которых R не дает правильного представления о тесноте связи между Y и X.

189

Соседние файлы в предмете Климатология и метеорология