Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Учебное пособие по АОЭИ Третьяков Кулеш.doc
Скачиваний:
5
Добавлен:
01.04.2025
Размер:
748.54 Кб
Скачать

Запись данных в файл

После того, как средствами Маткада выполнены интерполяция или сглаживание данных, часто возникает потребность экспорта результата во внешние файлы для последующего использования, например, в качестве параметров имитационных моделей. Для этого нужно поместить курсор на пустом месте рабочей области, затем в ниспадающем меню «Вставка» выбрать опцию «Компонент». В появившемся диалоговом окне выбрать «Чтение или запись файла», затем нажать кнопку «Next». Затем выбираем «Записать в файл» и нажимаем кнопку «Далее». В диалоговом окне «Мастера Чтения или Записи Файла» выбираем необходимый формат файла, устанавливаем имя создаваемого файла и папки, в которой он будет расположен. Последнее выполняется при помощи кнопки «Обзор». Далее в диалоговом окне «Write to File» можно скорректировать папку размещения, тип и имя файла, в который будут записаны результаты. Затем нажимаем кнопку «Сохранить»: возвращаемся в окно «Мастера Чтения или Записи Файла» и нажимаем кнопку «Готово». В рабочей области появляется прямоугольник с изображением дискеты вверху, ниже показано имя создаваемого файла без расширения. В нижнем левом углу этого прямоугольника располагается маленький чёрный прямоугольник, снизу и справа оконтуренный линией синего цвета. Это означает, что на место этого прямоугольника нужно ввести идентификатор того объекта, данные из которого будут записаны в файл. После этого файл записан. Внимание! Несмотря на то, что тип создаваемого файла определён, необходимо во время диалога задать его расширение. Если данные представляют собой матрицу или вектор, то их можно записать в файл формата Excel. В этом случае элементы матрицы (вектора) размещаются в ячейках таблицы Excel.

В тех случаях, когда результат должен использоваться в качестве числового ряда внешних данных имитационной модели, следует формировать текстовые файлы типов «Formatted Text», «Tab Delimited Text» и «Comma Separated Values». Если результирующий файл должен содержать значения только одного параметра, то следует записывать во внешний файл элементы вектора. В этом случае нет принципиальной разницы между разными типами текстовых файлов.

Зависимость между параметрами

Компоненты геосистем связаны между собой множеством прямых и обратных связей. Выявление этих взаимосвязей имеет важное научное и практическое значение. В качестве показателя тесноты взаимосвязи применяется коэффициент парной корреляции r, рассчитываемый по выражению: r = cov(x, y)/[σxy]. Здесь cov(x, y) – ковариация (второй смешанный момент), σ – среднее квадратичное отклонение.

n

cov(x, y)=1/n Σ (xi-mx)(yi-my)

i=1

mx, my – средние арифметические (оценки математических ожиданий) переменных X и Y. При практических расчётах вместо σ используется его несмещённая оценка, поэтому в приведённой формуле вместо 1/n следует использовать 1/(n-1). Если совместить эти два выражения, то:

_________________

n / n n

r = Σ [(xi-mx)(yi-my)] / √ Σ (xi-mx)2 Σ (yi-my)2

i=1 i=1 i=1

Коэффициент парной корреляции представляет собой эмпирическую меры линейной зависимости между переменными X и Y. Он может принимать значения от -1 до +1. Если коэффициент корреляции по модулю равен 1, то зависимость является функциональной. Знак «+» указывает на прямую зависимость, «-» - на обратную. Чем ближе модуль r к 0, тем слабее линейная зависимость. Зависимость может быть сильной, но нелинейной. В этом случае значение r может быть близким к нулю. Близкое к 1 значение абсолютной величины r отнюдь не является доказательством того, что параметры X и Y взаимосвязаны между собой. Они оба могут быть тесно связаны с каким-либо третьим параметром. Так, наверно со времен основания Санкт-Петербурга существует заблуждение, что проходящий по Неве ладожский лёд вызывает похолодание. На самом же деле причиной похолодания является северо-восточный ветер, только при котором ладожский лёд скапливается в Шлиссельбургской бухте и далее попадает в исток Невы. Зависимость между параметрами X и Y может быть функциональной или очень к ней близкой, но величина |r| часто оказывается при этом близкой к нулю, если X является лишь одним из многих параметров, влияющих на значение Y. В геоэкологии лишь в отдельных случаях можно говорить о независимых и зависимых переменных. Так, интенсивность солнечной радиации на верхней границе атмосферы является независимой переменной. В остальных случаях мы имеем дело с взаимным влиянием параметров друг на друга.

Сильная корреляционная зависимость позволяет по значениям одних переменных определять значения других. Так, для определения солёности морской воды нет необходимости в определении концентраций всех растворённых в воде веществ, достаточно лишь определить содержание ионов хлора. При сильной корреляционной связи можно построить регрессионную зависимость между переменными. В ряде случаев это позволяет по величине относительно просто прогнозируемого параметра получать значения трудно прогнозируемого. В практической деятельности бывает, что успешно используется сильная корреляционная зависимость, чёткого объяснения которой нет. Однако если не определена причина зависимости, то неизвестны пространственные и временные рамки возможного применения этой зависимости.

Уравнение линейной регрессии (y = ax + b) является надёжным, если выявленная зависимость величины Y от параметра X объясняет 50% и более разброса значений Y относительно оценки его математического ожидания. Зависимость между двумя переменными может использоваться для практических расчетов, если модуль коэффициента парной корреляции больше или равен 0.7. Смысл этого неравенства определяется значением квадрата коэффициента парной корреляции, так называемым коэффициентом детерминации. Коэффициент детерминации характеризует долю общего разброса относительно среднего значения (оценки математического ожидания), объясняемую регрессией. Если зависимость функциональна и точки относительно линии регрессии лежат без разброса, то весь разброс значений относительно среднего объясняется исключительно регрессией, т.е. r2 = 1. При r = 0.7 коэффициент детерминации r2 = 0.49  0.5. Следовательно, лишь при значениях r  0.7 имеет смысл использовать регрессионную зависимость. В противном случае значения параметра Y в большей степени зависят от других параметров, а не X.

Коэффициент детерминации – важный, но не единственный показатель надёжности уравнения регрессии. Существует ещё ряд статистических характеристик, позволяющих судить о точности полученного уравнения регрессии. Стандартная ошибка уравнения линейной регрессии yx). Эта величина характеризует среднеквадратическое отклонение точек от принятой линии регрессии.



/n

yx) =   (yi-f(xi))2 /(n-2)

i=1

где yi – наблюденная величина, f(xi) - величина, рассчитанная по уравнению регрессии, (n-2) – число степеней свободы, равное числу наблюдений минус число параметров, определяемых по эмпирическим данным. В случае линейной регрессии таких параметров 2: коэффициент регрессии a и свободный член b. Стандартную ошибку уравнения линейной регрессии можно также определить через коэффициент корреляции по выражению: _______________

yx) = y*  ((1-r2)(n-1))/(n-2), где y* - несмещенная оценка СКО для ряда Y. Иногда при практических расчетах пренебрегают

________

величиной  (n-1)/(n-2) и используют более простую формулу:

___

yx) = y* 1-r2.

Стандартная ошибка коэффициента парной корреляции (r):

___

r = (1-r2)/  n-1

При малой длине выборок (n<25) рекомендуется вводить в эту формулу поправочный коэффициент:

___ _____________________

r = [(1-r2)/  n-1 ] 1+(11 r2/2n)+(75r2-13)/2n2

Стандартная ошибка коэффициента регрессии a:

_______

/ n _

a = yx) /  ( xi-mx)2

i=1

Эту формулу можно представить в виде:

y* ___________

a =   (1- r2)/(n –1 )

x*

где y* и x* - несмещенные оценки СКО для рядов X и Y.

Стандартная ошибка свободного члена b:

_______________

/ n n _

b = yx)   ( xi)2/ n ( xi-mx)2

i=1 i=1

или  

b = y*   (1- r2)/(n –2)   1+(mx/x*)2

Уравнение регрессии можно рекомендовать для практических расчетов, если выполнены следующие условия: n10; |r|0.7; |r|/r  2; |a|/a  2. Желательным, но не обязательным является условие |b|/b  2.

При малых значениях параметрах b это требование почти никогда не выполняется. Следует учитывать, что истинное значение y, соответствующее аргументу x, будет отличаться от значения, полученного по уравнению линейной регрессии на некоторую величину i. При этом предполагается, что i является нормально распределенной случайной величиной с нулевым средним значением и среднеквадратическим отклонением yx).

Предлагаемая система оценок позволяет в большинстве случаев составить правильное представление о надежности полученного уравнения регрессии и принять решение о возможности его применения для практических расчетов. Однако иногда такого анализа недостаточно. В случае неравномерного распределения эмпирических точек добавление одной или двух точек может существенно повлиять на параметры уравнения регрессии. Основная причина возникающих трудностей состоит в том, что точки группируются крайне неравномерно. В подобных ситуациях следует провести расчет параметров уравнения регрессии с учетом и без учета «тяжелой» точки, и, если они существенно различаются, уравнение не следует использовать в качестве расчётного, по крайней мере, до тех пор, пока не появятся дополнительные данные. При этом дополнительные данные могут как подтвердить, так и опровергнуть гипотезу о наличии высокой корреляции между X и Y, но в любом случае решение будет более обоснованным.

Существуют по крайней мере две причины, по которым эмпирические точки могут группироваться очень неравномерно: 1) метод наименьших квадратов подразумевает, что ряды X и Y являются выборками из нормальных совокупностей, что обеспечивает примерно равное количество больших и малых значений, но асимметрия выборок исследуемых величин может быть весьма значительной, особенно при небольших n; 2) геоэкологи чаще всего работают в условиях так называемого пассивного эксперимента и не могут по своему усмотрению изменять независимую переменную. В результате всегда есть риск получить нерепрезентативные выборки, особенно если длина выборки недостаточно велика.

Коэффициент парной корреляции, определяемый по выборкам конечной длины, является случайной величиной. Если значение r не очень велико и длина выборки не превышает 40, то распределение выборочных коэффициентов корреляции хорошо аппроксимируется нормальным законом со среднеквадратическим отклонением r. В этом случае доверительный интервал для истинного коэффициента корреляции равен: r* - t1-r*  r < r* + t1-r*, где r* - выборочный коэффициент парной корреляции, t1- - квантиль стандартного нормального распределения, соответствующий двустороннему уровню значимости 2.

P-квантилем называется значение случайной величины xp, соответствующее заданному значению вероятности непревышения интегральной функции распределения F(x) = p. Квантиль – значение случайной величины, при котором интегральная функция распределения F(x) принимает заданное значение P.