Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
методичка моделирование.doc
Скачиваний:
4
Добавлен:
24.11.2019
Размер:
874.5 Кб
Скачать

Задание для самостоятельной работы:

  • выберите один из показателей файла данных и проанализируйте его связи со всеми остальными показателями. Изучите диаграммы рассеивания в отношении вышеуказанных аспектов (выбросы, группы, характер связи).

  • дайте эколого-геологическую интерпретацию результатов - объясните, почему тот или иной участок изучаемого объекта обладает необычной комбинацией значений признаков, соответствует ли данный факт известным по представлениям о нем, объясните с геологических позиций обнаруженные связи или же их отсутствие.

  • постройте в отчете по лабораторной работе один из графиков, привлекший особое внимание своей необычностью.

4.2 Изучение связи между переменными: линейный коэффициент корреляции Пирсона

Перед исследователем часто возникает задача оценки силы связи между переменными. Анализ диаграммы рассеивания может дать полезную информацию о том, существует ли какая-либо закономерность в соотношении значений двух переменных, однако на ее основании бывает трудно сказать, насколько тесной является зависимость, а также является ли она значимой (то есть, существует не только в данной выборке как результат случайностей, но и в генеральной совокупности, из которой выборка извлечена). Кроме того, когда переменных много, затруднительно строить все возможные диаграммы. Таким образом, нам необходимо иметь возможность количественно оценить силу связи (прежде всего линейной) между двумя переменными. Для этой цели служит корреляционный коэффициент Пирсона – статистическая оценка вероятности линейной связи. Он построен таким образом, что его знак и величина характеризуют направление и тесноту линейной связи. Если связь (линейная!) между переменными отсутствует, этот показатель будет стремиться к нулю, если при изменении значений одной переменной значения второй также закономерно изменяются, абсолютное значение коэффициента корреляции будет отличаться от нуля, и тем больше, чем теснее связь между ними. При однозначном соответствии значений (случай так называемой полной или функциональной связи) коэффициент принимает значение +1,0, если связь прямая (чем больше X, тем больше Y) или -1,0, если связь обратная (чем больше X, тем меньше Y).

Наличие связи переменных - факт статистический. Для того, чтобы он стал фактом обоснованным, мы должны доказать, что корреляция существует не только в данной выборке, но и объяснить ее содержательно. Существует несколько возможностей интерпретировать обнаруженную корреляционную зависимость. В выборке присутствуют двумерные выбросы, которые приводят к смещениям в оценке связи. Устранение выбросов приводит к тому, что для оставшейся части наблюдений связь между переменными становится нулевой. Как обнаружить выбросы, вы уже знаете.

  1. Выборка фактически состоит из нескольких групп испытуемых, отличающихся друг от друга средними значениями одновременно по обоим переменным. Если анализировать связь переменных внутри каждой из групп, она приближается к нулю.

  2. Одна переменная есть причина второй. Причем часто можно спорить о том, что первично или вторично, то есть, X причина Y или наоборот, Y есть причина X. А может, они поочередно выступают то в качестве причины, то в качестве следствия?

  3. Обе переменные есть следствие одного общего источника, одной причины (такую общую причину называют еще фактором).

К сожалению, мы далеко не всегда в состоянии на основании только корреляционного анализа установить, как следует объяснить наблюдаемую связь. Чаще всего корреляционный анализ – только исходная точка для дальнейшего поиска правильных, экологически объяснимых результатов, источник для новых предположений и методов исследований, а не окончательный ответ.

Для вычисления корреляции в пакете SPSS следует в главном меню выбрать команду Analyze | Correlate | Bivariate. В появившемся диалоге перенести из левого списка в правый имена тех переменных, для пар которых необходимо вычислить корреляционные коэффициенты.

По умолчанию вычисляется коэффициент корреляции Пирсона (если требуется подсчитать непараметрические ранговые коэффициенты корреляции, следует установить флажок для коэффициента Спирмена или Кендалла). Критерий значимости по умолчанию двухсторонний (переключатель Test of Significance установлен в положение Two-tailed).

После щелчка по кнопке OK в окно результатов будет выведена так называемая "матрица интеркорреляций". Это симметричная квадратная таблица, в которой строками и столбцами являются указанные вами переменные, на пересечении строк и столбцов находятся корреляционные коэффициенты, объем выборки и уровень значимости (см. пример ниже)

- - Correlation Coefficients - -

A C E F

A 1.0000 .2716 .4121 .4602

( 78) ( 78) ( 78) ( 78)

P= . P= .016 P= .000 P= .000

C .2716 1.0000 .2361 .2848

( 78) ( 78) ( 78) ( 78)

P= .016 P= . P= .037 P= .011

E .4121 .2361 1.0000 .5706

( 78) ( 78) ( 78) ( 78)

P= .000 P= .037 P= . P= .000

F .4602 .2848 .5706 1.0000

( 78) ( 78) ( 78) ( 78)

P= .000 P= .011 P= .000 P= .

(Coefficient / (Cases) / 2-tailed Significance)

Приведена матрица интеркорреляций четырех показателей (A, C, E, F) файла исходных данных. Например, для связи показателей A и C в матрице имеем следующие данные (см. столбец A, строку C): коэффициент корреляции равен 0,2716, в скобках идет объем выборки - 78 наблюдений, третье число - уровень значимости полученной корреляции (P= .016). Уровень значимости, как и раньше, обозначает вероятность получить неправильные результаты, при условии требуемой 95% точности. Фактически он отвечает на вопрос: случайно ли отличается корреляция в выборке от нуля (когда она фактически равна нулю в генеральной совокупности). Практическое правило проверки гипотезы о наличии связи выглядит следующим образом:

  • если P оказывается меньше принятого критического уровня (0,05 или 0,01), то гипотеза об отсутствии связи в генеральной совокупности отвергается и мы говорим о значимой связи.

О значимости связи также говорит и величина коэффициента корреляции (первая строчка). Чем ближе он к 1,0, тем лучше вероятнее наличие связи в генеральной совокупности. В большинстве исследований при достаточно больших выборках (более 30 значений) значимыми считаются корреляции, начинающиеся с 0,5. В нашем примере значительной следует признать связь между показателями E и F: корреляционный коэффициент достигает значения 0,5706.

Данные полуколичественного спектрального анализа, которые наиболее часто используют в эколого-геологических исследованиях, могут быть отнесены к категории качественных. В этом случае есть основание предпочесть непараметрические методы исследования, в частности, ранговые коэффициенты корреляции (Спирмена или Кендалла). Далее аналогично предыдущему строим матрицу корреляционных связей показателей.

Анализируя полученную матрицу корреляционных связей, выделяем три группы:

  1. показатели, связанные значимой положительной связью;

  2. показатели, связанные значимой отрицательной связью;

  3. показатели, связанные незначимой связью.

Достаточно часто такое объединение связей помогает найти подходящее объяснение связей, исходя из общих свойств показателей, вошедших в отдельные группы. Например, по геохимическим свойствам в группу положительных связей могут войти только сидерофильные элементы, а в группу отрицательных связей – сидерофильные и литофильные. Если связи между элементами достаточно сложные в природных условиях изучаемого объекта, то большая часть связей между элементами окажется в группе незначимых.

Задание для самостоятельной работы:

  1. Изучите связи, которые существуют между всеми показателями исходного файла данных.

  2. Скопируйте корреляционную матрицу в файл отчета через буфер обмена.

  3. Дайте эколого-геологическую интерпретацию обнаруженным зависимостям - истолкуйте корреляции, объясните, почему они существуют, какова причина их возникновения. Если потребуется, воспользуйтесь диаграммами рассеивания, чтобы выбрать то или иное объяснение.

  4. Выделите три группы связей и попробуйте дать им общую интерпретацию.