Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
122
Добавлен:
28.04.2017
Размер:
5.83 Mб
Скачать

Результаты двухфакторного дисперсионного анализа

Варьирование данных

Сумма квадратов отклонений Θ

Степень свободы ν

Дисперсия σ2

Критерий Фишера

Fф

Fт

Общее по опыту

10,92

11

0,99

5,21

4,31

По фактору I

2,08

1

2,08

10,94

5,99

По фактору II

0,75

1

0,75

3,94

5,99

По взаимодействию факторов I и II

4,08

1

4,08

21,47

5,99

По повторностям

2,67

2

1,33

7,00

5,14

Остаточное

1,14

6

0,19

1,00

Исходя из анализа критерия Фишера можно заключить, что влияние исследуемых параметров на биомассу признается существенным в целом по опыту, по фактору I, по взаимодействию факторов и по повторностям, т. е. во всех случаях Fф > Fт. Действие фактора II на объект не доказано (Fф < Fт).

Оценку результатов эксперимента можно сделать по критериям НСР и Стьюдента. Для вычисления НСР и t находим ошибку среднего арифметического тМ всего опыта и ошибку разности средних тd по следующим формулам:

,

где п – численность меньшей из сравниваемых частных групп (в нашем примере обе группы одинаковы и равны шести). Произведем расчет необходимых показателей:

;

НСР = md · tт = 0,25 ∙ 2,45 = 0,61; νост = 6.

По критерию Стьюдента сравниваем средние" арифметические данных по осушенному и неосушенному агроландшафту:

.

Сравниваем также средние арифметические по метеорологическим условиям:

.

По прил. 4 критерия Стьюдента tт = 2,45 при Р = 0,95 для ν = 6.

Таким образом, на биомассу трав в агроландшафтах не влияет мелиорация (т. е. фактор II), так как tф = 2,0 < tт = 2,45 при Р = 0,95; метеорологические условия (фактор I) достоверно влияют на биомассу трав при Р = =0,95. Выводы, сделанные при использовании критериев Фишера и Стьюдента, совпадают.

В заключение обычно определяют точность опыта, которая равна:

p = (mM / Mобщ ) ∙100 = (0,1258 : 4,9) ∙100 = 2,56 %.

Точность опыта признается достаточно высокой, поскольку p < 3 %.

Если имеется необходимость, вычисляется коэффициент варьирования опытных данных:

, %.

Коэффициент варьирования опытных данных незначителен, что также удовлетворяет требованиям опыта.

Глава 3 кластерный анализ

При проведении географических исследований, как правило, возникает проблема объединения по сходству (кластеризация) объектов, которые характеризуются множеством признаков, выраженных в разных единицах измерения. Для этой цели используется кластерный анализ. Поскольку кластерный анализ занимается классификацией объектов, а факторный исследует связи между ними, то оба метода дополняют друг друга и между ними иногда трудно провести четкие границы.

Методологические особенности кластерного анализа сводятся к выявлению единой меры, охватывающей ряд исследуемых признаков. Эти признаки объединяются с помощью метрики (расстояния) в один кластер сходства группируемых объектов.

Состояние любого объекта может быть описано с использованием многомерного признака, или многомерной случайной величины (х1, х2,…, хn). Примером количественных признаков при зонировании территории города может служить площадь строений (х1), количество исторических памятников (х2), количество промышленных предприятий (х3) и т. д. Их можно объединить в один качественный признак – инфраструктурные условия города. Таким способом состояние любого объекта может быть описано с помощью многомерного признака.

Исследование нескольких аналогичных объектов (городов) обязывает проводить разбиение совокупности объектов на однородные группы, т. е. провести их классификацию по сходству признаков (х1, х2). Содержательная постановка задачи при кластерном анализе заключается в следующем. Имеется некоторая совокупность объектов, которые характеризуются рядом признаков. Объекты необходимо разбить на несколько кластеров (классов) таким образом, чтобы объекты из одного класса были сходными по характеризующих их признакам, например, сравнение ландшафтов, выявление сходных тенденций в развитии экономических субъектов.

В зависимости от специальности и природы используемых методов исследователи называют классификацию многомерных наблюдений как распознавание образов с учителем (численной таксономией), кластер-анализом без учителя, дискриминантным анализом.

Таксономические методы классификации объектов основываются на выделении групп объектов наиболее близких в многомерном пространстве. Для определения степени сходства объектов вычисляются таксономические расстояния между ними. Если исследователь имеет перед собой образы будущих групп – обучающие выборки, то группировка выполняется методом дискриминантного анализа. При отсутствии обучающих выборок используется кластерный анализ (В. В. Глинский, В. Г. Ионин, 1998). В отличие от дискриминантного анализа (С. А. Айвазян и др., 1984), отсутствие классифицированных обучающих выборок в кластерном анализе значительно усложняет решение задачи классификации.

При относительной формализации методов кластерного анализа они носят эвристический (теоретический) характер, реализуют принцип здравого смысла. Для оценки сходства объектов по ряду признаков используют три типа мер:

  • коэффициент подобия – для группировки объектов и признаков, если уровни показателей являются действительно целыми числами;

  • коэффициенты связи – чаще применяются для группировки признаков с использованием коэффициента корреляции;

  • показатели расстояния – характеризуют степень взаимной удаленности признаков и применяются в основном для кластеризации объектов; признаки объектов должны быть независимыми, что предварительно можно уточнить с помощью корреляционного анализа.

Многомерное наблюдение может быть интерпретировано геометрически в виде точки в многомерном пространстве. Геометрическая близость точек в пространстве означает близость физических состояний объектов, их однородность. Решающим в интерпретации остается выбор масштаба метрики, т. е. задание расстояния между объектами, которые объединяют или разъединяют объекты. В результате разбиения объектов на группы по сходству признаков образуются кластеры (таксоны, образы). Необходимость разбиений совокупности объектов на однородные группы возникает при проведении социально-экономических, землеустроительных, географических исследований и т. д.

Выбор метрики (меры близости) является важнейшим моментом исследования, который определяет окончательный вариант разбиения объектов на группы. Это зависит от цели исследования, физической и статистической природы вектора наблюдений (х), полноты априорных сведений о характере вероятностного распределения х.

В задачах кластер-анализа широко используются следующие метрики: Эвклида, Махаланобиса, Хемминга, меры близости задаваемые потенциальной функцией. Эвклидова метрика наиболее употребительна.

Обычно среднее Эвклидовое расстояние рассчитывается по формулам:

, (3.1)

где m – число признаков х; ,– стандартизированные значения признакаj для k и l объектов соответственно, или:

Если не учитывать число признаков х – m, формула примет вид:

dkl = (3.2)

Формула (3.2) менее объективна, так как не учитывает число признаков, количество которых может изменяться от трех и более.

Расчет упрощается, если в качестве метрики использовать l1-норму:

dkl = (3.3)

Эти метрики применяются в следующих случаях:

  • наблюдения х извлекаются из генеральных совокупностей, описываемых многомерным нормальным законом с ковариационной матрицей (совместное изменение двух признаков), где компоненты х взаимно независимы и имеют одинаковую дисперсию;

  • компоненты х1, х2, … , хр вектора наблюдений х однородны по своему физическому смыслу и все важны;

  • факторное пространство совпадает с геометрическим; понятие близости объектов соответственно совпадает с понятием геометрической близости в этом пространстве.

«Взвешенное» эвклидово расстояние определяется:

(3.4)

или

,

где Σ – ковариационная матрица генеральной совокупности, из которой извлекаются наблюдения Z; – некоторая симметричная неотрицательно-определенная матрица «весовых» коэффициентов , которая чаще всего выбирается диагональной; ΄ – штрих-символ операции транспонирования вектора;1 – обращение матрицы Σ.

Хемминга расстояние используется как мера различия объектов, задаваемых дихотомическими признаками (деление объекта на две составляющие):

. (3.5)

Обычно признаки заданы в виде набора нулей и единиц: 0, если ; 1, если.

Средним линейным отклонением оценивается расстояние между объектами по Хеммингу:

(3.6)

Таким образом, при решении задач классификации могут быть использованы разные меры сходства между объектами. Выбор метрики зависит от вида информации, характеризующей объекты в пространстве признаков и требует тщательного критического анализа.

Покажем на общих примерах основные приемы кластерного анализа. На основании данных, содержащихся в множестве х, необходимо разбить множество объектов I на т кластеров (подмножеств) так, чтобы каждый объект Ii принадлежал лишь одному подмножеству разбиения, а объекты, принадлежащие одному кластеру, были сходными. Объекты, принадлежащие разным кластерам, должны быть разнородными (несходными). В качестве объекта I рассмотрим п стран, каждая из которых характеризуется валовым национальным продуктом на душу населения (С1), природными условиями (С2), природными ресурсами (С3) и т. д. Тогда х1 (вектор измерений) представляет собой набор указанных характеристик (показателей) для первой страны, х2 – для второй, x3 – для третьей и т. д. Задача заключается в том, чтобы сгруппировать п стран по уровню развития с учетом природных факторов. Для выполнения поставленной задачи лучше подходит кластерный анализ, чем другие методы с использованием группировки.

При субъективном разбиении множества показателей на группы остается неизвестным, действительно ли такое разбиение оптимально. Еще не разработан удовлетворительный статистический критерий, который позволил бы оценить проведенное разбиение и принадлежность данного показателя к определенной группе. В практической работе исследователя это может привести к ошибке в таких сложных вопросах, как группировка ландшафтов, их классификация и районирование. Лишь проведение кластерного анализа на моделях с четкой структурой является наиболее объективным.

Число кластеров определяется в ходе разбиения имеющегося объема совокупности. При большом числе вариант в совокупности пользуются методом случайного отбора. Оптимальное число разбиений является функцией заданной доли оптимальных разбиений в множестве всех возможных. Общее рассеяние множества кластеров будет тем больше, чем выше доля допустимых разбиений. Находим необходимое число разбиений S в зависимости от значений вероятности Р и заданной доли допустимых разбиений в множестве всех возможных β (табл. 3.1).

Таблица 3.1

Соседние файлы в папке Матметоды в географии