Факторный анализ
Задачами факторного анализа являются сокращение числа исходных переменных (редукция данных) за счет выделения новых, а также их объяснение (интерпретация). На практике подобные задачи могут возникать при изучении массивов данных с большим количеством переменных (признаков), например, характеристик типов леса, повреждений насаждений, приживаемости лесных культур, признаков дешифрирования.
В
основе факторного анализа лежит гипотеза
о том, что множество наблюдаемых признаков
(i = 1…k) для N объектов, коррелированных
между собой, можно описать в виде линейной
комбинации новых переменных - факторов
(
j = 1…m)
,
где
–
характерный
фактор, действующий только на признак
.
Дисперсия
-
го признака будет равна
,
где
–
факторная
дисперсия,
–
остаточная
дисперсия.
Каждый фактор может быть представлен в виде комбинации признаков:
,
где
j – константа.
Выполнение факторного анализа включает ряд последовательных операций: анализ близости распределения значений признаков к нормальному, корреляционный анализ признаков1, непосредственно факторный анализ. Процедура анализа состоит из определения количества новых переменных (факторов) объясняющих большую долю изменчивости исходных данных, оптимизации факторных нагрузок (вращения), объяснения роли факторов. На основе полученных линейных уравнений и значений факторов возможна
классификация объектов. Результаты анализа будут зависеть от метода факторного анализа, методов оптимизации (вращения осей) факторных нагрузок.
Факторный анализ
Кластерный анализ
Цель кластерного анализа - группировка изучаемых объектов по их признакам в группы (кластеры). В основе анализа лежит определение расстояний между объектами в пространстве. Кластерный анализ в лесном хозяйстве может применяться для классификации объектов (опытных участков, ландшафтов, делянок) по многим признакам (продуктивности, структуре древесных пород, типам леса, оценкам качества лесовосстановления, ведения хозяйственной деятельности).
Кластерный анализ часто используется на описательной стадии исследования тогда, когда отсутствуют какие-либо предположения относительно будущих групп. При изменении методов группировки, мер расстояния, числа групп возможны разные результаты.
Методы объединения объектов в кластеры:
Одиночная связь (Nearest Neighbor). Два объекта, между которыми существует минимальное расстояние, помещаются в первый кластер, затем к ним присоединяются следующие, ближайшие к ним. Процесс повторяется до тех пор, пока все объекты не будут сгруппированы в кластеры.
Полная связь (Furthest Neighbor). В этом методе используется максимальное расстояние между объектами.
Невзвешенный центроидный метод (Centroid). Расстояние между двумя кластерами определяется как расстояние между их центрами тяжести. Используется исключительно для количественны данных.
Взвешенный центроидный метод (Median). Метод идентичен невзвешенному центроидному методу, за исключением того, что при вычислениях используются веса для учёта разницы между размерами кластеров (т.е. числами объектов в них). Этот метод приводит к комбинации кластеров, имеющих небольшие отклонения (разницу) и может формировать кластеры с близкими отклонениями.
Попарное среднее (Group Average). В этом методе расстояние между двумя кластерами определяется как среднее расстояние между всеми парами объектов в них.
Метод Варда (Ward’s). При использовании данного метода минимизируется сумма квадратов отклонений для любых двух кластеров, которые могут быть сформированы на каждом шаге. При этом методе формируются примерно одинаковые по размерам кластеры.
Метод K-средних (K-Means). Строится заданное количество различных кластеров, расположенных на возможно больших расстояниях друг от друга по принципам минимальной изменчивости внутри кластеров, и максимальной изменчивости между кластерами.
Способы определения расстояний между кластерами:
Евклидово расстояние (Euclidean). Наиболее общий тип расстояния. Является геометрическим расстоянием в многомерном пространстве и вычисляется следующим образом:
На расстояния, определяемые этим способом, могут сильно влиять различия между осями, по координатам которых вычисляются эти расстояния.
Квадрат евклидова расстояния (Squared Euclidean). Квадрат стандартного евклидова расстояния, позволяет придавать большие статистические веса отдаленным друг от друга объектам.
Расстояние городских кварталов (City Block). Это расстояние является средним разностей по координатам. Для этой меры влияние отдельных больших разностей (выбросов) уменьшается (так как они не возводятся в квадрат). Манхэттенское расстояние вычисляется по формуле:
Кластерный анализ
1
1
