Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции по ЭП.doc
Скачиваний:
2
Добавлен:
01.07.2025
Размер:
495.62 Кб
Скачать

Кластерный анализ

Зачастую описание нового статистического метода удобно проводить путем его сравнения с другим методом. При многочисленных общих чертах между указанными статистическими методами существует немало различий. Сравнение кластерного и факторного анализов

Сходство между кластерным и факторным анализами заключается в том, что тот и другой предназначены для перехода от исходной совокупности мно­жества переменных (или объектов) к существенно меньшему числу факторов кластеров. Тем не менее реализация статистических процедур и интерпретация результатов для двух типов анализа различаются;

1. Целью факторного анализа является замена большого числа исходных переменных меньшим числом факторов. Кластерный анализ, как правило, приме­няется для того, чтобы уменьшить число объектов путем их группировки. Другими словами, в процедуре кластерного анализа обычно переменные не группируются, а выступают в качестве критериев для группировки объектов. В примере факторного анализа 11 субтестов интеллекта (переменных) были сведены к трем факторам, каждый из которых объединил несколько родственных исходных переменных. Кластерный анализ делается обычно для выделения групп объектов, исходя из их сходства по измеренным признакам. Применительно к примеру с 11 субтестами и типичной задачей кластерного анализа была бы классификация учащихся (обьектов) таким образом, чтобы по измеренным 11 показателям внутри каждой группы объекты были бы более похожи друг на друга, чем на объекты из других групп. Группы объектов выделенные в результате кластерного анализа на основе заданной меры сходства между объектами, называются кластерами

2. Заявленные в предыдущем пункте различия между кластерным и факторным, вариантами анализа со всей полнотой категоричности могут быть отнесены лишь к ранним версиям компьютерной обработки. Сегодня, программы позволяют с равным успехом проводить кластерный анализ не только объектов, по и переменных. В последнем случае кластерный анализ может выступать как более простой и нередко более эффективный аналог факторного анализа. Т.о. есть 2 варианта кластерного анализа.

3. Действия, выполняемые в ходе статистических операций в каждом из вариан­тов анализа, принципиально различаются. В факторном анализе на каждом этапе извлечения фактора для каждой переменной подсчитывается доля дис­персии, которая обусловлена влиянием данного фактора. При кластерном анализе вычисляется расстояние между текущим объектом и всеми остальны­ми объектами, и кластер образует та пара, для которой расстояние оказалось наименьшим. Подобным образом каждый объект либо группируется с другим объектом, либо включается в состав существующего кластера. Процесс кла­стеризации конечен и продолжается до тех пор, пока все объекты не будут объединены в один кластер. Разумеется, подобный результат в общем случае не имеет смысла, и исследователь должен самостоятельно определить, в какой момент кластеризация должна быть прекращена.

4. В контексте кластерного анализа особое место занимает, один из его видов, называемый иерархическим кластерным анализом. Этот вид кластерного анализа чаще используется в экономике, социологии, политологии, нежели в психологии. Психологи обычно анализируют переменные с целью найти статистические связи между ними; эти связи, как правило указывают на сходство между теми или иными исследуемыми факторами. Деление выборки наа группы в психологических анализах редко представая интерес; в случаях когда это оказывается необходимым, психологи отдают предпочтение дискримипантному, а не кластерному анализу.

5. Поскольку кластеризация переменных оказывается весьма доступной операцией, было бы интересно сравнить ее результаты с результатами более сложного факторного анализа. Как и в случае факторного анализа, выполнение кластерного анализа и его результаты зависят от ряда параметров: способа вычисления расстояния между объектами, кластеризации индивидуальных объектов и т.д.

Для демонстрации кластерного анализа можно привести пример.

Это данные о 15 подержанных автомобилях разных марок, выставленных па продажу.

Этапы:

1. Выбор переменных-критериев для кластеризации. В нашем примере класте­ризация будет осуществляться по следующим переменным: цена (стоимость), экспертная оценка технического состояния по 10-балльной шкале, возраст (количество лет эксплуатации), пробег (пройденный километраж с на­чала эксплуатации).

2. Выбор способа измерения расстояния между объектами, или кластерами (из­начально считается, что каждый объект соответствует одному кластеру). По умолчанию используется квадрат Евклидова расстояния, согласно которому расстояние между объектами равно сумме квадратов разностей между значе­ниями одноименных переменных объектов.

Предположим, что марка автомо­биля А имеет показатели технического состояния и возраста 5 и 6, а марка В — соответственно 7 и 4. В этом случае расстояние между марками вычисля­ется следующим образом: (5 - 7)2 + (6 - 4)2 = 8. При выполнении анализа сумма квадратов разностей вычисляется для всех переменных. Получаемые расстояния используются программой при формировании кластеров.

3. Формирование кластеров. Существует два основных метода формирования кластеров: метод слияния и метод дробления. В первом случае исходные кластеры увеличиваются путем объединения до тех пор, пока не будет сформирован единственный кластер, содержащий все данные. Метод дробления основан на обратной операции: сначала все данные объединяются в один кластер, который затем делится на части до тех пор, пока не будет достигнут желаемый результат. Чаще используется метод слияния который еще, называется межгрупповым и сравнивает средние внутри групп. Программа вычисляет наименьшее средние значение расстояния между всеми парами групп и объединяет две группы оказавшиеся наиболее близкими.

Для рассматриваемого примера нам представляется наиболее предпочтитель­ным число кластеров, равное 3. Как показывает анализ, все марки можно разде­лить на 3 группы: первая группа имеет высокую стоимость, небольшой срок эксплуатации и средний пробег. Вторая группа имеет среднюю стоимость, небольшой пробег, наибольший воз­раст, но хорошее техническое состояние. Третья группа содержит недорогие модели с большим пробегом и невысоким рейтингом технического состояния.

65