Кластерный анализ

Зачастую описание нового статистического метода удобно проводить путем его сравнения с другим методом. При многочисленных общих чертах между указанными статистическими методами существует немало различий. Сравнение кластерного и факторного анализов

Сходство между кластерным и факторным анализами заключается в том, что тот и другой предназначены для перехода от исходной совокупности множества переменных (или объектов) к существенно меньшему числу факторов кластеров. Тем не менее реализация статистических процедур и интерпретация результатов для двух типов анализа различаются;

1. Целью факторного анализа является замена большого числа исходных переменных меньшим числом факторов. Кластерный анализ, как правило, применяется для того, чтобы уменьшить число объектов путем их группировки. Другими словами, в процедуре кластерного анализа обычно переменные не группируются, а выступают в качестве критериев для группировки объектов. В примере факторного анализа 11 субтестов интеллекта (переменных) были сведены к трем факторам, каждый из которых объединил несколько родственных исходных переменных. Кластерный анализ делается обычно для выделения групп объектов, исходя из их сходства по измеренным признакам. Применительно к примеру с 11 субтестами и типичной задачей кластерного анализа была бы классификация учащихся (обьектов) таким образом, чтобы по измеренным 11 показателям внутри каждой группы объекты были бы более похожи друг на друга, чем на объекты из других групп. Группы объектов выделенные в результате кластерного анализа на основе заданной меры сходства между объектами, называются кластерами

2. Заявленные в предыдущем пункте различия между кластерным и факторным, вариантами анализа со всей полнотой категоричности могут быть отнесены лишь к ранним версиям компьютерной обработки. Сегодня, программы позволяют с равным успехом проводить кластерный анализ не только объектов, по и переменных. В последнем случае кластерный анализ может выступать как более простой и нередко более эффективный аналог факторного анализа. Т.о. есть 2 варианта кластерного анализа.

3. Действия, выполняемые в ходе статистических операций в каждом из вариантов анализа, принципиально различаются. В факторном анализе на каждом этапе извлечения фактора для каждой переменной подсчитывается доля дисперсии, которая обусловлена влиянием данного фактора. При кластерном анализе вычисляется расстояние между текущим объектом и всеми остальными объектами, и кластер образует та пара, для которой расстояние оказалось наименьшим. Подобным образом каждый объект либо группируется с другим объектом, либо включается в состав существующего кластера. Процесс кластеризации конечен и продолжается до тех пор, пока все объекты не будут объединены в один кластер. Разумеется, подобный результат в общем случае не имеет смысла, и исследователь должен самостоятельно определить, в какой момент кластеризация должна быть прекращена.

4. В контексте кластерного анализа особое место занимает, один из его видов, называемый иерархическим кластерным анализом. Этот вид кластерного анализа чаще используется в экономике, социологии, политологии, нежели в психологии. Психологи обычно анализируют переменные с целью найти статистические связи между ними; эти связи, как правило указывают на сходство между теми или иными исследуемыми факторами. Деление выборки наа группы в психологических анализах редко представая интерес; в случаях когда это оказывается необходимым, психологи отдают предпочтение дискримипантному, а не кластерному анализу.

5. Поскольку кластеризация переменных оказывается весьма доступной операцией, было бы интересно сравнить ее результаты с результатами более сложногофакторного анализа. Как и в случае факторного анализа, выполнение кластерного анализа и его результаты зависят от ряда параметров: способа вычисления расстояния между объектами, кластеризации индивидуальных объектов и т.д.

Для демонстрации кластерного анализа можно привести пример.

Это данные о 15 подержанных автомобилях разных марок, выставленных па продажу.

Этапы:

1. Выбор переменных-критериев для кластеризации. В нашем примере кластеризация будет осуществляться по следующим переменным: цена (стоимость), экспертная оценка технического состояния по 10-балльной шкале, возраст (количество лет эксплуатации), пробег (пройденный километраж с начала эксплуатации).

2. Выбор способа измерения расстояния между объектами, или кластерами (изначально считается, что каждый объект соответствует одному кластеру). По умолчанию используется квадрат Евклидова расстояния, согласно которому расстояние между объектами равно сумме квадратов разностей между значениями одноименных переменных объектов.

Предположим, что марка автомобиля А имеет показатели технического состояния и возраста 5 и 6, а марка В — соответственно 7 и 4. В этом случае расстояние между марками вычисляется следующим образом: (5 - 7)² + (6 - 4)² = 8. При выполнении анализа сумма квадратов разностей вычисляется для всех переменных. Получаемые расстояния используются программой при формировании кластеров.

3. Формирование кластеров. Существует два основных метода формированиякластеров: метод слияния и метод дробления. В первом случае исходные кластеры увеличиваются путем объединения до тех пор, пока не будет сформированединственный кластер, содержащий все данные. Метод дробления основан на обратной операции: сначала все данные объединяются в один кластер, который затем делится на части до тех пор, пока не будет достигнут желаемый результат. Чаще используется метод слияния который еще, называется межгрупповым и сравнивает средние внутри групп. Программа вычисляет наименьшее средние значение расстояния между всеми парами групп и объединяет две группы оказавшиеся наиболее близкими.

Для рассматриваемого примера нам представляется наиболее предпочтительным число кластеров, равное 3. Как показывает анализ, все марки можно разделить на 3 группы: первая группа имеет высокую стоимость, небольшой срок эксплуатации и средний пробег. Вторая группа имеет среднюю стоимость, небольшой пробег, наибольший возраст, но хорошее техническое состояние. Третья группа содержит недорогие модели с большим пробегом и невысоким рейтингом технического состояния.

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 2223 / 2323

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
01.07.2025268.88 Кб1лекции по финансам.docx
#
19.05.2015943.94 Кб49лекции по эконометрике .pdf
#
01.05.2025743.65 Кб7Лекции по экономике.docx
#
01.05.20251.42 Mб6Лекции по ЭМС 1 часть.doc
#
01.05.20256.47 Mб8Лекции по ЭМС 2 часть.doc
#
01.07.2025495.62 Кб4Лекции по ЭП.doc
#
19.03.2016190.09 Кб480лекции попд.docx
#
19.05.2015481.28 Кб52Лекции предпринимательская деятельность.doc/3 КУРС.doc
#
01.03.20252.6 Mб12Лекции Производственная безопасность 7 cеместр.doc
#
19.05.20151.19 Mб85Лекции раздел 2.doc
#
06.12.2018510.46 Кб32лекции РЕГИОНАЛЬНАЯ ЭКОНОМИКА.doc