- •Тема 1: Введение в экспериментальную психологию, история ее становления как самостоятельной области знания
- •Рождение экспериментальной психологии
- •Э.Титченер: радикальная интроспекция и структурализм
- •Г.Эббингауз: вопреки вундтовскому вето
- •Ф.Гальтон и д.Кеттел: экспериментальная психология для жизни
- •Тема 2: Научное исследование, его принципы и структура
- •Наука как особый способ деятельности человеческого общества.
- •Основные направления методологии научного исследования.
- •Теория и ее структура
- •Тема 3: Постановка проблемы и выдвижение гипотезы Научная проблема
- •Гипотеза
- •Тема 4: Основные общенаучные исследовательские методы
- •Тема 5: Процедура и основные характеристики психологического эксперимента Классификация методов организации исследования.
- •Тема 6: Экспериментальная выборка и способы ее создания.
- •Тема 7: Экспериментальные планы
- •1. Планы для одной независимой переменной
- •1.2. План для двух рандомизированных групп с предварительным и итоговым тестированием.
- •2. Планы для одной независимой переменной и нескольких групп
- •3. Факторные планы
- •4. Планы экспериментов для одного испытуемого
- •Тема 8. Статистические гипотезы и принятие решения о выборе метода математической обработки данных
- •Статистические критерии
- •Уровень значимости
- •Мощность критериев
- •Выбор методов статистической обработки данных
- •Тема 9: Методы статистической проверки гипотез о различии и сходстве выборок
- •1. Таблицы сопряженности и критерий хи-квадрат
- •Критерий независимости хи-квадрат
- •2. Параметрические методы проверки гипотез
- •Дисперсионный анализ
- •Многофакторный дисперсионный анализ
- •3. Непараметрические методы
- •Наиболее часто используемых непараметрических методов
- •Тема 10: Методы статистической оценки взаимодействия независимых и зависимых переменных Факторный анализ
- •Кластерный анализ
Кластерный анализ
Зачастую описание нового статистического метода удобно проводить путем его сравнения с другим методом. При многочисленных общих чертах между указанными статистическими методами существует немало различий. Сравнение кластерного и факторного анализов
Сходство между кластерным и факторным анализами заключается в том, что тот и другой предназначены для перехода от исходной совокупности множества переменных (или объектов) к существенно меньшему числу факторов кластеров. Тем не менее реализация статистических процедур и интерпретация результатов для двух типов анализа различаются;
1. Целью факторного анализа является замена большого числа исходных переменных меньшим числом факторов. Кластерный анализ, как правило, применяется для того, чтобы уменьшить число объектов путем их группировки. Другими словами, в процедуре кластерного анализа обычно переменные не группируются, а выступают в качестве критериев для группировки объектов. В примере факторного анализа 11 субтестов интеллекта (переменных) были сведены к трем факторам, каждый из которых объединил несколько родственных исходных переменных. Кластерный анализ делается обычно для выделения групп объектов, исходя из их сходства по измеренным признакам. Применительно к примеру с 11 субтестами и типичной задачей кластерного анализа была бы классификация учащихся (обьектов) таким образом, чтобы по измеренным 11 показателям внутри каждой группы объекты были бы более похожи друг на друга, чем на объекты из других групп. Группы объектов выделенные в результате кластерного анализа на основе заданной меры сходства между объектами, называются кластерами
2. Заявленные в предыдущем пункте различия между кластерным и факторным, вариантами анализа со всей полнотой категоричности могут быть отнесены лишь к ранним версиям компьютерной обработки. Сегодня, программы позволяют с равным успехом проводить кластерный анализ не только объектов, по и переменных. В последнем случае кластерный анализ может выступать как более простой и нередко более эффективный аналог факторного анализа. Т.о. есть 2 варианта кластерного анализа.
3. Действия, выполняемые в ходе статистических операций в каждом из вариантов анализа, принципиально различаются. В факторном анализе на каждом этапе извлечения фактора для каждой переменной подсчитывается доля дисперсии, которая обусловлена влиянием данного фактора. При кластерном анализе вычисляется расстояние между текущим объектом и всеми остальными объектами, и кластер образует та пара, для которой расстояние оказалось наименьшим. Подобным образом каждый объект либо группируется с другим объектом, либо включается в состав существующего кластера. Процесс кластеризации конечен и продолжается до тех пор, пока все объекты не будут объединены в один кластер. Разумеется, подобный результат в общем случае не имеет смысла, и исследователь должен самостоятельно определить, в какой момент кластеризация должна быть прекращена.
4. В контексте кластерного анализа особое место занимает, один из его видов, называемый иерархическим кластерным анализом. Этот вид кластерного анализа чаще используется в экономике, социологии, политологии, нежели в психологии. Психологи обычно анализируют переменные с целью найти статистические связи между ними; эти связи, как правило указывают на сходство между теми или иными исследуемыми факторами. Деление выборки наа группы в психологических анализах редко представая интерес; в случаях когда это оказывается необходимым, психологи отдают предпочтение дискримипантному, а не кластерному анализу.
5. Поскольку кластеризация переменных оказывается весьма доступной операцией, было бы интересно сравнить ее результаты с результатами более сложного факторного анализа. Как и в случае факторного анализа, выполнение кластерного анализа и его результаты зависят от ряда параметров: способа вычисления расстояния между объектами, кластеризации индивидуальных объектов и т.д.
Для демонстрации кластерного анализа можно привести пример.
Это данные о 15 подержанных автомобилях разных марок, выставленных па продажу.
Этапы:
1. Выбор переменных-критериев для кластеризации. В нашем примере кластеризация будет осуществляться по следующим переменным: цена (стоимость), экспертная оценка технического состояния по 10-балльной шкале, возраст (количество лет эксплуатации), пробег (пройденный километраж с начала эксплуатации).
2. Выбор способа измерения расстояния между объектами, или кластерами (изначально считается, что каждый объект соответствует одному кластеру). По умолчанию используется квадрат Евклидова расстояния, согласно которому расстояние между объектами равно сумме квадратов разностей между значениями одноименных переменных объектов.
Предположим, что марка автомобиля А имеет показатели технического состояния и возраста 5 и 6, а марка В — соответственно 7 и 4. В этом случае расстояние между марками вычисляется следующим образом: (5 - 7)2 + (6 - 4)2 = 8. При выполнении анализа сумма квадратов разностей вычисляется для всех переменных. Получаемые расстояния используются программой при формировании кластеров.
3. Формирование кластеров. Существует два основных метода формирования кластеров: метод слияния и метод дробления. В первом случае исходные кластеры увеличиваются путем объединения до тех пор, пока не будет сформирован единственный кластер, содержащий все данные. Метод дробления основан на обратной операции: сначала все данные объединяются в один кластер, который затем делится на части до тех пор, пока не будет достигнут желаемый результат. Чаще используется метод слияния который еще, называется межгрупповым и сравнивает средние внутри групп. Программа вычисляет наименьшее средние значение расстояния между всеми парами групп и объединяет две группы оказавшиеся наиболее близкими.
Для рассматриваемого примера нам представляется наиболее предпочтительным число кластеров, равное 3. Как показывает анализ, все марки можно разделить на 3 группы: первая группа имеет высокую стоимость, небольшой срок эксплуатации и средний пробег. Вторая группа имеет среднюю стоимость, небольшой пробег, наибольший возраст, но хорошее техническое состояние. Третья группа содержит недорогие модели с большим пробегом и невысоким рейтингом технического состояния.
