- •IBM SPSS Statistics Base 20
- •Содержание
- •1. Информация о данных
- •Вкладка Информация о данных: Вывод
- •Вкладка Информация о данных: Статистики
- •2. Частоты
- •Статистики в процедуре Частоты
- •Диаграммы в процедуре Частоты
- •Частоты: Формат
- •3. Описательные
- •Параметры процедуры Описательные статистики
- •Команда DESCRIPTIVES: дополнительные возможности
- •4. Исследовать
- •Статистики процедуры Исследовать
- •Графики процедуры Исследовать
- •Степенные преобразования в процедуре Исследовать
- •Параметры процедуры Исследовать
- •Команда EXAMINE: дополнительные возможности
- •5. Таблицы сопряженности
- •Слои таблиц сопряженности
- •Кластеризованные столбиковые диаграммы в процедуре Таблицы сопряженности
- •Таблицы сопряженности, выводящие переменные слоев в слоях таблицы
- •Вывод в ячейках для таблиц сопряженности
- •Формат таблиц сопряженности
- •6. Подытожить
- •Параметры процедуры Подытожить наблюдения
- •Статистики процедуры Подытожить наблюдения
- •7. Средние
- •Параметры процедуры Средние
- •8. OLAP Кубы
- •Статистики в процедуре OLAP Кубы
- •OLAP Кубы: Разности
- •OLAP Кубы: Заголовок
- •9. T-критерии
- •T-критерий для независимых выборок
- •Параметры процедуры T-критерий для независимых выборок
- •T-критерий для парных выборок
- •Параметры процедуры Т-критерий для парных выборок
- •Одновыборочный T-критерий
- •Параметры процедуры Одновыборочный T-критерий
- •Команда T-TEST: дополнительные возможности
- •10. Однофакторный дисперсионный анализ
- •Контрасты для однофакторного дисперсионного анализа
- •Апостериорные критерии для однофакторного дисперсионного анализа
- •Параметры процедуры Однофакторный дисперсионный анализ
- •Команда ONEWAY: дополнительные возможности
- •11. Общая линейная модель: одномерный анализ
- •Общая линейная модель (ОЛМ)
- •Создать члены
- •Сумма квадратов
- •Контрасты ОЛМ
- •Типы контрастов
- •Графики профилей в ОЛМ
- •Апостериорные сравнения в ОЛМ
- •Сохранение новых переменных в ОЛМ
- •Параметры процедуры ОЛМ
- •Команда UNIANOVA: дополнительные возможности
- •12. Парные корреляции
- •Параметры процедуры Парные корреляции
- •13. Частные корреляции
- •Параметры процедуры Частные корреляции
- •Команда PARTIAL CORR: дополнительные возможности
- •14. Расстояния
- •Меры различия
- •Меры сходства
- •Команда PROXIMITIES: дополнительные возможности
- •15. Линейные модели
- •Как запустить процедуру построения линейной модели
- •Цели
- •Основные параметры
- •Подбор модели
- •Ансамбли
- •Дополнительные параметры
- •Параметры модели
- •Сводка для модели
- •Автоматическая подготовка данных
- •Важность предикторов
- •Предсказанные против наблюденных
- •Остатки
- •Выбросы
- •Эффекты
- •Коэффициенты
- •Оцененные средние
- •Сводка по построению модели
- •16. Линейная регрессия
- •Методы отбора переменных для линейной регрессии
- •Задание правила отбора наблюдений для линейной регрессии
- •Графики процедуры Линейная регрессия
- •Линейная регрессия: Сохранение новых переменных
- •Статистики процедуры Линейная регрессия
- •Параметры процедуры Линейная регрессия
- •Команда REGRESSION: дополнительные возможности
- •17. Порядковая регрессия
- •Порядковая регрессия: Параметры
- •Порядковая регрессия: Вывод
- •Порядковая регрессия: Модель положения
- •Создать члены
- •Порядковая регрессия: Модель масштаба
- •Команда PLUM: дополнительные возможности
- •18. Подгонка кривых
- •Модели подгонки кривых
- •Подгонка кривых: Сохранить
- •19. Регрессия частично наименьших квадратов
- •Модель
- •Параметры
- •20. Анализ методом ближайших соседей
- •Соседи
- •Показатели
- •Группы
- •Сохранить
- •Вывод
- •Параметры
- •Вид Модель
- •Пространство показателей
- •Важность переменных
- •Соседи
- •Расстояния до ближайших соседей
- •Диаграмма квадрантов
- •Значения ошибок при отборе показателей
- •Значения ошибок при выборе k
- •Значения ошибок при отборе показателей и выборе k
- •Таблица классификации
- •Сводка ошибок
- •21. Дискриминантный анализ
- •Задание диапазона в процедуре Дискриминантный анализ
- •Отбор наблюдений для процедуры дискриминантного анализа
- •Статистики в процедуре Дискриминантный анализ
- •Метод пошагового отбора процедуры Дискриминантный анализ
- •Дискриминантный анализ: Классификация
- •Дискриминантный анализ: Сохранить
- •Команда DISCRIMINANT: дополнительные возможности
- •22. Факторный анализ
- •Отбор наблюдений для факторного анализа
- •Описательные статистики факторного анализа
- •Выделение факторов в процедуре Факторный анализ
- •Вращение факторов для факторного анализа
- •Значения факторов в процедуре факторного анализа
- •Параметры процедуры Факторный анализ
- •Команда FACTOR: дополнительные возможности
- •23. Выбор процедуры кластеризации
- •24. Двухэтапный кластерный анализ
- •Параметры процедуры Двухэтапный кластерный анализ
- •Вывод процедуры Двухэтапный кластерный анализ
- •Средство просмотра кластеров
- •Закладка Средство просмотра кластеров
- •Перемещение по средству просмотра кластеров
- •Фильтрация записей
- •25. Иерархический кластерный анализ
- •Задание метода иерархического кластерного анализа
- •Статистики для процедуры Иерархический кластерный анализ
- •Графики для процедуры Иерархический кластерный анализ
- •Сохранение новых переменных в процедуре Иерархический кластерный анализ
- •Эффективность кластерного анализа методом k-средних
- •Итерации в кластерном анализе методом k-средних
- •Сохранение новых переменных в кластерном анализе методом k-средних
- •Параметры процедуры Кластерный анализ методом К-средних
- •Команда QUICK CLUSTER: дополнительные возможности
- •27. Непараметрические критерии
- •Одновыборочные непараметрические критерии
- •Чтобы получить одновыборочные непараметрические критерии
- •Вкладка Поля
- •Вкладка Параметры
- •Непараметрические критерии для независимых выборок
- •Чтобы получить непараметрические критерии для независимых выборок
- •Вкладка Поля
- •Вкладка Параметры
- •Непараметрические критерии для связанных выборок
- •Чтобы применить непараметрические критерии для связанных выборок
- •Вкладка Поля
- •Вкладка Параметры
- •Представление модель
- •Сводка по проверке гипотез
- •Сводка по доверительным интервалам
- •Одновыборочный критерий
- •Критерии для связанных выборок
- •Критерий для независимых выборок
- •Информация по категориальным полям
- •Информация по количественным полям
- •Парные сравнения
- •Однородные подмножества
- •Команда NPTESTS: дополнительные возможности
- •Устаревшие диалоговые окна
- •Критерий хи-квадрат
- •Биномиальный критерий
- •Критерий серий
- •Одновыборочный критерий Колмогорова-Смирнова
- •Критерии для двух независимых выборок
- •Критерии для двух связанных выборок
- •Критерии для нескольких независимых выборок
- •Критерии для нескольких связанных выборок
- •28. Анализ множественных ответов
- •Задание наборов множественных ответов
- •Частоты для множественных ответов
- •Таблицы сопряженности для множественных ответов
- •Задание диапазонов переменных в таблицах сопряженности для наборов множественных ответов
- •Параметры процедуры Таблицы сопряженности для множественных ответов
- •Команда MULT RESPONSE: дополнительные возможности
- •29. Создание отчетов
- •Итоги по строкам
- •Как запустить процедуру выдачи итожащего отчета: Итоги по строкам
- •Параметры группировки отчета
- •Параметры отчета
- •Компоновка отчета
- •Заголовки отчета
- •Итоги по столбцам
- •Как запустить процедуру выдачи итожащего отчета: Итоги по столбцам
- •Итожащие функции столбцов данных
- •Формат столбцов отчета
- •Параметры группировки отчета с итогами по столбцам
- •Параметры отчета для итогов по столбцам
- •Компоновка отчета с итогами по столбцам
- •Команда REPORT: дополнительные возможности
- •30. Анализ пригодности
- •Статистики процедуры Анализ пригодности
- •Команда RELIABILITY: дополнительные возможности
- •31. Многомерное шкалирование
- •Многомерное шкалирование: Форма данных
- •Создание меры для многомерного шкалирования
- •Модель многомерного шкалирования
- •Параметры процедуры Многомерное шкалирование
- •Команда ALSCAL: дополнительные возможности
- •32. Статистики отношений
- •Статистики отношений
- •33. Кривые ROC
- •Параметры процедуры ROC Кривые
- •Указатель
Глава
Иерархический кластерный анализ
25
Эта процедура предназначена для выявления относительно однородных групп наблюдений (или переменных) по заданным характеристикам при помощи алгоритма, который вначале рассматривает каждое наблюдение (переменную) как отдельный кластер, а затем последовательно объединяет кластеры, пока не останется только один. Можно анализировать исходные переменные или воспользоваться набором стандартизирующих преобразований. Расстояния или меры сходства формируются процедурой Расстояния (Proximities). Чтобы помочь в выборе наилучшего решения, на каждом шаге выводятся разнообразные статистики.
Пример. Можно ли разбить телевизионные шоу на группы, так чтобы в каждой группе зрители, которых они привлекают, были схожи? С помощью иерархического кластерного анализа Вы можете разделить (кластеризовать) телевизионные шоу (наблюдения) на однородные группы, исходя из характеристик их зрителей. Это можно использовать при сегментации рынка. Или Вы можете разбить города (наблюдения) на однородные группы, что позволит отбирать сравнимые города для проверки различных маркетинговых стратегий.
Статистики. Порядок агломерации, матрица расстояний (или сходств) и состав кластеров для одного решения или диапазона решений. Графики: дендрограммы и сосульчатые диаграммы.
Данные. Переменные могут быть количественными, бинарными или частотами. Масштаб измерения переменных важен — различия в масштабах могут повлиять на полученные кластерные решения. Если масштаб переменных сильно различается (например, одна переменная измерена в долларах, а другая — в годах), то следует подумать об их стандартизации (она может быть проведена автоматически с помощью процедуры Иерархическая кластерный анализ).
Порядок наблюдений. Если во входных данных существуют совпадающие расстояния или сходства или они появляются в обновленных кластерах в процессе объединения, то результирующее кластерное решение может зависеть от порядка наблюдений в файле Возможно, что вы захотите получить несколько различных решений с наблюдениями, упорядоченными случайным образом, чтобы проверить стабильность данного решения.
Предположения. Используемые расстояния или меры сходства должны соответствовать анализируемым данным (более полную информацию относительно выбора расстояний и мер сходства можно найти в описании процедуры Proximities (Расстояния)). Кроме того, в анализ необходимо включать все переменные, имеющие отношение к проблеме.
Игнорированиеважныхпеременныхможетпривестикрешению, вводящемувзаблуждение. Поскольку иерархический кластерный анализ является разведочным методом, его результаты следует считать предварительными, пока они не будут подтверждены на независимой выборке.
© Copyright IBM Corporation 1989, 2011. |
200 |
201
Иерархический кластерный анализ
Как запустить процедуру Иерархический кластерный анализ
E Выберите в меню:
Анализ > Классификация > Иерархическая кластеризация...
Рисунок 25-1
Диалоговое окно Иерархический кластерный анализ
EЕсли Вы кластеризуете наблюдения, выберите, по крайней мере, одну числовую переменную. При кластеризации переменных выберите, по крайней мере, три числовые переменные.
По желанию можно выбрать идентифицирующую переменную для вывода меток наблюдений.
202
Глава 25
Задание метода иерархического кластерного анализа
Рисунок 25-2
Диалоговое окно Иерархический кластерный анализ: Метод
Метод кластеризации. Возможные альтернативы: Межгрупповые связи, Внутригрупповые связи, Ближайший сосед, Дальний сосед, Центроидная кластеризация, Медианная кластеризация, Метод Варда.
Мера. Позволяет задать расстояние или меру сходства, которые будет использованы при кластеризации. Выберите тип данных и соответствующее расстояние или меру сходства:
Интервальная. Возможные альтернативы: Евклидово расстояние, Квадрат расстояния Евклида, Косинус, Корреляция Пирсона, Чебышев, Блок, Минковского, Настроенная.
Частоты. Возможные альтернативы: Мера хи-квадрат и Мера фи-квадрат.
Бинарная. Имеющиеся альтернативы: Евклидово расстояние, Квадрат расстояния Евклида, Различие размеров, Различие структур, Дисперсия, Разброс, Форма, Простая совпадений, 4-точечная корреляция фи, Лямбда, D Андерберга, Дайс, Хаманн, Жаккар, Кульчинский 1, Кульчинский 2, Ланс и Виллиамс, Очиай, Роджерс и Танимото, Рассел и Рао, Сокал и Сниат 1, Сокал и Сниат 2, Сокал и Сниат 3, Сокал и Сниат 4, Сокал и Сниат 5, Y Юла и Q Юла.
Преобразовать значения. Позволяет стандартизировать значения данных либо для наблюдений, либо для переменных до вычисления близостей (недоступно для бинарных данных). Возможные методы стандартизации: Z значения, Диапазон от −1 до 1, Диапазон от 0 до 1, Максимальная величина 1, Среднее 1 и Стд. отклонение 1
Преобразовать меры. Позволяет преобразовать значения, порожденные мерой расстояния. Преобразования выполняются после того, как вычислены значения меры расстояния. Возможные варианты преобразований: Взять модуль, Сменить знак, Привести к 0–1.
203
Иерархический кластерный анализ
Статистики для процедуры Иерархический кластерный анализ
Рисунок 25-3
Диалоговое окно Иерархический кластерный анализ: Статистики
Порядок агломерации. Выводятся наблюдения или кластеры, объединяемые на каждом этапе, расстояния между объединяемыми наблюдениями или кластерами и уровень кластеризации, на котором к кластеру последний раз добавлялось наблюдение (или переменная).
Матрица близостей. Выводятся расстояния или сходства между объектами.
Принадлежность к кластерам. Выводится кластер, к которому отнесено каждое наблюдение для одного или нескольких этапов объединения кластеров. Возможными вариантами являются одно решение и диапазон решений.