- •IBM SPSS Statistics Base 20
- •Содержание
- •1. Информация о данных
- •Вкладка Информация о данных: Вывод
- •Вкладка Информация о данных: Статистики
- •2. Частоты
- •Статистики в процедуре Частоты
- •Диаграммы в процедуре Частоты
- •Частоты: Формат
- •3. Описательные
- •Параметры процедуры Описательные статистики
- •Команда DESCRIPTIVES: дополнительные возможности
- •4. Исследовать
- •Статистики процедуры Исследовать
- •Графики процедуры Исследовать
- •Степенные преобразования в процедуре Исследовать
- •Параметры процедуры Исследовать
- •Команда EXAMINE: дополнительные возможности
- •5. Таблицы сопряженности
- •Слои таблиц сопряженности
- •Кластеризованные столбиковые диаграммы в процедуре Таблицы сопряженности
- •Таблицы сопряженности, выводящие переменные слоев в слоях таблицы
- •Вывод в ячейках для таблиц сопряженности
- •Формат таблиц сопряженности
- •6. Подытожить
- •Параметры процедуры Подытожить наблюдения
- •Статистики процедуры Подытожить наблюдения
- •7. Средние
- •Параметры процедуры Средние
- •8. OLAP Кубы
- •Статистики в процедуре OLAP Кубы
- •OLAP Кубы: Разности
- •OLAP Кубы: Заголовок
- •9. T-критерии
- •T-критерий для независимых выборок
- •Параметры процедуры T-критерий для независимых выборок
- •T-критерий для парных выборок
- •Параметры процедуры Т-критерий для парных выборок
- •Одновыборочный T-критерий
- •Параметры процедуры Одновыборочный T-критерий
- •Команда T-TEST: дополнительные возможности
- •10. Однофакторный дисперсионный анализ
- •Контрасты для однофакторного дисперсионного анализа
- •Апостериорные критерии для однофакторного дисперсионного анализа
- •Параметры процедуры Однофакторный дисперсионный анализ
- •Команда ONEWAY: дополнительные возможности
- •11. Общая линейная модель: одномерный анализ
- •Общая линейная модель (ОЛМ)
- •Создать члены
- •Сумма квадратов
- •Контрасты ОЛМ
- •Типы контрастов
- •Графики профилей в ОЛМ
- •Апостериорные сравнения в ОЛМ
- •Сохранение новых переменных в ОЛМ
- •Параметры процедуры ОЛМ
- •Команда UNIANOVA: дополнительные возможности
- •12. Парные корреляции
- •Параметры процедуры Парные корреляции
- •13. Частные корреляции
- •Параметры процедуры Частные корреляции
- •Команда PARTIAL CORR: дополнительные возможности
- •14. Расстояния
- •Меры различия
- •Меры сходства
- •Команда PROXIMITIES: дополнительные возможности
- •15. Линейные модели
- •Как запустить процедуру построения линейной модели
- •Цели
- •Основные параметры
- •Подбор модели
- •Ансамбли
- •Дополнительные параметры
- •Параметры модели
- •Сводка для модели
- •Автоматическая подготовка данных
- •Важность предикторов
- •Предсказанные против наблюденных
- •Остатки
- •Выбросы
- •Эффекты
- •Коэффициенты
- •Оцененные средние
- •Сводка по построению модели
- •16. Линейная регрессия
- •Методы отбора переменных для линейной регрессии
- •Задание правила отбора наблюдений для линейной регрессии
- •Графики процедуры Линейная регрессия
- •Линейная регрессия: Сохранение новых переменных
- •Статистики процедуры Линейная регрессия
- •Параметры процедуры Линейная регрессия
- •Команда REGRESSION: дополнительные возможности
- •17. Порядковая регрессия
- •Порядковая регрессия: Параметры
- •Порядковая регрессия: Вывод
- •Порядковая регрессия: Модель положения
- •Создать члены
- •Порядковая регрессия: Модель масштаба
- •Команда PLUM: дополнительные возможности
- •18. Подгонка кривых
- •Модели подгонки кривых
- •Подгонка кривых: Сохранить
- •19. Регрессия частично наименьших квадратов
- •Модель
- •Параметры
- •20. Анализ методом ближайших соседей
- •Соседи
- •Показатели
- •Группы
- •Сохранить
- •Вывод
- •Параметры
- •Вид Модель
- •Пространство показателей
- •Важность переменных
- •Соседи
- •Расстояния до ближайших соседей
- •Диаграмма квадрантов
- •Значения ошибок при отборе показателей
- •Значения ошибок при выборе k
- •Значения ошибок при отборе показателей и выборе k
- •Таблица классификации
- •Сводка ошибок
- •21. Дискриминантный анализ
- •Задание диапазона в процедуре Дискриминантный анализ
- •Отбор наблюдений для процедуры дискриминантного анализа
- •Статистики в процедуре Дискриминантный анализ
- •Метод пошагового отбора процедуры Дискриминантный анализ
- •Дискриминантный анализ: Классификация
- •Дискриминантный анализ: Сохранить
- •Команда DISCRIMINANT: дополнительные возможности
- •22. Факторный анализ
- •Отбор наблюдений для факторного анализа
- •Описательные статистики факторного анализа
- •Выделение факторов в процедуре Факторный анализ
- •Вращение факторов для факторного анализа
- •Значения факторов в процедуре факторного анализа
- •Параметры процедуры Факторный анализ
- •Команда FACTOR: дополнительные возможности
- •23. Выбор процедуры кластеризации
- •24. Двухэтапный кластерный анализ
- •Параметры процедуры Двухэтапный кластерный анализ
- •Вывод процедуры Двухэтапный кластерный анализ
- •Средство просмотра кластеров
- •Закладка Средство просмотра кластеров
- •Перемещение по средству просмотра кластеров
- •Фильтрация записей
- •25. Иерархический кластерный анализ
- •Задание метода иерархического кластерного анализа
- •Статистики для процедуры Иерархический кластерный анализ
- •Графики для процедуры Иерархический кластерный анализ
- •Сохранение новых переменных в процедуре Иерархический кластерный анализ
- •Эффективность кластерного анализа методом k-средних
- •Итерации в кластерном анализе методом k-средних
- •Сохранение новых переменных в кластерном анализе методом k-средних
- •Параметры процедуры Кластерный анализ методом К-средних
- •Команда QUICK CLUSTER: дополнительные возможности
- •27. Непараметрические критерии
- •Одновыборочные непараметрические критерии
- •Чтобы получить одновыборочные непараметрические критерии
- •Вкладка Поля
- •Вкладка Параметры
- •Непараметрические критерии для независимых выборок
- •Чтобы получить непараметрические критерии для независимых выборок
- •Вкладка Поля
- •Вкладка Параметры
- •Непараметрические критерии для связанных выборок
- •Чтобы применить непараметрические критерии для связанных выборок
- •Вкладка Поля
- •Вкладка Параметры
- •Представление модель
- •Сводка по проверке гипотез
- •Сводка по доверительным интервалам
- •Одновыборочный критерий
- •Критерии для связанных выборок
- •Критерий для независимых выборок
- •Информация по категориальным полям
- •Информация по количественным полям
- •Парные сравнения
- •Однородные подмножества
- •Команда NPTESTS: дополнительные возможности
- •Устаревшие диалоговые окна
- •Критерий хи-квадрат
- •Биномиальный критерий
- •Критерий серий
- •Одновыборочный критерий Колмогорова-Смирнова
- •Критерии для двух независимых выборок
- •Критерии для двух связанных выборок
- •Критерии для нескольких независимых выборок
- •Критерии для нескольких связанных выборок
- •28. Анализ множественных ответов
- •Задание наборов множественных ответов
- •Частоты для множественных ответов
- •Таблицы сопряженности для множественных ответов
- •Задание диапазонов переменных в таблицах сопряженности для наборов множественных ответов
- •Параметры процедуры Таблицы сопряженности для множественных ответов
- •Команда MULT RESPONSE: дополнительные возможности
- •29. Создание отчетов
- •Итоги по строкам
- •Как запустить процедуру выдачи итожащего отчета: Итоги по строкам
- •Параметры группировки отчета
- •Параметры отчета
- •Компоновка отчета
- •Заголовки отчета
- •Итоги по столбцам
- •Как запустить процедуру выдачи итожащего отчета: Итоги по столбцам
- •Итожащие функции столбцов данных
- •Формат столбцов отчета
- •Параметры группировки отчета с итогами по столбцам
- •Параметры отчета для итогов по столбцам
- •Компоновка отчета с итогами по столбцам
- •Команда REPORT: дополнительные возможности
- •30. Анализ пригодности
- •Статистики процедуры Анализ пригодности
- •Команда RELIABILITY: дополнительные возможности
- •31. Многомерное шкалирование
- •Многомерное шкалирование: Форма данных
- •Создание меры для многомерного шкалирования
- •Модель многомерного шкалирования
- •Параметры процедуры Многомерное шкалирование
- •Команда ALSCAL: дополнительные возможности
- •32. Статистики отношений
- •Статистики отношений
- •33. Кривые ROC
- •Параметры процедуры ROC Кривые
- •Указатель
208
Глава 26
EДополнительно можно выбрать идентификационную переменную, чтобы метить наблюдения.
Эффективность кластерного анализа методом k-средних
Алгоритм k-средних эффективен прежде всего потому, что он не нуждается в вычислении всех попарных расстояний между наблюдениями, в отличие от большинства других алгоритмов кластеризации, включая тот, что используется в процедуре иерархического кластерного анализа.
Для достижения максимальной эффективности возьмите выборку из наблюдений и используйте метод Итерации и классификация, чтобы определить центры кластеров.
Выберите Записать окончательные в. Затем вернитесь к полному файлу данных и выберите
Только классификация в качестве метода и выберите Прочитать начальные из, чтобы классифицировать весь файл с использованием центров, оцененных по выборке. Вы можете записывать в файл или набор данных, а также считывать из них. Наборы данных доступны для последующего использования в том же сеансе но не сохраняются как файлы до тех пор, пока они не будут сохранены явно до окончания текущего сеанса. Имена наборов данных должны удовлетворять требованиям к именам переменных.
Итерации в кластерном анализе методом k-средних
Рисунок 26-2
Диалоговое окно Кластерный анализ методом K средних: Итерации
Примечание: Эти параметры доступны, только если вы выберите метод Итерации и классификация в диалоговом окне Кластерный анализ методом K средних.
Максимум итераций.Ограничивает число итераций для алгоритма k-средних. Алгоритм останавливается после заданного здесь числа итераций, даже если не выполняется критерий сходимости. Это число должно быть от 1 до 999.
Если необходимо воспроизвести алгоритм, использовавшийся командой QUICK CLUSTER в старых версиях (до 5.0), установите Максимум итераций равным 1.
Критерий сходимости. Задает условие прекращения итераций. Оно выражает долю минимального расстояния между начальными центрами кластеров, поэтому должно быть больше 0, но не превышать 1. Если значение критерия равно, например, 0.02, итерации прекращаются, когда полная итерация не сдвигает ни один из центров кластеров на расстояние, превышающее 2% от наименьшего расстояния между центрами любых начальных кластеров.
209
Кластерный анализ методом K средних
Использовать скользящие средние. Позволяет запросить обновление центров кластеров после классификации очередного наблюдения. Если этот пункт не отмечен, новые центры кластеров вычисляются после распределения по кластерам всех наблюдений.
Сохранение новых переменных в кластерном анализе методом k-средних
Рисунок 26-3
Диалоговое окно Кластерный анализ методом K средних: Сохранить новые переменные
Вы можете сохранить следующую информацию о решении в виде новых переменных для использования в последующем анализе:
Принадлежность к кластеру. Создается новая переменная, показывающая окончательную принадлежность каждого наблюдения к кластеру. Значения этой новой переменной могут меняться от 1 до числа кластеров.
Расстояние от центра кластера. Создается новая переменная, показывающая евклидово расстояние между каждым наблюдением и центром кластера, куда оно было отнесено.
Параметры процедуры Кластерный анализ методом К-средних
Рисунок 26-4
Диалоговое окно Кластерный анализ методом K средних: Параметры
Статистики. Вы можете выбрать следующие статистики: начальные центры кластеров, таблица дисперсионного анализа, а также информация о принадлежности к кластерам для каждого наблюдения.
210
Глава 26
Начальные центры кластеров. Начальная оценка положения средних для каждого кластера. По умолчанию, отбираются объекты, находящиеся на значительном расстоянии друг от друга, причем столько, сколько задано кластеров. Начальные центры кластеров используются на первом этапе грубой классификации, а затем обновляются.
Таблица дисперсионного анализа. Выводится таблица дисперсионного анализа, включающая одномерный F-критерий для каждой кластерной переменной. F-критерий приводится для чисто ориентировочных целей, и выдаваемые вероятности не подлежат интерпретации. Таблица не выдается, если все наблюдения попадают в один кластер.
Конечный кластер для каждого наблюдения. Для каждого наблюдения указывается финальный кластер, к которому оно отнесено, и евклидово расстояние до центра этого кластера. Выводится также евклидово расстояние между центрами финальных кластеров.
Пропущенные значения. Возможными альтернативами являются Исключать целиком и Исключать наблюдения попарно.
Исключать целиком. Наблюдения с пропущенными значениями в любой из кластерных переменных исключаются из анализа.
Исключать попарно. Наблюдения относятся к кластерам на основании расстояний, вычисленных по всем переменным с непропущенными значениями.
Команда QUICK CLUSTER: дополнительные возможности
Процедура Кластерный анализ методом k-средних использует синтаксис команды QUICK CLUSTER. Язык синтаксиса команд также позволяет:
Использовать первые k наблюдений в качестве начальных центров кластеров, тем самым избегая прохода по данным, обычно применяемого, чтобы их оценить.
Задать начальные центры кластеров напрямую, как часть командного синтаксиса.
Задавать имена сохраняемых переменных.
Полную информацию о синтаксисе языка команд можно найти в Руководстве по синтаксису.