- •IBM SPSS Statistics Base 20
- •Содержание
- •1. Информация о данных
- •Вкладка Информация о данных: Вывод
- •Вкладка Информация о данных: Статистики
- •2. Частоты
- •Статистики в процедуре Частоты
- •Диаграммы в процедуре Частоты
- •Частоты: Формат
- •3. Описательные
- •Параметры процедуры Описательные статистики
- •Команда DESCRIPTIVES: дополнительные возможности
- •4. Исследовать
- •Статистики процедуры Исследовать
- •Графики процедуры Исследовать
- •Степенные преобразования в процедуре Исследовать
- •Параметры процедуры Исследовать
- •Команда EXAMINE: дополнительные возможности
- •5. Таблицы сопряженности
- •Слои таблиц сопряженности
- •Кластеризованные столбиковые диаграммы в процедуре Таблицы сопряженности
- •Таблицы сопряженности, выводящие переменные слоев в слоях таблицы
- •Вывод в ячейках для таблиц сопряженности
- •Формат таблиц сопряженности
- •6. Подытожить
- •Параметры процедуры Подытожить наблюдения
- •Статистики процедуры Подытожить наблюдения
- •7. Средние
- •Параметры процедуры Средние
- •8. OLAP Кубы
- •Статистики в процедуре OLAP Кубы
- •OLAP Кубы: Разности
- •OLAP Кубы: Заголовок
- •9. T-критерии
- •T-критерий для независимых выборок
- •Параметры процедуры T-критерий для независимых выборок
- •T-критерий для парных выборок
- •Параметры процедуры Т-критерий для парных выборок
- •Одновыборочный T-критерий
- •Параметры процедуры Одновыборочный T-критерий
- •Команда T-TEST: дополнительные возможности
- •10. Однофакторный дисперсионный анализ
- •Контрасты для однофакторного дисперсионного анализа
- •Апостериорные критерии для однофакторного дисперсионного анализа
- •Параметры процедуры Однофакторный дисперсионный анализ
- •Команда ONEWAY: дополнительные возможности
- •11. Общая линейная модель: одномерный анализ
- •Общая линейная модель (ОЛМ)
- •Создать члены
- •Сумма квадратов
- •Контрасты ОЛМ
- •Типы контрастов
- •Графики профилей в ОЛМ
- •Апостериорные сравнения в ОЛМ
- •Сохранение новых переменных в ОЛМ
- •Параметры процедуры ОЛМ
- •Команда UNIANOVA: дополнительные возможности
- •12. Парные корреляции
- •Параметры процедуры Парные корреляции
- •13. Частные корреляции
- •Параметры процедуры Частные корреляции
- •Команда PARTIAL CORR: дополнительные возможности
- •14. Расстояния
- •Меры различия
- •Меры сходства
- •Команда PROXIMITIES: дополнительные возможности
- •15. Линейные модели
- •Как запустить процедуру построения линейной модели
- •Цели
- •Основные параметры
- •Подбор модели
- •Ансамбли
- •Дополнительные параметры
- •Параметры модели
- •Сводка для модели
- •Автоматическая подготовка данных
- •Важность предикторов
- •Предсказанные против наблюденных
- •Остатки
- •Выбросы
- •Эффекты
- •Коэффициенты
- •Оцененные средние
- •Сводка по построению модели
- •16. Линейная регрессия
- •Методы отбора переменных для линейной регрессии
- •Задание правила отбора наблюдений для линейной регрессии
- •Графики процедуры Линейная регрессия
- •Линейная регрессия: Сохранение новых переменных
- •Статистики процедуры Линейная регрессия
- •Параметры процедуры Линейная регрессия
- •Команда REGRESSION: дополнительные возможности
- •17. Порядковая регрессия
- •Порядковая регрессия: Параметры
- •Порядковая регрессия: Вывод
- •Порядковая регрессия: Модель положения
- •Создать члены
- •Порядковая регрессия: Модель масштаба
- •Команда PLUM: дополнительные возможности
- •18. Подгонка кривых
- •Модели подгонки кривых
- •Подгонка кривых: Сохранить
- •19. Регрессия частично наименьших квадратов
- •Модель
- •Параметры
- •20. Анализ методом ближайших соседей
- •Соседи
- •Показатели
- •Группы
- •Сохранить
- •Вывод
- •Параметры
- •Вид Модель
- •Пространство показателей
- •Важность переменных
- •Соседи
- •Расстояния до ближайших соседей
- •Диаграмма квадрантов
- •Значения ошибок при отборе показателей
- •Значения ошибок при выборе k
- •Значения ошибок при отборе показателей и выборе k
- •Таблица классификации
- •Сводка ошибок
- •21. Дискриминантный анализ
- •Задание диапазона в процедуре Дискриминантный анализ
- •Отбор наблюдений для процедуры дискриминантного анализа
- •Статистики в процедуре Дискриминантный анализ
- •Метод пошагового отбора процедуры Дискриминантный анализ
- •Дискриминантный анализ: Классификация
- •Дискриминантный анализ: Сохранить
- •Команда DISCRIMINANT: дополнительные возможности
- •22. Факторный анализ
- •Отбор наблюдений для факторного анализа
- •Описательные статистики факторного анализа
- •Выделение факторов в процедуре Факторный анализ
- •Вращение факторов для факторного анализа
- •Значения факторов в процедуре факторного анализа
- •Параметры процедуры Факторный анализ
- •Команда FACTOR: дополнительные возможности
- •23. Выбор процедуры кластеризации
- •24. Двухэтапный кластерный анализ
- •Параметры процедуры Двухэтапный кластерный анализ
- •Вывод процедуры Двухэтапный кластерный анализ
- •Средство просмотра кластеров
- •Закладка Средство просмотра кластеров
- •Перемещение по средству просмотра кластеров
- •Фильтрация записей
- •25. Иерархический кластерный анализ
- •Задание метода иерархического кластерного анализа
- •Статистики для процедуры Иерархический кластерный анализ
- •Графики для процедуры Иерархический кластерный анализ
- •Сохранение новых переменных в процедуре Иерархический кластерный анализ
- •Эффективность кластерного анализа методом k-средних
- •Итерации в кластерном анализе методом k-средних
- •Сохранение новых переменных в кластерном анализе методом k-средних
- •Параметры процедуры Кластерный анализ методом К-средних
- •Команда QUICK CLUSTER: дополнительные возможности
- •27. Непараметрические критерии
- •Одновыборочные непараметрические критерии
- •Чтобы получить одновыборочные непараметрические критерии
- •Вкладка Поля
- •Вкладка Параметры
- •Непараметрические критерии для независимых выборок
- •Чтобы получить непараметрические критерии для независимых выборок
- •Вкладка Поля
- •Вкладка Параметры
- •Непараметрические критерии для связанных выборок
- •Чтобы применить непараметрические критерии для связанных выборок
- •Вкладка Поля
- •Вкладка Параметры
- •Представление модель
- •Сводка по проверке гипотез
- •Сводка по доверительным интервалам
- •Одновыборочный критерий
- •Критерии для связанных выборок
- •Критерий для независимых выборок
- •Информация по категориальным полям
- •Информация по количественным полям
- •Парные сравнения
- •Однородные подмножества
- •Команда NPTESTS: дополнительные возможности
- •Устаревшие диалоговые окна
- •Критерий хи-квадрат
- •Биномиальный критерий
- •Критерий серий
- •Одновыборочный критерий Колмогорова-Смирнова
- •Критерии для двух независимых выборок
- •Критерии для двух связанных выборок
- •Критерии для нескольких независимых выборок
- •Критерии для нескольких связанных выборок
- •28. Анализ множественных ответов
- •Задание наборов множественных ответов
- •Частоты для множественных ответов
- •Таблицы сопряженности для множественных ответов
- •Задание диапазонов переменных в таблицах сопряженности для наборов множественных ответов
- •Параметры процедуры Таблицы сопряженности для множественных ответов
- •Команда MULT RESPONSE: дополнительные возможности
- •29. Создание отчетов
- •Итоги по строкам
- •Как запустить процедуру выдачи итожащего отчета: Итоги по строкам
- •Параметры группировки отчета
- •Параметры отчета
- •Компоновка отчета
- •Заголовки отчета
- •Итоги по столбцам
- •Как запустить процедуру выдачи итожащего отчета: Итоги по столбцам
- •Итожащие функции столбцов данных
- •Формат столбцов отчета
- •Параметры группировки отчета с итогами по столбцам
- •Параметры отчета для итогов по столбцам
- •Компоновка отчета с итогами по столбцам
- •Команда REPORT: дополнительные возможности
- •30. Анализ пригодности
- •Статистики процедуры Анализ пригодности
- •Команда RELIABILITY: дополнительные возможности
- •31. Многомерное шкалирование
- •Многомерное шкалирование: Форма данных
- •Создание меры для многомерного шкалирования
- •Модель многомерного шкалирования
- •Параметры процедуры Многомерное шкалирование
- •Команда ALSCAL: дополнительные возможности
- •32. Статистики отношений
- •Статистики отношений
- •33. Кривые ROC
- •Параметры процедуры ROC Кривые
- •Указатель
Глава
Линейные модели
15
Линейные модели предсказывают значения непрерывных целевых переменных, основываясь на взаимосвязи между целевой переменной и одним или несколькими предикторами.
Линейные модели относительно просты и дают легко интерпретируемую математическую формулу для скоринга. Свойства этих моделей хорошо понятны, и их обычно можно построить очень быстро, по сравнению с моделями других типов (такими как нейронные сети или деревья решений) на том же наборе данных.
Пример. Страховая компания с ограниченными ресурсами для исследования страховых требований домовладельцев желает построить модель для оценки стоимости требований. Применяя эту модель в центрах обслуживания, сотрудники компании могут ввести информацию от требовании, разговаривая по телефону с клиентом, и немедленно получить “ожидаемую” стоимость требования, основываясь на прошлых данных.
Рисунок 15-1
Вкладка Поля
Требования к полям. Должны быть целевое и, по крайней мере, одно входное поля. По умолчанию не используются поля с предопределенными ролями Двойного назначения и Нет. Целевое поле должно быть непрерывным (количественным). Для предикторов (входные) отсутствуют ограничения на тип измерений; категориальные (номинальные
© Copyright IBM Corporation 1989, 2011. |
91 |
92
Глава 15
и порядковые) поля используются в модели в качестве факторов, а непрерывные поля используются как ковариаты.
Примечание: если категориальное поле содержит более 1000 категорий, то процедура не выполняется, и модель не строится.
Как запустить процедуру построения линейной модели
Для этой процедуры требуется модуль Statistics Base.
Выберите в меню:
Анализ > Регрессия > Автоматизированные линейные модели...
E Удостоверьтесь, что есть, по крайней мере, одна целевая и одна входная переменная.
EЩелкните по Параметры конструкции , чтобы задать необязательные параметры сборки
имодели.
EЩелкните по Параметры модели , чтобы сохранить оценки в активном наборе данных и экспортировать модель во внешний файл.
EЩелкните по Запуск , чтобы запустить процедуру и создать объекты модели.
Вслучае, когда тип измерений для одной или нескольких переменных (полей) в наборе данных неизвестен, выводится предупреждающее сообщение о типе измерений. Так как тип измерений влияет на вычисление результатов для этой процедуры, все переменные должны иметь заданный тип измерений.
Рисунок 15-2
Предупреждение о типе измерений
Сканировать данные. Считывает данные в активном наборе данных и назначает тип измерений по умолчанию любым полям с неизвестным типом измерений. Это может занять некоторое время, если набор данных большой.
Назначить вручную. Открывает диалоговое окно, в котором перечисляются все поля
снеизвестным типом измерений. Можно использовать это диалоговое окно, чтобы назначить тип измерений таким полям. Тип измерений можно также назначит на вкладке Переменные Редактора данных.
93
Линейные модели
Поскольку тип измерений важен для этой процедуры, нельзя получить доступ к диалоговому окну, позволяющему запустить эту процедуру, пока для всех полей не будет задан тип измерений.
Цели
Какова Ваша главная цель?
Создать стандартную модель. Данный метод строит единичную модель для предсказания целевой переменной, используя предикторы. Вообще говоря, стандартные модели легче поддаются интерпретации и могут требовать меньше времени при скоринге, чем построенные с применением бустинга, бэггинга или ансамблей больших наборов данных.
Повысить точность модели (бустинг). Данный метод строит модель ансамбля, используя бустинг, который генерирует последовательность моделей для получения более точных предсказаний. Ансамбли могут занять больше времени для их построения и скоринга, чем стандартная модель.
Бустинг генерирует последовательность “компонентных моделей”, каждая из которых строится по целому набору данных. Прежде чем строить каждую последовательную компонентную модель, записи взвешиваются на основе остатков для предшествующей компонентной модели. Наблюдениям с большими остатками придаются относительно большие веса в анализе, с тем чтобы следующая компонентная модель была сконцентрирована на том, чтобы хорошо предсказывать такие записи. Вместе такие компонентные модели образуют модель ансамбля. Модель ансамбля выполняет скоринг новых записей, пользуясь правилом объединения; доступные правила зависят от типа измерений целевой переменной.
Повысить стабильность модели (бэггинг). Данный метод строит модель ансамбля,
используя бэггинг (бутстреп-агрегирование), который генерирует множественные модели для получения более надежных предсказаний. Ансамбли могут занять больше времени для их построения и скоринга, чем стандартная модель.
Бутстреп-агрегирование (бэггинг) формирует реплики обучающего набора данных путем выбора с возвращением из исходного набора данных. В результате создаются бутстреп-выборки исходного набора данных равного объема. Затем по каждой реплике формируется “компонентная модель”. Вместе такие компонентные модели образуют модель ансамбля. Модель ансамбля выполняет скоринг новых записей, пользуясь правилом объединения; доступные правила зависят от типа измерений целевой переменной.
Создать модель для очень больших наборов данных (требуется IBM® SPSS® Statistics Server). Данный метод строит модель ансамбля путем расщепления набора данных на отдельные блоки данных. Выберите этот вариант, если ваш набор данных слишком велик для построения моделей перечисленных выше, или для инкрементного построения модели. Данный вариант может потребовать меньше времени для построения, но больше времени для скоринга, чем стандартная модель. Этот вариант требует соединения с SPSS Statistics Server.
94
Глава 15
Основные параметры
Рисунок 15-3
Основные параметры
Автоматически подготовить данные. Этот параметр позволяет процедуре выполнить внутренние преобразования целевой переменой и предикторов, чтобы максимизировать прогностическую силу модели. Все преобразования сохраняются вместе с моделью и применяются к новым данным при скоринге. Исходные версии преобразованных полей исключаются из модели. По умолчанию выполняются автоматические преобразования данных, описанные ниже.
Обработка дат и времени. Каждый предиктор, являющейся переменной дат, преобразуется в новый непрерывный предиктор, содержащий время, прошедшее, начиная с опорной даты (1970-01-01). Каждый предиктор, являющийся переменной времени, преобразуется в новый непрерывный предиктор, содержащий время, прошедшее, начиная с опорного момента времени (00:00:00).
Корректировка шкалы измерений. Непрерывные предикторы, содержащие менее 5 различных значений, преобразуются в порядковые предикторы. Порядковые
предикторы, содержащие более 10 различных значений, преобразуются в непрерывные предикторы.
Обработка выбросов. Значения непрерывных предикторов, которые лежат вне границ отсечения (определяемых тремя стандартными отклонениями от среднего значения), заменяются значением границы отсечения.
Обработка пропущенных значений. Пропущенные значения номинальных предикторов заменяются модой обучающего разбиения. Пропущенные значения порядковых предикторов заменяются медианой обучающего разбиения. Пропущенные