- •IBM SPSS Statistics Base 20
- •Содержание
- •1. Информация о данных
- •Вкладка Информация о данных: Вывод
- •Вкладка Информация о данных: Статистики
- •2. Частоты
- •Статистики в процедуре Частоты
- •Диаграммы в процедуре Частоты
- •Частоты: Формат
- •3. Описательные
- •Параметры процедуры Описательные статистики
- •Команда DESCRIPTIVES: дополнительные возможности
- •4. Исследовать
- •Статистики процедуры Исследовать
- •Графики процедуры Исследовать
- •Степенные преобразования в процедуре Исследовать
- •Параметры процедуры Исследовать
- •Команда EXAMINE: дополнительные возможности
- •5. Таблицы сопряженности
- •Слои таблиц сопряженности
- •Кластеризованные столбиковые диаграммы в процедуре Таблицы сопряженности
- •Таблицы сопряженности, выводящие переменные слоев в слоях таблицы
- •Вывод в ячейках для таблиц сопряженности
- •Формат таблиц сопряженности
- •6. Подытожить
- •Параметры процедуры Подытожить наблюдения
- •Статистики процедуры Подытожить наблюдения
- •7. Средние
- •Параметры процедуры Средние
- •8. OLAP Кубы
- •Статистики в процедуре OLAP Кубы
- •OLAP Кубы: Разности
- •OLAP Кубы: Заголовок
- •9. T-критерии
- •T-критерий для независимых выборок
- •Параметры процедуры T-критерий для независимых выборок
- •T-критерий для парных выборок
- •Параметры процедуры Т-критерий для парных выборок
- •Одновыборочный T-критерий
- •Параметры процедуры Одновыборочный T-критерий
- •Команда T-TEST: дополнительные возможности
- •10. Однофакторный дисперсионный анализ
- •Контрасты для однофакторного дисперсионного анализа
- •Апостериорные критерии для однофакторного дисперсионного анализа
- •Параметры процедуры Однофакторный дисперсионный анализ
- •Команда ONEWAY: дополнительные возможности
- •11. Общая линейная модель: одномерный анализ
- •Общая линейная модель (ОЛМ)
- •Создать члены
- •Сумма квадратов
- •Контрасты ОЛМ
- •Типы контрастов
- •Графики профилей в ОЛМ
- •Апостериорные сравнения в ОЛМ
- •Сохранение новых переменных в ОЛМ
- •Параметры процедуры ОЛМ
- •Команда UNIANOVA: дополнительные возможности
- •12. Парные корреляции
- •Параметры процедуры Парные корреляции
- •13. Частные корреляции
- •Параметры процедуры Частные корреляции
- •Команда PARTIAL CORR: дополнительные возможности
- •14. Расстояния
- •Меры различия
- •Меры сходства
- •Команда PROXIMITIES: дополнительные возможности
- •15. Линейные модели
- •Как запустить процедуру построения линейной модели
- •Цели
- •Основные параметры
- •Подбор модели
- •Ансамбли
- •Дополнительные параметры
- •Параметры модели
- •Сводка для модели
- •Автоматическая подготовка данных
- •Важность предикторов
- •Предсказанные против наблюденных
- •Остатки
- •Выбросы
- •Эффекты
- •Коэффициенты
- •Оцененные средние
- •Сводка по построению модели
- •16. Линейная регрессия
- •Методы отбора переменных для линейной регрессии
- •Задание правила отбора наблюдений для линейной регрессии
- •Графики процедуры Линейная регрессия
- •Линейная регрессия: Сохранение новых переменных
- •Статистики процедуры Линейная регрессия
- •Параметры процедуры Линейная регрессия
- •Команда REGRESSION: дополнительные возможности
- •17. Порядковая регрессия
- •Порядковая регрессия: Параметры
- •Порядковая регрессия: Вывод
- •Порядковая регрессия: Модель положения
- •Создать члены
- •Порядковая регрессия: Модель масштаба
- •Команда PLUM: дополнительные возможности
- •18. Подгонка кривых
- •Модели подгонки кривых
- •Подгонка кривых: Сохранить
- •19. Регрессия частично наименьших квадратов
- •Модель
- •Параметры
- •20. Анализ методом ближайших соседей
- •Соседи
- •Показатели
- •Группы
- •Сохранить
- •Вывод
- •Параметры
- •Вид Модель
- •Пространство показателей
- •Важность переменных
- •Соседи
- •Расстояния до ближайших соседей
- •Диаграмма квадрантов
- •Значения ошибок при отборе показателей
- •Значения ошибок при выборе k
- •Значения ошибок при отборе показателей и выборе k
- •Таблица классификации
- •Сводка ошибок
- •21. Дискриминантный анализ
- •Задание диапазона в процедуре Дискриминантный анализ
- •Отбор наблюдений для процедуры дискриминантного анализа
- •Статистики в процедуре Дискриминантный анализ
- •Метод пошагового отбора процедуры Дискриминантный анализ
- •Дискриминантный анализ: Классификация
- •Дискриминантный анализ: Сохранить
- •Команда DISCRIMINANT: дополнительные возможности
- •22. Факторный анализ
- •Отбор наблюдений для факторного анализа
- •Описательные статистики факторного анализа
- •Выделение факторов в процедуре Факторный анализ
- •Вращение факторов для факторного анализа
- •Значения факторов в процедуре факторного анализа
- •Параметры процедуры Факторный анализ
- •Команда FACTOR: дополнительные возможности
- •23. Выбор процедуры кластеризации
- •24. Двухэтапный кластерный анализ
- •Параметры процедуры Двухэтапный кластерный анализ
- •Вывод процедуры Двухэтапный кластерный анализ
- •Средство просмотра кластеров
- •Закладка Средство просмотра кластеров
- •Перемещение по средству просмотра кластеров
- •Фильтрация записей
- •25. Иерархический кластерный анализ
- •Задание метода иерархического кластерного анализа
- •Статистики для процедуры Иерархический кластерный анализ
- •Графики для процедуры Иерархический кластерный анализ
- •Сохранение новых переменных в процедуре Иерархический кластерный анализ
- •Эффективность кластерного анализа методом k-средних
- •Итерации в кластерном анализе методом k-средних
- •Сохранение новых переменных в кластерном анализе методом k-средних
- •Параметры процедуры Кластерный анализ методом К-средних
- •Команда QUICK CLUSTER: дополнительные возможности
- •27. Непараметрические критерии
- •Одновыборочные непараметрические критерии
- •Чтобы получить одновыборочные непараметрические критерии
- •Вкладка Поля
- •Вкладка Параметры
- •Непараметрические критерии для независимых выборок
- •Чтобы получить непараметрические критерии для независимых выборок
- •Вкладка Поля
- •Вкладка Параметры
- •Непараметрические критерии для связанных выборок
- •Чтобы применить непараметрические критерии для связанных выборок
- •Вкладка Поля
- •Вкладка Параметры
- •Представление модель
- •Сводка по проверке гипотез
- •Сводка по доверительным интервалам
- •Одновыборочный критерий
- •Критерии для связанных выборок
- •Критерий для независимых выборок
- •Информация по категориальным полям
- •Информация по количественным полям
- •Парные сравнения
- •Однородные подмножества
- •Команда NPTESTS: дополнительные возможности
- •Устаревшие диалоговые окна
- •Критерий хи-квадрат
- •Биномиальный критерий
- •Критерий серий
- •Одновыборочный критерий Колмогорова-Смирнова
- •Критерии для двух независимых выборок
- •Критерии для двух связанных выборок
- •Критерии для нескольких независимых выборок
- •Критерии для нескольких связанных выборок
- •28. Анализ множественных ответов
- •Задание наборов множественных ответов
- •Частоты для множественных ответов
- •Таблицы сопряженности для множественных ответов
- •Задание диапазонов переменных в таблицах сопряженности для наборов множественных ответов
- •Параметры процедуры Таблицы сопряженности для множественных ответов
- •Команда MULT RESPONSE: дополнительные возможности
- •29. Создание отчетов
- •Итоги по строкам
- •Как запустить процедуру выдачи итожащего отчета: Итоги по строкам
- •Параметры группировки отчета
- •Параметры отчета
- •Компоновка отчета
- •Заголовки отчета
- •Итоги по столбцам
- •Как запустить процедуру выдачи итожащего отчета: Итоги по столбцам
- •Итожащие функции столбцов данных
- •Формат столбцов отчета
- •Параметры группировки отчета с итогами по столбцам
- •Параметры отчета для итогов по столбцам
- •Компоновка отчета с итогами по столбцам
- •Команда REPORT: дополнительные возможности
- •30. Анализ пригодности
- •Статистики процедуры Анализ пригодности
- •Команда RELIABILITY: дополнительные возможности
- •31. Многомерное шкалирование
- •Многомерное шкалирование: Форма данных
- •Создание меры для многомерного шкалирования
- •Модель многомерного шкалирования
- •Параметры процедуры Многомерное шкалирование
- •Команда ALSCAL: дополнительные возможности
- •32. Статистики отношений
- •Статистики отношений
- •33. Кривые ROC
- •Параметры процедуры ROC Кривые
- •Указатель
95
Линейные модели
значения непрерывных предикторов заменяются средним значением обучающего разбиения.
Контролируемое объединение. Эта операция делает модель более “экономной” путем уменьшения числа полей, обрабатываемых в связи с целевым полем. Идентифицируются подобные категории, основываясь на взаимосвязи между входным
и целевым полями. Категории, которые не различаются значимо (т.е. имеющие p-значение больше 0,1), объединяются. Если все категории объединяются в одну, то исходная и полученная версии поля исключаются из модели, поскольку они не представляют ценности как предиктор.
Доверительный уровень. Это доверительный уровень, используемый при вычислении интервальных оценок коэффициентов модели, представленных на панели Коэффициенты. Задайте значение, большее 0 и меньшее 100. Значение по умолчанию равно 95.
Подбор модели
Рисунок 15-4
Параметры подбора модели
Метод подбора модели. Выберите один из методов подбора модели (подробности ниже) или Включить все предикторы, когда все имеющиеся предикторы просто вводятся в модель как члены главных эффектов. По умолчанию используется Прямой шаговый .
96
Глава 15
Прямой шаговый отбор. Этот метод начинает работу с модели без эффектов, добавляя и удаляя эффекты по одному на каждом шаге до тех пор, пока ни один эффект нельзя будет добавить, руководствуясь критериями шагового отбора.
Критерии для включения/исключения. Это статистика, используемая для определения того, следует ли эффект добавить в модель или исключить из нее. Информационный критерий (AICC) основывается на правдоподобии обучающего множества для
данной модели и скорректирован с целью штрафовать излишне сложные модели. F-статистики основывается на статистическом критерии снижения модельной ошибки. Скорректированный R-квадрат основывается на точности подгонки для обучающего множества и скорректирован с целью штрафовать излишне сложные модели. Критерий предотвращения сверхобучения (СКО) основывается на точности подгонки (среднем квадрате ошибки или СКО) для множества предотвращения сверхобучения. Множество предотвращения сверхобучения представляет собой случайную подвыборку, содержащую приблизительно 30% наблюдений из исходного набора данных, которая не используется при обучении модели.
Если выбран любой критерий, отличный от F-статистики , то на каждом шаге в модель добавляется эффект, соответствующий максимальному положительному приращению значения критерия. Все эффекты в модели, соответствующие уменьшению значения критерия, удаляются.
Если в качестве критерия выбран F-статистики , то на каждом шаге в модель добавляется эффект, дающий наименьшее p-значение, при условии, что оно меньше порогового значения, заданного в Включать эффекты с p-значениями, меньшими чем. Значение по умолчанию равно 0,05. Все эффекты в модели с p-значением, превосходящим пороговое значение, заданное в Исключать эффекты с p-значениями, большими чем, удаляются.
Значение по умолчанию равно 0.10.
Задать максимальное число эффектов в окончательной модели. По умолчанию все имеющиеся эффекты могут быть включены в модель. Как альтернатива, если шаговый алгоритм, заканчивая работу на некотором шаге, имеет заданное максимальное число эффектов в модели, то он останавливает работу, сохраняя текущий набор эффектов.
Задать максимальное число шагов. Шаговый алгоритм останавливается после определенного числа шагов. По умолчанию это утроенное число имеющихся эффектов. Как альтернатива, задайте положительное целое для максимума числа шагов.
Выбор наилучших подмножеств. Проверяются “все возможные” модели или, по крайней мере, большая совокупность возможных моделей, чем при прямом пошаговом отборе, для выбора наилучших в соответствии с критерием наилучших подмножеств. Информационный критерий (AICC) основывается на правдоподобии обучающего множества для данной модели и скорректирован с целью штрафовать излишне сложные модели. Скорректированный R-квадрат основывается на точности подгонки для обучающего множества и скорректирован с целью штрафовать излишне сложные модели. Критерий предотвращения сверхобучения (СКО) основывается на точности подгонки (среднем квадрате ошибки или СКО) для множества предотвращения сверхобучения. Множество предотвращения сверхобучения представляет собой случайную подвыборку, содержащую приблизительно 30% наблюдений из исходного набора данных, которая не используется при обучении модели.
В качестве наилучшей модели выбирается модель с наибольшим значением критерия.
97
Линейные модели
Примечание: Выбор наилучших подмножеств требует большего объема вычислений, чем прямой шаговый отбор. Когда выполняется выбор наилучших подмножеств в сочетании с бустингом, бэггингом или очень большими наборами данных, то для построения модели потребуется значительно больше времени, чем при построении стандартной модели с использованием прямого пошагового отбора.
Ансамбли
Рисунок 15-5
Параметры ансамблей
Данные параметры определяют поведение ансамбля, которое имеет место, когда на вкладке Цели запрашивается бэггинг, бустинг или очень большие наборы данных. Параметры, которые не применяются к выбранной цели, игнорируются.
Бэггинг и очень большие наборы данных. Это правило, которое при скоринге ансамбля используется, чтобы объединить предсказанные значения для базовых моделей с целью вычисления значения для ансамбля.
Принятое по умолчанию правило объединения для непрерывных целевых полей.
Предсказанные значения для ансамбля в случае непрерывных целевых полей могут быть вычислены с использованием среднего значения или медианы предсказанных значений для базовых моделей.
Обратите внимание на то, что если цель состоит в повышении точности модели, выбор правила объединения игнорируется. При бустинге всегда используется взвешенное решение большинством голосов для скоринга категориальных целевых полей и взвешенная медиана для скоринга непрерывных целевых полей.
Бустинг и бэггинг. Задайте число базовых моделей для построения, когда целью является повышение точности или стабильности; для бэггинга это число бутстреп-выборок. Оно должно быть положительным целым.
98
Глава 15
Дополнительные параметры
Рисунок 15-6
Дополнительные параметры
Воспроизвести результаты. Задание стартового числа генератора псевдослучайных чисел позволяет воспроизвести результаты. Генератор псевдослучайных чисел используется для выбора записей, попадающих в множество предотвращения сверхобучения. Задайте целое число или щелкните по Генерировать, чтобы сгенерировать псевдослучайное целое число в диапазоне между 1 и 2147483647 включительно. Значение по умолчанию равно 54752075.
Параметры модели
Рисунок 15-7
Вкладка Параметры модели