Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
IBM_SPSS_Statistics_Base.pdf
Скачиваний:
168
Добавлен:
19.05.2015
Размер:
5.37 Mб
Скачать

99

Линейные модели

Сохранить предсказанные значения в наборе данных. Именем переменной по умолчанию является ПредсказанноеЗначение.

Экспортировать модель. Модель записывается во внешний файл .zip . Этот файл модели можно использовать для применения информации о модели к другим файлам данных с целью скоринга. Задайте уникальное допустимое имя файла. Если файл с таким именем уже существует, то он перезаписывается.

Сводка для модели

Рисунок 15-8

Вид Сводка для модели

Вид Сводка для модели - это мгновенная визуальная сводка по модели и ее подгонке.

Таблица. Данная таблица отображает некоторые установки высокого уровня для модели, включая:

имя целевого поля, заданное на вкладке Поля,

выполнена ли автоматическая подготовка данных, которая задается на странице установок Основные параметры ,

метод подбора модели и критерий отбора, которые задаются на странице установок Подбор модели. Выводится также значение критерия отбора для окончательной модели и представляется в форме “меньше значит лучше”.

Диаграмма. Данная диаграмма показывает точность окончательной модели, представленную в форме “больше значит лучше”. Это значение есть 100 × скорректированный R2 для окончательной модели.

100

Глава 15

Автоматическая подготовка данных

Рисунок 15-9

Вид Автоматическая подготовка данных

Этот вид выводит информацию о том, какие поля были исключены и как преобразованные поля были получены на этапе автоматической подготовки данных (ADP). Для каждого поля, которое было преобразовано или исключено, в таблице перечисляется имя поля, его роль в анализе и действие, совершенное на этапе ADP. Поля сортируются в алфавитном порядке имен полей по возрастанию. Возможные действия, выолняемые для каждого поля, включают:

Вычислить продолжительность: месяцы вычисляет время в месяцах, прошедшее от

значений некоторого поля, содержащего даты, до текущей системной даты.

Вычислить продолжительность: месяцы вычисляет время в часах, прошедшее от значений

некоторого поля, содержащего время, до текущего значения системного времени.

Сменить тип измерений с непрерывного на порядковый преобразует непрерывные поля

сменее чем 5 различных значений в порядковые поля.

Сменить тип измерений с порядкового на непрерывный преобразует порядковые поля с

более чем 10 различных значений в непрерывные поля.

Урезать выбросы заменяет значения непрерывных предикторов, которые лежат вне

границ отсечения (определяемых тремя стандартными отклонениями от среднего значения), значением границы отсечения.

Заменить пропущенные значения заменяет пропущенные значения номинальных полей

модой, порядковых полей медианой, а непрерывных полей средним значением.

101

Линейные модели

Объединить категории для максимизации взаимосвязи с целеым полем выявляет

“похожие” категории предикторов на основе взаимосвязи между входными и целевой переменными. Категории, которые не различаются значимо (т.е. имеющие p-значение больше 0,05), объединяются.

Исключить предиктор-константу / после обработки пропущенных значений / после

объединения категорий удаляет предикторы, которые имеют единственное значение, вероятно, в результате выполнения дополнительных действий автоматической подготовки данных.

Важность предикторов

Рисунок 15-10

Вид Важность предикторов

Обычно при моделировании сосредотачивают внимание на наиболее важных предикторах и исключают или игнорируют наименее важные. Это помогает сделать диаграмма важности предикторов, показывая относительную важность каждого предиктора при оценке модели. Поскольку значения важности являются относительными, сумма этих значений для всех отображаемых предикторов равна 1,0. Важность переменных не связана с точностью модели. Она лишь связана с важностью каждого предиктора для предсказания, а не с точностью этого предсказания.

102

Глава 15

Предсказанные против наблюденных

Рисунок 15-11

Вид Предсказанные против наблюденных

Выводится диаграмма рассеяния с интервалами для предсказанных значений по вертикальной оси против наблюденных значений по горизонтальной оси. В идеале точки должны лежать на прямой, проведенной под угом 45 градусов. Такое представление позволяет определить, есть ли записи, которые плохо предсказываются моделью.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]