Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
MC-91(Зуйкова) / IBM_SPSS_Statistics_Core_System_Users_Guide.pdf
Скачиваний:
157
Добавлен:
08.02.2015
Размер:
6.76 Mб
Скачать

324

Глава 15

В приведенной ниже таблице перечислены процедуры, поддерживающие экспорт спецификаций модели в файл модели. В столбце “Модуль” указан дополнительный модуль, в который включена процедура.

Имя процедуры

Имя команды

Модуль

Дискриминантный анализ

DISCRIMINANT

Statistics Base

Линейная регрессия

REGRESSION

Statistics Base

Автоматизированные линейные модели

LINEAR

Statistics Base

Двухэтапный кластерный анализ

TWOSTEP CLUSTER

Statistics Base

Ближайшие соседи

KNN

Statistics Base

Регрессия Кокса

COXREG

Advanced Statistics

Обобщенные линейные модели

GENLIN

Advanced Statistics

Обобщенные уравнения оценки

GENLIN

Advanced Statistics

Обобщенные линейные смешанные

GENLINMIXED

Advanced Statistics

модели

 

 

Общая линейная модель для сложных

CSGLM

Complex Samples

выборок

 

 

Логистическая регрессия для сложных

CSLOGISTIC

Complex Samples

выборок

 

 

Порядковая регрессия для сложных

CSORDINAL

Complex Samples

выборок

 

 

Регрессия Кокса для сложных выборок

CSCOXREG

Complex Samples

Логистическая регрессия

LOGISTIC REGRESSION

Регрессия

Мультиномиальная логистическая

NOMREG

Регрессия

регрессия

 

 

Decision Tree

TREE

Decision Tree

Многослойный перцептрон

MLP

Neural Networks

Радиальная базисная функция

RBF

Neural Networks

Выявление аномалий

DETECTANOMALY

Data Preparation

Наивный Байес

NAIVEBAYES

SPSS Statistics

 

 

Server

Конструктор скоринга

Конструктор скоринга можно использовать, чтобы применить модель, созданную с помощью одного набора данных, к другому набору данных и сгенерировать значения скоринга, такие как предсказанные значения и/или предсказанные вероятности для целевой переменной.

Как выполнить скоринг набора данных с помощью прогнозной модели

E Откройте набор данных, для которого нужно выполнит скоринг.

E Откройте Конструктор скоринга. Выберите в меню:

Сервис > Конструктор скоринга.

325

Скоринг данных с использованием прогнозных моделей

Рисунок 15-1

Конструктор скоринга: Выберите модель для скоринга

EВыберите для модели XML-файл или архив ZIP. Используйте кнопку Обзор, чтобы перейти

кдругой папке для выбора файла модели.

EСопоставьте поля в активном наборе данных с полями, использованными в модели. Дополнительную информацию см. данная тема Сопоставление полей модели и полей набора данных на стр. 326.

EВыберите функции скоринга, которые нужно использовать. Дополнительную информацию см. данная тема Выбор функций скоринга на стр. 328.

Выберите модель для скоринга. Файлом модели может быть XML-файл или архив ZIP, который содержит PMML для модели. В списке выводятся только файлы с расширением zip или xml; сами расширения файлов в списке не выводятся. Можно использовать любой файл, созданный IBM® SPSS® Statistics. Можно также использовать некоторые файлы моделей, созданные другими приложениями, такими как IBM® SPSS® Modeler, однако некоторые файлы моделей не могут быть считаны SPSS Statistics, включая любые модели, имеющие несколько целевых полей (переменных).

Детали модели. Эта группа выводит основную информацию о выбранной модели, такую как тип модели, целевую переменную (если она есть), а также предикторы, использованные для построения модели. Поскольку, чтобы вывести эту информацию для выбранной модели, нужно считать файл, то возможно, что она будет выведена с некоторой задержкой. Если XML-файл или архив ZIP не распознается как модель, которую SPSS Statistics может считать, то выводится сообщение о том, что файл нельзя считать.

326

Глава 15

Сопоставление полей модели и полей набора данных

Чтобы выполнить скоринг активного набора данных, этот набор данных должен содержать поля (переменные), которые соответствуют всем предикторам в модели. Если модель, кроме того, содержит поля расщепления, то набор данных также должен содержать поля, которые соответствуют всем полям расщепления в модели.

По умолчанию любые поля в активном наборе данных, которые имеют те же имена и типы, что и поля в модели, сопоставляются автоматически.

Используйте раскрывающийся список для сопоставления полей в наборе данных и модели. Для сопоставления полей необходимо, чтобы тип данных для каждого поля был одним и тем же как в модели, так и в наборе данных.

Нельзя продолжить работу Конструктора скоринга для активного набора данных, если все предикторы (а также поля расщепления, если они есть) в модели не сопоставлены с полям в активном наборе данных.

Рисунок 15-2

Конструктор скоринга: Сопоставление полей модели

Поля набора данных. Этот раскрывающийся список содержит имена всех полей в активном наборе данных. Поля, которые не совпадают по типу данных с соответствующим полем в модели, не могут быть выбраны.

Поля модели. Это поля, использованные в модели.

327

Скоринг данных с использованием прогнозных моделей

Роль. Может быть выведена одна из перечисленных ниже ролей:

Предиктор. Это поле использовано в модели в качестве предиктора. То есть значения предикторов используются для предсказания значений целевой переменной.

Расщепление. Значения полей расщепления используются, чтобы задать подгруппы,

ккаждой из которых скоринг применяется отдельно от остальных подгрупп. Для каждой уникальной комбинации значений полей расщепления формируется отдельная подгруппа. (Примечание: расщепления допускаются только для некоторых моделей.)

ID записи. Идентификатор записи (наблюдения).

Мера. Шкала измерений для модели, как она задана в модели. Для моделей, в которых шкала измерений может влиять на значения скоринга, используется шкала измерений, как она задана в модели, а не как она задана в активном наборе данных. За дополнительной информацией о типе шкалы измерений обращайтесь к Шкала измерения переменной.

Тип. Тип данных, как он задан в модели. Тип данных в активном наборе данных должен соответствовать типу данных в модели. Тип данных может быть одним из следующих:

Текстовый. Поля с текстовым типом данных в активном наборе данных сопоставляются с полями с текстовым типом данных в модели.

Числовой. Числовые поля с форматами вывода, отличными от форматов дат и времени, в активном наборе данных сопоставляются с полями с числовым типом данных в модели. Это включает форматы F (числовой), Доллар, Точка, Запятая, E (научная запись), а также любой пользовательский денежный формат. Поля с форматами Wkday (день недели) и Month (месяц года) также считаются числовыми, а не датами. Для некоторых типов моделей поля дат и времени в активном наборе данных также считаются сопоставимыми с полями с числовым типом данных в модели.

Дата. Числовые поля с форматами вывода, которые включает дату, но не время, в активном наборе данных сопоставляются с полями с типом дат в модели. Это включает

Date (dd-mm-yyyy), Adate (mm/dd/yyyy), Edate (dd.mm.yyyy), Sdate (yyyy/mm/dd) и Jdate (dddyyyy).

Время. Числовые поля с форматами вывода, которые включает время, но не дату, в активном наборе данных сопоставляются с полями с типом данных времени в модели.

Это включает Time (hh:mm:ss) и Dtime (dd hh:mm:ss).

Метка даты/времени. Числовые поля с форматом вывода, который включает как дату, так и время, в активном наборе данных сопоставляются с полями с этим типом данных в модели. Это соответствует формату Datetime (dd-mm-yyyy hh:mm:ss) в активном наборе данных.

Примечание: Кроме имени поля и его типа, необходимо удостовериться в том, что реальные значения данных в наборе данных, для которого выполняется скоринг, записаны так же, как и значения данных в наборе данных, использованном для построения модели. Например, если модель была построена с использованием поля Income, в котором доход разбит на четыре категории, а поле IncomeCategory в активном наборе данных имеет шесть различных категорий дохода, то эти поля не соответствуют друг другу и полученным значениям скоринга доверять нельзя.