Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
MC-91(Зуйкова) / IBM_SPSS_Statistics_Core_System_Users_Guide.pdf
Скачиваний:
158
Добавлен:
08.02.2015
Размер:
6.76 Mб
Скачать

328

Глава 15

Пропущенные значения

Эта группа параметров управляет обработкой пропущенных значений, обнаруженных в процессе скоринга в предикторных переменных, заданных в модели. Обработка пропущенных значений в контексте скоринга означает следующее:

Предиктор не содержит значения. Для числовых полей (переменных) это означает системное пропущенное значение. Для текстовых полей это означает нулевую строку.

Значение было определено как пользовательское пропущенное в модели для данного предиктора. Значения, определенные как пользовательские пропущенные в активном наборе данных, но не в модели, не интерпретируются как пропущенные значения в процессе скоринга.

Предиктор является категориальным и это значение не является одним из значений категорий, определенных в модели.

Использовать замену значений.Делается попытка замены значения при обнаружении пропущенных значений в процессе скоринга. Метод подбора значения для замены пропущенного зависит от типа прогностической модели.

Модели линейной регрессии и дискриминантного анализа. Для независимых переменных в моделях линейной регрессии и дискриминантного анализа, если был выбран вариант замены пропущенных значений средним значением при построении и сохранении модели, то это среднее значение используется вместо пропущенных значений при скоринге. Если средне значение недоступно, то результатом будет системное пропущенное значение.

Модели деревьев решений. В моделях CHAID и Исчерпывающий CHAID используется наибольший узел-сын в случае отсутствия значения расщепляющей переменной. Наибольший узел-сын – это узел, содержащий наибольшую подвыборку среди узлов-сыновей при использовании обучающей выборки. В моделях C&RT и QUEST в первую очередь используются переменные-суррогаты. (Расщепление по суррогатным переменным – это расщепление, максимально близкое к расщеплению, которое обеспечивают исходные предикторы.) если суррогатные расщепления не заданы или суррогатные переменные содержат пропущенные значения, то используется наибольший узел-сын.

Модели логистической регрессии. В отношении ковариат в моделях логистической регрессии, если среднее значение предиктора было включено в сохраненную модель, то это среднее значение используется для замены пропущенных значений во время скоринга. Если предиктор является категориальным (например, фактором в модели логистической регрессии) или если среднее значение недоступно, то результатом будет системное пропущенное значение.

Использовать системные пропущенные. При скоринге наблюдения с пропущенным значением в качестве результата скоринга возвращается системно пропущенное значение.

Выбор функций скоринга

Функции скоринга представляют собой типы значений скоринга, доступные для выбранной модели. Например, предсказанное значение целевой переменной, вероятность предсказанного значения или вероятность выбранного значения целевой переменной.

329

Скоринг данных с использованием прогнозных моделей

Рисунок 15-3

Конструктор скоринга: выбор функций скоринга

Функция скоринга. Доступные функции скоринга зависят от модели. Одна или несколько из перечисленных ниже будут присутствовать в списке:

Предсказанное значение. Предсказанное значение целевой переменной. Оно доступно для всех моделей, исключая те, которые не содержат целевой переменной.

Вероятность предсказанного значения. Вероятность для предсказанного значения оказаться правильным значением, выраженная в виде доли. Она доступна для большинства моделей с категориальной целевой переменной.

Вероятность выбранного значения. Вероятность для выбранного значения оказаться правильным значением, выраженная в виде доли. Выберите значение в столбе Значение раскрывающегося списка. Доступные значения определяются моделью. Она доступна для большинства моделей с категориальной целевой переменной.

Показатель доверия. Вероятность, связанная с предсказанным значением категориальной целевой переменной. Для моделей бинарной логистической регрессии, мультиномиальной логистической регрессии и наивной байесовской модели она совпадает с вероятностью предсказанного значения. Для моделей деревьев и Ruleset показатель доверия можно интерпретировать как скорректированную вероятность предсказанной категории, и она всегда меньше вероятности предсказанного значения. Для этих моделей значение показателя доверия является более надежным показателем, чем вероятность предсказанного значения.

Номер узла. Номер предсказанного терминального узла для моделей деревьев.

330

Глава 15

Стандартная ошибка. Стандартная ошибка предсказанного значения. Доступна для моделей линейной регрессии, общих линейных моделей и обобщенных линейных моделей с количественной целевой переменной. Она доступна, только если в файле моделей сохранена ковариационная матрица.

Накопленный риск. Оцененная функция накопленного риска. Значение указывает вероятность наблюдения события в заданный момент или ранее при заданных значениях предикторов.

Ближайший сосед. Идентификатор (ID) ближайшего соседа. ID представляет собой значение переменной меток наблюдений, если она имеется. Если нет, то это номер наблюдения. Применяется только к моделям ближайших соседей.

K-тый ближайший сосед. ID k-того ближайшего соседа. Введите целое число в качестве значения k в столбце Значение. ID представляет собой значение переменной меток наблюдений, если она имеется. Если нет, то это номер наблюдения. Применяется только к моделям ближайших соседей.

Расстояние до ближайшего соседа. Расстояние до ближайшего соседа. В зависимости от модели будет использовано либо расстояние Евклида, либо расстояние «городского квартала». Применяется только к моделям ближайших соседей.

Расстояние до k-того ближайшего соседа. Расстояние до k-того ближайшего соседа.

Введите целое число в качестве значения k в столбце Значение. В зависимости от модели будет использовано либо расстояние Евклида, либо расстояние «городского квартала». Применяется только к моделям ближайших соседей.

Имя поля. Для каждой выбранной функции скоринга в активном наборе данных сохраняется новое поле (переменная). Можно использовать имена, заданные по умолчанию, или ввести новые имена. Если поля с такими именами уже существуют в активном наборе данных, то они будут заменены. Правила именования полей смотрите в разделе Имена переменных.

Значение. Обратитесь к описаниям функций скоринга за описаниями функций, которые используют параметр Значение.

Скоринг активного набора данных

На последнем шаге работы с Конструктором можно запустить скоринг активного набора данных или вставить в окно синтаксиса сгенерированный командный синтаксис. Сгенерированный командный синтаксис можно затем изменить и/или сохранить.