Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Дальневосточный институт управления РАНХиГС (ДВАГС)

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

IBM_SPSS_Statistics_Base.pdf

Скачиваний:

168

Добавлен:

19.05.2015

Размер:

5.37 Mб

Скачать

☆

<<< < Предыдущая 19 20 21 22 23 24 25 26 27 28 29 3031 / 8731 32 33 34 35 36 37 38 39 40 41 42 43 > Следующая >>>

Глава

Линейные модели

Линейные модели предсказывают значения непрерывных целевых переменных, основываясь на взаимосвязи между целевой переменной и одним или несколькими предикторами.

Линейные модели относительно просты и дают легко интерпретируемую математическую формулу для скоринга. Свойства этих моделей хорошо понятны, и их обычно можно построить очень быстро, по сравнению с моделями других типов (такими как нейронные сети или деревья решений) на том же наборе данных.

Пример. Страховая компания с ограниченными ресурсами для исследования страховых требований домовладельцев желает построить модель для оценки стоимости требований. Применяя эту модель в центрах обслуживания, сотрудники компании могут ввести информацию от требовании, разговаривая по телефону с клиентом, и немедленно получить “ожидаемую” стоимость требования, основываясь на прошлых данных.

Рисунок 15-1

Вкладка Поля

Требования к полям. Должны быть целевое и, по крайней мере, одно входное поля. По умолчанию не используются поля с предопределенными ролями Двойного назначения и Нет. Целевое поле должно быть непрерывным (количественным). Для предикторов (входные) отсутствуют ограничения на тип измерений; категориальные (номинальные

Глава 15

и порядковые) поля используются в модели в качестве факторов, а непрерывные поля используются как ковариаты.

Примечание: если категориальное поле содержит более 1000 категорий, то процедура не выполняется, и модель не строится.

Как запустить процедуру построения линейной модели

Для этой процедуры требуется модуль Statistics Base.

Выберите в меню:

Анализ > Регрессия > Автоматизированные линейные модели...

E Удостоверьтесь, что есть, по крайней мере, одна целевая и одна входная переменная.

EЩелкните по Параметры конструкции , чтобы задать необязательные параметры сборки

имодели.

EЩелкните по Параметры модели , чтобы сохранить оценки в активном наборе данных и экспортировать модель во внешний файл.

EЩелкните по Запуск , чтобы запустить процедуру и создать объекты модели.

Вслучае, когда тип измерений для одной или нескольких переменных (полей) в наборе данных неизвестен, выводится предупреждающее сообщение о типе измерений. Так как тип измерений влияет на вычисление результатов для этой процедуры, все переменные должны иметь заданный тип измерений.

Рисунок 15-2

Предупреждение о типе измерений

Сканировать данные. Считывает данные в активном наборе данных и назначает тип измерений по умолчанию любым полям с неизвестным типом измерений. Это может занять некоторое время, если набор данных большой.

Назначить вручную. Открывает диалоговое окно, в котором перечисляются все поля

снеизвестным типом измерений. Можно использовать это диалоговое окно, чтобы назначить тип измерений таким полям. Тип измерений можно также назначит на вкладке Переменные Редактора данных.

Линейные модели

Поскольку тип измерений важен для этой процедуры, нельзя получить доступ к диалоговому окну, позволяющему запустить эту процедуру, пока для всех полей не будет задан тип измерений.

Цели

Какова Ваша главная цель?

Создать стандартную модель. Данный метод строит единичную модель для предсказания целевой переменной, используя предикторы. Вообще говоря, стандартные модели легче поддаются интерпретации и могут требовать меньше времени при скоринге, чем построенные с применением бустинга, бэггинга или ансамблей больших наборов данных.

Повысить точность модели (бустинг). Данный метод строит модель ансамбля, используя бустинг, который генерирует последовательность моделей для получения более точных предсказаний. Ансамбли могут занять больше времени для их построения и скоринга, чем стандартная модель.

Бустинг генерирует последовательность “компонентных моделей”, каждая из которых строится по целому набору данных. Прежде чем строить каждую последовательную компонентную модель, записи взвешиваются на основе остатков для предшествующей компонентной модели. Наблюдениям с большими остатками придаются относительно большие веса в анализе, с тем чтобы следующая компонентная модель была сконцентрирована на том, чтобы хорошо предсказывать такие записи. Вместе такие компонентные модели образуют модель ансамбля. Модель ансамбля выполняет скоринг новых записей, пользуясь правилом объединения; доступные правила зависят от типа измерений целевой переменной.

Повысить стабильность модели (бэггинг). Данный метод строит модель ансамбля,

используя бэггинг (бутстреп-агрегирование), который генерирует множественные модели для получения более надежных предсказаний. Ансамбли могут занять больше времени для их построения и скоринга, чем стандартная модель.

Бутстреп-агрегирование (бэггинг) формирует реплики обучающего набора данных путем выбора с возвращением из исходного набора данных. В результате создаются бутстреп-выборки исходного набора данных равного объема. Затем по каждой реплике формируется “компонентная модель”. Вместе такие компонентные модели образуют модель ансамбля. Модель ансамбля выполняет скоринг новых записей, пользуясь правилом объединения; доступные правила зависят от типа измерений целевой переменной.

Создать модель для очень больших наборов данных (требуется IBM® SPSS® Statistics Server). Данный метод строит модель ансамбля путем расщепления набора данных на отдельные блоки данных. Выберите этот вариант, если ваш набор данных слишком велик для построения моделей перечисленных выше, или для инкрементного построения модели. Данный вариант может потребовать меньше времени для построения, но больше времени для скоринга, чем стандартная модель. Этот вариант требует соединения с SPSS Statistics Server.

Глава 15

Основные параметры

Рисунок 15-3

Основные параметры

Автоматически подготовить данные. Этот параметр позволяет процедуре выполнить внутренние преобразования целевой переменой и предикторов, чтобы максимизировать прогностическую силу модели. Все преобразования сохраняются вместе с моделью и применяются к новым данным при скоринге. Исходные версии преобразованных полей исключаются из модели. По умолчанию выполняются автоматические преобразования данных, описанные ниже.

Обработка дат и времени. Каждый предиктор, являющейся переменной дат, преобразуется в новый непрерывный предиктор, содержащий время, прошедшее, начиная с опорной даты (1970-01-01). Каждый предиктор, являющийся переменной времени, преобразуется в новый непрерывный предиктор, содержащий время, прошедшее, начиная с опорного момента времени (00:00:00).

Корректировка шкалы измерений. Непрерывные предикторы, содержащие менее 5 различных значений, преобразуются в порядковые предикторы. Порядковые

предикторы, содержащие более 10 различных значений, преобразуются в непрерывные предикторы.

Обработка выбросов. Значения непрерывных предикторов, которые лежат вне границ отсечения (определяемых тремя стандартными отклонениями от среднего значения), заменяются значением границы отсечения.

Обработка пропущенных значений. Пропущенные значения номинальных предикторов заменяются модой обучающего разбиения. Пропущенные значения порядковых предикторов заменяются медианой обучающего разбиения. Пропущенные

<<< < Предыдущая 19 20 21 22 23 24 25 26 27 28 29 3031 / 8731 32 33 34 35 36 37 38 39 40 41 42 43 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
19.05.20151.8 Mб316English for Economistsc 2014.doc
#
19.05.2015193.12 Кб44English Grammar ФЗО.docx
#
30.11.201848.71 Кб22fizra.docx
#
19.05.2015257.93 Кб47GPP.docx
#
19.05.2015150.91 Кб119gp_osob_chast_ekzamen.docx
#
19.05.20155.37 Mб168IBM_SPSS_Statistics_Base.pdf
#
25.09.201995.84 Кб18KP_1-35.docx
#
07.05.20191.58 Mб14Mezhdunarodnyy_marketing_1.doc
#
25.09.2019112.58 Кб15otv.docx
#
25.09.201999.58 Кб21otv2.docx
#
19.05.201585.84 Кб70pso_ekzamen_23-44.docx