Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
MC-91(Зуйкова) / IBM_SPSS_Statistics_Core_System_Users_Guide.pdf
Скачиваний:
159
Добавлен:
08.02.2015
Размер:
6.76 Mб
Скачать

133

Подготовка данных

Визуальная категоризация

Процедура Визуальная категоризация предназначена для оказания помощи в создании новых переменных на основе группирования непрерывных значений существующих переменных в ограниченное количество различающихся категорий. Визуальную категоризацию можно использовать, чтобы

Создавать категориальные переменные из непрерывных числовых переменных. Например, Вы можете на основе количественной переменной Доход создать новую категориальную переменную, которая будет содержать категории дохода.

Преобразовывать большое число категорий порядковой переменной в меньшее число категорий. Например, Вы можете сократить число категорий шкалы оценок с девяти до трех: низкая, средняя и высокая.

На первом этапе нужно

EВыбрать числовые количественные и/или порядковые переменные, на основе которых нужно создать новые категориальные переменные.

Рисунок 7-15

Стартовое диалоговое окно выбора переменных для разбиения

Дополнительно Вы можете ограничить число сканируемых наблюдений. В файлах данных с большим числом наблюдений ограничение числа сканируемых наблюдений может существенно сэкономить время, однако этого следует, по возможности, избегать, поскольку это влияет на распределение значений, используемых в последующих расчетах процедурой Визуальная категоризация.

Примечание: Текстовые переменные и номинальные числовые переменные не отображаются в списке исходных переменных. Процедура Визуальная категоризация требует числовых переменных, измеренных в количественной или порядковой шкале,

134

Глава 7

поскольку предполагается, что значения данных имеют некоторый логический порядок, который можно использовать для естественной группировки значений. Вы можете изменить тип шкалы измерений переменной на закладке Переменные в Редакторе данных. Дополнительную информацию см. данная тема Шкала измерения переменной в Данная глава 5 на стр. 80.

Чтобы категоризовать переменные

E Выберите в меню в окне Редактора данных:

Преобразовать > Визуальная категоризация...

EВыбрать числовые количественные и/или порядковые переменные, на основе которых нужно создать новые категориальные переменные.

E Выберите переменную в списке Отсканированные переменные.

EВведите имя новой категоризованной переменной. Имена переменных должны быть уникальными и должны соответствовать правилам для имен переменных. Дополнительную информацию см. данная тема Имена переменных в Данная глава 5 на стр. 79.

EЗадайте критерии категоризации для новой переменной. Дополнительную информацию см. данная тема Категоризация переменных на стр. 134.

E Щелкните по ОК.

Категоризация переменных

Рисунок 7-16

Визуальная категоризация, главное диалоговое окно

135

Подготовка данных

В главном диалоговом окне процедуры Визуальная категоризация представляется следующая информация по отсканированным переменным:

Список отсканированных переменных. В списке выводятся переменные, которые Вы выбрали в стартовом диалоговом окне. Вы можете отсортировать список по уровню измерений (количественный или порядковый), а также по имени или метке переменной, щелкнув по заголовку столбца.

Просканировано наблюдений. Выводится число отсканированных наблюдений. Все отсканированные наблюдения без пользовательских и системных пропущенных значений для выбранной переменной используются для формирования распределения значений, используемых в вычислениях в процедуре Визуальная категоризация, включая гистограмму в главном диалоговом окне и пороговые точки на основе процентилей или единиц стандартных отклонений.

Пропущенные значения. Выводится число отсканированных наблюдений с пользовательскими или системными пропущенными значениями. Пропущенные значения не включаются ни в одну из категорий интервалов. Дополнительную информацию см. данная тема Пользовательские пропущенные значения в процедуре Визуальная категоризация на стр. 141.

Текущая переменная. Имя и метка (если задана) текущей выбранной переменной, которая будет использоваться для создания новой, категоризованной переменной.

Новая переменная: Имя и необязательная метка новой, категоризованной переменной.

Имя. Вы должны ввести имя новой переменной. Имена переменных должны быть уникальными и должны соответствовать правилам для имен переменных. Дополнительную информацию см. данная тема Имена переменных в Данная глава 5 на стр. 79.

Метка. Вы можете ввести описательную метку переменной длиной до 255 символов. По умолчанию используется метка (если задана) или имя исходной переменной с добавленным словом (Категоризовано).

Минимум и максимум. Минимальное и максимальное значения текущей выбранной переменнойпоотсканированнымнаблюдениям, невключаяпользовательскиепропущенные значения.

Непропущенные значения. Гистограмма отображает распределение непропущенных значений текущей выбранной переменной на основе отсканированных наблюдений.

После того как Вы определили интервалы для новой переменной, на гистограмме появляются вертикальные линии, обозначающие границы интервалов.

Вы можете перетаскивать линии границ интервалов на гистограмме, изменяя ширину интервалов.

Вы можете удалять интервалы, перетаскивая линий границ за пределы гистограммы.

Примечание: Гистограмма (отображающая непропущенные значения), минимальное и максимальное значения основываются на отсканированных наблюдениях. Если

сканировались не все наблюдения, распределение значений может неточно соответствовать фактическому распределению значений в файле, в особенности, если файл был

136

Глава 7

отсортирован по выбранной переменной. Если сканировалось ноль наблюдений, информация о распределении значений недоступна.

Сетка. Отображаются значения, определяющие верхние границы интервалов, и необязательные метки для каждого интервала.

Значение. Значения, определяющие верхние границы интервалов. Вы можете ввести значения или воспользоваться кнопкой Границы интервалов, чтобы автоматически создать интервалы на основе заданных критериев. По умолчанию, автоматически включается граница интервала со значением ВЫСОКИЙ. Этот интервал будет включать все непропущенные значения, превышающие значения остальных границ интервалов. Интервал, определяемый наименьшим значением границ интервалов, будет включать все непропущенные значения, меньшие либо равные этому значению (или просто меньшие этого значения, в зависимости от того, как вы определили верхние границы интервалов).

Метка. Необязательные описательные метки значений новой, разбитой переменной. Поскольку значениями новой переменной будут просто числа от 1 до n, метки, описывающие, что представляют эти значения, являются очень полезными. Вы можете ввести метки вручную или воспользоваться кнопкой Создать метки, чтобы автоматически создать метки значений.

Как удалить интервал в сетке:

EЩелкните правой кнопкой мыши по ячейке Значение или Метка интервала, который необходимо удалить.

EИз контекстного меню выберите Удалить строку.

Примечание: Если Вы удалите интервал ВЫСОКИЙ, всем наблюдениям, имеющим значения выше последнего заданного значения границы интервала, будут в новой переменной назначены системные пропущенные значения.

Как удалить все метки или все заданные интервалы:

E Щелкните правой кнопкой мыши в любом месте сетки.

EИз контекстного меню выберите Удалить все метки или Удалить все границы.

Верхние границы. Определяет интерпретацию верхних границ интервалов в столбце

Значение в сетке.

Включены (<=). Наблюдения, имеющие значение, заданное в ячейке Значение в сетке, включаются в категорию интервала. Например, если Вы задали значения 25, 50 и 75, то наблюдения со значением 25 попадут в первый интервал, поскольку в интервал включаются все значения меньшие либо равные 25.

Исключены (<). Наблюдения, имеющие значение, заданное в ячейке Значение в сетке, включаются в категорию интервала. Эти значения включаются в следующий интервал. Например, если Вы задали значения 25, 50 и 75, то наблюдения со значением 25 попадут во второй интервал, поскольку в первый интервал попадают наблюдения со значениями меньшими 25.