Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
MC-91(Зуйкова) / IBM_SPSS_Statistics_Core_System_Users_Guide.pdf
Скачиваний:
158
Добавлен:
08.02.2015
Размер:
6.76 Mб
Скачать

129

Подготовка данных

Результаты

Рисунок 7-13

Конструктор копирования свойств данных: Шаг 5

На последнем шаге Конструктора копирования свойств данных предоставляется информация о числе переменных, свойства которых будут скопированы из исходного файла данных, количестве новых переменных, которые будут созданы в рабочем файле данных, и количестве свойств наборов данных или свойствах файла, которые будут скопированы.

Вы можете также вставить сгенерированный командный синтаксис в окно Редактора синтаксиса и сохранить его для использования в дальнейшем.

Поиск дублирующихся наблюдений

Причины появления “дублирующихся” наблюдений могут быть разными:

Ошибки ввода данных, когда одно и то же наблюдение случайно было введено более одного раза.

Один и тот же первичный идентификационный номер у нескольких наблюдений, но разные вторичные идентификационные номера, как например у наблюдений, относящиеся к членам одной семьи.

Несколько наблюдений относятся к одному объекту наблюдения, но значения переменных, кроме той, по которой этот объект был идентифицирован, отличаются, например, покупки, совершенные человеком или организацией в разные периоды времени.

130

Глава 7

Процедура Поиск дублирующихся наблюдений позволяет выявить дубли почти во всех возможных случаях и предоставляет возможность управлять процессом автоматического разделения наблюдений на уникальные и дублирующиеся.

Чтобы выявить дублирующиеся наблюдения:

E Выберите в меню:

Данные > Поиск дублирующихся наблюдений...

EВыберите одну или несколько (ключевых) переменных, по которым будет вестись поиск дублирующихся наблюдений.

EВыберите один или несколько параметров в группе Создать переменные. Дополнительно Вы можете:

EВыбрать одну или несколько переменных для сортировки наблюдений внутри групп, задаваемых переменными, по которым ведется поиск дублирующихся наблюдений. Порядок сортировки, заданный этими переменными, определяет “первое” и “последнее” наблюдение в каждой группе. Если сортировка дублирующихся наблюдений не задана, используется порядок наблюдений в исходном файле.

EДублирующиеся наблюдения можно отфильтровывать автоматически, чтобы не включать их в отчеты, диаграммы и расчеты статистик.

131

Подготовка данных

Рисунок 7-14

Диалоговое окно Поиск дублирующихся наблюдений

Поиск дублирующих наблюдений по: Наблюдения считаются дублирующимися, если их значения совпадают по всем выбранным переменным. Если Вы хотите обнаружить только те наблюдения, которые совпадают на 100%, выберите все переменные.

Сортировка внутри групп дублирующихся наблюдений по: Наблюдения автоматически сортируются по переменным, по которым ведется поиск дублирующихся наблюдений. Вы можете выбрать переменные для дополнительной сортировки. Эти переменные будут определять порядок наблюдений в каждой группе дублирующихся наблюдений.

Для любой переменной сортировки можно выбрать сортировку в порядке возрастания или в порядке убывания.

Если выбрать несколько переменных сортировки, наблюдения сортируются

по значениям каждой переменной внутри категорий, задаваемых значениями предшествующей переменной в списке сортирующих. Например, если выбрать дата в качестве первой переменной для сортировки и количество в качестве второй переменной сортировки, то наблюдения будут отсортированы по количеству внутри каждой даты.

132

Глава 7

Для изменения порядка переменных сортировки используйте кнопки в виде стрелок вверх и вниз справа от списка.

Порядок сортировки определяет “первое” и “последнее” наблюдения в каждой группе совпадающих наблюдений, что, в свою очередь, определяет значение необязательной индикаторной переменной уникальных наблюдений. Например, если Вы хотите отфильтровать (удалить) все наблюдения в каждой группе, кроме последних, можно отсортировать наблюдения в порядке возрастания по переменной дата, в результате чего последние по дате наблюдения будут последними в группе.

Индикатор уникальных наблюдений. Создается переменная, принимающая значение 1 для уникальных наблюдений и значение 0 для неуникальных наблюдений в каждой группе.

Уникальным может быть первое или последнее наблюдение в каждой группе дублирующихся (совпадающих) наблюдений, которые определяются порядком сортировки внутри групп. Если не задать переменные для сортировки, порядок наблюдений в каждой группе определяется исходным порядком наблюдений в файле.

Вы можете использовать индикаторную переменную в качестве фильтрующей переменной для исключения дублирующихся наблюдений из отчетов и анализа без удаления этих наблюдений из файла данных.

Счетчик дублирующихся наблюдений в каждой группе. Создается переменная с последовательным номером от 1 до n для наблюдений в каждой группе дублирующихся наблюдений. Последовательность определяется текущим порядком наблюдений в каждой группе, который может соответствовать исходному порядку наблюдений в файле или задаваться переменными сортировки.

Переместить дублирующиеся наблюдения в верхнюю часть файла данных. Файл данных сортируется таким образом, что все группы дублирующихся наблюдений оказываются в верхней части файла, что облегчает просмотр дублирующихся наблюдений в Редакторе данных.

Вывод частот для созданных переменных. Частотные таблицы с частотами для каждой созданной переменной. Например, для переменной-индикатора уникальных наблюдений в таблице приводится число наблюдений, имеющих значение 0 в этой переменной, что показывает количество дублей, и число наблюдений, имеющих значение 1 в этой переменной, что соответствует количеству уникальных наблюдений.

Пропущенные значения. В числовых переменных системные пропущенные значения обрабатываются аналогично другим значениям — наблюдения с пропущенными значениями в переменной, по которой ведется поиск дублирующихся наблюдений, рассматриваются как дублирующиеся по этой переменной. В текстовых переменных наблюдения, в которых пропущены значения переменной, по которой ведется поиск дублирующихся наблюдений, рассматриваются как дублирующиеся по этой переменной.