Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ЛП SPSS.doc
Скачиваний:
28
Добавлен:
23.09.2019
Размер:
2.46 Mб
Скачать

Обработка пропущенных значений

В процессе работы с программой SPSS вы нередко будете сталкиваться с про­блемой отсутствующих данных. Обратимся к переменным из примера ex0l.sav. Вполне вероятна ситуация, когда кто-либо из учеников отсутствовал при прове­дении тестирования или не ответил на вопрос о внешкольном увлечении, либо не определился с перспективой поступления в вуз. Подобные случаи приводят к тому, что в данных рабочего файла появляются пропущенные значения. Пропущенные значения не только мешают осмысливать данные, но и могут оказывать нежелательное влияние на результаты анализа. Большинство статистических операций игнорируют объекты (строки), в которых содержится хотя бы одно пропущенное значение. Если, к примеру, из 35 объектов 13 имеют пропущенные значения по разным переменным, то анализу будет подлежать немногим более 60 % данных файла, что, несомненно, исказит результаты.

Большинство статистических методов SPSS позволяет учитывать пропуски в дан­ных двумя принципиально различными способами: построчно (listwise) и попарно (pairwise). При построчном учете пропусков SPSS перед выполнением операции проверяет строки (объекты) на наличие пропущенных значений и в случае обна­ружения последних исключает соответствующие строки из анализа целиком. Этот способ позволяет получить наиболее корректные статистические результаты, одна­ко потери данных при этом максимальны. При попарном учете пропусков обра­ботка выполняется без дополнительных проверок, и в процессе вычислений не выполняются только те операции, которые требуют наличия пропущенного значения. Таким образом, в анализе участвуют все введенные данные, но результаты анализа содержат погрешности.

Рекомендуется по возможности решать проблему пропущенных значений на этапе ввода и кодирования данных, а не полагаться на то, что SPSS сделает это за вас. В любом случае, чем больше пропусков в исходных данных, тем менее точны и корректны результаты анализа.

Для номинативной переменной проблема пропущенных значений решается легко: вы можете просто ввести еще одну ее градацию, которая соответствует пропуску в данных. Для количественной переменной (метрической или порядковой), имеющей множество возможных значений, в SPSS предусмотрены специальные процедуры для заполнения пропусков: в меню Преобразовать (Transform) есть команда Заменить пропущенные значения (Replace Missing Values). При всем соблаз­не ее применения следует помнить, что результаты обработки данных с заменой пропусков фиктивными значениями, например средними, вряд ли могут вызвать доверие. Поэтому лучше на месте пропуска честно оставлять пустую ячейку. А вопрос о построчном или попарном учете пропусков решать отдельно для ка­ждого конкретного метода анализа данных.

В справочной системе SPSS часто используется два термина: физически пропу­щенные значения (system missing values) и логически пропущенные значения (user missing values). Под физически пропущенными значениями понимаются значе­ния, не введенные в компьютер. В редакторе данных пустые ячейки, не содер­жащие значения, помечены точкой. Логически пропущенные значения - это специальные значения переменной, отражающие невозможность адекватного кодирования некоторой ситуации. Если, например, 1, 2 и 3 - тестовые оценки испытуемого, 8 означает, что тест не завершен, а 9 фиксирует неявку испытуемо­го, то значения 8 и 9 относятся к логически пропущенным, поскольку их нельзя интерпретировать как результаты теста.