
- •Первое знакомство с spss Запуск программы
- •Создание рабочего каталога
- •Окна программы
- •Главное окно
- •Структура файла данных
- •Имя переменной
- •Тип переменной
- •Дробная часть числа
- •Ширина переменной
- •Метки переменных
- •Метки значений переменных
- •Пропуски
- •Столбцы
- •Выравнивание
- •Шкала измерения
- •Ввод данных
- •Вставка ячеек
- •Поиск данных
- •Пример файла данных
- •Управление данными
- •Знакомство с возможностями управления данными
- •Получение сводки по данным
- •Обработка пропущенных значений
- •Преобразование данных
- •Ранжирование
- •Перекодировка в новую переменную
- •Перекодировка существующей переменной
- •Выбор объектов для анализа
- •Сортировка объектов
- •Объединение данных разных файлов
- •Печать результатов и выход из программы
- •Диаграммы
- •Графика в программе spss
- •Редактирование графиков и диаграмм
- •Частоты
- •Пошаговые алгоритмы вычислений
- •Столбиковые диаграммы
- •Гистограммы
- •Описательные статистики и процентили
- •Описательные статистики
- •Пошаговый алгоритм вычислений
- •Критерий независимости хи-квадрат
- •Пошаговый алгоритм вычислений
- •Представление результатов
- •Терминология, используемая при выводе
- •Корреляции
- •Пошаговые алгоритмы вычислений
- •Представление результатов
- •Средние значения
- •Пошаговый алгоритм вычислений
- •Представление результатов
- •Сравнение двух средних и t-критерий
- •Уровень значимости
- •Пошаговые алгоритмы вычислений
- •Применение t-критерия для независимых выборок
- •Применение t-критерия для зависимых выборок
- •Применение t-критерия для одной выборки
- •Представление результатов
- •Результаты применения t-критерия для независимых выборок
- •Результаты применения t-критерия для зависимых выборок
- •Результаты применения t-критерия для одной выборки
- •Терминология, используемая при выводе
Обработка пропущенных значений
В процессе работы с программой SPSS вы нередко будете сталкиваться с проблемой отсутствующих данных. Обратимся к переменным из примера ex0l.sav. Вполне вероятна ситуация, когда кто-либо из учеников отсутствовал при проведении тестирования или не ответил на вопрос о внешкольном увлечении, либо не определился с перспективой поступления в вуз. Подобные случаи приводят к тому, что в данных рабочего файла появляются пропущенные значения. Пропущенные значения не только мешают осмысливать данные, но и могут оказывать нежелательное влияние на результаты анализа. Большинство статистических операций игнорируют объекты (строки), в которых содержится хотя бы одно пропущенное значение. Если, к примеру, из 35 объектов 13 имеют пропущенные значения по разным переменным, то анализу будет подлежать немногим более 60 % данных файла, что, несомненно, исказит результаты.
Большинство статистических методов SPSS позволяет учитывать пропуски в данных двумя принципиально различными способами: построчно (listwise) и попарно (pairwise). При построчном учете пропусков SPSS перед выполнением операции проверяет строки (объекты) на наличие пропущенных значений и в случае обнаружения последних исключает соответствующие строки из анализа целиком. Этот способ позволяет получить наиболее корректные статистические результаты, однако потери данных при этом максимальны. При попарном учете пропусков обработка выполняется без дополнительных проверок, и в процессе вычислений не выполняются только те операции, которые требуют наличия пропущенного значения. Таким образом, в анализе участвуют все введенные данные, но результаты анализа содержат погрешности.
Рекомендуется по возможности решать проблему пропущенных значений на этапе ввода и кодирования данных, а не полагаться на то, что SPSS сделает это за вас. В любом случае, чем больше пропусков в исходных данных, тем менее точны и корректны результаты анализа.
Для номинативной переменной проблема пропущенных значений решается легко: вы можете просто ввести еще одну ее градацию, которая соответствует пропуску в данных. Для количественной переменной (метрической или порядковой), имеющей множество возможных значений, в SPSS предусмотрены специальные процедуры для заполнения пропусков: в меню Преобразовать (Transform) есть команда Заменить пропущенные значения (Replace Missing Values). При всем соблазне ее применения следует помнить, что результаты обработки данных с заменой пропусков фиктивными значениями, например средними, вряд ли могут вызвать доверие. Поэтому лучше на месте пропуска честно оставлять пустую ячейку. А вопрос о построчном или попарном учете пропусков решать отдельно для каждого конкретного метода анализа данных.
В справочной системе SPSS часто используется два термина: физически пропущенные значения (system missing values) и логически пропущенные значения (user missing values). Под физически пропущенными значениями понимаются значения, не введенные в компьютер. В редакторе данных пустые ячейки, не содержащие значения, помечены точкой. Логически пропущенные значения - это специальные значения переменной, отражающие невозможность адекватного кодирования некоторой ситуации. Если, например, 1, 2 и 3 - тестовые оценки испытуемого, 8 означает, что тест не завершен, а 9 фиксирует неявку испытуемого, то значения 8 и 9 относятся к логически пропущенным, поскольку их нельзя интерпретировать как результаты теста.