
- •Занятие 2. Spss Исследование данных.
- •Обнаружение ошибок ввода.
- •Описание файла. Исследуемые переменные:
- •Определение статистических параметров переменных и поиск ошибок исходных данных
- •Анализ ошибок.
- •Очистка данных от ошибочных значений
- •2. Проверка закона распределения
- •2.2 Тест Колмогорова – Смирнова.
- •2.3 Анализ данных без группирующей переменной
- •CaseProcessingSummary (Обработанные наблюдения)
- •Descriptives (Описательная статистика)
- •Возраст Stem-and-Leaf Plot (диаграмма ветвей и листьев)
- •Коробчатая диаграмма.
- •Tests of Normality (Тесты на нормальное распределение)
Очистка данных от ошибочных значений
Можно предложить 3 варианта очистки данных от ошибочных значений:
Исправить данные в исходной таблице. Недостатки: данные удаляются безвозвратно, восстановить их уже не удастся, а это может потребоваться, так как проведенный анализ ошибок может оказаться не безгрешным. Кроме того, поиск в большой коллекции данных является трудоемким и длительным занятием.
Исключить из анализа пациентов, если хотя бы один показатель является ошибочным. Это легко достигается и также легко отменяется в среде обработки, но при этом и все остальные показатели этих пациентов исключаются из обработки.
Создать новую переменную, очищенную от ошибочных значений. Оптимальный путь, избавленный от недостатков предыдущих и легко достижимый с помощью средств SPSS.
Создание новой переменной ad_sist, очищенной от ошибок переменной adsist.
Выполнить пункт меню Transform/Compute.
В диалоговом окне определения новой переменной в поле Target variable ввести имя новой переменной ad_sist.
В поле Numeric expression перенести из списка название переменной adsist. Тем самым устанавливается, что значения создаваемой переменной ad_sist будут равны значениям имеющейся переменной adsist.
Щ
елкнуть по кнопке if и в открывшемся окне Compute Variable: If Cases выбрать опцию Include if case satisfies condition
ввести условие, при котором будут присваиваться значения новой переменной. Оно выглядит таким образом:
adsist >=60 & adsist < 250
После введения условия клик по кнопке Continue возвращаемся на форму Compute Variable и жмем ОК. После выполнения этой операции в общей таблице появляется новая переменная ad_sist.
Провести анализ данной переменной. В отчете отметить назначение этой переменной и количество отфильтрованных ошибок.
Самостоятельно провести фильтрацию переменных grukro, addiast:
ad_diast очищенную от ошибочных значений addiast с помощью условия
addiast >=40 & addiast <160
и gru_kro очищенную от неудачных значений с помощью условия
grukro <= 4
В отчете указать количество отфильтрованных ошибок по переменным grukro, addias.
2. Проверка закона распределения
В первую очередь представляет интерес закон распределения, особенно для переменных, относящихся к интервальной шкале и шкале отношений. Чаще всего при этом ставится вопрос, подчиняются ли значения переменных нормальному распределению. Именно от этого практически всегда зависит выбор соответствующих аналитических тестов. Многочисленные методы, с помощью которых обрабатываются переменные, относящиеся к интервальной шкале, исходят из гипотезы, что их значения подчиняются нормальному распределению. При таком распределении большая часть значений группируется около некоторого среднего значения, по обе стороны от которого частота наблюдений равномерно снижается.
2
.1
Построение диаграммы. В
качестве примера рассмотрим нормальное
распределение возраста, которое строится
по данным исследований jazvasi.sav
с помощью команд меню Graphs
(Графы) Histogramm...
(Гистограмма) (см. рис.). В начале строим
гистограмму без установки флажка Display
normal
curve
в диалоговом окне Histogram.
Изучите распределение, дайте толкование
параметров Std.Dev,
Mean.
Затем аналогичным способом но с установкой
флажка строим другую гистограмму.
Как видим у нас получились две абсолютно идентичные гистограммы. Но на правой диаграмме нанесена кривая нормального распределения (Колокол Гаусса). Для этого в диалоговом окне Histogramустановил флажок Displaynormalcurve.
Реальное распределение в большей или меньшей степени отклоняется от этой идеальной кривой. Выборки, строго подчиняющиеся нормальному распределению, на практике, как правило, не встречаются. Поэтому почти всегда необходимо выяснить, можно ли реальное распределение считать нормальным и насколько значительно заданное распределение отличается от нормального.
Перед применением любого метода, который предполагает существование нормального распределения, наличие последнего нужно проверять в первую очередь. Классическим примером статистического теста, который исходит из гипотезы о нормальном распределении, можно назвать t-тест Стьюдента, с помощью которого сравнивают две независимые выборки. Если же данные не подчиняются нормальному распределению, следует использовать соответствующий непараметрический тест, в случае двух независимых выборок — U-тест Манна и Уитни.
В этом отношении самым распространенным и рекомендуемым является графическое изображение распределения данных в форме гистограммы и наложенным колоколом Гаусса (эта проверка была рассмотрена выше).