Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ЛБ_2.doc
Скачиваний:
38
Добавлен:
01.02.2015
Размер:
973.31 Кб
Скачать

2. Реализация в системе statistica

    1. Обработка пропущенных и резко выделяющихся (аномальных) значений

Для каждой переменной набора данных можно ввести свое значениекода пропущенных данных (MD Code). Это значение будет свидетельствовать об отсутствии данных для конкретного наблюдения или переменной (при этом в таблице исходных данных отображается пустая ячейка). Чтобы изменить этот код для конкретной переменной, нужно дважды щелкнуть на ее имени в таблице исходных данных, чтобы открыть диалоговое окно спецификаций переменной. По умолчаниюкод пропущенных данныхв системеSTATISTICA, используемый при создании новых файлов, добавлении новых переменных или импорте данных, равен-9999.

Способ использования пропущенных данных можно подобрать индивидуально для каждой процедуры анализа. Там, где это возможно, пользователю предоставлен выбор способа обработки пропущенных данных: удаление их из вычисленийпострочноилипопарно, замена на средние значения, а также их преобразование или интерполяция.

Выберите команду Replace Missing Data - Заменить пропущенные данные в меню Data (Данные) – Data Filtering/Recoding (Фильтрация даныых/Перекодирование) для вызова диалога Missing Data Replacement - Замена пропущенных данных, который используется для замены пропущенных данных в выбранных переменных на средние значения этих переменных.

Нажмите кнопку Variables – Переменные для вызова диалога Select Variables - Выбор переменных, который используется для выбора переменных, в которых пропущенные данные заменяются на средние.

Вы можете использовать условия выбора наблюдений при вычислении средних для выбранных наблюдений. Для этого нажмите кнопку Cases – Наблюдения для вызова диалога Spreadsheet Case Selection Conditions - Условия выбора наблюдений в таблице данных. В этом диалоге вы можете задать новые условия выбора наблюдений или открыть существующие.

По умолчанию, каждое (выбранное) наблюдение равно среднему значению переменной. Для изменения, нажмите кнопку Weight – Вес для вызова диалога Spreadsheet Case Weights – Веса наблюдений таблицы данных, в котором вы выбираете взвешенную переменную. При выборе одной из переменных с весами, влияние каждого наблюдения изменяется в зависимости от значений весов переменных для данного наблюдения.

Для того, чтобы определить резко выделяющиеся (аномальные значения), необходимо построить коробчатую диаграмму (GraphsLegacy Dialogs - Boxplot) и графически определить выделяющиеся значения (и их наличие вообще). Если в ходе анализа были выявлены резко выделяющиеся значения и было принято решение их удалить, то удаление осуществляется в ручную.

2.2 Сортировка

Выберите команду Sort – Сортировка в меню Data – Данные (или нажмите кнопку на панели инструментов) для вызова диалога Sort Options - Параметры сортировки, который используется для сортировки переменных в таблице данных.

Выберите переменные, по которым необходимо осуществить сортировку и перенесите их с помощью кнопки Add Vars (Добавить переменные) в правую часть окна. Условия сортировки выбирается для каждой из выбранных переменных отдельно. Из выпадающих списков укажите порядок сортировки Ascending - По Возрастанию или Descending - По убыванию и тип значений Numeric – Число или Text-Текст.

Для данных приведенных в ЛБ_1 осуществим сортировку данных по возрастанию сначала по переменной пол, а затем по возрасту.

Подмножество/Случайный выбор

Выберите команду Subset/Random Sampling - Подмножество/Случайный выбор в меню Data - Данные для вызова диалога Create a Subset/Random Sampling-Создать подмножество/случайный выбор, который используется для извлечения части (подмножества) текущей таблицы данных.

Нажмите кнопку Variables – Переменные для вызова диалога Select Variables - Выбор переменных, который используется для выбора наблюдений в текущей таблице данных для включения в подмножество. Кроме того, нажмите кнопку Cases – Наблюдения для вызова диалога Case Selection Conditions - Условия выбора наблюдений, который используется для определения условий выбора наблюдений, включаемых в подмножество.

Осуществим отбор трех переменных пол, рост и вес до программы похудения:

На экран выведем лишь первых 15 человек:

В результате получим:

Проверка данных

Выберите команду Verify Data - Проверка данныхв меню Data - Данные - Verify Data - Проверка данных для вызова диалога Verify Data – Проверка данных, который используется для проверки точности и правильности данных в таблице.

Во-первых, определите правило, при котором наблюдение будет считаться допустимым: All conditions are met - Верны все условия или At least one condition is met - Верно хотя бы одно условие. После этого вы можете задать до 256 условий проверки. Для этого выберите опцию Valid If - Допустимое если или Invalid if-Недопустимое если в выпадающем списке Condition - Условие. Кроме того, выберите опцию Valid cases - Допустимые наблюдения или Invalid cases -Недопустимые наблюдения в выпадающем списке и введите номер соответствующего наблюдения (или диапазон номеров наблюдений).

Для того, чтобы правильно ввести условие проверки, необходимо:

• Обозначать переменные номерами (например, v1 = 1) или именами (например, sex-Пол = 1). Вы можете вводить имена переменной в верхнем или нижнем регистре (например, "GENDER-ПОЛ"эквивалентно "gender-пол"). Обозначение v0 ссылается на то же наблюдение.

• В выражениях необходимо заключать текст в одинарные кавычки (например, v1 = 'MALE'-'МУЖЧИНА'). Вы также можете вводить текстовые метки в различных регистрах (например, 'YES'-'ДА'эквивалентно 'yes'-'да').

• Если в выражениях или в формулах таблицы данных употребляются специальные символы (например, пробелы, знаки плюс или минус), то их надо заключать в одинарные кавычки. Если используется знак одинарных кавычек, тонадо заключать их в двойные кавычки (например, “A’s Score”). Если используется знак двойных кавычек, то их надо заключать в одинарные кавычки.

Формулы таблицы данных (заданные в диалоге Variable Specifications-Спецификации переменной, доступном через меню Data-Данные – Variable Specs-Спецификации переменной) должны начинаться со знака равенства. Если вы задаете текстовую метку, которая начинается со знака равенства, STATISTICA рассматривает её как формулу и осуществляет проверку правильности синтаксис. Точка с запятой после формулы обозначает комментарий: например, = v1 + v2; this is a comment-= v1 + v2; это комментарий.

Большое количество арифметических, логических и операторов отношений доступно при создании выражений, условий выбора наблюдений, проверки данных и создании формул.

Арифметические: +, -, *, /, **или ^(экспонента), ( )

Отношения:

=(равно)

<>, ><(не равно)

<(меньше чем)

>(больше чем)

<= (меньше или равно)

>= (больше или равно)

Логические:

AND(эквивалентно & – ИЛИ)

OR(эквивалентно ! – НЕ)

NOT(эквивалентно ~)

Стандартной ошибкой является разный приоритет операций, например, выражение x > 0 и x < 1является ошибочным, и необходимы круглые скобки: (x > 0) and (x < 1), так как операторы отношения (>, <) имеют меньший приоритет, чем оператор (and).

Математические функции можно использовать в выражениях перекодировки, в условиях выбора наблюдений или проверки данных, а также в формулах таблицы данных при вычислении значений переменной. Если значение, используемое в выражении или формуле, является кодом пропущенных данных, то вычисленное выражение будет равно коду пропущенных данных.

Abs(x)- абсолютное значение x

Arccos(x)- арккосинус x

Arcsin(x)- арксинус x

Arctan(x)- арктангенс x

Cos(x)- арккосинус x

CosH(x)- гиперболический x

Exp(x)- экспонента x

Hypot(x,y)- возвращает гипотенузу x и y

Log(x)- натуральный логарифм x

Log2(x)- двоичный логарифм x

Log10(x)- десятичный логарифм x

Max(x,y) - возвращает наибольшее число из x и y

Min(x,y)- возвращает наименьшее число из x и y

Rnd(x)- возвращает случайное число из интервала 0 и x

RndNormal(x)- возвращает нормализованное случайное число из интервала 0 и x

RndPoisson(x)- возвращает случайное число Пуассона из интервала 0 и x

Sign(x)- возвращает знак х: если x>0 то +1, если x<0 то -1, если x =0 – 0

Sin(x)- синус x

SinH(x)- гиперболический синус x

Sqrt(x)- квадратный корень x

Tan(x)- тангенс x

TanH(x)– гиперболический тангенс x

Trunc(x)- округляет x до наименьшего целого

Uniform(x)– возвращает случайное число из интервала 0 и x (аналогично Rnd(x))

Введите условие проверки в соответствующем поле:

После задания условий проверки наблюдений, нажмите кнопку Find First-Найти первое для выбора первого допустимого / недопустимого наблюдения в фале данных (после того, как найдено первое наблюдение, нажмите кнопку Find Next Valid/Invalid Case-Найти следующее допустимое/недопустимое наблюдение в меню Data-Данные - Verify Data-Проверка данных) или нажмите кнопку Mark All Invalid-Отметить все недопустимые для того, чтобы все недопустимые наблюдения были отмечены в соответствии с шаблоном Marked Cells-Отмеченные ячейки.

Условия проверки можно сохранить для дальнейшего использования, нажав кнопку Save As – Сохранить как. Сохраненные условия выбора можно открыть и использовать как условия проверки правильности, нажав кнопку Open - Открыть. Кроме того, проверку диапазона можно осуществить, введя соответствующие номера наблюдений в группе Range - Диапазон.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]