Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
3_Подготовка данных.doc
Скачиваний:
24
Добавлен:
01.02.2015
Размер:
2.69 Mб
Скачать

3.8 Статистическая корректировка и очищение данных

Процедура очищения данных (data cleaning) заключается в проверке состоятельности собранных данных и работе с пропущенными ответами.

Проверка состоятельности данных (consistency checks) позволяет выявить данные, выходящие за пределы определенного диапазона, и логически непоследовательные ответы, а также определить экстремальные значения.

Значения, выпадающие из конкретного диапазона, нельзя использовать в анализе, и их необходимо исправить. Представим, например, что респондентов попросили выразить степень их согласия по ряду времопросов относительно стиля жизни по шкале от 1 до 5. Код 9 используется для обозначения пропущенных ответов, а значения 0, 6, 7 и 8 выходят за пределы назначенного диапазона. Выявление таких значений, а также переменной и респондента, в записи которого подобное значение было обнаружено, выполняется либо при помощи средств специализированного пакета, либо путем использования специально написанной для этого программы.

Различают несколько типов логически непоследовательности ответов. Так, респондент может указать, что обычно при междугородних переговорах пользуется специальной карточкой, но при этом отметить, что ни разу не звонил. Либо респондент указывает, что часто пользуется каким-то товаром, и в то же время отмечает, что никогда его не приобретал. Чтобы выявить такие ответы и провести соответствующую корректировку, всю необходимую информацию (код респондента, код переменной, название переменной, номер записи и столбца и выпадающее из необходимого диапазона значение) нужно распечатать,

И наконец, необходимо тщательно проанализировать экстремальные значения. Следует помнить, что экстремальные значения — не всегда результат ошибок ввода, нередко они указывают на то, что существуют определенные проблемы с качеством собранных данных. Например, чрезмерно заниженная оценка какой-либо торговой марки может быть результатом того, что респондент просто без разбора пометил 1 по всем ее характеристикам (по рейтинговой шкале от 1 до 7).

Процедуры статистической корректировки данных включают взвешивание, работу с пропущенными и аномальными значениями. Все эти корректировки необязательны, но, применяя их, можно значительно повысить качество анализа.

3.8.1 Взвешивание

При взвешивании (weighting) каждому наблюдению или респонденту в базе данных присваивается весовой коэффициент, отображающий степень его значимости по сравнению с другими наблюдениями или респондентами.

Значение 1,0 применяется для обозначения наблюдения с отсутствием весового коэффициента. Цель взвешивания заключается в том, чтобы увеличить либо уменьшить в выборке количество наблюдений с определенными характеристиками.

Вмешивание чаще всего применяется для того, чтобы выборочные данные максимально точно представляли конкретные характеристики генеральной совокупности. Например, оно может использоваться, чтобы повысить значимость наблюдений или респондентов, по которым были собраны данные более высокого качества, чем по другим. Взвешивание может быть использовано для повышения значимости ответов респондентов с определенными признаками. Если проводится опрос для определения, какие изменения стоит вносить в существующую продукцию, исследователь может принять решение присвоить больший весовой коэффициент ответам респондентов, которые пользуются данным товаром чаще других. Метод взвешивания следует применять с огромной осторожностью, поскольку это разрушает саму природу самовзвешиваемости любого выборочного обследования. Если исследователь все же решил воспользоваться данным методом, он должен тщательно задокументировать всю процедуру взвешивания и составить соответствующую часть отчета по проекту.

3.8.2 Работа с пропущенными ответами

Пропущенными ответами (missing responses) называют значения переменных, которые остались неизвестными исследователю либо потому, что ответы респондентов были неоднозначны, либо неправильно или неразборчиво записаны.

Работа с пропущенными ответами связана с рядом проблем, особенно если доля таких ответов превышает 10%. Существует несколько методов работы с пропущенными ответами.

  1. Замена пропущенного значения нейтральным. По этому методу вместо пропущенных ответов подставляются нейтральные значения, обычно среднее значение по данной переменной. При этом среднее значение переменной остается неизменным, а другие статистические данные, например корреляция, искажаются незначительно. Необходимо понимать, что такая механическая замена может привести к значительному искажению результатов.

  2. Замена пропущенного значения условным (вменение значений). Для определения условного значения или вычисления подходящих ответов на пропущенные вопросы можно использовать структуру ответов респондентов по другим вопросам. На основе имеющихся данных исследователь пытается определить, какие ответы дал бы конкретный респондент, если бы он ответил на все вопросы. Это можно сделать статистически, на основе собранных данных, определив взаимосвязи между пропущенной переменной и другими переменными. Так, показатель частоты использования товара можно связать с размером семей респондентов, предоставивших информацию по этим показателям. Затем пропущенные данные по использованию товара можно вычислить, воспользовавшись показателем размера семьи респондента. Однако следует помнить, что этот метод очень трудоемок и нередко серьезно искажает данные. Чтобы избежать этого, для вычисления условных значений по пропущенным ответам разработаны сложные статистические процедуры.

  3. Удаление записей с пропущенными значениями. Поскольку нередки случаи, когда многие респонденты не отвечают на те или иные вопросы, данный метод может вызвать значительное сокращение выборки. Следует помнить, что исключение большого количества данных нежелательно, поскольку процесс сбора данных дорог и требует больших временных затрат. Кроме того, респонденты с пропущенными значениями систематически отличаются от респондентов, ответивших на все вопросы. В таких случаях исключение по данному методу может значительно исказить результаты опроса.

  4. Максимальное использование доступных данных (попарное исключение). Для расчетов будут использованы все наблюдения с годными значениями для этой переменной. При попарном исключении (pairwise delition) вместо отбраковывания всех случаев с любыми отсутствующими значениями исследователь во всех своих вычислениях рассматривает только наблюдения или респондентов, по которым есть полные ответы.

В результате разные вычисления в ходе анализа могут основываться на разных выборках. Такая процедура обычно применяется при следующих условиях: если размеры выборки велики, если количество пропущенных ответов незначительно, если переменные не сильно взаимосвязаны. Следует помнить, что и в этом случае данная процедура может привести к недостоверным и даже нелогичным результатам исследования.

Применение разных методов работы с пропущенными значениями нередко приводит к разным итогам, особенно если пропуск ответов носит систематический характер, а переменные тесно взаимосвязаны. Таким образом, исследователю необходимо свести к минимуму количество пропущенных ответов. Кроме того, прежде чем выбрать конкретный метод для работы с пропущенными значениями, он должен тщательно проанализировать все последствия применения той или иной процедуры.

3.8.3 Работа с аномальными значениями (выбросами)

Выброс (англ. outlier), аномальное значение — в статистике результат измерения, выделяющийся из общей выборки.

Статистические методы и характеристики, способные действовать в условиях выбросов, называются робастными. Например, медиана является робастной характеристикой, а выборочное среднее — нет.

Пусть в выборке присутствуют значения, резко отличающиеся от остальных. Возможные причины появления таких значений:

  1. Внутренние причины, связанные с объективно сложившимися условиями.

  2. Внешние причины, связанные с ошибкой наблюдения (ошибка прибора, намеренная ошибка)

  3. Неверное или неточное определение границ совокупности, неправильная группировка данных.

Для выяснения причин аномального значения необходимо провести анализ явления. Если причина внутренняя (1), то значение остается в выборке, если же причина 2 или 3, то проводится формальная проверка, является ли это грубой ошибкой наблюдения.

Поскольку множество статистических методов являются неробастными, они «буксуют» на выборках с выбросами, а результаты анализа искажаются. В связи с этим выбросы приходится обнаруживать (желательно — автоматически) и исключать из выборки.

Простейшие способы основаны на межквартильном расстоянии — например, всё, что не попадает в диапазон считается выбросами.

Более тонкие критерии — критерий Шовене, тест Граббса, критерии Титьена и Мура, критерий Пирса, Q-тест Диксона — позволяют осуществить формальную проверку наличия выбросов.

Для совокупностей, распределение которых можно считать близким к нормальному, проверка наличия выбросом может быть осуществлена при помощи t критерия Стьюдента. С этой целью для всех значений, исключая исследуемое, рассчитывается выборочное среднее и выборочное СКО и выдвигается нулевая гипотеза о том, что исследуемое значение несущественно отличается от среднего, т.е. принадлежит к данной совокупности.

Альтернативная гипотеза: или

Для проверяемого значения рассчитывается фактическое значение t критерия:

,

при этом среднее и среднеквадратическое отклонение рассчитывают, исключив проверяемое значение.

Это значение сравнивается с критическим значением, найденным по таблице распределения Стьюдента:

= t1-2, n-1.

Если , то нулевая гипотеза Н0 отвергается и исследуемое значение исключается из совокупности.