
- •4 Виды статистических данных и описательные статистики
- •4.1 Виды статистических данных
- •4.2 Шкалы измерений
- •4.3 Предварительное исследование статистических данных
- •4.3.1 Ошибки регистрации и ввода
- •4.3.2 Вид и характер исходных данных
- •2.2.3 Оценка характера распределения.
- •4.3 Дескриптивные статистики
- •4.3.1 Дескриптивные статистики нормально распределенных данных
- •4.3.2 Дескриптивные статистики для данных с неизвестным распределением и порядковых данных
- •2.3 Робастность в статистике
4.3 Предварительное исследование статистических данных
4.3.1 Ошибки регистрации и ввода
До начала анализа данных их необходимо исследовать для обнаружения ошибок регистрации и ввода.
Самый точный метод проверки данных - сравнить каждое значение с оригиналом (например, анкетой). Однако этот способ требует очень много времени, особенно при большом объеме данных. В общем случае рекомендуется проводить частотный анализ значений переменных. Ошибки регистрации и ввода, пропущенные значения можно обнаружит при помощи:
подсчета появления каждого отдельного значения;
построения гистограмм, столбчатых диаграмм или ящичковых диаграмм;
выявления максимальных и минимальных значений.
Для дискретных или интервальных данных неправдоподобные или нежелательные комбинации значений могут быть выявлены с помощью таблиц сопряженности или двумерных диаграмм рассеяния.
Данные можно исследовать как целиком, так и разбив данные на содержательно интерпретируемые группы.
4.3.2 Вид и характер исходных данных
На следующем этапе обработки статистических данных нужно выявить характер и природу этих данных, т.е. ответить на ряд вопросов:
к какой статистической шкале относится данная переменная?
если речь идёт о переменных числовой природы, то подчиняются ли они закону нормального распределения?
являются ли сравниваемые выборки зависимыми или независимыми?
Ответы на эти вопросы позволят выбрать методы анализа и статистические характеристики, позволяющие оценить имеющиеся данные.
2.2.3 Оценка характера распределения.
Подавляющее большинство статистических показателей разработаны для количественных переменных. В частности, вычисление среднего и стандартного отклонения фактически допустимо только для количественных переменных с нормальным распределением. Однако для реальных данных предположение о нормальности часто не выполняется.
Распределение данных может оказаться не похожим на нормальное и даже несимметричным. Если распределения переменных сильно асимметричны, использование некоторых статистических методов и характеристик может привести к неадекватным результатам.
Для проверки нормальности распределения можно:
построить гистограммы с наложенными нормальными кривыми или другими стандартными видами распределений (для сравнения эмпирического распределения с теоретическим);
сравнить величины среднего, 5%-го усеченного среднего и медианы (при большом объеме данных). Если они сильно различаются, распределение асимметрично;
использовать показатели формы распределения: показатели асимметрии и эксцесса. Эти статистики центрированы и теоретически для нормального распределения они равны нулю. Однако, даже для выборки из нормального распределения наблюденные значения статистик не обязательно равны нулю. Считается, что есть основания отклонить предположение о нормальности, если отношение статистики к ее стандартной ошибке по модулю превышает 2. Коэффициенты асимметрии и эксцесса чувствительны к аномалиям в данных;
использовать формальные тесты проверки нормальности, например, статистический тест Колмогорова-Смирнова или его модификации (например, тест Лиллифора). При объеме выборки менее 50 наблюдений рекомендуется тест Шапиро-Уилкса. Если в результате получена вероятность ошибки р (уровень значимости) менее 0,05, то данное распределение значимо отличается от нормального.