Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
4_Виды статистических данных и описательные ста...doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
254.46 Кб
Скачать

4.3 Предварительное исследование статистических данных

4.3.1 Ошибки регистрации и ввода

До начала анализа данных их необходимо исследовать для обнаружения ошибок регистрации и ввода.

Самый точный метод проверки данных - сравнить каждое значение с оригиналом (например, анкетой). Однако этот способ требует очень много времени, особенно при большом объеме данных. В общем случае рекомендуется проводить частотный анализ значений переменных. Ошибки регистрации и ввода, пропущенные значения можно обнаружит при помощи:

  • подсчета появления каждого отдельного значения;

  • построения гистограмм, столбчатых диаграмм или ящичковых диаграмм;

  • выявления максимальных и минимальных значений.

Для дискретных или интервальных данных неправдоподобные или нежелательные комбинации значений могут быть выявлены с помощью таблиц сопряженности или двумерных диаграмм рассеяния.

Данные можно исследовать как целиком, так и разбив данные на содержательно интерпретируемые группы.

4.3.2 Вид и характер исходных данных

На следующем этапе обработки статистических данных нужно выявить характер и природу этих данных, т.е. ответить на ряд вопросов:

  •  к какой статистической шкале относится данная переменная?

  •  если речь идёт о переменных числовой природы, то подчиняются ли они закону нормального распределения?

  •  являются ли сравниваемые выборки зависимыми или независимыми?

Ответы на эти вопросы позволят выбрать методы анализа и статистические характеристики, позволяющие оценить имеющиеся данные.

2.2.3 Оценка характера распределения.

Подавляющее большинство статистических показателей разработаны для количественных переменных. В частности, вычисление среднего и стандартного отклонения фактически допустимо только для количественных переменных с нормальным распределением. Однако для реальных данных предположение о нормальности часто не выполняется.

Распределение данных может оказаться не похожим на нормальное и даже несимметричным. Если распределения переменных сильно асимметричны, использование некоторых статистических методов и характеристик может привести к неадекватным результатам.

Для проверки нормальности распределения можно:

  • построить гистограммы с наложенными нормальными кривыми или другими стандартными видами распределений (для сравнения эмпирического распределения с теоретическим);

  • сравнить величины среднего, 5%-го усеченного среднего и медианы (при большом объеме данных). Если они сильно различаются, распределение асимметрично;

  • использовать показатели формы распределения: показатели асимметрии и эксцесса. Эти статистики центрированы и теоретически для нормального распределения они равны нулю. Однако, даже для выборки из нормального распределения наблюденные значения статистик не обязательно равны нулю. Считается, что есть основания отклонить предположение о нормальности, если отношение статистики к ее стандартной ошибке по модулю превышает 2. Коэффициенты асимметрии и эксцесса чувствительны к аномалиям в данных;

  • использовать формальные тесты проверки нормальности, например, статистический тест Колмогорова-Смирнова или его модификации (например, тест Лиллифора). При объеме выборки менее 50 наблюдений рекомендуется тест Шапиро-Уилкса. Если в результате получена вероятность ошибки р (уровень значимости) менее 0,05, то данное распределение значимо отличается от нормального.