Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
конспект книги Куликова Л.В.-1.doc
Скачиваний:
0
Добавлен:
01.04.2025
Размер:
398.85 Кб
Скачать

4.1.3. Проверка данных

После создания таблицы на бумаге или электронной таблицы на компьютере необходимо проверить качество полученных данных. Для этого часто достаточно внимательно осмотреть массив данных. Начать проверку слезет с выявления ошибок (описок), которые заключаются в том, что неправильно написан порядок числа. Например, 100 написано вместо 10; 9,4 вместо 94 и г.п. При внимательном просмотре по столбцам это легко обнаружить, поскольку сравнительно редко встречаются параметры, которые сильно варьируют. Чаще всего, значения одного параметра имеют один порядок или ближайшие порядки. При наборе данных на компьютере важно соблюдать требования к формату данных в используемой статистической программе. Прежде всего, это относится к знаку, который должен отделять в десятичном числе целую часть от дробной (точка или запятая).

Затем массы данных надо проверить на наличие «выскакивающих» вариант - выделяющихся значений, которые могли быть получены в результате неточных измерений, ошибок в записях, отвлечения внимания испытуемого и т.д. Если обнаружены «подозрительные» значения, то необходимо принять обоснованное решение о их выбраковке. Его можно принять, используя достаточно мощный параметрический критерий t. Он рассчитывается по следующей формуле:

V-M t = ----------- tst

где: t - критерий выпада;

V - выпадающее значение признака;

М - средняя величина признака для всей группы, включающей артефакт;

tst - стандартные значения критерия выпадов, определяемые для трех уровней доверительной вероятности по таблице Приложения 1. Смысл критерия в том, чтобы определить, находится ли данная варианта в интервале, характерном для большинства членов выборки, или же вне его.

Допустим, нами принят уровень значимости 0.05 (доверительная вероятность 0.95), а значение критерия составило 1.5. Поскольку 95% вариант лежат в пределах М1.96 (1.5 меньше 1.96), следовательно данная варианта лежит в указанном интервале. Если же значение критерия больше, например, 2.4, то это означает, что данное значение не относится к анализируемой совокупности (выборке), включающей 95% вариант, а есть проявление иных закономерностей, ошибок и пр. и должно быть поэтому исключено из рассмотрения.

Например, в эксперименте вы предлагаете решать мыслительные задачи и регистрируете в числе других параметров время решения. При просмотре данных обнаруживаете, что у одного из испытуемых время решения заметно больше, чем у остальных. Это бывает связано с тем, что вместо решения очередной задачи, испытуемый начинает «искать закономерность более широкого плана», «выводить общий принцип» или нечто подобное. Об этом он может сообщить экспериментатору, но может и не сообщать. Понятно, что время решения конкретной задачи при этом может сильно отличаться от средней величины. В этом случае вы окажетесь перед необходимостью принять обоснованное решение - включать данное значение в дальнейшую обработку или нет.

Предположим, в вашем эксперименте были получены следующие значения некоторого параметра: 10, 20, 20, 30, 30, 40, 40, 50, 210. Следовательно n=9. Вычислили: M=50; =61. Можно ли считать значение 210 выпадающим?

210-50

t = ------------------- = 2,6 ;

61

tst (по табл.) = 2,4 (для P=0,95)

Следовательно, значение 210 может считаться выпадающим и должно быть исключено из дальнейшей обработки.

После исключения выпадающих значений первичные статистические параметры вычисляются заново.

  1. Математико - статитстическая обработка.

  1. Анализ первичных статистик.

Для определения способов математико-статистической обработки, прежде всего, необходимо оценить характер распределения по всем используемым параметрам. Для параметров имеющих нормальное распределение или близкое к нормальному, можно использовать методы параметрической статистики которые во многих случаях являются более молодыми, чем методы непараметрической статистики. Достоинством последних является то, что они позволяют проверять статистические гипотезы независимо от формы распределения. Одним из важнейших в математической статистике является понятие нормального распределения. Нормальное распределение - модель варьирования некоторой случайной величины, значения которой определяются множеством одновременно действующих независимых факторов. Число таких факторов велико, а эффект влияния каждого из них в отдельности очень мал. Такой характер взаимовлияний весьма характерен для психических явлений, поэтому исследователь в области психологии чаще всего выявляет нормальное распределение. Однако, так бывает не всегда, поэтому в каждом случае форма распределения должна быть проверена.

Важнейшими первичными статистиками являются:

а) средняя арифметическая - величина, сумма отрицательных и положительных отклонений от которой равна нулю. В статистике ее обозначают буквой М или x ;

б) cpеднее квадратичное отклонение (обозначаемое греческой буквой  (сигма) и называемое также основным, или стандартным, отклонением) - мера разнообразия входящих в группу объектов, она показывает, на сколько в среднем отклоняется каждая варианта (конкретное значение оцениваемого параметра) от средней арифметической. Чем сильнее разбросаны варианты относительно средины, тем большим оказывается среднее квадратичное отклонение.

в) коэффициент вариант - частное от деления сигмы на среднюю, умноженное на 100%. Обозначается CV:

CV= / М * 100%

Cигма - величина именованная и зависит не только от степени варьирования, но и от единиц измерения. Поэтому по сигме можно сравнивать изменчивость лишь одних и тех же показателей, а сопоставлять сигмы разных признаков по абсолютной величине нельзя. Для того, чтобы сравнить по уровню изменчивости признаки любой размерности (выраженные в различных, единицах измерения) и избежать влияния масштаба измерении средней арифметической на величину сигмы применяют коэффициент вариации, который представляет собой по существу приведение к одинаковому масштабу величины .

Для нормального распределения известны точные количественные зависимости частот и значений, позволяющие прогнозировать появление новых вариант:

  1. Слева и справа от средней арифметической лежит 50% вариант.

  2. В интервале от М-16 до М+16 лежат 68.7% всех вариант.

  3. В интервале от М-1.966 до М+1.966 лежат 95% вариант.

Таким образом, ориентируясь на эти характеристики нормального распределения можно оценить степень близости к нему рассматриваемого распределения.

Следующими по важности являются такие первичные статистики как коэффициент асимметрии и эксцесс.

Коэффициент асимметрии - показатель скошенности распределения в левую или правьте сторону по оси абсцисс. Если правая ветвь кривей длиннее левой - говорят о положительной асимметрии, в противоположном случае - об отрицательной.

Эксцесс - показатель островершинности. Кривые, более высокие в своей средней части, островершинные, называются эксцессивными, у них большая величина эксцесса. При уменьшении величины эксцесса кривая становится все более плоской, приобретая вид плато, а затем и седловины - с прогибом в средней части.

Эти параметры позволяют составить первое приближенное представление о характере распределения:

1) у нормального распределения редко можно обнаружить коэффициент асимметрии близкий к единице и более единицы (и -1, и +1);

2) эксцесс у признаков с нормальным распределением обычно имеет величину в диапазоне

2 - 4.

Подчеркну, что это только приблизительная оценка. Точную и строгую оценку нормальности распределения можно получить используя один из существующих методов проверки. (См., например, книгу Г.В.Суходольского "Основы математической статистики для психологов", Л., 1972. Главы 2 и 5.)

Начать с анализа первичных статистик надо еще я по той причине, что они весьма чувствительны к наличию выпадающих вариант. На практике же, очень большие эксцесс и асимметрия часто являются индикатором ошибок при подсчетах вручную или ошибок при введении данных через клавиатуру при компьютерной обработке. Существует правило, согласно которому все расчеты вручную должны выполняться дважды (особенно ответственные - трижды), причем желательно разными способами, с вариацией последовательности обращения к числовому массиву.

По части никогда не удается полностью охарактеризовать целое, всегда остается вероятность того, что оценка генеральной совокупности на основе выборочных данных недостаточно точна, имеет некоторую большую или меньшую ошибку. Такие ошибки, представляющие собой ошибки обобщения, экстраполяции, связанные с перенесением результатов, полученных при изучении выборки, на всю генеральную совокупность, называются ошибками репрезентативности. Репрезентативность - степень соответствия выборочных показателей генеральным параметрам.

Статистические ошибки репрезентативности показывают в каких пределах могут отклоняться от параметров генеральной совокупности (от математического ожидания или истинных значений) наши частные определения, полученные на основании конкретных выборок. Очевидно, что величина ошибки тем больше, чем больше варьирование признака и чем меньше выборка. Это и отражено в формулах для вычисления статистических ошибок, характеризующих варьирование выборочных показателей вокруг их генеральных параметров.

В число первичных статистик входит статистическая ошибка средней арифметической. Формула для её вычисления такова:

mm = -------

n-2

где:mm - ошибка средней,

 - сигма,

n - число значений признака.