Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Куликов.doc
Скачиваний:
5
Добавлен:
09.11.2019
Размер:
373.25 Кб
Скачать

4. Обработка эмпирических данных

4.1. Проверка данных

После окончания сбора данных необходимо проверить их качество. Для этого часто достаточно внимательно осмотреть массив данных и выявить технические ошибки, описки, например, неправильно поставленный десятичный знак. При наборе данных на компьютере важно соблюдать требования к формату данных в используемой статистической программе. Прежде всего, это относится к знаку, который должен отделять в десятичном числе целую часть от дробной (точка или запятая).

Затем массив данных надо проверить на наличие "выскакивающих" вариант — выделяющихся значений, которые могли быть получены в результате неточных измерений, ошибок в записях, отвлечения внимания испытуемого и т.д. Если обнаружены "подозрительные" значения, то следует принять обоснованное решение об их выбраковке, используя достаточно мощный параметрический критерии t. Он рассчитывается по следующей формуле:

t

=

V-M

> ts

σ

где t - критерий выпада, V — выпадающее значение признака, σ – среднее квадратичное отклонение (см. ниже), М -средняя величина признака для всей группы, ts — стандартные значения критерия выпадов, определяемые для трех уровней доверительной вероятности по приложению 1. Смысл критерия в том, чтобы определить, находится ли данная варианта в интервале, характерном для большинства членов выборки, или же вне его.

Допустим, нами принят уровень значимости 0.05 (доверительная вероятность 0.95), а значение критерия составило 1.5. Поскольку 95% вариант лежат в пределах М ± 1.96 σ (1.5 меньше 1.96), то, следовательно, и данная варианта лежит в указанном интервале. Если же значение критерия больше, например, 2.4, то это означает, что данное значение не относится к анализируемой совокупности (выборке), включающей 95% вариант, а есть проявление иных закономерностей, ошибок и пр. и поэтому должно быть исключено из рассмотрения.

Если у Вас есть предположение, что результаты какого-либо опыта обусловлены влиянием, которое Вы не можете оценить, то Вы окажетесь перед необходимостью принять обоснованное решение — включать полученное численное значение в дальнейшую обработку или нет.

Предположим, в эксперименте были получены следующие значения некоторого параметра: 10, 20, 20, 30, 30, 40, 50, 210. Следовательно, n=9. Вычислили: М=50, σ =61. Можно ли считать значение 210 выпадающим?

t=

210- 50

= 2.6; ts (по табл.) =2.4 (для Р=0.95)

61

Следовательно, значение 210 может считаться выпадающим и должно быть исключено из дальнейшей обработки.

После исключения выпадающих значений первичные статистики вычисляются снова.

4.2. Математико-статистическая обработка

Анализ первичных статистик

средняя арифметическая обозначается буквами М или Х. Чтобы ее подсчитать, надо суммировать все значения признака и полученную величину разделить на число значений. Если в ряду есть числа со знаком "минус", то суммирование производят с учетом знаков.

среднее квадратичное отклонение - мера разнообразия входящих в группу объектов, оно обозначается греческой буквой σ (сигма) и называется также основным, или стандартным, отклонением. оно показывает, насколько, в среднем, отклоняется каждая варианта (конкретное значение оцениваемого параметра) от средней арифметической. Чем сильнее разбросаны варианты относительно средней, тем большим оказывается и среднее квадратичное отклонение. Разброс значений характеризует и размах — разность между наибольшим и наименьшим значением в ряду. Однако σ полнее характеризует разброс значений относительно средней арифметической.

Для того, чтобы сравнивать по уровню изменчивости признаки любой размерности (выраженные в разных единицах измерения) применяют коэффициент вариации - частное от деления σ на среднюю арифметическую, умноженное на 100%. Обозначается СV:

СV=

σ

100%

М

Репрезентативность - степень соответствия выборочных показателей характеристикам генеральной совокупности. По части никогда не удается полностью охарактеризовать целое, всегда остается вероятность того, что оценка генеральной совокупности на основе выборочных данных недостаточно точна, имеет некоторую большую или меньшую ошибку. Такие ошибки, представляющие собой ошибки обобщения, связанные с перенесением результатов, полученных при изучении выборки, на всю генеральную совокупность, называются ошибками репрезентативности.

Статистические ошибки репрезентативности показывают, в каких пределах могут отклоняться от параметров генеральной совокупности частные показатели, полученные на основе конкретных выборок. Очевидно, величина ошибки тем больше, чем больше варьирование признака и чем меньше выборка. Это и отражено в формулах для вычисления статистических ошибок, характеризующих варьирование выборочных показателей вокруг их генеральных параметров.

В число первичных статистик входит статистическая ошибка средней арифметической. Формула для ее вычисления такова:

mМ

σ

√n

где mМ - ошибка средней, σ - сигма, n - число значений признака. Это основные первичные статистики, которые позволяют оценить характер распределения данных в экспериментальном массиве.

Оценка достоверности отличий

Одной из наиболее часто встречающихся задач при обработке данных является оценка достоверности отличий между двумя или более рядами значений. В математической статистике существует несколько способов для этого. При использовании большинства мощных критериев требуются дополнительные вычисления, обычно весьма развернутые.

Компьютерный вариант обработки данных стал в настоящее время наиболее распространенным. Во многих прикладных статистических программах есть процедуры оценки различий между параметрами одной или разных выборок. При полностью компьютеризованной обработке материала нетрудно в нужный момент использовать соответствующую процедуру и оценить интересующие различия. Однако большинство исследователей не имеют свободного и неограниченного доступа к работе с компьютером — либо недостаточен парк ЭВМ, либо пользователь ЭВМ не подготовлен и может проводить обработку только с помощью квалифицированного персонала. И в том, и в другом случае типичный сеанс работы с компьютером заканчивается тем, что исследователь получает принтерные распечатки, содержащие подсчитанные первичные статистики, результаты корреляционного анализа, иногда и факторного (компонентного).

Основной анализ осуществляется позже. Исходя из этих рассуждений, будем считать, что перед автором часто встает задача оценки достоверности различий с использованием ранее вычисленных статистик. При сравнении средних значений признака говорят о достоверности (недостоверности) отличия средних арифметических, а при сравнении изменчивости показателей - о достоверности (недостоверности) отклонений σ (или дисперсии, т.е. σ2) и коэффициентов вариации.

Достоверность различий средних арифметических можно оценить по достаточно эффективному параметрическому критерию Стьюдента. Он вычисляется по формуле:

t=

М12

√(m1+m2)

где М1 и М2 —значения сравниваемых средних арифметических, m1 и m2 — соответствующие величины статистических ошибок средних арифметических. Знак вычисленной разности средних арифметических можно не учитывать, поскольку имеет значение только абсолютная величина критерия t. Значения критерия t для трех уровней значимости (р) приведены в приложении 2.

Число степеней свободы определяется по формуле:

d = (n1 + n2) - 2

где n1 и n2 – число испытуемых в сравниваемых выборках. С уменьшением выборок (n<10) критерий Стьюдента становится чувствительным к форме распределения исследуемого признака в генеральной совокупности. Поэтому в сомнительных случаях рекомендуется использовать непараметрические методы (критерий χ2, а лучше – Крамера) или сравнивать полученные значения с критическими (приведенными в таблице) для более высокого уровня значимости.

Решение о достоверности различий принимается в том случае, если вычисленная величина t превышает табличное значение для данного числа степеней свободы. В тексте публикации или отчета указывают наиболее высокий уровень значимости из трех: 0.05, 0.01, 0.001. Если превышены 0.05 и 0.01, то пишут (обычно в скобках) р=0.01 или р<0.01. Это означает, что оцениваемые различия случайны с вероятностью не более 1 из 100 шансов. Если превышены табличные значения для всех трех уровней, то указывают р=0.001 или р<0.001, что означает случайность выявленных различий между средними не более 1 из 1000 шансов.

Пример: М1 =113.3, m1 =2.4, n1 =13; М2 =103.3, m2 =2.6, n2=16;

t=2.83; d=27; 2.83> табличного 2.77 для уровня значимости р=0.01. Следовательно, на уровне 0.01 различия между средними достоверны.

Приведенная формула проста. Используя ее, можно при помощи бытового калькулятора с памятью вычислить критерии без промежуточных записей.

Следует помнить, что при любом численном значении критерия достоверности различия между средними этот показатель оценивает не степень выявленного различия (она оценивается по самой разности между средними), а лишь статистическую достоверность его, т.е. право распространять вывод о наличии разницы на все явление (весь процесс) в целом. Низкий вычисленный критерий различия не может служить доказательством отсутствия различия между двумя признаками (явлениями), ибо его значимость (степень вероятности) зависит не только от величины средних, но и от численности сравниваемых выборок. Он говорит не об отсутствии различия, а о том, что при данной величине выборок оно статистически недостоверно: слишком велик шанс, что разница случайна, слишком мала вероятность ее достоверности.

Степень, т.е. величину выявленного различия, желательно оценивать, опираясь на содержательные критерии. Вместе с тем, при изучении психологических закономерностей весьма характерно наличие множества показателей, которые, по существу, являются условными баллами, и валидность оценивания с их помощью следует доказывать особо. Чтобы избежать большей произвольности, в этих случаях также приходится опираться на статистические параметры.

Пожалуй, наиболее распространено для этого использование σ. Разницу между двумя средними арифметическими в 1σ и более можно считать достаточно выраженной. Если σ подсчитана для n>35, то достаточно выраженным можно считать различие в 0.5 сигмы. Однако для ответственных выводов о том, насколько велика разница между значениями, лучше использовать строгие критерии.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]