Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

bodalev

.pdf
Скачиваний:
17
Добавлен:
18.03.2015
Размер:
2.88 Mб
Скачать

х2i. - тестовый балл того же испытуемого при повторном измере-

нии;

n - количество испытуемых.

Оценка значимости этого коэффициента основывается на не-

сколько иной логике, чем это обычно делается при проверке нулевой гипотезы - о равенстве корреляций нулю. Высокая надежность дости-

гается тогда, когда дисперсия ошибки оказывается пренебрежительно малой. 'Относительную долю дисперсии ошибки легко определить по формуле

2

S02 Se2 1 r12 (3.2.4)

Sx

Таким образом, для нас существеннее близость к единице, а не отдаленность от нуля. Обычно в тестологической практике редко уда-

ется достичь коэффициентов, превышающих 0,8. При г = 0,75 отно-

сительная доля стандартной ошибки равна 1 0,75 0,5. Этой ошиб-

кой, очевидно, нельзя пренебречь. При такой ошибке эмпирически по-

лученное отклонение индивидуального тестового балла от среднего по выборке оказывается, как правило, завышенным. Для того чтобы вы-

яснить «истинное» значение тестового балла индивида, применяется формула

x rxi (1 r)

x

(3.2.5)

где x - истинный балл;

'

хi — эмпирический балл i-го испытуемого;

r- эмпирически измеренная надежность теста; x - среднее для теста.

Предположим, испытуемый получил балл IQ по шкале Стэнфор-

да.-Бине, равный 120 нормализованным очкам, М = 100, г = 0,9. Тогда

истинный балл x = 0,9 120 + 0,1 100 =118.

Конечно, требование ретестовой надежности является коррект-

ным лишь по отношению к таким психическим характеристикам ин-

дивидов, которые сами являются устойчивыми во времени. Если мы создаем тест для измерения эмоциональных состояний (бодрости, тре-

101

воги и т. д.), то, очевидно, требовать от него ретестовой надежности бессмысленно: у испытуемых быстрее изменится состояние, чем они забудут свои ответы по первому тестированию.

Для шкал порядка в качестве меры устойчивости к перетестиро-

ванию используется коэффициент ранговой корреляции Спирмена:

p 1

6 di2

 

 

 

,

(3.2.6)

n(n2

 

 

1)

 

где di — разность рангов /-го испытуемого в первом и втором ранговом ряду.

С помощью компьютера определяется более надежный коэффи-

циент ранговой корреляции Кендалла (1975).

2. Надежностьсогласованность (одномоментная надежность).

Эта разновидность надежности не зависит от устойчивости, име-

ет особую содержательную и операциональную природу. Простейшим способ ее измерения СОСТОИТЕ коррелировании параллельных форм теста (Анастази Д., 1982, кн. 1,с. 106). Чаще всего параллельные формы теста получают расщеплением составного теста на «четную» и «нечетную» половины: к первой относятся четные пункты, ко второй -

нечетные. По каждой половине рассчитываются суммарные баллы и между двумя рядами баллов по испытуемым определяются допустимые

(с учетом уровня измерения) коэффициенты корреляции. Если парал-

лельные тесты не нормализованы, то предпочтительнее использовать ранговую корреляцию. При таком расщеплении получается коэффици-

ент, относящийся к половинам теста. Для того чтобы найти надежность целого теста пользуются формулой Спирмена - Брауна:

r

 

2rx

(3.2.7)

 

xx

1 r

 

 

 

x

 

где rx - эмпирически рассчитанная корреляция для половин.

Делить тест на две половины можно разными способами, и каж-

дый раз получаются несколько разные коэффициенты (Аванесов В. С., 1982, с. 122), поэтому в психометрике существует способ оценки син-

хронной надежности, который соответствует разбиению теста на такое

102

количество частей, сколько в нем отдельных пунктов. Такова формула

Кронбаха:

 

 

 

 

j

 

 

 

k

 

S2j

 

 

a

 

j 1

 

 

 

 

1

 

 

(3.2.8)

k 1

2

 

 

Sx

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где а - коэффициент Кронбаха; k- количество пунктов теста;

S2j - дисперсия по j-му пункту теста;

Sx2 - дисперсия суммарных баллов по всему тесту.

Обратите внимание на структурное подобие формулы Кронбаха

(3.2.2) и формулы Рюлона (3.2.8).

Несколько раньше была получена формула Кьюдера - Ричардсо-

на, аналогичная формуле Кронбаха для частного случая - когда отве-

ты на каждый пункт теста интерпретируются как дихотомические пе-

ременные с двумя значениями (1 и 0):

 

 

 

 

 

k

 

 

 

 

 

 

pjqj

 

 

 

k

Sx2

 

 

KR20

 

 

j 1

 

(3.2.9)

 

 

 

 

 

 

k 1

 

2

 

 

 

Sx

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где KR20 - традиционное обозначение получаемого коэффициен-

та;

pjqj -дисперсия i-и дихотомической переменной, какой является

i-й пункт теста; р = Nверно») , q = 1 - p n

В 1957 г. Дж. Ките предложил следующий критерий для оценки статистической значимости коэффициента a:

X 2

 

k(n 1)

(3.2.10)

k(1 a) a

n 1

 

 

103

где Xn2 1 - эмпирическое значение статистики % квадрат с п-1

степенью свободы;

k - количество пунктов теста; n - количество испытуемых;. a - надежность.

Формулы (3.2.8) и (3.2.9) позволяют оценить взаимную согласо-

ванность пунктов теста, используя при этом только подсчет дисперсий.

Однако коэффициенты а и KR2I> позволяют оценить и среднюю корре-

ляцию между i-м и j-м произвольными пунктами теста, так как связаны с этой средней корреляцией следующей формулой:

a

krij

 

 

 

11)

 

 

 

 

1 (k 1)rij

где

rij - средняя корреляция между пунктами теста. Легко уви-

деть идентичность формулы (3.2.11) обобщенной формуле Спирмена -

Брауна, позволяющей прогнозировать повышения синхронной надеж-

ности теста с увеличением количества пунктов теста в k раз (Аванесов В. С., 1982, с. 121). Из этой формулы видно, что при больших k малое значение rij может сочетаться с высокой надежностью. Пусть rij = 0,1,

a k =100, тогда по формуле (3.2.11)

a

100 0,1

 

 

 

10

0,91

1 99 0,1

10,9

 

 

 

Широкое распространение компьютерных программ факторного анализа для исследования взаимоотношений между пунктами теста (по одномоментным данным) привело к обоснованию еще одной до-

статочно эффективной формулы надежности теста, которой легко вос-

пользоваться, получив стандартную распечатку компьютерных резуль-

татов факторного анализа по методу главных компонент:

 

k

 

 

1

 

 

 

 

 

 

k 1

 

(3.2.12)

1

 

 

 

 

 

1

 

 

104

где θ - коэффициент, получивший название тета-надежности

теста;

k - количество пунктов теста;

λ1 - наибольшее значение характеристического корня матрицы интеркорреляций пунктов (наибольшее собственное значение,

или абсолютный вес первой главной компоненты).

Как и предыдущие формулы, формула (3.2.12) также относится к оценке надежности теста, направленного на измерение одной харак-

теристики. Но, кроме того, она применима и для многофакторного тес-

та, хотя и нуждается в пересчете после первоначального отбора пунк-

тов, релевантных фактору (после того, как на основании многофак-

торного анализа отобраны пункты по одному фактору, снова прово-

дится факторный анализ - только для этих отобранных пунктов).

Надежность отдельных пунктов теста. Надежность теста обес-

печивается надежностью пунктов, из которых он состоит. Чтобы по-

высить ретестовую надежность теста в целом, надо отобрать из ис-

ходного набора пунктов, апробируемых в пилотажных психометри-

ческих экспериментах, такие пункты, на которые испытуемые дают ус-

тойчивые ответы. Для дихотомических пунктов (типа «решил - не ре-

шил», «да - нет») устойчивость удобно измерять с использованием че-

тырехклеточной матрицы сопряженности:

Тест 1

 

Да

Нет

 

Да

 

 

Тест 2

a

B

Нет

 

 

 

c

D

 

 

 

 

 

Здесь в клеточке а суммируются ответы «Да», данные испытуе-

мым при первом и втором тестировании, в клеточке b - число случаев,

когда испытуемый при первом тестировании отвечал «Да», а при вто-

ром - «Нет» и т. д. В качестве меры корреляции вычисляется фи-

коэффициент:

 

ad bc

(3.2.13)

 

(a b)(c d)(a c)(b d)

105

Как известно, значимость фи-коэффициента определяется с по мощью критерия хи-квадрат:

X12 2n

(3.2.14)

Если вычисленное значение хи-квадрат выше табличного с од-

ной степенью свободы, то нулевая гипотеза (о нулевой устойчивости)

отвергается. Удобство использования фи-коэффициента состоит в том,

что он одновременно оценивает степень оптимальности данного пунк-

та теста по силе (трудности): фи-коэффициент оказывается тем мень-

шим, чем сильнее частота ответов «да» отличается от частоты ответа

«нет».

Кроме того, сама четырехклеточная матрица позволяет просле-

дить возможную несимметричность в устойчивости ответов «да» и «нет» (это важнее для задач, чем для вопросов: например, может ока-

заться, что все испытуемые, уже решившие однажды данную задачу,

решают ее при повторном тестировании; это наводит на мысль о том,

что при втором тестировании происходит сбережение опыта, приоб-

ретенного при первом тестировании). Выявленные в результате такого анализа неустойчивые и неинформативные (слишком сильные или слишком слабые) пункты должны быть исключены из теста. Пункты следует считать недостаточно устойчивыми, если на репрезентативной выборке величина 1 превышает 0,71. При этом φ< 0,5.

Для т<?го чтобы повысить одномоментную (синхронную) надеж-

ность теста, следует из исходной пилотажной батареи пунктов отбро-

сить те, которые плохо согласованы с остальными1. В отсутствие ком-

пьютера согласованность для пунктов также очень просто определяет-

ся с помощью четырехклеточной матрицы. В этом случае в первом столбце суммируются ответы испытуемых из «высокой».группы (пр величине суммарного балла), во втором столбце - из «низкой».

Высокая Низкая

1 В ряде пособий показатель согласованности для пунктов называется дискриминативностью пунктов (Гайда В. К., Захаров В П., 1982).

106

Да

A

B

Нет

 

 

C

D

 

 

 

При нормальном распределении частот суммарных баллов «вы-

сокая» и «низкая» группы отсекаются справа и слева 27%-ными мар-

гинальными квантилями (рис. 8).

Для оценки согласованности с суммарным баллом применяется полная1 или упрощенная формула фи-коэффициента:

 

2a P1 1

 

 

 

 

(3.2.15)2

 

 

 

 

 

 

 

i

 

P(N* P)

 

 

i

i

где Pi - количество ответов «верно» («да») на i-й пункт теста;

N* - сумма всех элементов матрицы;

N* = n • 0,54 где n - объём выборки;

Pi = а + b - При включении в эстремальную группу 1/3 выборки

N* = 0,66 • n.

Рис. 8. Квантили «высокой» и «низкой» группы на гра-

фике распределения тестовых баллов

В некоторых случаях подобный анализ позволяет уточнить ключ для пункта: если пункт получает значимый положительный фи-коэф-

фициент, то ключ определяется значением «+1», если пункт получает значимый отрицательный фи-коэффициент значением «-1». Если пункт получает незначимый фи-коэфф.ициент, то его целесообразно

1Полная формула отличается от формулы (3.2.13) наличием в числителе вычитаемого (а + b + с +d)/2 - поправки с учетом вклада, который i-й пункт вносит в суммарный балл:

2Если 2а –Р1< 0, то числитель в формуле (3.2 15) выглядит так: 2а1+1

107

исключить из теста.

При ручных вычислениях фи-коэффициента удобно вначале с помощью формул (3.2.14) и (3.2.15) определить граничное значение значимого (по модулю) фи-коэффициента. Например, при объеме вы-

борки в 100 человек и уровне значимости р < 0,01 пороговое зна-

чение вычисляется так:

 

 

 

 

x0,012

 

 

 

 

 

 

 

 

 

 

 

6,63

 

0.27

(3.2.16)

 

 

 

 

n

100

 

 

 

 

 

 

 

 

 

При постоянном использовании компьютера при подсчете сум-

марных баллов ключ для каждого пункта Q целесообразно определить в виде самого фи-коэффициента (или другого коэффициента корреля-

ции), определенного при коррелировании ответов на пункт с сум-

марным баллом. Тогда тестовый балл подсчитывается по формуле

k

 

xi RijCj,

(3.2.17)

j 1

 

где хi — суммарный балл i-го испытуемого;

Rij- ответ «верно» (+1) или «неверно» (-1) i-го испытуемого на i-й пункт;

Сi- ключ для i-го пункта: С = +1 для прямого, С= -1 для обрат-

ного.

Более чувствительный коэффициент, который также применяет-

ся для дихотомических пунктов, - это точечный бисериальный коэф-

фициент корреляции, учитывающий амплитуду отклонения индиви-

дуальных суммарных баллов от среднего балла:

 

1

n

x* pi

x

 

rpbi

n

3.2.18)

 

 

 

 

 

 

 

 

Sx piqi

где x* - сумма финальных баллов тех индивидов, которые да-

ли утвердительный ответ на i-й пункт теста (решили i-ю задачу);

108

Sx - стандартное отклонение для суммарных баллов всех инди-

видов из выборки;

piqi - стандартное отклонение по i-му пункту; x - средний балл по всем пунктам.

А. Анастази относит критерий внутренней согласованности теста к валидности (Анастази А., 1982, кн. 1, с. 143), однако если и можно в данном случае говорить о валидности, то только в смысле особой внутренней валидности теста. Как правило, слишком высокая со-

гласованность снижает внешнюю валидность теста по критерию (см.

раздел 3.3). Если проверяется согласованность пунктов, составленных одним автором (одним коллективом по стандартной инструкции), то выявление достаточного набора согласованных пунктов свидетель-

ствует о внутренней валидности (согласованности) разработанного диагностического понятия (конструкта).

В компьютерных данных факторного анализа аналогом корреля-

ции пункта с суммарным баллом является нагрузка пункта на ведущий фактор («факторная валидность» в терминах А. Анастази). Если при-

бегать к геометрическому изображению нагрузки как проекции векто-

ра-пункта на ось-фактор, то структура пунктов хорошо согласованного теста предстанет в виде пучка векторов, плотно прилегающих к фак-

тору и вытянувшихся вдоль его оси (рис. 9).

Рис. 9. Векторная модель соотношения «прямых» и «об-

ратных» эмпирических пунктов с релевантным (измеряемым)

фактором и иррелевантными («шумовыми») факторами

Последовательность действий при проверке надежности:

1. Узнать, существуют ли данные о надежности теста, предпо-

109

лагаемого к использованию, на какой популяции и в какой диагнос-

тической ситуации проводилась проверка. Если проверки не было или признаки новых популяции и ситуации явно специфичны, провести заново проверку надежности с учетом указанных ниже возможностей.

2.Произвести повторное тестирование на всей выборке стан-

дартизации и подсчитать все коэффициенты, как для целого теста, так и для его отдельных пунктов. Анализ полученных коэффициентов по-

зволит понять, насколько пренебрежима ошибка измерения, дает ли данный тест интервальную шкалу (высокий r) или только диагности-

чен для крайних групп (высокий φ), насколько устойчиво измеряемое свойство во времени (возможен ли статистический прогноз - проекция тестового балла на будущее), в каких своих пунктах тест менее наде-

жен (анализ этих пунктов позволяет психологически осмыслить со-

держательный механизм взаимодействия пунктов с испытуемыми).

3. Если возможности обследования испытуемых ограниченны,

произвести повторное тестирование только на части выборки (не ме-

нее 30 испытуемых), подсчитать (вручную) ранговую или четырех-

клеточную корреляцию для оценки внутренней согласованности и ста-

бильности теста в целом.

3.3. ВАЛИДНОСТЬ ТЕСТОВ

Проблемы валидизации психологических тестов являются цент-

ральными для дифференциальной психометрики, но, к сожалению, до сих пор решенными не до конца. Решение этой проблемы зависит не от статистического аппарата, а от уровня развития теоретического ап-

парата дифференциальной психологии.

Валидность и надежность. Валидность (или обоснованность)

всякой процедуры измерения состоит в однозначности (устойчивости)

получаемых результатов относительно измеряемых свойств объектов,

т, е. относительно предмета измерения. Отличие понятия валидности от надежности измерения удобно раскрывать с помощью различения

«объекта» и «предмета» измерения. Надежность - это устойчивость процедуры относительно объектов. Надежность не обязательно пред-

полагает валидность. В психологии довольно часто возникает такая ситуация, когда исследователь вначале предлагает определенную

110

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]