
bodalev
.pdf
х2i. - тестовый балл того же испытуемого при повторном измере-
нии;
n - количество испытуемых.
Оценка значимости этого коэффициента основывается на не-
сколько иной логике, чем это обычно делается при проверке нулевой гипотезы - о равенстве корреляций нулю. Высокая надежность дости-
гается тогда, когда дисперсия ошибки оказывается пренебрежительно малой. 'Относительную долю дисперсии ошибки легко определить по формуле
2
S02 Se2 1 r12 (3.2.4)
Sx
Таким образом, для нас существеннее близость к единице, а не отдаленность от нуля. Обычно в тестологической практике редко уда-
ется достичь коэффициентов, превышающих 0,8. При г = 0,75 отно-
сительная доля стандартной ошибки равна 1 0,75 0,5. Этой ошиб-
кой, очевидно, нельзя пренебречь. При такой ошибке эмпирически по-
лученное отклонение индивидуального тестового балла от среднего по выборке оказывается, как правило, завышенным. Для того чтобы вы-
яснить «истинное» значение тестового балла индивида, применяется формула
x rxi (1 r) |
x |
(3.2.5) |
где x - истинный балл; |
' |
хi — эмпирический балл i-го испытуемого;
r- эмпирически измеренная надежность теста; x - среднее для теста.
Предположим, испытуемый получил балл IQ по шкале Стэнфор-
да.-Бине, равный 120 нормализованным очкам, М = 100, г = 0,9. Тогда
истинный балл x = 0,9 120 + 0,1 100 =118.
Конечно, требование ретестовой надежности является коррект-
ным лишь по отношению к таким психическим характеристикам ин-
дивидов, которые сами являются устойчивыми во времени. Если мы создаем тест для измерения эмоциональных состояний (бодрости, тре-
101
воги и т. д.), то, очевидно, требовать от него ретестовой надежности бессмысленно: у испытуемых быстрее изменится состояние, чем они забудут свои ответы по первому тестированию.
Для шкал порядка в качестве меры устойчивости к перетестиро-
ванию используется коэффициент ранговой корреляции Спирмена:
p 1 |
6 di2 |
|
||
|
|
, |
(3.2.6) |
|
n(n2 |
|
|||
|
1) |
|
где di — разность рангов /-го испытуемого в первом и втором ранговом ряду.
С помощью компьютера определяется более надежный коэффи-
циент ранговой корреляции Кендалла (1975).
2. Надежностьсогласованность (одномоментная надежность).
Эта разновидность надежности не зависит от устойчивости, име-
ет особую содержательную и операциональную природу. Простейшим способ ее измерения СОСТОИТЕ коррелировании параллельных форм теста (Анастази Д., 1982, кн. 1,с. 106). Чаще всего параллельные формы теста получают расщеплением составного теста на «четную» и «нечетную» половины: к первой относятся четные пункты, ко второй -
нечетные. По каждой половине рассчитываются суммарные баллы и между двумя рядами баллов по испытуемым определяются допустимые
(с учетом уровня измерения) коэффициенты корреляции. Если парал-
лельные тесты не нормализованы, то предпочтительнее использовать ранговую корреляцию. При таком расщеплении получается коэффици-
ент, относящийся к половинам теста. Для того чтобы найти надежность целого теста пользуются формулой Спирмена - Брауна:
r |
|
2rx |
(3.2.7) |
|
|||
xx |
1 r |
|
|
|
|
x |
|
где rx - эмпирически рассчитанная корреляция для половин.
Делить тест на две половины можно разными способами, и каж-
дый раз получаются несколько разные коэффициенты (Аванесов В. С., 1982, с. 122), поэтому в психометрике существует способ оценки син-
хронной надежности, который соответствует разбиению теста на такое
102

количество частей, сколько в нем отдельных пунктов. Такова формула
Кронбаха:
|
|
|
|
j |
|
|
|
k |
|
S2j |
|
|
|
a |
|
j 1 |
|
|
||
|
|
1 |
|
|
(3.2.8) |
|
k 1 |
2 |
|||||
|
|
Sx |
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
где а - коэффициент Кронбаха; k- количество пунктов теста;
S2j - дисперсия по j-му пункту теста;
Sx2 - дисперсия суммарных баллов по всему тесту.
Обратите внимание на структурное подобие формулы Кронбаха
(3.2.2) и формулы Рюлона (3.2.8).
Несколько раньше была получена формула Кьюдера - Ричардсо-
на, аналогичная формуле Кронбаха для частного случая - когда отве-
ты на каждый пункт теста интерпретируются как дихотомические пе-
ременные с двумя значениями (1 и 0):
|
|
|
|
|
k |
|
|
|
|
|
|
|
pjqj |
|
|||
|
|
k |
Sx2 |
|
|
|||
KR20 |
|
|
j 1 |
|
(3.2.9) |
|||
|
|
|
|
|
|
|||
k 1 |
|
2 |
||||||
|
|
|
Sx |
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
где KR20 - традиционное обозначение получаемого коэффициен-
та;
pjqj -дисперсия i-и дихотомической переменной, какой является
i-й пункт теста; р = N(«верно») , q = 1 - p n
В 1957 г. Дж. Ките предложил следующий критерий для оценки статистической значимости коэффициента a:
X 2 |
|
k(n 1) |
(3.2.10) |
|
k(1 a) a |
||||
n 1 |
|
|
103

где Xn2 1 - эмпирическое значение статистики % квадрат с п-1
степенью свободы;
k - количество пунктов теста; n - количество испытуемых;. a - надежность.
Формулы (3.2.8) и (3.2.9) позволяют оценить взаимную согласо-
ванность пунктов теста, используя при этом только подсчет дисперсий.
Однако коэффициенты а и KR2I> позволяют оценить и среднюю корре-
ляцию между i-м и j-м произвольными пунктами теста, так как связаны с этой средней корреляцией следующей формулой:
a |
krij |
|||
|
|
|
11) |
|
|
|
|
||
|
1 (k 1)rij |
|||
где |
rij - средняя корреляция между пунктами теста. Легко уви- |
деть идентичность формулы (3.2.11) обобщенной формуле Спирмена -
Брауна, позволяющей прогнозировать повышения синхронной надеж-
ности теста с увеличением количества пунктов теста в k раз (Аванесов В. С., 1982, с. 121). Из этой формулы видно, что при больших k малое значение rij может сочетаться с высокой надежностью. Пусть rij = 0,1,
a k =100, тогда по формуле (3.2.11)
a |
100 0,1 |
|
|
|
10 |
0,91 |
|
1 99 0,1 |
10,9 |
||||||
|
|
|
Широкое распространение компьютерных программ факторного анализа для исследования взаимоотношений между пунктами теста (по одномоментным данным) привело к обоснованию еще одной до-
статочно эффективной формулы надежности теста, которой легко вос-
пользоваться, получив стандартную распечатку компьютерных резуль-
татов факторного анализа по методу главных компонент:
|
k |
|
|
1 |
|
|
|
|
|
|
|
||||
k 1 |
|
(3.2.12) |
|||||
1 |
|
||||||
|
|
|
|
1 |
|
|
104

где θ - коэффициент, получивший название тета-надежности
теста;
k - количество пунктов теста;
λ1 - наибольшее значение характеристического корня матрицы интеркорреляций пунктов (наибольшее собственное значение,
или абсолютный вес первой главной компоненты).
Как и предыдущие формулы, формула (3.2.12) также относится к оценке надежности теста, направленного на измерение одной харак-
теристики. Но, кроме того, она применима и для многофакторного тес-
та, хотя и нуждается в пересчете после первоначального отбора пунк-
тов, релевантных фактору (после того, как на основании многофак-
торного анализа отобраны пункты по одному фактору, снова прово-
дится факторный анализ - только для этих отобранных пунктов).
Надежность отдельных пунктов теста. Надежность теста обес-
печивается надежностью пунктов, из которых он состоит. Чтобы по-
высить ретестовую надежность теста в целом, надо отобрать из ис-
ходного набора пунктов, апробируемых в пилотажных психометри-
ческих экспериментах, такие пункты, на которые испытуемые дают ус-
тойчивые ответы. Для дихотомических пунктов (типа «решил - не ре-
шил», «да - нет») устойчивость удобно измерять с использованием че-
тырехклеточной матрицы сопряженности:
Тест 1
|
Да |
Нет |
|
Да |
|
|
Тест 2 |
a |
B |
||
Нет |
|
|
|
c |
D |
|
|
|
|
|
|
Здесь в клеточке а суммируются ответы «Да», данные испытуе-
мым при первом и втором тестировании, в клеточке b - число случаев,
когда испытуемый при первом тестировании отвечал «Да», а при вто-
ром - «Нет» и т. д. В качестве меры корреляции вычисляется фи-
коэффициент:
|
ad bc |
(3.2.13) |
|
(a b)(c d)(a c)(b d)
105

Как известно, значимость фи-коэффициента определяется с по мощью критерия хи-квадрат:
X12 2n |
(3.2.14) |
Если вычисленное значение хи-квадрат выше табличного с од-
ной степенью свободы, то нулевая гипотеза (о нулевой устойчивости)
отвергается. Удобство использования фи-коэффициента состоит в том,
что он одновременно оценивает степень оптимальности данного пунк-
та теста по силе (трудности): фи-коэффициент оказывается тем мень-
шим, чем сильнее частота ответов «да» отличается от частоты ответа
«нет».
Кроме того, сама четырехклеточная матрица позволяет просле-
дить возможную несимметричность в устойчивости ответов «да» и «нет» (это важнее для задач, чем для вопросов: например, может ока-
заться, что все испытуемые, уже решившие однажды данную задачу,
решают ее при повторном тестировании; это наводит на мысль о том,
что при втором тестировании происходит сбережение опыта, приоб-
ретенного при первом тестировании). Выявленные в результате такого анализа неустойчивые и неинформативные (слишком сильные или слишком слабые) пункты должны быть исключены из теста. Пункты следует считать недостаточно устойчивыми, если на репрезентативной выборке величина 1 превышает 0,71. При этом φ< 0,5.
Для т<?го чтобы повысить одномоментную (синхронную) надеж-
ность теста, следует из исходной пилотажной батареи пунктов отбро-
сить те, которые плохо согласованы с остальными1. В отсутствие ком-
пьютера согласованность для пунктов также очень просто определяет-
ся с помощью четырехклеточной матрицы. В этом случае в первом столбце суммируются ответы испытуемых из «высокой».группы (пр величине суммарного балла), во втором столбце - из «низкой».
Высокая Низкая
1 В ряде пособий показатель согласованности для пунктов называется дискриминативностью пунктов (Гайда В. К., Захаров В П., 1982).
106

Да |
A |
B |
Нет |
|
|
C |
D |
|
|
|
|
При нормальном распределении частот суммарных баллов «вы-
сокая» и «низкая» группы отсекаются справа и слева 27%-ными мар-
гинальными квантилями (рис. 8).
Для оценки согласованности с суммарным баллом применяется полная1 или упрощенная формула фи-коэффициента:
|
2a P1 1 |
||||
|
|
|
|
(3.2.15)2 |
|
|
|
|
|
||
|
|
|
|||
i |
|
P(N* P) |
|||
|
|
i |
i |
где Pi - количество ответов «верно» («да») на i-й пункт теста;
N* - сумма всех элементов матрицы;
N* = n • 0,54 где n - объём выборки;
Pi = а + b - При включении в эстремальную группу 1/3 выборки
N* = 0,66 • n.
Рис. 8. Квантили «высокой» и «низкой» группы на гра-
фике распределения тестовых баллов
В некоторых случаях подобный анализ позволяет уточнить ключ для пункта: если пункт получает значимый положительный фи-коэф-
фициент, то ключ определяется значением «+1», если пункт получает значимый отрицательный фи-коэффициент значением «-1». Если пункт получает незначимый фи-коэфф.ициент, то его целесообразно
1Полная формула отличается от формулы (3.2.13) наличием в числителе вычитаемого (а + b + с +d)/2 - поправки с учетом вклада, который i-й пункт вносит в суммарный балл:
2Если 2а –Р1< 0, то числитель в формуле (3.2 15) выглядит так: 2а-Р1+1
107

исключить из теста.
При ручных вычислениях фи-коэффициента удобно вначале с помощью формул (3.2.14) и (3.2.15) определить граничное значение значимого (по модулю) фи-коэффициента. Например, при объеме вы-
борки в 100 человек и уровне значимости р < 0,01 пороговое зна-
чение вычисляется так:
|
|
|
|
x0,012 |
|
|
|
|
|
|
|
|
|
|
|
6,63 |
|
0.27 |
(3.2.16) |
||
|
|
|||||||||
|
|
n |
100 |
|||||||
|
|
|
|
|
|
|
|
|
При постоянном использовании компьютера при подсчете сум-
марных баллов ключ для каждого пункта Q целесообразно определить в виде самого фи-коэффициента (или другого коэффициента корреля-
ции), определенного при коррелировании ответов на пункт с сум-
марным баллом. Тогда тестовый балл подсчитывается по формуле
k |
|
xi RijCj, |
(3.2.17) |
j 1 |
|
где хi — суммарный балл i-го испытуемого;
Rij- ответ «верно» (+1) или «неверно» (-1) i-го испытуемого на i-й пункт;
Сi- ключ для i-го пункта: С = +1 для прямого, С= -1 для обрат-
ного.
Более чувствительный коэффициент, который также применяет-
ся для дихотомических пунктов, - это точечный бисериальный коэф-
фициент корреляции, учитывающий амплитуду отклонения индиви-
дуальных суммарных баллов от среднего балла:
|
1 |
n |
|||||
x* pi |
x |
|
|||||
rpbi |
n |
3.2.18) |
|||||
|
|
|
|
||||
|
|||||||
|
|
|
Sx piqi |
где x* - сумма финальных баллов тех индивидов, которые да-
ли утвердительный ответ на i-й пункт теста (решили i-ю задачу);
108

Sx - стандартное отклонение для суммарных баллов всех инди-
видов из выборки;
piqi - стандартное отклонение по i-му пункту; x - средний балл по всем пунктам.
А. Анастази относит критерий внутренней согласованности теста к валидности (Анастази А., 1982, кн. 1, с. 143), однако если и можно в данном случае говорить о валидности, то только в смысле особой внутренней валидности теста. Как правило, слишком высокая со-
гласованность снижает внешнюю валидность теста по критерию (см.
раздел 3.3). Если проверяется согласованность пунктов, составленных одним автором (одним коллективом по стандартной инструкции), то выявление достаточного набора согласованных пунктов свидетель-
ствует о внутренней валидности (согласованности) разработанного диагностического понятия (конструкта).
В компьютерных данных факторного анализа аналогом корреля-
ции пункта с суммарным баллом является нагрузка пункта на ведущий фактор («факторная валидность» в терминах А. Анастази). Если при-
бегать к геометрическому изображению нагрузки как проекции векто-
ра-пункта на ось-фактор, то структура пунктов хорошо согласованного теста предстанет в виде пучка векторов, плотно прилегающих к фак-
тору и вытянувшихся вдоль его оси (рис. 9).
Рис. 9. Векторная модель соотношения «прямых» и «об-
ратных» эмпирических пунктов с релевантным (измеряемым)
фактором и иррелевантными («шумовыми») факторами
Последовательность действий при проверке надежности:
1. Узнать, существуют ли данные о надежности теста, предпо-
109
лагаемого к использованию, на какой популяции и в какой диагнос-
тической ситуации проводилась проверка. Если проверки не было или признаки новых популяции и ситуации явно специфичны, провести заново проверку надежности с учетом указанных ниже возможностей.
2.Произвести повторное тестирование на всей выборке стан-
дартизации и подсчитать все коэффициенты, как для целого теста, так и для его отдельных пунктов. Анализ полученных коэффициентов по-
зволит понять, насколько пренебрежима ошибка измерения, дает ли данный тест интервальную шкалу (высокий r) или только диагности-
чен для крайних групп (высокий φ), насколько устойчиво измеряемое свойство во времени (возможен ли статистический прогноз - проекция тестового балла на будущее), в каких своих пунктах тест менее наде-
жен (анализ этих пунктов позволяет психологически осмыслить со-
держательный механизм взаимодействия пунктов с испытуемыми).
3. Если возможности обследования испытуемых ограниченны,
произвести повторное тестирование только на части выборки (не ме-
нее 30 испытуемых), подсчитать (вручную) ранговую или четырех-
клеточную корреляцию для оценки внутренней согласованности и ста-
бильности теста в целом.
3.3. ВАЛИДНОСТЬ ТЕСТОВ
Проблемы валидизации психологических тестов являются цент-
ральными для дифференциальной психометрики, но, к сожалению, до сих пор решенными не до конца. Решение этой проблемы зависит не от статистического аппарата, а от уровня развития теоретического ап-
парата дифференциальной психологии.
Валидность и надежность. Валидность (или обоснованность)
всякой процедуры измерения состоит в однозначности (устойчивости)
получаемых результатов относительно измеряемых свойств объектов,
т, е. относительно предмета измерения. Отличие понятия валидности от надежности измерения удобно раскрывать с помощью различения
«объекта» и «предмета» измерения. Надежность - это устойчивость процедуры относительно объектов. Надежность не обязательно пред-
полагает валидность. В психологии довольно часто возникает такая ситуация, когда исследователь вначале предлагает определенную
110