Бодалев А.А. - Общая психодиагностика
.pdfлагаемого к использованию, на какой популяции и в какой диагнос-
тической ситуации проводилась проверка. Если проверки не было или признаки новых популяции и ситуации явно специфичны, провести заново проверку надежности с учетом указанных ниже возможностей.
2.Произвести повторное тестирование на всей выборке стан-
дартизации и подсчитать все коэффициенты, как для целого теста, так и для его отдельных пунктов. Анализ полученных коэффициентов по-
зволит понять, насколько пренебрежима ошибка измерения, дает ли данный тест интервальную шкалу(высокий r) или только диагности-
чен для крайних групп (высокий φ), насколько устойчиво измеряемое свойство во времени (возможен ли статистический прогноз - проекция тестового балла на будущее), в каких своих пунктах тест менее наде-
жен (анализ этих пунктов позволяет психологически осмыслить -со держательный механизм взаимодействия пунктов с испытуемыми).
3. Если возможности обследования испытуемых ограниченны,
произвести повторное тестирование только на части выборки(не ме-
нее 30 испытуемых), подсчитать (вручную) ранговую или четырех-
клеточную корреляцию для оценки внутренней согласованности и ста-
бильности теста в целом.
3.3. ВАЛИДНОСТЬ ТЕСТОВ
Проблемы валидизации психологических тестов являются цент-
ральными для дифференциальной психометрики, но, к сожалению, до сих пор решенными не до конца. Решение этой проблемы зависит не от статистического аппарата, а от уровня развития теоретического ап-
парата дифференциальной психологии.
Валидность и надежность. Валидность (или обоснованность)
всякой процедуры измерения состоит в однозначности(устойчивости)
получаемых результатов относительно измеряемых свойств объектов,
т, е. относительно предмета измерения. Отличие понятия валидности от надежности измерения удобно раскрывать с помощью различения
«объекта» и «предмета» измерения. Надежность - это устойчивость процедуры относительно объектов. Надежность не обязательно пред-
полагает валидность. В психологии довольно часто возникает такая ситуация, когда исследователь вначале предлагает определенную
111
процедуру измерения, показывает ее надежность -способность устой-
чиво различать объекты, но вопрос о валидности остается открытым.
Если в сенсорной психофизике вопрос о валидности измерений оказывается в значительной степени затушеванным тем обстоятель-
ством, что простейшие физические стимулы достаточно однозначно детерминируют измеряемые свойства ощущений, то в дифференци-
альной психометрике значимость проблемы валидности резко возра-
стает. Здесь ситуация подобна той, когда в психофизическом опыте испытуемому не указывают, по какому именно параметру следует сравнивать стимулы. Пусть испытуемый А понял инструкцию так, что стимульные объекты надо сравнивать по весу, а испытуемый Б - по размеру. Если процедура измерения будет повторена по отношению к тем же объектам, то она даст вполне устойчивые данные относительно объектов, но не даст валидной информации ни о шкале ощущений
«веса», ни о шкале ощущений «размера».
При измерении способностей предъявляемый тест отнюдь не обязательно актуализирует именно тот психический процесс, который предполагается измерить. Например, столкнувшись с уже встречав-
шейся однажды задачей (например, с анаграммой «дзиканпр»), испы-
туемый может начать запоминать просто то решение, к которому он уже однажды пришел (слово «праздник»), чем заново решать эту за-
дачу. Здесь будет измеряться скорее уровень словесной памяти, чем уровень вербального интеллекта. Точно так же реальная валидность некоторых тестов раскрывается только в результате значительного опыта работы с ними. Например, доказано, что ряд тестов, внешне вы глядящих интеллектуальными, на деле измеряют скорее личностно-
стилевые особенности индивида, чем операциональные возможности интеллекта, например, методика «креативного поля» Д. Б. Бо-
гоявленской.
Устойчивость теста относительно объектов(испытуемых) явля-
ется необходимым, но не достаточным условием его устойчивости от-
носительно измеряемых атрибутов (свойств) объектов. Надежность яв-
ляется необходимым, но не достаточным условием валидности. Отсюда вытекает основное соотношение психометрики:
валидность ≤ надежность.
112
Это означает, что валидность теста не может превышать его на-
дежность.
Данное соотношение, однако, неверно трактовать как указание на прямую пропорциональную связь валидности и надежности. По-
вышение надежности отнюдь не обязательно приводит к повышению валидности1. В терминах .А Анастази валидность определяется ре-
презентативностью теста относительно измеряемой области поведе-
ния. Если эта область поведения складывается из разнообразных фе-
номенов, то содержательная валидность теста автоматически требует представленности в нем моделей всех этих разнообразных феноменов.
Возьмем глобальное понятие «речевая способность» (этому психолин-
гвистическому термину в традиционной тестологии соответствует тер-
мин «вербальный интеллект»). Сюда относятся такие относительно не-
зависимые друг от друга навыки, как навыки письма и чтения. Если заботиться о содержательной валидности соответствующего теста, то нужно ввести в него группы заданий на проверку этих довольно раз-
ных по своему операциональному составу компонентов вербального интеллекта. Вводя разнородные пункты и субшкалы(субтесты), мы обязательно сокращаем внутреннюю согласованность, одномоментную надежность теста, но зато добиваемся существенного повышения ва-
лидности. Таким образом, для расширения области применения теста психодиагност должен избегать излишнего повышения внутренней со-
гласованности. Одновременно с этим снижением внутренних корреля-
ций между различными пунктами теста (об этом уже говорилось в раз-
деле 3.1) обязательно исчезает отрицательный эксцесс на кривой рас-
пределения тестовых баллов, и она все более приближается по форме к нормальной кривой.
Эмпирическая валидность. Если в случае с содержательной ва-
лидностью оценка теста производится за счет экспертов(устанавли-
вающих соответствие заданий теста содержанию предмета измерения),
то эмпирическая валидность измеряется всегда с помощьюста тистического коррелирования: подсчитывается корреляция двух рядов
1 Предельной внутренней согласованностью будет, например, обладать тест-опросник, состоящий из повторения одного и того же вопроса. Но валидность в данном случае будет минимальной.
113
значений - баллов по тесту и показателей по внешнему параметру, из-
бранному в качестве критерия валидности.
Прагматические традиции западной тестологии привязывали эм-
пирическую валидность теста к внешним для психологии социально-
прагматическим критериям. Эти критерии являются показателями, об-
ладающими непосредственной ценностью для определенных областей практики. Практика всегда имеет целью либо повысить, либо понизить эти показатели. Например, в области педагогической психологии это
«успеваемость» (которую надо повысить), в психологии труда это
«производительность труда» и «текучесть кадров», в медицине - «со-
стояние здоровья пациента», в психологии управления-
«совместимость», «срабатываемость» коллектива, в юридической пси-
хологии - «преступность» (которую надо понизить) и т. п.
Ориентируясь непосредственно на эти категории, психолог, пы-
тающийся скоррелировать результаты теста с этими показателями,
фактически решает сразу две задачи: задачу измерения валидности и задачу измерения практической эффективности своей психодиагнос-
тической программы. Если получен значимый коэффициент корреля-
ции, то можно считать, что решены с позитивным результатом сразу обе эти задачи. Но если корреляции не обнаружено, то остается нео-
пределенность: либо невалидна сама процедура (тестовый балл не от-
ражает, например, стрессоустойчивость оператора), либо неверна ги-
потеза о наличии причинно-следственной связи между психическим
свойством и социально значимым показателем(стрессоустойчивость
не влияет на процент аварийных ситуаций).
Таким образом, социально-прагматические критерии являются
комплексными: они позволяют измерить валидность-эффективность,
но не каждое из этих двух свойств теста отдельно. На практике пси-
холога часто ожидает и еще более сложная ситуация, когда заказчик требует от психолога на основании полученного диагноза сразу же оп-
ределенных мер по вмешательству в ситуацию(отбор, консульти-
рование, обучение и .т п.). В этом случае повышение показателей
(достоверное по сравнению с контрольной группой) доказывает од-
новременно и валидность-эффективность диагностики, и эффектив-
ность самого вмешательства. А отрицательный результат дает еще большую неопределенность, так как оказывается невозможным -от
114
делить неэффективность вмешательства от низкой валидностиди агностики.
Ориентация на социально-прагматические критерии, приводя-
щие к склейке понятий«валидности измерения» и «причинного про-
гноза по результатам измерения», бесспорно, сдерживала и продол-
жает сдерживать развитие концептуального аппарата дифференци-
альной психологии. При этом суть самого предмета измерения: изме-
ряемого психического свойства - оказывается вне фокуса внимания не только заказчика, но и самого психолога, превращающегося в этом случае в тестолога, которого не интересует, что именно он измеряет,
главное лишь, чтобы от этого «нечто» перекидывался мостик к полез-
ному эффекту, обеспечивающему психологу социальное признание.
Процедура эмпирической валидизации. Организация выборки при эмпирической валидизации зависит от временного статуса крите-
рия. Если этот критерий - событие в прошлом (ретроспективная вали-
дизация), то к участию в психодиагностическом обследовании доста-
точно привлечь только тех испытуемых, которые оказались на экстре-
1
мальных полюсах по этому критерию. В результате применяется ме-
тод экстремальных (контрастных) групп. Коррелирование с суммарным баллом по тесту оценивается с помощью бисериального коэффициента по формуле (3.2.17). При этом в статусе дихотомической переменной
(на месте отдельного пункта) оказывается сам критерий валидности:
å x— сумма баллов по тесту, полученных «высокой» группой по кри-
терию; pq - стандартная ошибка критерия, связанная с численностью
«высокой» (р) и «низкой» (q) групп.
Если критерий - будущее событие (проспективная валидизация),
то выборка должна быть составлена с запасом- с учетом вероятного объема экстремальных групп в будущем. Например, нужно выяснить,
позволяет ли диагностика темперамента прогнозировать повышенный риск психосоматических заболеваний (гипертония, язва, астма и т. п.).
Пусть на основании эпидемиологических исследований известно, что в течение трех лет из. 1000 здоровых людей этими болезнями заболе-
1 В этом случае имеет место схема исследования, известная под названием «квазиэксперимент»: контроль осуществляется не в виде воздействия на независимую переменную, а в виде привлечения особой выборки испытуемых. Подробнее о квазиэкспериментах см. кн.- Д. Кэмпбелл, 1980.
115
вают 57 человек. Это означает, что превентивной (предупреждающей)
диагностикой должно быть охвачено около 2000 человек, чтобы полу-
чить численность «высокой» группы (заболевших) порядка 100 чело-
век. Проспективная валидизация выявляет прогностическую эффек-
тивность диагностической процедуры. Высокая прогностическая ва-
лидность доказывает как валидность самого измерения, так и наличие предполагаемой причинной связи.
Ретроспективная валидизация позволяет в лучшем случае -ре шить только первую из двух задач. Например, если для исследования личностной предрасположенности к совершению краж проведено об-
следование лиц, находящихся под следствием (т. е. уже совершивших преступление), то выявление акцентированных черт«тревожности»,
«агрессивности» и т. п. еще не может интерпретироваться как свиде-
тельство причинных факторов преступности - эти черты могут быть лишь следствием сложившихся обстоятельств: лишение свободы, уг-
рызения совести и т. п. (Ратинов А. Р., 1979). Во многих медико-пси-
хологических исследованиях был выделен особый диагностический синдром «госпитализации», который обнаруживается у любой кате-
гории госпитализированных больных(обычно он выражается в -по вышении шкал «депрессии» и «ипохондрии» по MMPI – Шхвацабая, 1980). Очевидно, что подобные личностные сдвиги никак нельзя ин-
терпретировать в смысле симптомов предрасположенности к опреде-
ленным психогенным заболеваниям, ибо они относятся к следствиям, а
не к причинам этих заболеваний.
Конструктная валидность. В отличие от прагматической валиди-
зации собственно психологическую валидизацию порой оказывается провести гораздо труднее в силу отсутствия какого-либо более объек-
тивного внутрипсихологического критерия, чем сам тест.
Наиболее благополучная ситуация имеется тогда, когда для из-
мерения данного свойства в психологии уже имеется процедура с из-
вестной валидностью. В этом случае корреляция между баллами двух тестов - линейная (см. формулу 3.2.3) или ранговая (см. формулу
3.2.5)- указывает на то, обладает ли новый тест конвергентной валид-
ностью по отношению к старому. Если новый тест обнаруживает высо-
кую конвергентность результатов со старым и одновременно оказыва-
ется более компактным и экономичным'в проведении и подсчете, то
116
психодиагносты получают возможность использовать новый тест вме-
сто старого.
Однако во многих случаях для измеряемого свойства психодиа-
гност не может найти в литературе ни одного уже апробированного теста с известной валидностью. В этом случае он может сформулиро-
вать ряд предсказательных гипотез о том, как будет коррелировать его новый тест с другими тестами, измеряющими родственные харак-
теристики испытуемых. Эти гипотезы выдвигаются на основе теорети-
ческих представлений об измеряемом свойстве. Их подтверждение указывает на валидность выдвигаемого конструкта, т. е. на конструкт-
ную валидность теста. В западной литературе это операциональное определение конструктяой валыидности называется предполагаемой валидностью (assumed validity).
Представления о конструктной валидности тестов постоянно развиваются с пополнением репертуара методик. Эмпирические иссле-
дования взаимосвязей результатов, получаемых с помощью разных методик, обогащают теоретические представления об измеряемых свойствах.
С другой стороны, понятие конструктной валидности указывает на высокую зависимость эмпирических связей теста от теоретических представлений его автора об измеряемом свойстве. Для иллюстрации приведен пример взаимоотношений между двумя популярными тест-
опросниками: MAS Ж. Тейлор и EPI Г. Айзенка. Многочисленные кор-
реляционные исследования, проведенные на репрезентативных вы-
борках, показали, что шкала MAS (тревожность) Ж. Тейлор положи-
тельно коррелирует со шкалой «нейротизм» и отрицательно со шкалой
«экстраверсия» Айзенка. Эти соотношения можно проиллюстрировать графически (рис. 10): вектор MAS оказывается расположенным в квадранте «Нейротизм - Интроверсия», образованном системой из ор-
тогональных (статистически независимых) факторов EPL С точки зре-
ния концепции Г. Айзенка, эти данные можно рассматривать как сви-
детельства низкой валидности шкалы Ж. Тейлор: MAS коррелирует не только с релевантным фактором«нейротизм», но и с иррелевантным фактором «интроверсия». С этой точки зрения, опросник EPI оказыва-
ется просто нечувствительным к особой разновидности «нейротизма» -
к нейротизму (тревожности) экстравертов; в перечне пунктов MAS от-
117
сутствуют высказывания, в которых могла бы проявиться тревожность экстраверта. Однако с точки зрения тоготеоретического смысла, кото-
рый приписывают показателям MAS К. Спенс и Ж. Тейлор, эта ситуа-
ция вполне закономерна, желательна и никак не является артефактом
- следствием дефекта их диагностического средства. Согласно К.
Спенсу, пытавшемуся перенести на человеческое поведение теорию научения Халла, MAS измеряет общий уровень драйванеспециали-
зированного побуждения, которое достигает максимума как раз при сочетании нейротизма (специфическая активация по Г. Айзенку) и ин-
тро-версии (неспецифическая активация)
Рис. 10. Векторная модель соотношения показателя «Тре-
вожность» по тест-опроснику MAS с факторами тест-опросника
EPI
Таким образом, вовсе не всегда краткие названия тестов од-
нозначно выражают теоретический статус диагностического конст-
рукта - понятия об измеряемом свойстве.
Конвергентная и дискриминантная валидность. От того, как пси-
холог определяет диагностический конструкт, зависит стратегия вклю-
чения в тест определенных пунктов. Если Айзенк определяет свойство
«нейротизм» как независимое от экстраверсии-интроверсии, то это оз-
начает, что в его опроснике примерно поровну должны быть представ-
лены пункты, с которыми будут соглашаться невротичные интроверты и невротичные экстраверты (векторы этих пунктов должны быть при-
мерно поровну распределены в правом и левом нижних квадрантах;
см. рис. 10).-Если же на практике окажется, что в тесте будут преоб-
ладать пункты из квадранта«Нейротизм-Интроверсия», то, с точки
118
зрения теории Айзенка, это означает, что фактор «нейротизм» оказы-
вается нагруженным иррелевантным фактором- «интроверсией».
(Точно такой же эффект возникает, если появится перекос в выборке -
если в ней будет больше невротичных интровертов, чем невротичных экстравертов.)
Для того чтобы не сталкиваться с такими сложностями, психо-
логи хотели бы иметь дело с такими эмпирическими показателями
(пунктами), которые однозначно информируют только об одном фак-
торе. Но это требование реально никогда не выполняется: всякий эм-
пирический показатель оказывается детерминированным не; только тем фактором, который нам нужен, но и другимииррелевантными задаче измерения (рис. 11).
На рис. 11 постоянным для всех показателей является релевант-
ный фактор А, но каждый раз он оказывается сопряжен с иррелевант-
ными факторами - X, К и Z. Задача состоит в таком подборе пунктов,
чтобы все потенциальные иррелевантнв!е факторы были урав-
новешены, т. е. чтобы ни один из них не встречался бы чаще других на множестве показателей (пунктов), включенных в тест.
Рис, 11. Связь эмпирических показателей П, П , П, с ре-
1 2
левантным (измеряемым) фактором А и с иррелевантными
(«шумовыми») факторами X, Y, Z, обусловливающими нева-
лидность показателей
Таким образом, по отношению к факторам, которые концепту-
ально определяются как ортогональные к измеряемому (встречающие-
ся с ним во всех комбинациях), составитель теста должен при отборе пунктов приме--нить стратегию искусственного балансирования(Гот-
тсданкер Р., 1982);
Соответствие пунктов измеряемому фактору обеспечивает кон-
119
вергентную валидность теста. Сбалансированность пунктов относи-
тельно иррелевантных факторов обеспечивает дискриминантную -ва лидностъ. Эмпирически она выражается в отсутствии значимой кор-
реляции с тестом, измеряющим концептуально независимое свойство.
С точки зрения теории Айзенка, тест Ж. Тейлор не обладает дискриминантной валидностью по отношению к факторам«экстравер-
сия-интроверсия», хотя и обладает определенной конвергентной -ва лидностью по отношению к релевантному фактору - «нейротизм».
Экспертная эмпирическая валидизация. В отсутствие какого-
либо уже валидизированного теста, параллельно измеряющего изу-
чаемое свойство, а также в отсутствие разработанного теоретического контекста, позволяющего проверять конструктную валидность; психо-
диагност оказывается перед необходимостью привлечения экспертов к валидизации теста. В отличие от экспертного анализа содержания тес-
та., эмпирическая экспертная валидизация предполагает работу экс-
пертов не с тестом (лучше, чтобы о нем эксперты вообще ничего не знали), а с испытуемыми из выборки стандартизации.
Необходимо экспертам обеспечить стандартные условия для на-
блюдения за испытуемыми. Но не всегда такое стандартизованное на-
блюдение удается организовать. Даже если предприняты серьезные усилия по организации наблюдения за поведением испытуемых в -ка кой-либо искусственной лабораторной ситуации, такое наблюдение все равно будет значительно уступать по информативности полевому наблюдению - в естественных условиях. Если измеряемое свойство теоретически определено как устойчивая универсальная черта лич-
ности - как диспозиция к инвариантному поведению в широком спек-
тре ситуаций (см. главу 4), то и отдельного полевого наблюдения ока-
жется недостаточно для получения полноценного экспертного крите-
рия валидности.
Поэтому на практике часто прибегают к оценкам особого типа -к
субъективным оценкам, которые выносят испытуемому люди из его круга, имеющие опыт реального общения с ним. С учетом этого, про-
цедура оценивания приспосабливается к обычным людям, не являю-
щимся психологами. На психолога падает большая нагрузка по - со ставлению детальной инструкции оценщикам, однозначно задающей смысл оцениваемой характеристики. Лучшие условия для такой про-
120