Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Бодалев А.А. - Общая психодиагностика

.pdf
Скачиваний:
499
Добавлен:
15.09.2017
Размер:
2.58 Mб
Скачать

лагаемого к использованию, на какой популяции и в какой диагнос-

тической ситуации проводилась проверка. Если проверки не было или признаки новых популяции и ситуации явно специфичны, провести заново проверку надежности с учетом указанных ниже возможностей.

2.Произвести повторное тестирование на всей выборке стан-

дартизации и подсчитать все коэффициенты, как для целого теста, так и для его отдельных пунктов. Анализ полученных коэффициентов по-

зволит понять, насколько пренебрежима ошибка измерения, дает ли данный тест интервальную шкалу(высокий r) или только диагности-

чен для крайних групп (высокий φ), насколько устойчиво измеряемое свойство во времени (возможен ли статистический прогноз - проекция тестового балла на будущее), в каких своих пунктах тест менее наде-

жен (анализ этих пунктов позволяет психологически осмыслить -со держательный механизм взаимодействия пунктов с испытуемыми).

3. Если возможности обследования испытуемых ограниченны,

произвести повторное тестирование только на части выборки(не ме-

нее 30 испытуемых), подсчитать (вручную) ранговую или четырех-

клеточную корреляцию для оценки внутренней согласованности и ста-

бильности теста в целом.

3.3. ВАЛИДНОСТЬ ТЕСТОВ

Проблемы валидизации психологических тестов являются цент-

ральными для дифференциальной психометрики, но, к сожалению, до сих пор решенными не до конца. Решение этой проблемы зависит не от статистического аппарата, а от уровня развития теоретического ап-

парата дифференциальной психологии.

Валидность и надежность. Валидность (или обоснованность)

всякой процедуры измерения состоит в однозначности(устойчивости)

получаемых результатов относительно измеряемых свойств объектов,

т, е. относительно предмета измерения. Отличие понятия валидности от надежности измерения удобно раскрывать с помощью различения

«объекта» и «предмета» измерения. Надежность - это устойчивость процедуры относительно объектов. Надежность не обязательно пред-

полагает валидность. В психологии довольно часто возникает такая ситуация, когда исследователь вначале предлагает определенную

111

процедуру измерения, показывает ее надежность -способность устой-

чиво различать объекты, но вопрос о валидности остается открытым.

Если в сенсорной психофизике вопрос о валидности измерений оказывается в значительной степени затушеванным тем обстоятель-

ством, что простейшие физические стимулы достаточно однозначно детерминируют измеряемые свойства ощущений, то в дифференци-

альной психометрике значимость проблемы валидности резко возра-

стает. Здесь ситуация подобна той, когда в психофизическом опыте испытуемому не указывают, по какому именно параметру следует сравнивать стимулы. Пусть испытуемый А понял инструкцию так, что стимульные объекты надо сравнивать по весу, а испытуемый Б - по размеру. Если процедура измерения будет повторена по отношению к тем же объектам, то она даст вполне устойчивые данные относительно объектов, но не даст валидной информации ни о шкале ощущений

«веса», ни о шкале ощущений «размера».

При измерении способностей предъявляемый тест отнюдь не обязательно актуализирует именно тот психический процесс, который предполагается измерить. Например, столкнувшись с уже встречав-

шейся однажды задачей (например, с анаграммой «дзиканпр»), испы-

туемый может начать запоминать просто то решение, к которому он уже однажды пришел (слово «праздник»), чем заново решать эту за-

дачу. Здесь будет измеряться скорее уровень словесной памяти, чем уровень вербального интеллекта. Точно так же реальная валидность некоторых тестов раскрывается только в результате значительного опыта работы с ними. Например, доказано, что ряд тестов, внешне вы глядящих интеллектуальными, на деле измеряют скорее личностно-

стилевые особенности индивида, чем операциональные возможности интеллекта, например, методика «креативного поля» Д. Б. Бо-

гоявленской.

Устойчивость теста относительно объектов(испытуемых) явля-

ется необходимым, но не достаточным условием его устойчивости от-

носительно измеряемых атрибутов (свойств) объектов. Надежность яв-

ляется необходимым, но не достаточным условием валидности. Отсюда вытекает основное соотношение психометрики:

валидность ≤ надежность.

112

Это означает, что валидность теста не может превышать его на-

дежность.

Данное соотношение, однако, неверно трактовать как указание на прямую пропорциональную связь валидности и надежности. По-

вышение надежности отнюдь не обязательно приводит к повышению валидности1. В терминах .А Анастази валидность определяется ре-

презентативностью теста относительно измеряемой области поведе-

ния. Если эта область поведения складывается из разнообразных фе-

номенов, то содержательная валидность теста автоматически требует представленности в нем моделей всех этих разнообразных феноменов.

Возьмем глобальное понятие «речевая способность» (этому психолин-

гвистическому термину в традиционной тестологии соответствует тер-

мин «вербальный интеллект»). Сюда относятся такие относительно не-

зависимые друг от друга навыки, как навыки письма и чтения. Если заботиться о содержательной валидности соответствующего теста, то нужно ввести в него группы заданий на проверку этих довольно раз-

ных по своему операциональному составу компонентов вербального интеллекта. Вводя разнородные пункты и субшкалы(субтесты), мы обязательно сокращаем внутреннюю согласованность, одномоментную надежность теста, но зато добиваемся существенного повышения ва-

лидности. Таким образом, для расширения области применения теста психодиагност должен избегать излишнего повышения внутренней со-

гласованности. Одновременно с этим снижением внутренних корреля-

ций между различными пунктами теста (об этом уже говорилось в раз-

деле 3.1) обязательно исчезает отрицательный эксцесс на кривой рас-

пределения тестовых баллов, и она все более приближается по форме к нормальной кривой.

Эмпирическая валидность. Если в случае с содержательной ва-

лидностью оценка теста производится за счет экспертов(устанавли-

вающих соответствие заданий теста содержанию предмета измерения),

то эмпирическая валидность измеряется всегда с помощьюста тистического коррелирования: подсчитывается корреляция двух рядов

1 Предельной внутренней согласованностью будет, например, обладать тест-опросник, состоящий из повторения одного и того же вопроса. Но валидность в данном случае будет минимальной.

113

значений - баллов по тесту и показателей по внешнему параметру, из-

бранному в качестве критерия валидности.

Прагматические традиции западной тестологии привязывали эм-

пирическую валидность теста к внешним для психологии социально-

прагматическим критериям. Эти критерии являются показателями, об-

ладающими непосредственной ценностью для определенных областей практики. Практика всегда имеет целью либо повысить, либо понизить эти показатели. Например, в области педагогической психологии это

«успеваемость» (которую надо повысить), в психологии труда это

«производительность труда» и «текучесть кадров», в медицине - «со-

стояние здоровья пациента», в психологии управления-

«совместимость», «срабатываемость» коллектива, в юридической пси-

хологии - «преступность» (которую надо понизить) и т. п.

Ориентируясь непосредственно на эти категории, психолог, пы-

тающийся скоррелировать результаты теста с этими показателями,

фактически решает сразу две задачи: задачу измерения валидности и задачу измерения практической эффективности своей психодиагнос-

тической программы. Если получен значимый коэффициент корреля-

ции, то можно считать, что решены с позитивным результатом сразу обе эти задачи. Но если корреляции не обнаружено, то остается нео-

пределенность: либо невалидна сама процедура (тестовый балл не от-

ражает, например, стрессоустойчивость оператора), либо неверна ги-

потеза о наличии причинно-следственной связи между психическим

свойством и социально значимым показателем(стрессоустойчивость

не влияет на процент аварийных ситуаций).

Таким образом, социально-прагматические критерии являются

комплексными: они позволяют измерить валидность-эффективность,

но не каждое из этих двух свойств теста отдельно. На практике пси-

холога часто ожидает и еще более сложная ситуация, когда заказчик требует от психолога на основании полученного диагноза сразу же оп-

ределенных мер по вмешательству в ситуацию(отбор, консульти-

рование, обучение и .т п.). В этом случае повышение показателей

(достоверное по сравнению с контрольной группой) доказывает од-

новременно и валидность-эффективность диагностики, и эффектив-

ность самого вмешательства. А отрицательный результат дает еще большую неопределенность, так как оказывается невозможным -от

114

делить неэффективность вмешательства от низкой валидностиди агностики.

Ориентация на социально-прагматические критерии, приводя-

щие к склейке понятий«валидности измерения» и «причинного про-

гноза по результатам измерения», бесспорно, сдерживала и продол-

жает сдерживать развитие концептуального аппарата дифференци-

альной психологии. При этом суть самого предмета измерения: изме-

ряемого психического свойства - оказывается вне фокуса внимания не только заказчика, но и самого психолога, превращающегося в этом случае в тестолога, которого не интересует, что именно он измеряет,

главное лишь, чтобы от этого «нечто» перекидывался мостик к полез-

ному эффекту, обеспечивающему психологу социальное признание.

Процедура эмпирической валидизации. Организация выборки при эмпирической валидизации зависит от временного статуса крите-

рия. Если этот критерий - событие в прошлом (ретроспективная вали-

дизация), то к участию в психодиагностическом обследовании доста-

точно привлечь только тех испытуемых, которые оказались на экстре-

1

мальных полюсах по этому критерию. В результате применяется ме-

тод экстремальных (контрастных) групп. Коррелирование с суммарным баллом по тесту оценивается с помощью бисериального коэффициента по формуле (3.2.17). При этом в статусе дихотомической переменной

(на месте отдельного пункта) оказывается сам критерий валидности:

å x— сумма баллов по тесту, полученных «высокой» группой по кри-

терию; pq - стандартная ошибка критерия, связанная с численностью

«высокой» (р) и «низкой» (q) групп.

Если критерий - будущее событие (проспективная валидизация),

то выборка должна быть составлена с запасом- с учетом вероятного объема экстремальных групп в будущем. Например, нужно выяснить,

позволяет ли диагностика темперамента прогнозировать повышенный риск психосоматических заболеваний (гипертония, язва, астма и т. п.).

Пусть на основании эпидемиологических исследований известно, что в течение трех лет из. 1000 здоровых людей этими болезнями заболе-

1 В этом случае имеет место схема исследования, известная под названием «квазиэксперимент»: контроль осуществляется не в виде воздействия на независимую переменную, а в виде привлечения особой выборки испытуемых. Подробнее о квазиэкспериментах см. кн.- Д. Кэмпбелл, 1980.

115

вают 57 человек. Это означает, что превентивной (предупреждающей)

диагностикой должно быть охвачено около 2000 человек, чтобы полу-

чить численность «высокой» группы (заболевших) порядка 100 чело-

век. Проспективная валидизация выявляет прогностическую эффек-

тивность диагностической процедуры. Высокая прогностическая ва-

лидность доказывает как валидность самого измерения, так и наличие предполагаемой причинной связи.

Ретроспективная валидизация позволяет в лучшем случае -ре шить только первую из двух задач. Например, если для исследования личностной предрасположенности к совершению краж проведено об-

следование лиц, находящихся под следствием (т. е. уже совершивших преступление), то выявление акцентированных черт«тревожности»,

«агрессивности» и т. п. еще не может интерпретироваться как свиде-

тельство причинных факторов преступности - эти черты могут быть лишь следствием сложившихся обстоятельств: лишение свободы, уг-

рызения совести и т. п. (Ратинов А. Р., 1979). Во многих медико-пси-

хологических исследованиях был выделен особый диагностический синдром «госпитализации», который обнаруживается у любой кате-

гории госпитализированных больных(обычно он выражается в -по вышении шкал «депрессии» и «ипохондрии» по MMPI – Шхвацабая, 1980). Очевидно, что подобные личностные сдвиги никак нельзя ин-

терпретировать в смысле симптомов предрасположенности к опреде-

ленным психогенным заболеваниям, ибо они относятся к следствиям, а

не к причинам этих заболеваний.

Конструктная валидность. В отличие от прагматической валиди-

зации собственно психологическую валидизацию порой оказывается провести гораздо труднее в силу отсутствия какого-либо более объек-

тивного внутрипсихологического критерия, чем сам тест.

Наиболее благополучная ситуация имеется тогда, когда для из-

мерения данного свойства в психологии уже имеется процедура с из-

вестной валидностью. В этом случае корреляция между баллами двух тестов - линейная (см. формулу 3.2.3) или ранговая (см. формулу

3.2.5)- указывает на то, обладает ли новый тест конвергентной валид-

ностью по отношению к старому. Если новый тест обнаруживает высо-

кую конвергентность результатов со старым и одновременно оказыва-

ется более компактным и экономичным'в проведении и подсчете, то

116

психодиагносты получают возможность использовать новый тест вме-

сто старого.

Однако во многих случаях для измеряемого свойства психодиа-

гност не может найти в литературе ни одного уже апробированного теста с известной валидностью. В этом случае он может сформулиро-

вать ряд предсказательных гипотез о том, как будет коррелировать его новый тест с другими тестами, измеряющими родственные харак-

теристики испытуемых. Эти гипотезы выдвигаются на основе теорети-

ческих представлений об измеряемом свойстве. Их подтверждение указывает на валидность выдвигаемого конструкта, т. е. на конструкт-

ную валидность теста. В западной литературе это операциональное определение конструктяой валыидности называется предполагаемой валидностью (assumed validity).

Представления о конструктной валидности тестов постоянно развиваются с пополнением репертуара методик. Эмпирические иссле-

дования взаимосвязей результатов, получаемых с помощью разных методик, обогащают теоретические представления об измеряемых свойствах.

С другой стороны, понятие конструктной валидности указывает на высокую зависимость эмпирических связей теста от теоретических представлений его автора об измеряемом свойстве. Для иллюстрации приведен пример взаимоотношений между двумя популярными тест-

опросниками: MAS Ж. Тейлор и EPI Г. Айзенка. Многочисленные кор-

реляционные исследования, проведенные на репрезентативных вы-

борках, показали, что шкала MAS (тревожность) Ж. Тейлор положи-

тельно коррелирует со шкалой «нейротизм» и отрицательно со шкалой

«экстраверсия» Айзенка. Эти соотношения можно проиллюстрировать графически (рис. 10): вектор MAS оказывается расположенным в квадранте «Нейротизм - Интроверсия», образованном системой из ор-

тогональных (статистически независимых) факторов EPL С точки зре-

ния концепции Г. Айзенка, эти данные можно рассматривать как сви-

детельства низкой валидности шкалы Ж. Тейлор: MAS коррелирует не только с релевантным фактором«нейротизм», но и с иррелевантным фактором «интроверсия». С этой точки зрения, опросник EPI оказыва-

ется просто нечувствительным к особой разновидности «нейротизма» -

к нейротизму (тревожности) экстравертов; в перечне пунктов MAS от-

117

сутствуют высказывания, в которых могла бы проявиться тревожность экстраверта. Однако с точки зрения тоготеоретического смысла, кото-

рый приписывают показателям MAS К. Спенс и Ж. Тейлор, эта ситуа-

ция вполне закономерна, желательна и никак не является артефактом

- следствием дефекта их диагностического средства. Согласно К.

Спенсу, пытавшемуся перенести на человеческое поведение теорию научения Халла, MAS измеряет общий уровень драйванеспециали-

зированного побуждения, которое достигает максимума как раз при сочетании нейротизма (специфическая активация по Г. Айзенку) и ин-

тро-версии (неспецифическая активация)

Рис. 10. Векторная модель соотношения показателя «Тре-

вожность» по тест-опроснику MAS с факторами тест-опросника

EPI

Таким образом, вовсе не всегда краткие названия тестов од-

нозначно выражают теоретический статус диагностического конст-

рукта - понятия об измеряемом свойстве.

Конвергентная и дискриминантная валидность. От того, как пси-

холог определяет диагностический конструкт, зависит стратегия вклю-

чения в тест определенных пунктов. Если Айзенк определяет свойство

«нейротизм» как независимое от экстраверсии-интроверсии, то это оз-

начает, что в его опроснике примерно поровну должны быть представ-

лены пункты, с которыми будут соглашаться невротичные интроверты и невротичные экстраверты (векторы этих пунктов должны быть при-

мерно поровну распределены в правом и левом нижних квадрантах;

см. рис. 10).-Если же на практике окажется, что в тесте будут преоб-

ладать пункты из квадранта«Нейротизм-Интроверсия», то, с точки

118

зрения теории Айзенка, это означает, что фактор «нейротизм» оказы-

вается нагруженным иррелевантным фактором- «интроверсией».

(Точно такой же эффект возникает, если появится перекос в выборке -

если в ней будет больше невротичных интровертов, чем невротичных экстравертов.)

Для того чтобы не сталкиваться с такими сложностями, психо-

логи хотели бы иметь дело с такими эмпирическими показателями

(пунктами), которые однозначно информируют только об одном фак-

торе. Но это требование реально никогда не выполняется: всякий эм-

пирический показатель оказывается детерминированным не; только тем фактором, который нам нужен, но и другимииррелевантными задаче измерения (рис. 11).

На рис. 11 постоянным для всех показателей является релевант-

ный фактор А, но каждый раз он оказывается сопряжен с иррелевант-

ными факторами - X, К и Z. Задача состоит в таком подборе пунктов,

чтобы все потенциальные иррелевантнв!е факторы были урав-

новешены, т. е. чтобы ни один из них не встречался бы чаще других на множестве показателей (пунктов), включенных в тест.

Рис, 11. Связь эмпирических показателей П, П , П, с ре-

1 2

левантным (измеряемым) фактором А и с иррелевантными

(«шумовыми») факторами X, Y, Z, обусловливающими нева-

лидность показателей

Таким образом, по отношению к факторам, которые концепту-

ально определяются как ортогональные к измеряемому (встречающие-

ся с ним во всех комбинациях), составитель теста должен при отборе пунктов приме--нить стратегию искусственного балансирования(Гот-

тсданкер Р., 1982);

Соответствие пунктов измеряемому фактору обеспечивает кон-

119

вергентную валидность теста. Сбалансированность пунктов относи-

тельно иррелевантных факторов обеспечивает дискриминантную -ва лидностъ. Эмпирически она выражается в отсутствии значимой кор-

реляции с тестом, измеряющим концептуально независимое свойство.

С точки зрения теории Айзенка, тест Ж. Тейлор не обладает дискриминантной валидностью по отношению к факторам«экстравер-

сия-интроверсия», хотя и обладает определенной конвергентной -ва лидностью по отношению к релевантному фактору - «нейротизм».

Экспертная эмпирическая валидизация. В отсутствие какого-

либо уже валидизированного теста, параллельно измеряющего изу-

чаемое свойство, а также в отсутствие разработанного теоретического контекста, позволяющего проверять конструктную валидность; психо-

диагност оказывается перед необходимостью привлечения экспертов к валидизации теста. В отличие от экспертного анализа содержания тес-

та., эмпирическая экспертная валидизация предполагает работу экс-

пертов не с тестом (лучше, чтобы о нем эксперты вообще ничего не знали), а с испытуемыми из выборки стандартизации.

Необходимо экспертам обеспечить стандартные условия для на-

блюдения за испытуемыми. Но не всегда такое стандартизованное на-

блюдение удается организовать. Даже если предприняты серьезные усилия по организации наблюдения за поведением испытуемых в -ка кой-либо искусственной лабораторной ситуации, такое наблюдение все равно будет значительно уступать по информативности полевому наблюдению - в естественных условиях. Если измеряемое свойство теоретически определено как устойчивая универсальная черта лич-

ности - как диспозиция к инвариантному поведению в широком спек-

тре ситуаций (см. главу 4), то и отдельного полевого наблюдения ока-

жется недостаточно для получения полноценного экспертного крите-

рия валидности.

Поэтому на практике часто прибегают к оценкам особого типа -к

субъективным оценкам, которые выносят испытуемому люди из его круга, имеющие опыт реального общения с ним. С учетом этого, про-

цедура оценивания приспосабливается к обычным людям, не являю-

щимся психологами. На психолога падает большая нагрузка по - со ставлению детальной инструкции оценщикам, однозначно задающей смысл оцениваемой характеристики. Лучшие условия для такой про-

120