Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Бодалев А.А., Столин В.В. - Общая психодиагностика (2000)

.pdf
Скачиваний:
716
Добавлен:
16.09.2017
Размер:
2.49 Mб
Скачать

интроверсии, то это означает, что в его опроснике примерно поровну должны быть представлены пункты, с которыми будут соглашаться невротичные интроверты и невротичные экстраверты(векторы этих пунктов должны быть примерно поровну распределены в правом и левом нижних квадрантах; см. рис. 10).-Если же на практике окажется, что в тесте будут преобладать пункты из квадранта«НейротизмИнтроверсия», то, с точки зрения теории Айзенка, это означает, что фактор «нейротизм» оказывается нагруженным иррелевантным фактором - «интроверсией». (Точно такой же эффект возникает, если появится перекос в выборке - если в ней будет больше невротичных интровертов, чем невротичных экстравертов.)

Для того чтобы не сталкиваться с такими сложностями, психологи хотели бы иметь дело с такими эмпирическими показателями (пунктами), которые однозначно информируют только об одном факторе. Но это требование реально никогда не выполняется: всякий эмпирический показатель оказывается детерминированным ;не только тем фактором, который нам нужен, но и другими - иррелевантными задаче измерения (рис. 11).

На рис. 11 постоянным для всех показателей является релевантный фактор А, но каждый раз он оказывается сопряжен с ирре- левант-ными факторами - X, К и Z. Задача состоит в таком подборе пунктов,

чтобы все потенциальные иррелевантнв!е факторы были уравновешены, т. е. чтобы ни один из них не встречался бы чаще других на множестве показателей (пунктов), включенных в тест.

Рис, 11. Связь эмпирических показателей П, П , П, с реле-

1 2

вантным (измеряемым) фактором А и с иррелевантными(«шумовыми») факторами X, Y, Z, обусловливающими невалидность показателей

Таким образом, по отношению к факторам, которые концептуально определяются как ортогональные к измеряемому(встречающиеся с ним во всех комбинациях), составитель теста должен при отборе пунктов приме--нить стратегию искусственного балансирования (Готтсданкер Р., 1982);

Соответствие пунктов измеряемому фактору обеспечивает конвергентную валидность теста. Сбалансированность пунктов от-

101

носительно иррелевантных факторов обеспечивает дискриминантную валидностъ. Эмпирически она выражается в отсутствии значимой корреляции с тестом, измеряющим концептуально независимое свойство.

С точки зрения теории Айзенка, тест Ж. Тейлор не обладает дискриминантной валидностью по отношению к факторам«экстра- версия-интроверсия», хотя и обладает определенной конвергентной валидностью по отношению к релевантному фактору - «нейротизм».

Экспертная эмпирическая валидизация. В отсутствие какоголибо уже валидизированного теста, параллельно измеряющего изучаемое свойство, а также в отсутствие разработанного теоретического контекста, позволяющего проверять конструктную валидность; психодиагност оказывается перед необходимостью привлечения экспертов к валидизации теста. В отличие от экспертного анализа содержания теста., эмпирическая экспертная валидизация предполагает работу экспертов не с тестом(лучше, чтобы о нем эксперты вообще ничего не знали), а с испытуемыми из выборки стандартизации.

Необходимо экспертам обеспечить стандартные условия для наблюдения за испытуемыми. Но не всегда такое стандартизованное наблюдение удается организовать. Даже если предприняты серьезные усилия по организации наблюдения за поведением испытуемых в какой-либо искусственной лабораторной ситуации, такое наблю-

дение все равно будет значительно уступать по информативности полевому наблюдению - в естественных условиях. Если измеряемое свойство теоретически определено как устойчивая универсальная черта личности - как диспозиция к инвариантному поведению в широком спектре ситуаций (см. главу 4), то и отдельного полевого наблюдения окажется недостаточно для получения полноценного экспертного критерия валидности.

Поэтому на практике часто прибегают к оценкам особого типа -к субъективным оценкам, которые выносят испытуемому люди из его круга, имеющие опыт реального общения с ним. С учетом этого, процедура оценивания приспосабливается к обычным людям, не являющимся психологами. На психолога падает большая нагрузка по составлению детальной инструкции оценщикам, однозначно задающей смысл оцениваемой характеристики. Лучшие условия для такой процедуры возникают при наличии группы испытуемых, тесно общающихся между собой; тех, которые могут одновременно побывать и испытуемыми по отношению к тесту, и оценщиками по отношению друг к другу. В отечественной литературе эта процедура получила сокращенное обозначение ГОЛ- «групповая оценка личности» (Кузьмин Н. В., Семенов В. С., 1977).

Для того чтобы групповая оценка личности была источником

102

действительно валидной информации, оценщики должны согласованно оценивать испытуемых. Если в оценках разных оценщиков нет согласованности, то это означает, что либо оцениваемое свойство не проявилось у объекта оценивания, либо оценщики по-разному проинтерпретировали инструкцию. Для измерения согласованности должна быть составлена таблица с оценками (табл. 6).

Таблица 6

Оценщики

О1

О2

Оk

å

Испытуемые

 

 

 

 

 

И1

x11

x12

x1k

C1

И2

x21

x22

 

x2k

C2

 

 

 

 

 

Иn

xn1

xn2

 

xnk

Cn

Методы анализа данных, содержащихся в такой таблице, формально совершенно эквивалентны тем методам, которые применяются для обработки таблиц «испытуемые - пункты» (см. раздел 3.1), В частности, суммы по строкам дают суммарные баллы, полученные каждым испытуемым у всех оценщиков. Таким образом, оценщики в данном случае оказываются формально в роли пунктов теста. Рассчитывая попарные корреляции между различными столбцами этой таблицы, можно получить коэффициенты согласованности для -от дельных пар оценщиков. Глобальной мерой согласованности оценщиков может служить коэффициент надежности а Кронбахасм.

формулу (3.2.8).

Если же групповая оценка не обнаруживает надежности, то она не может использоваться в качестве критерия валидизации при проверке валидности теста.

Эмпирическое значение коэффициента валидности рассчитывается как линейная или ранговая корреляция между двумя рядами значений: тестовыми баллами и суммарными баллами экспертной оценки. Это эмпирическое значение при наличии невысокого коэффициента надежности критерия корректируют по формуле

r =

r

cx

(3.3.1)

 

 

tx

ac

 

 

 

 

где rcx - эмпирическая корреляция с критерием; ас — надежность критерия;

rtx - корреляция с «истинным» критерием («истинная» валидность теста).

Анализ пунктов по критерию валидности. Валидность всего теста целиком зависит от валидности входящих в него пунктов. Максимальная валидность достигается за счет отбора таких пунктов

103

из пилотажной батареи, которые, обладая значимой корреляцией с критерием, минимально коррелируют между собой. Отбор пунктов именно по критерию валидности обеспечивает максимальную прагматическую эффективность теста. Вручную (на калькуляторе) такой отбор можно произвести, рассчитав бисериальную корреляцию (или фи-корреляцию) критерия с каждым пунктом из пилотажной батареи, - см. формулы (3.2.15) и (3.2.17). Компьютер позволяет использовать более эффективный алгоритм, основанный на анализе частных корреляций между критерием и пунктами и предполагающий построение уравнения множественной регрессии(Аванесов В. С., 1982, с. 153-157). В результате в таком уравнении каждый пункт по-

1

лучает весовой коэффициент, количественно выражающий его вклад в критерий, не сводимый к вкладу других пунктов, т. е. поиск оптимального набора пунктов автоматизируется. X. Гаррет приводит следующую яркую иллюстрацию эффективности алгоритма, позволяющего подобрать оптимальный набор пунктов. Пусть имеется 20 пунктов, каждый из которых имеет корреляцию с критерием порядка 0,30. Оказывается, если эти пункты в среднем коррелируют друг с другом на уровне rij = 0,60, то множественная корреляция суммар-

ного тестового показателя с критерием равняется0,38, если же га = 0,30, множественная корреляция повышается до0,52. Наконец, при rtj= 0,10

эффективность (валидность) теста достигает весьма высокого уровня: 0,79. Те же самые проблемы возникают при подборе оптимальной батареи тестов, направленных на прогнозирование какогото одного социально ценного показателя(успеваемость, производительность труда и т. п.).

Как уже указывалось в разделе 3.1, тест, обладающий высокой критериальной валидностью должен давать монотонную зависимость величины критерия от тестового балла(см. рис. 6). Для того чтобы получить монотонную линию регрессии, психодиагност должен включить в тестX только такие пункты, которые являются валидными по критерию С. В противном случае на кривой неминуемо появятся провалы2. Крутизну линии регрессии можно существенно повысить за счет нацеленного отбора из первоначальной батареи только таких заданий, которые обладают значимо высокой корреляцией (или регрессионным коэффициентом в уравнении множественной регрессии) с критерием.

После отбора валидных пунктов должна быть произведена пе-

1Этот весовой коэффициент и используется как ключ к данному пункту в новой, скорректированной версии теста.

2Некоторые незначительные локальные провалы при наличии общей высокой регрессии(высокий контраст крайних Р от X) можно устранить, увеличивая интервал равнозначности.

104

рекрестная валидизация (см. Анастази А., 1982, с. 197). В чем ее смысл? Если при анализе корреляций между батареей из 200 заданий

икаким-то критерием получают10 заданий, значимо коррелирующих е критерием на уровне ошибки <р 0,05, то это может быть следствием чисто случайного совпадения(сравните 10/200=0,05). Чтобы убедиться в том, что отобранные пункты теста действительно могут различать (или прогнозировать) критерий, нужно рассмотреть, как коррелируют с критерием эти пункты на другой выборке, которая не использовалась при их отборе.

Простой метод реализации принципа перекрестной валидизации состоит в том, что вся выборка делится на две случайные половины и производится раздельный расчет корреляций пунктов с критерием для-. каждой половины выборки. Если выделенные (значимые) пункты совпадают, то перекрестную валидизацию можно считать удачной.

Метод критериального тестирования очень трудоемок. .Практически невозможно построить критериальный тест за счет одной статистики, сколь бы мощными выборками и батареями заданий мы ни располагали. Необходима работа над содержательной валидностью заданий. Критериальное тестирование имеет ограниченное

применение в задачах построения методик с широкой областью применения.

Следует еще раз подчеркнуть, что анализ валидности отдельных пунктов служит не только прагматическим целям, но может и должен служить целям углубления представлений о содержательнотеоретическом смысле измеряемого свойства: на основании содержательного анализа пунктов, отобранных по критерию, психолог уточняет и корректирует свою первоначальную теоретическую схему, свое понимание измеряемого свойства.

Достоверность самоотчета. Рассматривая общую проблемы валидности целесообразно выделить вопрос об обеспечениива лидности процедур стандартизованного самоотчета. Сюда относятся различные техники шкалирования, классифицирования, сравнения и тест-опросники. Вербальная форма тестового материала порождает у испытуемого определенные встречные гипотезы о цели тестирования. Если ситуация диктует испытуемому необходимость фальсификации ответов, то он редко отказывается от этой возможности.

Валидность — характеристика любых измерений, в том числе

ифизических. Специфические проблемы валидности, связанные с активностью человека как объекта психодиагностики, целесообразно обозначить особым образом - проблемы обеспечения достоверности.

Психологические факторы, от которых зависит достоверность самоотчета, условно можно сгруппировать в следующие классы:

1.Факторы знания. У испытуемого может быть более или ме-

105

нее четкое представление о следующем: а) свойственно ли ему в действительности или нет тестируемое поведенческое проявление(с некоторыми ситуациями, имплицитно подразумеваемыми в вопросе тест-опросника, испытуемый мог на практике никогда не встречаться: например, утверждение «После выигрыша в спортлото Вы покупаете больше лотерейных билетов» подразумевает, что испытуемый, во-первых, играет в спортлото и, во-вторых, выигрывает); б) какое личностное свойство скрывается у психолога за тем или иным конкретным поведением, описанным в суждении; в) как это свойство соотносится с общепринятыми моральными нормами и признаками социального успеха.

2. Фактор социальной желательности. Обозначает тенденцию испытуемого давать о себе социально одобряемую информацию. Сила этой тенденции зависит как от общей внеситуативной установки испытуемого на морализацию«Я-образа» и социальную успешность, так и от того, насколько эту установку актуализирует сама ситуация тестирования. Однако эта тенденция не будет давать систематического искажения, если испытуемые не смогут разгадать направленность теста-опросника и связать диагностируемое свойство с тем или иным полюсом социальной желательности. Таким образом, действие этого фактора до некоторой степени опосредовано дейст-

вием факторов знания. Однако при диагностике личностных свойств, тесно связанных с психической«нормальностью» или «социальной успешностью», фактор социальной желательности ответа обусловливает очень серьезные искажения.

3. Факторы индивидуальной тактики. Здесь подразумевается действие «Я-концепции» («Я» для себя) и «Я-образа» («Я» для других) на ситуативную тактику испытуемого в момент тестирования. Выполняя тест, испытуемый всегда находится в невольном диалоге с самим собой и в своих ответах на вопросы раскрывает себя не только для других, но и для себя самого. Испытуемый стремится подтвердить «Я-концепцию» или фальсифицировать определенный «Я- образ» с заданными свойствами. Как правило, в ситуациях высокого социального риска «Я-образ» полностью доминирует: например, преступник при экспертизе стремится прежде всего предстать больным или неприспособленным к жизни, хотя в действительности ему было бы приятно думать о себе как о вполне адаптированном здоровом человеке. Точно так же склонны подчеркивать свои трудности и проблемы клиенты, обратившиеся за помощью к психологу или психотерапевту (чтобы вызвать к себе его повышенное внимание). В менее регламентированных ситуациях, наоборот, может доминировать мотивация самопознания: в этом случае испытуемый невольно стремится подтвердить с помощью теста свои гипотезы о самом себе.

106

Заслуживают внимания и особые формы отказа испытуемого от тестирования: позиционный стиль ответа (соглашательство или, наоборот, отрицание), случайные ответы. Для выявления подобных отказов обычно достаточно довольно простых мер: 1) для исключения влияния соглашательства(отрицания) применяются перечни с «прямыми» (ответ «верно» в пользу измеряемого свойства) и «обратными» (ответ «неверно» в пользу измеряемого свойства) пунктами. Кроме того, производится подсчет баланса подтверждающих и отвергающих ответов: если баланс резко нарушается, то протокол признается бракованным; 2) для выявления случайных ответов в большие перечни вводят вопросы-дубли(синонимические перефразы) или прямые повторы: если испытуемый слишком часто -по разному отвечает на одинаковые вопросы, значит, он применяет случайную тактику. Вводят также и крайне редкие утверждения, с которыми испытуемые, как правило, соглашаются только по ошибке.

Более изощренные методы требуются для борьбы с социальной желательностью. Ниже рассмотрены три наиболее часто используемых варианта.

1.Введение особых «шкал лжи» в диагностический вариант методики. Они составляются из вопросов-ловушек: тот или иной ответ на эти вопросы явно предопределен социальной желательностью. Если испытуемый набирает слишком высокий балл по этой шкале, его протокол бракуется. Более тонкий вариант — введение «шкал коррекции» (например, в MMPI): получение определенного балла по этим шкалам вызывает внесение поправок к баллу по другим шкалам, скоррелированным со шкалой коррекции. Величина поправок определяется коэффициентом линейной регрессии(измеренным в нормативном эксперименте) между баллами, полученными по шкале коррекции и основной диагностической шкале(шкале свойства).

2.Устранение или сбалансирование социальной желательно-

сти с помощью использования инструкции на преднамеренную фальсификацию результатов. Участникам пилотажных замеров кроме обычной инструкции дается дополнительная (во вторую очередь): «Заполните опросник от лица человека, желающего произвести самое благоприятное впечатление». Затем производится отбор пунктов на основании того, насколько процент ответов на них отличается от 50 процентов (значение, ожидаемое для пунктов, являющихся нейтральными с точки зрения социальной желательности).

В качестве меры желательности в данном случае можно воспользоваться следующим коэффициентом:

107

~

 

N (+) - N (-)

 

2N (+) - n

(3.3.2)

S

=

 

=

 

N (+) + N (-)

n

 

 

 

 

где N (+) — сумма ответов «верно» на данный пункт при инструкции на фальсификацию;

N (-) - сумма ответов «неверно» в тех же условиях; n - объем выборки.

Значимость коэффициента приближенно оценивается по критерию «хи-квадрат», определенному формулой (3.2.14), которой в

~

правой части вместо φ подставляется S .

Поскольку инструкция на преднамеренную фальсификацию создает условия, в которых социальная желательность суждений акцентируется, то значимыми следует считать такие высокие по моду-

лю значения

~

при которых xэмп2 , превышает теоретическое значе-

S

ние

2

 

 

 

 

 

 

xгр для квантиля

 

р < 0,001. Из таблицы для распределения«хи-квадрат» нахо-

дим

2

=

 

 

 

 

 

xгр

10,83. Таким образом, при наличии выборки объемом50

 

 

~

 

 

 

 

 

человек

 

 

 

10,83 / 50 = 0,45 . Это означает следующее: если

S

 

гр

=

 

 

 

 

 

 

на i-й пункт более чем 36 испытуемых из 50 ответили «верно», то его нужно отнести к положительному полюсу шкалы социальной желательности, если менее чем14 ответили «верно» — к отрицательному. Такие пункты должны быть либо полностью исключены из опросника (что редко удается), либо количество положительных и отрицательных пунктов должно быть уравновешено.

Таким образом могут быть отобраны и пункты для шкалы лжи. Суммарный балл по этой шкале распределяется так, как показано на рис. 12. В качестве критерия разделения испытуемых выбирается критическая точка, которая позволяет минимизировать ошибки типа «пропуск» (зачисление лживых испытуемых в число правдивых) и ошибки типа «ложная тревога» (зачисление правдивых в число лживых). Положение критической точки на шкале можно менять в зависимости от баланса цены двух типов ошибок: в некоторых случаях «пропуск» гораздо опаснее, чем «ложная тревога».

108

Рис. 12. Смещение распределения тестовых баллов по «шкале лжи» к полюсу высоких значений X при инструкции на выполнение теста-опросника с позиции «идеального» человека

Фальсифицирующая инструкция используется также и для исследования степени «скрытности-открытости» формулировок вопросов. Например, испытуемым дается инструкция на симуляцию высокой тревожности по опроснику MAS Ж. Тейлор. В этом случае, как это уже было показано, ответы на многие пункты значимо изменяются. Такие пункты являются слишком открытыми — они информируют испытуемого об измеряемом свойстве и позволяют ему вносить тенденциозные искажения в результаты в своих интересах.

3. С распространением факторного анализа чаще стала применяться стратегия «балансирования социальной желательности». При этом исследователь-психометрист задается целью обеспечить дискриминативную валидность своего теста относительно шкалы«социальной желательности». Это достигается с помощью факторного анализа корреляций между пунктами. Факторный анализ в применении к одномерному тесту-опроснику, как правило, выделяет два фактора: относящийся к самому измеряемому свойству и относящийся к социальной желательности. На рис. 13 схематически представлено факторное пространство для опросника«Склонность к риску».

Рис. 13. Иллюстрация рассеяния векторов(., изображающих пункты теста-опросника в пространстве двух факторов: релевантного и иррелевантного. Выше и ниже штриховых линий - области низкой достоверности

Каждый вопрос представлен вектором, задаваемым проекцией на релевантный фактор - Склонность к риску и иррелевантные«Социальное одобрение» и «Социальное порицание». Требование кон-

вергентной валидности по отношению к измеряемому свойству

109

формулируется как требование к пунктамиметь высокую проекцию (нагрузку) на горизонтальную ось. Дискриминативная валидность по отношению к социальной желательностиэто требование иметь пренебрежимо малую нагрузку на вертикальную ось. Очевидно, имеются два способа устранить эффект социальной желательности: либо выкинуть все пункты, нагруженные фактором социальной желательности (выше или ниже штриховых линий, либо уравновесить их количество на полюсах социальной желательности.

Понятно, что при таком способе освобождения от социальной желательности диагностическая шкала всегда оказывается так называемой «ß-шкалой», в отличие от«а-шкал», у которых максимум желательности достигается на одном из полюсов, у «ß-шкал» максимум желательности достигается в«золотой середине», т. е. линия регрессии желательности по«бетта-шкале» оказывается криволинейной (рис. 14). Если применить такой метод к построению опросника «Склонность к риску - Осторожность», то в результате диагностический конструкт автоматически становится«бета-шкалой»: и слишком высокая склонность к риску, и излишняя осторожность - одинаково нежелательны, тогда как оптимум лежит посередине между крайностями.

Рис. 14. Схематическая иллюстрация «-шкалы, связанной с фактором социальной желательности монотонной зависимостью, и ß-шкалы, связанной с этим фактором криволинейно– с максимумом в области «золотой середины»

Из трех перечисленных выше методов первый относится к отсеву испытуемых и требует введения в перечень вопросов для шкалы «лжи». Второй и третий методы позволяют отобрать только -та кие пункты, которые обеспечивают устранение социальной желательности. Но они, как правило, трансформируют сам конструкт, который обязательно становятся ортогональным к социальной желательности. При необходимости диагностирования свойств, обязательно коррелированных с желательностью, единственный метод состоит в применении шкал коррекции и корректирующих поправок, но и этот метод нельзя считать вполне надежным. Так что диагностика свойств, сопряженных с социальной желательностью, в ситуа-

110