Глава 10 установки на ответ
В самом начале обсуждения проблемы валидности приводился пример, в котором при собеседовании на получение рабочего места используется личностный опросник. Обратимся к данному примеру снова: представьте, что вы заполняете анкету. Перед вами вопрос: «Вы когда-нибудь крали у вашего работодателя?», и еще один: «Всегда ли вы говорите правду?». Пока вы раздумываете над этими вопросами, в памяти всплывает случай, когда вы «позаимствовали» хорошую шариковую ручку с предыдущего места работы, но «забыли» вернуть ее. Кроме того, вы думаете о том, как на прошлой неделе сказали лучшему другу, что должны были работать в выходные, хотя на самом деле вы просто хотели отдохнуть дома в одиночестве. Тем не менее, вы также думаете о том, что хотели бы получить эту работу, и используете те варианты ответа, которые с большей вероятностью повлияют на решение работодателя нанять вас. Соответственно, несмотря на тот факт, что правдивый ответ на первый вопрос – «да», а на второй – «нет», вы, как и большинство людей, будете склонны к тому, чтобы дать «альтернативные» ответы на оба вопроса.
Каким образом ваше желание получить работу влияет на качество заполнения личностного опросника? Работодатель может интерпретировать ваши ответы как свидетельствующие об искренности или честности. Однако, если вы выберете альтернативные ответы, тогда ваши результаты больше не могут быть интерпретированы как честность. На результат оказывает влияние ваше стремление впечатлить работодателя, и он не отражает ваш истинный уровень честности, который несколько не соответствует идеальному.
В этой главе рассматривается проблема установок респондента на те или иные ответы и дается несколько вариантов решения данной проблемы, разработанных психологами. В идеале ответы респондента на утверждения опросника должны абсолютно точно отражать те психологические характеристики, для измерения которых данный опросник предназначается. Однако известно, что на ответы респондента может систематически влиять ряд посторонних факторов. Эти факторы могут уменьшать достоверность результатов теста и валидность интерпретации результатов психодиагностических инструментов, таких как личностные опросники, опросники отношений, тесты способностей, тесты достижений, а также нейропсихологические тесты. Сниженная валидность психодиагностического инструментария может, в свою очередь, отразиться на решениях, принимаемых в отношении людей, а также вызвать проблемы с интерпретацией исследований, основанных на этом инструментарии.
Установки на ответ являются в практике психологических измерений постоянным предметом заботы, независимо от того, являются ли они осознанными или нет, движимы ли они эгоистическими мотивами или альтруистическими, отражают ли они стремление выглядеть лучше или стремление выглядеть хуже, чем на самом деле. Несомненно, необъективность в выборе ответов – фундаментальная проблема для тех, кто изучает поведение людей. Более того, проблема эта возникает, вероятно, только лишь в науках о поведении. Ученые, изучающие камни, планеты, насекомых, химические реактивы, вулканы или цветы редко попадают в ситуацию, когда предмет их исследования желает произвести впечатление разумного или непонятливого, здорового или больного, дружелюбного или недружелюбного, приветливого или властного, компетентного или некомпетентного, честного или добродетельного. Психологи же определенно должны беспокоиться об этих и других проблемах.
Будучи осведомленными об этих проблемах, психологи посвятили себя идентификации, пониманию, обнаружению и контролю над установками респондентов, оказывающими влияние на их ответы в психологических тестах (например, Cronbach, 1946, 1950). Сначала в данной главе приводится описание некоторых установок на ответ, которые получили наибольшее внимание со стороны ученых. Затем рассматриваются методы и подходы (некоторые из которых простые, другие – сложные), которые используются, чтобы понять, раскрыть, свести к минимуму или проконтролировать эти установки.
ТИПЫ УСТАНОВОК РЕСПОНДЕНТА НА ОТВЕТ
Качество психологических измерений может быть подвержено влиянию множества установок, которыми респондент руководствуется при выборе ответов. В данном разделе приводится описание нескольких типов таких установок, которые занимали умы тех, кто разрабатывал или применял психодиагностические тесты. Некоторые из этих установок зависят от содержания или формы психологического теста, некоторые находятся под влиянием контекста тестирования, третьи отражают осознанные попытки респондента дать искаженный ответ, четвертые – отражают бессознательные факторы, влияющие на то, каким образом отвечает респондент. Чем бы они ни отличались, все из рассмотренных в данном разделе установок на ответ могут оказывать на качество психологического тестирования негативное влияние.
Установка на согласие (установка на положительный или отрицательный ответ)7
Психологи и другие ученые, изучающие поведение, интересуются установкой на согласие уже более 80 лет (например, Block, 1965; Cady, 1923; Cloud & Vaughn, 1970; Cronbach, 1942; Lentz, 1938; Ray, 1983; P.B. Smith, 2004). Установка на согласие проявляется в тех случаях, когда респондент соглашается с утверждениями, не вдаваясь в их смысл. Многие психологические опросники включают в себя утверждения, которые могут оказаться правдивыми по отношению к индивиду (например, «Я люблю свою работу»), и респонденты должны согласиться или не согласиться с данными утверждениями. Такого рода утверждения часто входят в состав личностных опросников, опросников отношений и интересов, клинических опросников и маркетинговых анкет. Установка респондента на согласие чаще всего проявляется именно в таких утверждениях и тестах.
Установка на согласие и ее эффекты проиллюстрированы в Таблице 10.1а. Представьте психолога организации, который заинтересован в исследовании взаимосвязи между удовлетворенностью работой и тем, как респондент оценивает престижность этой работы. Согласно его гипотезе, люди с относительно высоким уровнем удовлетворенности работой - это те люди, которые воспринимают свою работу как относительно престижную. Психолог просит работников фирмы оценить утверждения теста удовлетворенности работой, который включает в себя следующие четыре пункта:
Я действительно доволен своей работой
Работа дает мне возможность самореализации
В целом я удовлетворен повседневными аспектами своей работы
Я бы поменял лишь незначительные моменты в моей работе
Кроме того, представьте, что ответы можно давать по семибалльной шкале (1=полностью не согласен, 2=не согласен, 3=скорее не согласен, чем согласен, 4=придерживаюсь нейтрального мнения, 5=скорее согласен, чем не согласен, 6=согласен, 7=полностью согласен). «Ключ» к данному гипотетическому тесту таков, что ответы просто складываются для определения суммарного уровня удовлетворенности работой, причем большая сумма свидетельствует о большей удовлетворенности. В Таблице 10.1а приведены ответы респондентов на данные пункты теста, а также конечный результат по удовлетворенности работой (суммарный балл). Рассмотрение таблицы показывает, что респонденты 1, 2 и 4 имеют наивысший итоговый балл при ответе на утверждения теста; напрашивается интерпретация этого результата как показателя высокого уровня удовлетворенности работой.
Важный аспект, на который следует обратить внимание – формулировка утверждений теста. Заметьте, что в данном гипотетическом примере каждый пункт выражен так, что положительный ответ (например, ответ 5, 6 или 7) интерпретируется как факт того, что респондент в той или иной степени удовлетворен своей работой. Говоря психометрическим языком, все это прямые пункты, т.е. позитивный ответ (согласие) на каждое утверждение отражает относительно высокий уровень измеряемого признака.
Тот факт, что все пункты однонаправлены (т.е. все прямые или все обратные), имеет большое значение, т.к. это делает тест чрезвычайно уязвимым для установки на согласие. Представим себе, что мы обладаем абсолютным «всезнанием», и мы знаем, что 2 участника (респонденты под номером 1 и 4, как отмечено в колонке 2 таблицы 10.1а) проявили установку на согласие, остальные же четыре участника ответили на утверждения теста вдумчиво. Заметьте, что респонденты с установкой на согласие положительно ответили на все четыре пункта теста, хотя в действительности они могли бы быть недовольны своей работой. Сложность заключается в том, что по крайней мере еще один участник опроса (респондент 2) также согласился со всеми четырьмя пунктами, но при этом он искренне доволен своей работой. Если бы мы не были всезнающими – если бы не знали, что респонденты 1 и 4 отвечают некорректно - тогда мы не смогли бы отличить респондентов с установкой на согласие от тех, кто действительно доволен своей работой.
Данная сложность подвергает угрозе способность исследователей точно отвечать на поставленные исследовательские вопросы. Вместе с тестом на удовлетворенность работой респонденты отвечают на четыре утверждения опросника престижности. Ответы даются в пятибалльной шкале (1=полностью не согласен, 2=не согласен, 3=придерживаюсь нейтрального мнения, 4=согласен, 5=полностью согласен). Как показано в Таблице 10.1а, участники, необъективно выполнившие тест по уровню удовлетворенности работой, также необъективно выполняли и задания по субъективному ощущению престижности. Участники 1 и 4 снова отвечали согласием, используя варианты ответа «4» и «5» на все утверждения теста.
Таблица 10.1 Установка респондентов на согласие может создавать ложную корреляцию
(а) Ответы на утверждения исходных тестов
Респондент |
Установка на согласие |
Пункты теста на удовлетворенность работой |
Пункты теста на субъективное ощущение престижности |
Результаты респондентов без установки |
|||||||||
1 |
2 |
3 |
4 |
Итого УР |
1 |
2 |
3 |
4 |
Итого П |
УР |
П |
||
1 |
да |
6 |
5 |
7 |
6 |
24 |
5 |
5 |
4 |
5 |
19 |
|
|
2 |
нет |
7 |
5 |
6 |
7 |
25 |
2 |
2 |
2 |
1 |
7 |
25 |
7 |
3 |
нет |
3 |
4 |
5 |
4 |
16 |
5 |
4 |
5 |
4 |
18 |
16 |
18 |
4 |
да |
6 |
6 |
6 |
7 |
25 |
5 |
5 |
5 |
5 |
20 |
|
|
5 |
нет |
1 |
4 |
2 |
3 |
10 |
1 |
2 |
1 |
2 |
6 |
10 |
6 |
6 |
нет |
3 |
2 |
4 |
3 |
12 |
3 |
3 |
3 |
3 |
12 |
12 |
12 |
Корреляция между УР и П=.43 -0.09 |
|||||||||||||
(b) Ответы на утверждения сбалансированных шкал до перекодировки
Респондент |
Установка на согласие |
УР пункты |
ПП пункты |
||||||
1 |
2 |
3 |
4 |
1 |
2 |
3 |
4 |
||
1 |
да |
6 |
5 |
7 |
6 |
5 |
5 |
4 |
5 |
2 |
нет |
7 |
3 |
6 |
1 |
2 |
4 |
2 |
5 |
3 |
нет |
3 |
4 |
5 |
4 |
5 |
2 |
5 |
2 |
4 |
да |
6 |
6 |
6 |
7 |
5 |
5 |
5 |
5 |
5 |
нет |
1 |
4 |
2 |
5 |
1 |
4 |
1 |
4 |
6 |
нет |
3 |
6 |
4 |
5 |
3 |
3 |
3 |
3 |
(c) Ответы на утверждения сбалансированных шкал после перекодировки
Респондент |
Установка на согласие |
УР пункты |
ПП пункты |
Результаты респондентов без установки |
|||||||||
1 |
2 |
3 |
4 |
Итого УР |
1 |
2 |
3 |
4 |
Итого ПП |
УР |
П |
||
1 |
да |
6 |
3 |
7 |
2 |
18 |
5 |
1 |
4 |
1 |
11 |
|
|
2 |
нет |
7 |
5 |
6 |
7 |
25 |
2 |
2 |
2 |
1 |
7 |
25 |
7 |
3 |
нет |
3 |
4 |
5 |
4 |
16 |
5 |
4 |
5 |
4 |
18 |
16 |
18 |
4 |
да |
6 |
2 |
6 |
1 |
15 |
5 |
1 |
5 |
1 |
12 |
|
|
5 |
нет |
1 |
4 |
2 |
3 |
10 |
1 |
2 |
1 |
2 |
6 |
10 |
6 |
6 |
нет |
3 |
2 |
4 |
3 |
12 |
3 |
3 |
3 |
3 |
12 |
12 |
12 |
Корреляция между УР и ПП=-.10 -0.09 |
|||||||||||||
Для всех шести респондентов (включая тех, кто отвечал объективно и тех, кто был необъективен в выборе ответов) корреляция между удовлетворенностью работой и самооценкой престижности составляет r=0.43 (см. Таблицу 10.1а). Эта корреляция в «суммарной выборке» показывает, что два изучаемых конструкта взаимосвязаны, что согласуется с гипотезой исследователя. Тем не менее, поскольку мы временно являемся всезнающими, можно изучить корреляцию между уровнем удовлетворенности работой и самооценкой престижности среди только тех четырех участников, кто отвечал объективно, без установки на согласие. Как видим, эта корреляция довольно слаба, r= -.09. Таким образом, в соответствии с «объективными» ответами, удовлетворенность и самооценка престижности не коррелируют друг с другом. Как видим, включение в исследование респондентов, демонстрирующих установку на согласие, создает искусственно высокую корреляцию между двумя переменными.
Таким образом, респонденты, склонные к установке на согласие, представляют собой слабозаметную, но потенциально важную угрозу психометрическому качеству психологического тестирования. Коротко говоря, пользователи тестов могут быть не в состоянии дифференцировать респондентов, необъективных в выборе ответов, и искренне отвечающих, когда и у тех и у других по результатам тестирования получается высокий уровень выраженности измеряемого признака. Если пункты теста однонаправлены, тогда тенденция к «положительным» ответам может либо отражать истинную тенденцию ответов, либо быть сигналом наличия у респондента установки на согласие. Важное следствие такой установки заключается в том, что если результаты нескольких тестов «инфицированы» ей, тогда тесты будут взаимосвязаны между собой сильнее, чем коррелируют сами конструкты, лежащие в их основе. Данный результат является следствием того, что те респонденты, которые демонстрируют установку на согласие в одном тесте, скорее всего, будут демонстрировать ее и в другом, что гарантирует, что они получат относительно высокие баллы в обоих тестах. Как обсуждалось в Главе 3, положительная корреляция имеет место тогда, когда люди с относительно высокими баллами по одной переменной имеют тенденцию получать относительно высокие баллы и по другой переменной.
Несмотря на то, что до сих пор описывалась установка на положительный ответ, установка на согласие может принимать и другую форму – форму установки на отрицательный ответ. В этом случае респондент имеет тенденцию не соглашаться с утверждениями теста, не вдаваясь в смысл этих утверждений. Установки на положительный и отрицательный ответ могут иметь схожие эффекты. Тенденция к отрицательному ответу создает корреляции искусственно более положительные, чем они должны быть, поскольку в этом случае люди, получающие относительно низкие баллы в одном тесте, получат относительно низкие баллы и в другом.
В целом установка на согласие (включая установку на отрицательный ответ) является угрозой психометрическому качеству тестов, которая давно заботит психологов и других ученых, изучающих поведение человека. Хотя некоторые исследователи подвергают существование или силу влияния установки на согласие сомнению (Rorer, 1965), имеются достаточные основания для того, чтобы утверждать, что данное явление существует и влияет на различные формы психологических измерений (Knowles & Nathan, 1997; van Herk, Poortinga, & Verhallen, 2004). Похоже, установка на согласие чаще всего возникает тогда, когда респонденты с некоторой трудностью понимают вопросы теста – например, потому что задания теста сложны или неоднозначны, во время тестирования респондента что-то отвлекает или же респондент затрудняется в понимании материала. Как показали наши примеры, установка на согласие может давать искусственно высокий (или низкий, в случае тенденции к отрицательным ответам) результат тестирования, особенно если все пункты теста однонаправлены. Как следствие, установка на согласие может повлиять на результаты исследования, искусственным образом создавая статистически значимые положительные корреляции.
Установка на крайние ответы и установка на промежуточные ответы
Как мы убедились, многие опросники содержат утверждения или вопросы, которые требуют ответа в терминах интенсивности, согласия/несогласия или частоты встречаемости того или иного поведения. Например, тест тревожности Спилбергера (STAI, Spielberger, 1983) – широко используемый опросник, призванный оценивать у респондентов уровень тревожности как ситуативного состояния и как личностной черты. Шкала личностной тревожности в этом тесте состоит из 10 утверждений об общем уровне психологического дистресса. Пункты в данной шкале включают в себя такие утверждения, как: «Я веду себя неуверенно» и «Я уравновешен» (заметьте, что данный пункт обращен). Для каждого утверждения респонденты имеют четыре варианта ответа: почти никогда, иногда, часто, почти всегда. Таким образом, вариант ответа «почти всегда» является более крайним вариантом ответа (отражающим большую степень согласия с утверждением), чем вариант «часто». Тесты другого типа включают в себя варианты ответа, относящиеся к тому, насколько точно утверждение характеризует респондента. Например, Международный банк заданий на черты личности (Goldberg и др., 2006) включает в себя шкалу «Духовности/Религиозности» (Д/Р) с такими пунктами, как «Я духовный человек», и ответы могут варьироваться на пятибалльной шкале: очень неточно, скорее неточно, нейтральный ответ, скорее правильно, полностью правильно. На шкале Д/Р опция «полностью правильно» гораздо более полярна, чем «скорее правильно» (отражает более крайнюю степень точности), а вариант «очень неточно» является более крайним по сравнению с ответом «скорее неточно».
Проблема установки на крайние и промежуточные ответы имеет отношение к индивидуальным различиям респондентов в тенденции использовать или избегать крайние ответы. В тесте Спилбергера один респондент может быть более готов сделать «крайний выбор» (например, ответить «почти всегда» на утверждение: «Я веду себя неуверенно»), чем другой, даже если оба респондента имеют одинаковый уровень тревожности. Подобным образом, в шкале Д/Р один респондент может быть более готов ответить «полностью правильно» на утверждение: «Я духовный человек» по сравнению с другим респондентом, даже если оба они имеют одинаковый уровень духовности. Проще говоря, люди могут отличаться в своей готовности использовать крайние варианты ответов, что может скрыть разницу в истинных уровнях измеряемого признака.
Таблица 10.2 Установка на выбор крайних ответов
Респондент |
Установка |
Истинный уровень тревожности |
Пункты теста Спилбергера (STAI) |
Суммарный балл STAI |
Истинный уровень духовности |
Пункты Д/Р |
Суммарный балл Д/Р |
||||||
1 |
2 |
3 |
4 |
1 |
2 |
3 |
4 |
||||||
1 |
ярко выраженная |
14 |
4 |
4 |
4 |
4 |
16 |
11 |
4 |
4 |
4 |
4 |
16 |
2 |
умеренная |
14 |
3 |
3 |
3 |
3 |
12 |
12 |
2 |
2 |
2 |
2 |
8 |
3 |
нет |
12 |
3 |
4 |
3 |
2 |
12 |
4 |
1 |
1 |
1 |
1 |
4 |
4 |
умеренная |
6 |
2 |
2 |
2 |
2 |
8 |
9 |
2 |
2 |
3 |
3 |
10 |
5 |
ярко выраженная |
6 |
1 |
1 |
1 |
1 |
4 |
8 |
1 |
1 |
1 |
1 |
4 |
6 |
нет |
7 |
1 |
3 |
2 |
1 |
7 |
15 |
3 |
5 |
4 |
3 |
15 |
Примечание: STAI – опросник тревожности как состояния и как личностной черты, Д/Р – шкала духовности / религиозности
В качестве примера рассмотрим данные, приведенные в Таблице 10.2. Представим, что исследователь изучает связь между духовностью и тревожностью, и он выдвигает гипотезу о том, что корреляция будет положительной – люди с высоким уровнем духовности будут иметь относительно высокий уровень тревожности. Для изучения данной взаимосвязи он просит респондентов заполнить четырехпунктовую версию теста Спилбергера и четырехпунктовую версию шкалы Д/Р (высокий итоговый балл является показателем высокого уровня духовности).
Представим себе еще раз, что мы обладаем силой абсолютного «всезнания». В Таблице 10.2 столбец «Истинный уровень тревожности» представляет собой настоящий уровень выраженности у респондентов тревожности как личностной черты. Как видим, например, респонденты 1 и 2 имеют идентичный характерный уровень тревожности (у обоих истинный балл равен 14), так же как и респонденты 4 и 5 (у обоих истинный балл равен 6). Вычисляя корреляцию между истинным уровнем тревожности и истинным уровнем духовности (см. Таблицу 10.2), обнаруживаем, что взаимосвязь фактически отсутствует (r= -0.04). Таким образом, тот факт, что мы обладаем силой «всезнания», позволяет понять, что на самом деле люди с высоким уровнем духовности не имеют большей или меньшей склонности к беспокойству, чем люди с низким уровнем духовности. Этот факт противоречит гипотезе, заключающейся в том, что высокий уровень духовности связан с высоким уровнем тревожности.
Разумеется, исследователь не может знать истинный уровень тревожности респондента, имея доступ только к ответам респондента на утверждения теста. Рассмотрим фактические ответы респондентов на утверждения четырехпунктовой версии теста Спилбергера и сравним их с истинными показателями тревожности. Для данной версии теста Спилбергера исследователь использовал следующую разбалловку: 1=почти никогда, 2=иногда, 3=часто, 4=почти всегда. Примите во внимание, что респондент 1 ответил «почти всегда» на все утверждения, набрав общим счетом 16 баллов. Заметьте, что респондент 2 ответил «часто» на все 4 вопроса с итоговым результатом 12 баллов. Таким образом, данные участники имеют различный результат по шкале тревожности, хотя имеют одинаковый истинный уровень тревожности. Данная разница является следствием того, что респондент 1 был готов использовать более «крайний» ответ, чем респондент 2. Как показывает данное различие, склонность к выбору более «крайних» ответов может вызвать искусственные различия в результатах теста. Примите во внимание и то, что данная тенденция является устойчивой, проявляясь в ответах респондента и на утверждения другой шкалы - Духовности/Религиозности.
Кроме создания искусственных различий в результатах тестов, склонность к выбору крайних ответов может искажать истинные различия в уровнях выраженности признака у респондентов. Рассмотрим респондентов 2 и 3. Данные респонденты имеют различный уровень истинной тревожности, но результаты их тестов идентичны. Это произошло, т.к. респондент 2 с большой неохотой использует «крайние» ответы, и в итоге результат теста не так высок, как характерный для него истинный уровень тревожности. Таким образом, результат его теста идентичен результатам теста респондента, истинный уровень тревожности у которого несколько ниже.
Неточности, создаваемые индивидуальными различиями в установках респондентов на крайние ответы, имеют важные следствия для результатов психологических исследований. Будучи «всезнающими», подсчитаем корреляцию между истинным уровнем тревожности и истинным уровнем духовности (см. Таблицу 10.2), выяснив, что она практически равняется нулю. Подсчитаем теперь корреляцию между измеренным уровнем тревожности (тест Спилбергера, баллы по шкале личностной тревожности) и измеренным уровнем духовности (результат по тесту на Духовность/Религиозность). Исходя из данных Таблицы 10.2, эта корреляция составляет r=0.36, что позволит исследователю заключить, что духовность положительно связана с тревожностью. Очевидно, корреляция, основанная на наблюдаемых баллах (на которые влияет проблема установки на крайние ответы) значительно отличается от корреляции, основанной на истинных баллах (о которых мы можем судить только благодаря тому, что гипотетически обладаем «всезнанием»). Следовательно, психологические заключения, основанные на статистическом анализе тестовых баллов, не являются правильными по сравнению с заключениями на основе реальных уровней выраженности признака. В данном случае проблема установки на крайние варианты ответов может способствовать неверным выводам в исследованиях. В текущем примере исследователь сделает некорректное заключение о том, что уровень духовности индивида взаимосвязан с уровнем тревожности.
Обратите внимание, что использование «крайних» вариантов ответа само по себе не является систематической ошибкой оценки и не представляет проблемы, как и использование промежуточных вариантов ответа. В самом деле, пользователи тестов надеются, что выбор определенных вариантов ответа отражает истинный уровень выраженности признака, характерный для респондента – люди с более «крайними» уровнями выраженности признака (исключительно высокими или исключительно низкими) должны использовать более крайние варианты ответов, а люди с умеренной выраженностью признака должны использовать промежуточные варианты ответа. Проблема появляется, когда (а) люди с идентичными уровнями выраженности признака отличаются в своем пристрастии использовать промежуточные или крайние варианты ответов или (б) когда люди с разными уровнями выраженности признака не отличаются в своем пристрастии использовать промежуточные или крайние варианты.
Психологи и другие ученые, занимающиеся поведением, изучали степень значительности и источники данной проблемы – действительно ли, что некоторые люди гораздо более охотно используют крайние» варианты ответов по сравнению с другими, и если да, то по какой причине? Исследования показывают, что, в самом деле, беспокойство по поводу установки респондентов на крайние или промежуточные ответы небезосновательно. Было обнаружено, что тенденция использования определенных ответов довольно устойчива и во времени, и в многообразии используемых тестов (например, Bachman & O’Malley, 1984; Jain & Agarwal, 1977; Merrens, 1970), несмотря на то, что при попытке репликации этого результата некоторые исследования потерпели неудачу. Одно из исследований, показывающих стабильность такого эффекта, было проведено Bachman и O’Malley (1984), выяснившими, что существуют «значительные и довольно стойкие индивидуальные различия в склонности использовать или избегать крайние варианты ответов», причем эта закономерность сохранялась в периоде времени до 4 лет (с.506).
В целом установка на крайние или промежуточные ответы может ухудшить качество психологического тестирования. Одни респонденты готовы использовать крайние варианты ответов, другие склонны их избегать. Разница в стиле ответов может скрыть разницу в истинных уровнях выраженности признака у респондентов. Подобные эффекты могут, в свою очередь, уменьшить точность выводов в психологических исследованиях.
Социальная желательность
Проблема социальной желательности приобрела, пожалуй, наибольшее внимание среди психологов, занимающихся установками респондентов на определенные виды ответов. Установка на социальную желательность ответов – это склонность человека отвечать не так, как есть на самом деле, а так, как ему кажется социально одобряемым. В начале данной главы рассматривался пример с заполнением опросника при приеме на работу. Мы отмечали вероятность возникновения склонности отвечать на вопросы с установкой на то, чтобы понравиться работодателю. Респондент может поддаться искушению отвечать в таком ключе, который усиливает желаемые качества, такие как честность, прямота, добросовестность и эмоциональная стабильность. Если ответы респондента обусловлены его желанием выглядеть социально привлекательным, они не отражают истинный уровень выраженности измеряемого признака. Это может уменьшить надежность и валидность тестирования.
Установка на социальную желательность имеет по крайней мере три источника. Во-первых, содержание теста. Некоторые психологические конструкты имеют больший подтекст социальной привлекательности, чем другие, таким образом, тесты, направленные на измерение этих конструктов, могут быть более подвержены негативному влиянию социальной желательности, чем тесты, измеряющие что-то другое. Например, такие личностные качества, как психологическое здоровье (против переживания психологического дистресса) или честность (против склонности к обману) могут быть тесно связаны с социальной желательностью; здоровье с честностью более предпочтительны, чем переживание дистресса и обман. С другой стороны, такие признаки, как экстраверсия / интроверсия могут быть менее подвержены установке на социальную желательность (John & Robins, 1993). Во-вторых, установка на социально желаемые ответы находится под влиянием ситуации тестирования. Ответы в социально-желательном ключе могут скорее появиться в ситуации, когда респонденты могут быть идентифицированы, нежели когда можно отвечать анонимно. Когда известно, кто и как отвечает на вопросы, респонденты будут больше стараться выглядеть социально привлекательными. Кроме того, ответ с целью выглядеть более привлекательно в социальном плане скорее будет дан в ситуации, когда от исхода тестирования зависят важные для респондента последствия. Пример с ситуацией при приеме на работу представляет собой случай, когда ответы на утверждения теста могут иметь важные последствия – вероятность того, что соискателей наймут, частично зависит от итогов психологического тестирования. Ответы в социально желательном ключе становятся менее вероятными, когда от результатов тестирования мало что зависит (хотя и в этом случае они остаются потенциальной проблемой, как будет показано ниже).
Третья возможная причина возникновения социально желательных ответов – личностные характеристики респондентов. Начиная с 1950-х годов в исследованиях было показано, что в своей склонности давать те ответы, которых от них ожидают, люди отличаются друг от друга. Проблема снова заявляет о себе, т.к. различия в склонности респондентов давать социально привлекательные ответы могут скрывать различия в истинных уровнях выраженности измеряемого признака.
Чтобы понять сущность установки на социальную желательность и ее влияние на результаты исследований, представьте, что исследователь изучает взаимосвязь между эмоциональностью и глубиной взаимоотношений с людьми. Он выдвигает гипотезу о том, что люди, склонные сильно переживать позитивные эмоции (или те, кто склонен не слишком сильно переживать негативные эмоции), устанавливают более глубокие отношения с окружающими. Говоря технически, он ожидает обнаружить положительную корреляцию между положительной эмоциональностью и глубиной взаимоотношений, а также отрицательную корреляцию между негативной эмоциональностью и глубиной взаимоотношений. Для проверки этой гипотезы он просит участников исследования заполнить тест PANAS (Positive and Negative Affect Schedule – Тест позитивных и негативных эмоций; Watson, Clark, & Tellegen, 1988). PANAS – довольно распространенный тест аффективности, он может использоваться для измерения характерной для респондентов (на уровне личностной черты) склонности переживать положительные и отрицательные эмоции. PANAS включает две шкалы – Положительные эмоции (ПЭ) и Отрицательные эмоции (ОЭ) – каждая из которых включает в себя 10 слов, обозначающих эмоции (например, сильный, гордый, возбужденный, раздражительный, виноватый, страдающий). Несмотря на то, что PANAS используется исследователями весьма разнообразными способами, представим, что наш исследователь попросил участников прочитать каждый пункт и оценить степень (по пятибалльной шкале), с которой они обычно переживают ту или иную эмоцию. Баллы по шкалам ПЭ и ОЭ подсчитываются как среднее арифметическое 10 ответов на пункты шкалы, так что итоговый результат для каждой шкалы варьируется от 1 до 5, причем более высокий балл отражает большую предрасположенность респондента испытывать положительные либо отрицательные эмоции. Наконец, исследователь просит респондентов оценить общую глубину их взаимоотношений с окружающими по шкале от 1 до 100, где более высокий балл означает большую глубину взаимоотношений (ГВ).
Заметьте, что данные 3 конструкта – положительные эмоции, отрицательные эмоции и глубина взаимоотношений – потенциально подвержены влиянию склонности респондента выглядеть социально более выигрышно. По крайней мере, в Западных культурах ярко выраженные переживания положительных эмоций культурно более предпочтительны, чем слабые переживания положительных эмоций, а в негативных переживаниях слабая интенсивность предпочтительнее, чем сильная. То есть люди, демонстрирующие силу, гордость и энтузиазм в целом выглядят социально привлекательно и вызывают восхищение, в то время как люди нервозные, чувствующие себя виноватыми, подверженные стрессу, как правило, выглядят социально отталкивающими и не вызывают восхищения. Наконец, большинство культур воспримут глубокие отношения с окружающими как ценные и желаемые. Соответственно, индивид, желающий выглядеть социально привлекательным, насколько можно ожидать, заявит высокую интенсивность переживания положительных эмоций, низкую интенсивность переживания отрицательных эмоций, а также оценит свои взаимоотношения с окружающими как глубокие.
Давайте снова представим, что мы всезнающи и обладаем информацией относительно истинного положения дел: знаем истинный уровень ПЭ, ОЭ и ГВ респондентов. Так, в Таблице 10.3 указано, что респондент 1 имеет наивысший истинный балл по шкале ПЭ (4.5) на втором месте оказывается респондент 2 (его истинный балл составляет 4). Заметьте также, что респондент 4 имеет наивысший истинный балл по шкале ГВ. Высчитывая корреляцию между истинными уровнями ПЭ и ГВ, находим умеренное подтверждение гипотезы исследователя – слабую положительную взаимосвязь (r=0.23). Аналогично, взаимосвязь между истинными значениями ОЭ и ГВ является умеренным подтверждением гипотезы - слабая отрицательная корреляция (r= -0.21). Таким образом, наше «всезнание» позволяет увидеть умеренную по силе тенденцию: люди, склонные к переживаниям положительных эмоций (с одной стороны), а также люди, редко испытывающие отрицательные эмоции (с другой стороны), устанавливают более глубокие взаимоотношения с окружающими.
Давайте также представим, что нам известно про каждого из респондентов, насколько ярко у него выражена установка на социально желательный ответ. Как показано в колонке «Установка на социальную желательность» Таблицы 10.3, респондент 2 имеет ярко выраженную установку на социальную желательность, у респондентов 3 и 5 эта установка также выражена в некоторой степени, однако остальные респонденты не имеют мотивации выглядеть более привлекательно, чем на самом деле.
Заметим, как желание выглядеть социально привлекательно влияет на качество измерения трех признаков. У тех респондентов, кто склонен выглядеть социально предпочтительно, тестовые баллы ближе к «желаемому» уровню, чем истинные баллы (уровни выраженности признака). Например, обратите внимание на респондента 2, у которого установка на социальную желательность выражена ярко. Тестовый балл по шкале ПЭ (5) у него выше, чем истинный уровень ПЭ (4), что отражает желание завысить интенсивность переживания положительных эмоций. Сильная установка на социальную желательность у данного респондента повлияла на то, как он оценивал некоторые из пунктов шкалы ПЭ, что в итоге привело к завышенному тестовому баллу по этой шкале. Аналогично, результат в шкале НЭ (1) ниже, чем реальный уровень НЭ (2), что указывает на желание этого респондента искусственно занизить интенсивность переживания отрицательных эмоций. Таким образом, у респондентов с установкой на социально привлекательные ответы тестовые баллы по социально желаемым показателям, таким как ПЭ и ГВ, искусственно завышены, а тестовые баллы по «нежелательным» показателям (как, например, ОЭ) искусственно занижены. С другой стороны, для респондентов, не стремящихся выглядеть привлекательно в глазах окружающих, тестовый балл совпадает с истинным уровнем выраженности признака, независимо от того, насколько этот признак социально желателен.
Таблица 10.3 Пример зависимости результатов исследования от наличия установки на социально желательные ответы
Респондент |
Истинный балл (уровень выраженности признака) |
Установка на социальную желательность |
Тестовый балл (данные по результатам теста) |
||||
ПЭ |
ОЭ |
ГВ |
ПЭ |
ОЭ |
ГВ |
||
1 |
4.5 |
5 |
60 |
Нет |
4.5 |
5 |
60 |
2 |
4 |
2 |
55 |
Высокая |
5 |
1 |
95 |
3 |
3 |
1.5 |
65 |
Низкая |
3.375 |
1.125 |
80 |
4 |
2.25 |
3 |
85 |
Нет |
2.25 |
3 |
85 |
5 |
1.5 |
4 |
45 |
Средняя |
2 |
3.5 |
65 |
6 |
1.75 |
3.25 |
40 |
Нет |
1.75 |
3.25 |
40 |
Корреляция с ГВ |
0.23 |
-0.21 |
|
|
0.51 |
-0.65 |
|
Примечание: ПЭ = шкала положительных эмоций,; ОЭ = шкала отрицательных эмоций; ГВ = глубина взаимоотношений.
Важное следствие желания выглядеть привлекательно в глазах окружающих заключается в его негативном влиянии на результаты исследований. Конкретнее, индивидуальные различия в установке на социально желательные ответы могут создавать ложные или искусственно сильные корреляции между результатами тестов, при заполнении которых у респондентов проявилась эта установка. Данные в Таблице 10.3 демонстрируют данный эффект. Как обсуждалось ранее, в этих данных существуют как минимум две проблемы. Во-первых, респонденты различаются по силе выраженности установки на социальную желательность – у некоторых установка по выраженности средняя или сильная, у других слабая или полностью отсутствует. Во-вторых, три переменные связаны с социальной желательностью, таким образом, качество их измерения потенциально может быть испорчено установкой на социальную желательность (действительно, как уже было показано, тестовые баллы в Таблице 10.3 искажены установкой). Следствием данных проблем является тот факт, что респонденты с мотивацией выглядеть социально предпочтительно имеют более высокие баллы по ПЭ и ГВ (и более низкие баллы по НЭ), чем респонденты, у которых эта мотивация отсутствует. Следовательно, желание выглядеть привлекательно завышает степень, с которой люди, склонные к высокому баллу по результатам одного теста, склонны набирать высокий балл по результатам другого. Это, в свою очередь, влияет на корреляции между измеренными переменными.
Эффект установки на социальную желательность очевиден в искусственно завышенных корреляциях между рассматриваемыми тремя признаками. Заметьте, что корреляции между истинными баллами гораздо слабее, чем корреляции между тестовыми баллами. Ранее допущение о «всезнании» позволило нам установить, что «истинная» корреляция между ПЭ и ГВ равнялась всего 0.23, а «истинная» корреляция между НЭ и ГВ составила всего лишь -0.21. Как демонстрирует Таблица 10.3, корреляция между тестовыми баллами сильнее - корреляция между ПЭ и ГВ равна 0.51, корреляция между ОЭ и ГВ составляет -0.61. Таким образом, тенденция выглядеть социально привлекательно может искусственно завысить корреляцию между измерениями. В нашем примере исследователь может интерпретировать искусственно завышенную корреляцию между тестовыми баллами (r=0.51 и r= -0.65) как доказательство очень сильной взаимосвязи между эмоциональностью и глубиной взаимоотношений. И снова допущение о всезнании позволяет увидеть, что подобная интерпретация неверна – взаимосвязь данных двух конструктов гораздо слабее, чем показывает исследование. Исследователь сильно переоценивает силу взаимосвязи, т.к. на исследование необоснованно повлияла установка на социальную желательность. Подобные искаженные оценки могут, в свою очередь, привести к некорректным теоретическим обобщениям, а затем являться причиной неверных решений в практике.
Как отмечалось ранее в данном разделе, склонность давать социально желательные ответы в психологии широко изучалась. Одним из активистов данного направления является Del Paulhus, психолог, интересовавшийся склонностью давать социально желаемые ответы как характеристикой личности. Одним из важнейших результатов его работы стало открытие того, что формы установки на социальную желательность могут варьироваться. Paulhus выделяет два процесса, посредством которых реализуется установка на социальную желательность. Один из этих процессов – сознательное управление впечатлением, когда тестируемый сознательно пытается показаться социально привлекательными. Например, соискатель работы может почувствовать мотивацию искусственно завысить желательные характеристики и искусственно занизить нежелательные характеристики, заполняя тест по отбору персонала. В клинической практике управление впечатлением иногда называется «симуляцией здоровья» (faking good), т.к. к ней относится замалчивание сведений о клинических симптомах. Другими словами, респондент может попытаться выглядеть более здоровым, ложно отрицая в себе различные патологические симптомы. Второй процесс – бессознательный самообман, когда тестируемый придерживается необоснованно положительного мнения о себе, будучи твердо уверенным в тех психологических характеристиках, по которым себя переоценивает.
Paulhus (2002) доказывает, что управление впечатлением и самообман различаются так же, как состояние и черта. Он предполагает, что управление впечатлением больше напоминает состояние, проявляясь в ответах респондента на непосредственные требования ситуации. Другими словами, установка на сознательную социальную желательность обычно является реакцией на определенный контекст или ситуацию тестирования, такую, как заполнение формы при приеме на работу. В противоположность этому, Paulhus считает, что склонность к самообману является чертой личности. Таким образом, некоторые люди более предрасположены к самообману, чем другие, и эта разница может повлиять на их ответы, в независимости от ситуации или контекста тестирования.
Несмотря на долголетний интерес к социальной желательности и ее возможным последствиям для психологических исследований, некоторые исследователи утверждают, что беспокойство в этом плане несколько преувеличено. Один из наиболее убедительных аргументов в пользу этого – эмпирические данные, предполагающие, что «в большинстве сфер практического применения попытки делать поправки тестовых баллов на психологическую защиту или социальную желательность не увеличивают валидность» (McCrae & Costa, 1983). Подобные выводы частично основаны на данных о том, что тесты социальной желательности не коррелируют с такими важными критериями, как, например, профессиональная успешность (Viswesvaran, Ones & Hough, 2001), и что статистический контроль над индивидуальными различиями в социальной желательности не улучшает критериальную валидность опросников личностных черт (McCrae & Costa, 1983; Ones, Viswesvaran, & Reiss, 1996). Несмотря на полученные данные, многие психологи до сих пор озабочены возможным влиянием фактора социальной желательности на психологические тесты и их практическое применение.
Симуляция неблагополучия8
Несмотря на то, что многих психологов волнует проблема искусственного преувеличения респондентами социально желательных качеств, другие психологи озабочены иной проблемой. А именно, в некоторых чрезвычайно важных ситуациях тестирования респонденты могут попытаться преувеличить свои психологические проблемы. В частности, в некоторых ситуациях прикладного применения тестов респонденты могут иметь сильное желание показаться более когнитивно ослабленными, эмоционально подавленными, физически уставшими или психологически взволнованными, чем на самом деле. Этот феномен называется симуляцией неблагополучия (стремление показаться хуже, чем на самом деле), или «симуляцией болезни», и он признается диагностическим справочником DSM-IV Американской Психиатрической Ассоциации (1994) как серьезная проблема в психологической оценке и диагнозах.
Задумайтесь на мгновение, почему индивиды могут стараться преувеличить наличие или тяжесть психологических проблем. Примите во внимание некоторые из ситуаций тестирования, в которых симуляция неблагополучия проявляется с большей вероятностью – судебно-психологическая экспертиза, оценка нетрудоспособности, требование денежных компенсаций от работников, экспертиза психологического вреда или ущерба (Berry, Baer, Rinaldo, & Wetter, 2002; Mittenberg, Patton, Canyock, & Condit, 2002). В данных ситуациях тестируемые потенциально выигрывают от нахождения у них психологического или нейропсихологического нарушения. Преступники могут получить относительно легкую меру наказания, если их признают невменяемыми, работники могут получить денежные компенсации, если будет вынесено решение, что им на работе был нанесен вред, а жертвы несчастных случаев получат денежные компенсации, если будет решено, что они получили нейропсихологические проблемы в связи с несчастным случаем. В целом симуляция неблагополучия – серьезное дело в тех ситуациях тестирования, где у респондента могут быть мотивы выглядеть неполноценным.
Очевидно, что симуляция неблагополучия может отрицательно влиять на качество психологической оценки. Например, на такие когнитивные особенности, как внимание и память, может повлиять повреждение мозга. Следовательно, человек, пострадавший в автомобильной аварии, может в результате получить высокую компенсацию по страховке, если сможет убедить суд, что получил мозговую травму, которая ухудшает когнитивные способности. В самом деле, многие нейропсихологические исследования включают в себя тесты на внимание и память, и человек может специально выполнить или попытаться выполнить их плохо, чтобы получить диагноз когнитивного нарушения. Симуляция неблагополучия может иметь конкретные последствия для точности и справедливости постановки диагноза, судебного заключения и решений, основанных на результатах исследования, которые были целенаправленно искажены.
Симуляция неблагополучия – не просто теоретическая, потенциальная угроза прикладному тестированию. По оценке исследователей (например, Berry и др, 2002; Mittenberg и др., 2002), она встречается в 7.3% - 27% случаев в общих психологических исследованиях и в 31% - 45% случаев в судебных разбирательствах (судебно-психологическая экспертиза, слушания по поводу нетрудоспособности и т.д.). На самом деле, как мы увидим ниже, существуют свидетельства того, что адвокаты специально информируют клиентов по поводу методик, используемых для обнаружения симуляции болезни или неблагополучия (Wetter & Corrigan, 1995; Youngjohn, 1995). Таким образом, симуляция болезни или психологических проблем представляет собой реальную угрозу объективной психологической оценке, и эксперты заключают, что неспособность понять влияние этого фактора «потенциально ведет к высоким затратам страховщиков, учреждений социальной защиты и общества в целом» (Berry и др., 2002, с.275).
Бездумные или случайные ответы
Иногда респонденты выбирают ответы по случайному или псевдослучайному принципу. Либо из-за беспечности, либо из-за отсутствия мотивации отвечать обдуманно, они могут выбирать ответы наугад или почти наугад, и в этом случае их ответ никак не соотносится с содержанием пункта теста. Например, индивид, заполняющий тест, в котором на представленные пункты можно давать ответы по пятибалльной шкале (1 = полностью не согласен, 5 = полностью согласен), может просто выбирать предложенные варианты ответов «циклично», отвечая «полностью не согласен» (1) на пункт 1, «не согласен» (2) на пункт 2, «воздержусь» (3) на пункт 3, «согласен» (4) на пункт 4, «полностью согласен» (5) на пункт 5, возвращаясь к варианту «полностью не согласен» на пункт 6, чтобы начать круг заново. Очевидно, это приводит к получению таких тестовых баллов, которые не имеют смысла по отношению к измеряемому конструкту.
Угадывание
Некоторые психологические тесты устроены таким образом, что одни ответы в них являются правильными, а другие - ошибочными. Например, такие тесты достижений, как тест академических способностей SAT и экзамен на получение последипломного образования (GRE9) включают в себя пункты, оценивающие вербальные или математические способности респондентов. Каждый пункт в таких тестах имеет единственный правильный ответ, и экзаменующиеся набирают высокий итоговый балл, отвечая правильно на большинство заданий. Подобные тесты обычно используются в ситуациях, когда от результатов теста отчасти зависят какие-то важные последствия (например, поступление в колледж).
При проведении тестирования в таких важных ситуациях респонденты могут стараться угадать правильный ответ. Особенно это актуально для тестов с ограниченным количеством возможных вариантов ответа. Угадывание встречается настолько часто, что некоторые тесты достижений обрабатываются особым образом, с поправкой на угадывание (как именно, мы обсудим ниже в этой главе).
В тех случаях, когда респондент действительно не знает, какой из вариантов ответа правильный, угадывание может ухудшить качество и содержательность итогового результата. Правильная догадка повышает итоговый результат респондента, искусственно завышая его по сравнению с реальным уровнем знаний. Таким образом, выводы, основанные на результатах теста, могут быть искажены влиянием угадывания. Подобным образом, различные успехи в угадывании могут быть источником случайной ошибки измерения. Если некоторые респонденты более «удачливы», чем другие (то есть некоторые респонденты случайно чаще угадывают правильный ответ, чем другие), или если некоторые респонденты пытаются угадывать, а некоторые не пытаются, тогда фактор угадывания создает такие тестовые баллы, которые не соотносятся с истинными различиями между респондентами.
МЕТОДЫ БОРЬБЫ С УСТАНОВКАМИ НА ОТВЕТ
Как было показано выше, несколько типов установок на ответ могут ухудшить валидность и надежность психологических измерений. Это, в свою очередь, имеет серьезные последствия для научных исследований, а также для практики применения тестов. Как мы увидели, различные виды установок на ответ могут привести к неверным выводам насчет индивидов, принимающих участие в прикладных ситуациях тестирования. Кроме того, такие установки могут исказить взаимосвязи между психологическими конструктами, что приводит к неверным исследовательским выводам в научном контексте.
Будучи осведомленными насчет данных угроз качеству психометрики и прикладному тестированию, психологи используют множество стратегий борьбы с ними. Мы обсудим некоторые из данных стратегий в зависимости от тех целей, которые они преследуют. Данные стратегии и цели их применения обобщены на Рисунке 10.1. Как видно из рисунка, существует как минимум три главных типа стратегий – контроль ситуации тестирования, контроль содержания теста и/или процесса вычисления тестовых баллов, а также использование специально созданных тестов на выявление «недобросовестности» ответов респондента. К тому же существуют как минимум три основных цели, которые преследуются данными стратегиями. Некоторые из стратегий направлены на предотвращение самого существования установки, некоторые предназначены для нивелирования эффектов, создаваемых ими, а некоторые призваны обнаруживать «недобросовестные» ответы, позволяя пользователям теста сделать соответствующие поправки (см. ниже).
Контроль за ситуацией тестирования с целью предотвращения установок на ответ
Пожалуй, лучший способ решения проблемы установок на ответ – предотвратить их появление. Хотя пользователь теста никогда не может быть абсолютно уверенным в том, что ему удалось предотвратить их возникновение, существуют стратегии, которые позволяют уменьшить вероятность различных типов установок. Некоторые стратегии основаны на том, как тестируемый воспринимает ситуацию тестирования. Другими словами, вероятность появления установок на ответ может быть снижена путем контроля за способом предоставления теста, а также за требованиями, которые предъявляются респондентам во время тестирования.
Рисунок 10.1 Примеры методов борьбы с установками на ответ
|
|
Цели |
||
|
Предотвратить или снизить вероятность появления установок на ответ |
Минимизировать последствия от установок на ответ |
Обнаружить «недобросовестные» ответы |
|
Стратегии |
Контроль ситуации тестирования |
Анонимность Минимизация фрустрации Предупреждения |
|
|
Контроль содержания теста и/или процесса вычисления тестовых баллов |
Простые, понятные пункты Нейтральные пункты Принудительный выбор Минимальный выбор |
Сбалансированные шкалы Поправка на угадывание |
Встроенные шкалы валидности |
|
Использование специализированных тестов |
|
|
Тесты социальной желательности Тесты установки на крайние ответы Тесты установки на согласие |
|
Например, Paulhus (1991) предполагает, что установка на социальную желательность может быть минимизирована путем устранения ситуационных факторов, провоцирующих желание респондентов отвечать в социально выгодном свете. Во многих ситуациях тестирования респондентов можно уверить в том, что их ответы будут анонимными. Зная, что анонимность не будет нарушена, респонденты с большей долей вероятности захотят дать честные ответы. Данное предположение основано на мысли о том, что анонимность позволяет респонденту комфортно чувствовать себя при откровенном описании собственных социально неодобряемых отношений к чему-либо, мыслей, действий, чувств или черт. Несмотря на то, что анонимность может повысить откровенность ответов, у нее есть и недостаток. Дело в том, что анонимность может также увеличить вероятность ответов, выбранных в случайном порядке. Многие респонденты в исследованиях поведения, особенно в психологических исследованиях, являются студентами, посещающими вводный курс психологии. Хотя студентов не заставляют участвовать в тестировании, некоторые из них могут почувствовать принуждение к участию. Анонимность исследования может взаимодействовать с любым чувством принуждения, что станет причиной низкой мотивации быть честным и добросовестным в заполнении теста. Таким образом, некоторые респонденты могут воспользоваться фактом анонимности, отвечая бездумно, быстро и, возможно, наугад. Как будет показано в одном из следующих разделов, существует возможность вычислить такого рода ответы и исключить их из дальнейшего анализа.
Другой метод по управлению ситуацией тестирования – создание такой ситуации, которая уменьшает усталость, стресс, факторы, отвлекающие внимание, или фрустрацию респондента. Такие когнитивно-эмоциональные состояния могут увеличить вероятность появления установок на ответ (Paulhus, 1991). Снижая концентрацию внимания или увеличивая вероятность снижения мотивации респондента, подобные состояния могут вызывать ответы в случайном порядке, ответы в социально привлекательном ключе и другие проблемы. Как при научно-исследовательском, так и при прикладном тестировании предпочтительно ограничивать время проведения теста, чтобы не утомить респондентов (по нашему опыту, тестирование с применением объективного теста не должно продолжаться дольше часа). Кроме того, желательно проводить тестирование в тихой обстановке с минимумом отвлекающих факторов.
Заключительный пример управления ситуацией тестирования – это сказать респондентам, что достоверность их ответов может быть определена. Некоторые исследования показывают, что респонденты, которым сказали, что «недобросовестные» ответы будут выявлены, чаще признают за собой социально нежелательные отношения, действия или черты, которые иначе могли бы остаться в тайне (Paulhus, 1991). Данная стратегия представляет интерес в качестве решения проблемы симуляции болезни или неблагополучия. Некоторые исследования (например, Butcher, Morfitt, Rouse, & Holden, 1997; Fink & Butcher, 1972) показывают, что количество правдивых ответов в Миннесотском многофакторном опроснике личности MMPI увеличивается, когда респондентов информируют о том, что случайные ответы или нечестность могут быть выявлены (хотя некоторые исследования демонстрируют отсутствие эффекта такого рода предупреждений; например, Butcher, Atlis, & Fang, 2000). Фактически, валидность может быть увеличена, если респонденты просто верят, что нечестные ответы будут обнаружены. Исследования показывают, что даже если пользователи тестов фактически не могут определить нечестные ответы, простая вероятность их обнаружения может убедить некоторых респондентов быть более честными и непредвзятыми.
Контроль содержания теста с целью предотвращения установок на ответ
Пользователи и создатели тестов, пытаясь справиться с проблемой установок респондентов на те или иные ответы, часто используют особого рода содержание тестов, сводящее к минимуму вероятность появления установок. Создатели тестов могут аннулировать или уменьшить некоторые установки через включение в тест определенных типов пунктов или определенных форматов ответа.
Как отмечалось ранее, фрустрация респондента может привести к тому, что он будет отвечать неискренне. В связи с этим разработчики тестов могут формулировать пункты в максимально простой и понятной форме. Если тест легок для выполнения, тогда меньше вероятность, что респонденты ощутят фрустрацию или будут отвлекаться. Избегание фрустрации и отвлекающих факторов, в свою очередь, уменьшает вероятность проявлений небрежности, низкой мотивации и, в конечном итоге, необъективных ответов.
Другая стратегия заключается в том, чтобы формулировать пункты теста в нейтральном с точки зрения социальной желательности ключе. Например, шкала «дружелюбности» может иметь сильный крен в сторону социальной предпочтительности – многие люди могут воспринять эту характеристику как предпочтительную, и у них может появиться соблазн (целенаправленно или подсознательно) преувеличить степень своей дружелюбности. Тем не менее, пункт может быть сформулирован таким образом, чтобы сгладить остроту социальной желательности. Например, для определения противоположного полюса – недружелюбности – может быть использован пункт «Я угрюмый и враждебно настроенный человек». Маловероятно, что с данным утверждением согласится большое число респондентов, поскольку это социально нежелательно. Альтернативой может стать такая формулировка: «Иногда я менее дружелюбен, чем другие люди». Хотя она и не идеальна, она выражает наличие недружелюбия таким образом, что респонденты с большей вероятностью будут отвечать «да».
Для снижения вероятности возникновения нежелательных установок у респондентов могут использоваться также определенные формы ответа. Разработчики тестов используют пункты «принудительного выбора» для уменьшения проявлений социальной предпочтительности. Пункты принудительного выбора – это пункты, которые представляют собой две характеристики и требуют от респондента согласиться только с одной из них. Например, пункт в тесте личностных качеств может предлагать такие качества, как «дружелюбный» и «настойчивый», и от респондентов будет требоваться отметить ту характеристику, которая в большей степени относится к ним. Заметьте, что в этом примере оба качества приблизительно равны по социальной желательности. Подобным образом, пункт может включать в себя характеристики одинаково отрицательные (например, «робкий» и «склонный к спорам»), когда снова требуется выбрать тот вариант, что более точен. Так как каждая пара на выбор является одинаковой с точки зрения предпочтительности, формат насильственного выбора не позволяет респондентам исходить из соображений социальной желательности. Разработчики также могут создать тест такого формата, который снимает установку на крайние ответы. Например, они могут предоставить респонденту выбор только из двух вариантов. Например, в личностном опроснике такую характеристику, как «дружелюбность», можно сопроводить лишь двумя вариантами ответа - да и нет. В известном смысле подобный формат предотвращает установку на крайние ответы, просто убирая любые «крайние» варианты. Обратная сторона этой стратегии в том, что она огрубляет потенциально важные индивидуальные различия респондентов.
Контроль содержания теста и процесса вычисления тестовых баллов для минимизации последствий от установок на ответ
Несмотря на все попытки предупредить или уменьшить наличие установок на ответ, всегда остается подозрение о том, что они все же проявляются в некоторой степени. В связи с этим содержание теста может быть смоделировано таким образом, чтобы уменьшить действие некоторых установок, проявляющееся в неточности тестовых баллов. Или же пользователи тестов могут брать на вооружение специальные процедуры подсчета результатов, уменьшающие эффекты тех или иных установок.
Пожалуй, лучшим примером управления содержанием теста для уменьшения эффекта установки является использование сбалансированных шкал для борьбы с установкой на согласие. Как описывалось ранее, установка на согласие имеет место тогда, когда человек соглашается с утверждением независимо от содержания данного утверждения. Как было показано ранее, эта установка становится особенно проблематичной, когда все пункты теста сформулированы однонаправлено. Кроме того, мы показали, что установка на согласие может загубить анализ результатов обследования – респонденты с установкой на согласие неотличимы от респондентов с высоким истинным уровнем выраженности признака (допуская, что все пункты теста направлены в положительную сторону), что может создать искусственно высокую корреляцию между тестами. Общепринятым решением этой проблемы является создание такого теста, в котором влияние установки на ответ будет минимальным в отношении подсчета итогового тестового балла. Речь идет об использовании «сбалансированных» шкал.
Сбалансированная шкала – это шкала, некоторые пункты которой сформулированы в положительном ключе, а некоторые – в отрицательном. В вышеупомянутом примере (см. Таблицу 10.1а) исследователь просит шесть работников ответить на следующие четыре пункта по «удовлетворенности работой» (каждый ответ по семибалльной шкале, где 1 = полностью не согласен, а 7 = полностью согласен):
1. Я действительно доволен своей работой
2. Что касается меня, я нахожу свою работу удовлетворительной
3. В целом я удовлетворен повседневными аспектами своей работы
4. У себя на работе я бы поменял лишь незначительные моменты
Мы отмечали, что все четыре пункта сформулированы в положительном ключе, т.к. позитивный ответ (некоторый уровень согласия) означает более высокий уровень удовлетворенности работой. Для уменьшения потенциального влияния установки на согласие исследователь может использовать следующий видоизмененный набор пунктов:
Я действительно доволен своей работой
Я не нахожу свою работу удовлетворительной
В целом я удовлетворен повседневными аспектами своей работы
Я бы многое хотел поменять в своей работе
Обратите внимание, что измененная шкала включает в себя два пункта, сформулированные в отрицательном ключе («обращенные пункты»). Пункты 2 и 4 изменены так, что отрицательный ответ (определенная степень несогласия с утверждением) является индикатором более высокого уровня удовлетворенности работой. Эта пересмотренная шкала сбалансирована, т.к. включает в себя два прямых пункта (т.е., когда согласие с утверждением означает высокую степень удовлетворенности) и два обратных пункта (т.е., когда несогласие с утверждением означает высокую степень удовлетворенности).
Таблица 10.1b показывает ответы работников на утверждения сбалансированной шкалы. Ключевое отличие между этими ответами и первоначальными (Таблица 10.1а) таково, что правдивые респонденты соответствуют формату сбалансированных шкал, а респонденты с установкой на согласие – нет. Например, заметьте, что респондент 2 - правдивый респондент с высоким уровнем удовлетворенности работой. Он соглашается с прямыми пунктами (т.е. пунктами 1 и 3) и не соглашается с обратными (2 и 4), как и ожидается от кого-то с высоким уровнем удовлетворенности, кто внимателен к содержанию утверждений теста. В противоположность этому респондент 1 (демонстрирующий установку на согласие) соглашается со всеми четырьмя утверждениями, игнорируя тот факт, что согласие в одних случаях показывает высокий уровень удовлетворенности, а в других – низкий. Это является показателем того, что человек просто соглашается с утверждениями, невзирая на их содержание.
Сбалансированная шкала должна быть правильно закодирована и вычислена. Ключ к ответам должен согласовываться с тем фактом, что данная шкала имеет и прямые, и обратные пункты. Обычно пользователи тестов предпочитают, чтобы «итоговый» высокий балл в тесте означал высокий уровень измеряемого признака. Например, чтобы высокий балл в тесте на удовлетворенность работой являлся показателем высокого уровня удовлетворенности работой. Чтобы достигнуть это, пользователь теста должен «обратить» пункты, сформулированные в отрицательном ключе. Для этого пользователь теста кодирует ответы респондента так, чтобы относительно высокий балл означал высокий уровень выраженности измеряемого признака. Например, тест на удовлетворенность работой имеет семизначную шкалу. Исследователь перекодирует вариант ответа «7» (полностью согласен) в «1» (полностью не согласен), ответ «6» (согласен) в «2» (не согласен), и ответ «5» (скорее согласен) в «3» (скорее не согласен). Сходным образом, психодиагност кодирует ответы так, чтобы относительно небольшие баллы выражали низкий уровень выраженности измеряемого признака. Поэтому психодиагност кодирует ответ «1» (полностью не согласен) как «7» (полностью согласен), ответ «2» как «6», а ответ «3» как «5». Этот процесс перекодировки (обращения) заново градуирует ответы таким образом, чтобы относительно высокие баллы (т.е., 7, 6 или 5) означали высокий уровень выраженности признака, а относительно низкие баллы (т.е., 1, 2 или 3) означали бы низкий уровень выраженности признака. В Таблице 10.1c приведены перекодированные ответы респондентов на сбалансированную шкалу.
Рассмотрим, как именно в сбалансированной шкале уменьшается влияние установки респондентов на согласие. Один из плюсов сбалансированной шкалы заключается в том, что она дифференцирует респондентов с установкой на согласие и тех, кто отвечает правдиво, имея при этом высокий уровень выраженности измеряемого признака (попутно заметим: сбалансированная шкала также дифференцирует респондентов с установкой на несогласие и тех, у кого действительно низкий уровень выраженности признака). Рассмотрите респондентов с установкой на согласие, представленных в Таблице 10.1c, и заметьте, что полученные ими баллы по сбалансированной шкале отличаются от баллов по исходной шкале (Таблица 10.1а). Заметьте, что у респондента 1 итоговый балл в сбалансированной шкале на удовлетворенность работой составляет всего 18, тогда как в первоначальном варианте шкалы он составлял 24. Аналогично, тестовый балл респондента 4 в сбалансированной шкале равен 15, тогда как в первоначальном варианте шкалы – 26. Таким образом, использование сбалансированных шкал гарантирует, что респонденты с установкой на согласие будут получать баллы, близкие к средним (т.е. не являющиеся чрезвычайно низкими или высокими). Рассмотрим теперь данные респондентов, отвечавших добросовестно (Таблица 10.1c). Например, тестовый балл респондента 2 остается высоким – таким же, как и в первоначальном варианте шкалы (т.е. 25). Добросовестные респонденты, у которых был высокий балл в первоначальном варианте шкалы, имеют такой же высокий балл и по сбалансированной шкале; добросовестные респонденты с низким баллом в первоначальном варианте шкалы имеют такой же низкий балл и в сбалансированной шкале. Так психодиагносты могут быть уверены в том, что крайние баллы (т.е. особенно высокие или особенно низкие) по тесту будут получать только те респонденты, которые отвечают добросовестно. Следовательно, вероятность того, что респонденту с установкой на согласие будет ошибочно приписан высокий уровень выраженности признака, невелика.
Несмотря на то, что сбалансированные шкалы позволяют пользователям теста избежать смешения респондентов с установкой на согласие и «добросовестных» респондентов с высокими истинными баллами по шкале, как вы можете догадаться, эти шкалы просто создают новую проблему. Вы, вероятно, заметили в Таблице 10.1c, что теперь невозможно дифференцировать респондентов с установкой на ответ и «добросовестных» респондентов со средними уровнями выраженности измеряемого признака. В известном смысле, одна проблема просто была заменена на другую. Тем не менее, таким образом мы избежали очень серьезную проблему, создав проблему менее серьезную для целей исследования. Использование сбалансированных шкал имеет очень важные следствия для достижения точности исследовательских результатов.
Одно из таких следствий проявляется в корреляции между удовлетворенностью работой и самооценкой ее престижности – то, на измерение чего и было изначально ориентировано описанное исследование. Вернитесь к первоначальной шкале, в которой все пункты были положительно сформулированы (см. Таблицу 10.1а), и заметьте, что данная корреляция для всех шести респондентов составила r=0.43. Полагаясь на первоначальный вариант шкалы, исследователь сделает заключение, что существует умеренная или сильная взаимосвязь между удовлетворенностью работой и самооценкой престижности. Тем не менее, при допущении абсолютного «всезнания», представим, что нам известно, кто из респондентов проявил установку на согласие. Анализ данных по четырем «добросовестным» респондентам, обнаруживает весьма незначительную негативную корреляцию между удовлетворенностью и самооценкой престижности (r= -0.09). Таким образом, наличие у двух респондентов установки на согласие исказило результаты анализа, приведя к тому, что исследователь делает неправильные выводы относительно взаимосвязи между двумя изучаемыми конструктами.
Рассмотрим теперь корреляцию, вычисленную из баллов по сбалансированной шкале (Таблица 10.1c). Заметьте, что данная корреляция для общей выборки составляет r= -0.10. Это гораздо ближе к корреляции, полученной на «добросовестных» респондентах (где r= -0.09), нежели корреляция, полученная для шести отвечавших в первоначальном варианте теста. Следовательно, при использовании сбалансированной шкалы выводы исследователя будут гораздо более точными.
В целом сбалансированные шкалы предоставляют исследованиям поведения важные преимущества. Несмотря на то, что они не предотвращают установки на согласие и не могут полностью сгладить ее влияния, они действительно уменьшают влияние этой установки на результаты исследования. Используя сбалансированные шкалы, пользователи теста могут быть достаточно уверены в том, что результаты их исследования не искажены влиянием установки респондентов на согласие. Как показано в Таблице 10.1, сбалансированная шкала может помочь избежать искусственной (т.е. фальшивой) корреляции, которая может быть результатом установки некоторых из респондентов. Потенциально важные выгоды от использования сбалансированных шкал более чем перевешивают их затратность (т.е. необходимость формулировки обращенных пунктов и усложненную систему кодировки ответов).
Как отмечалось ранее, для уменьшения эффектов установки респондента на тот или иной ответ пользователи тестов могут пользоваться также специальными техниками подсчета тестовых баллов. Выше в качестве проблемы, которая может искажать результаты по тестам способностей или тестам достижений (например, SAT и GRE) называлось угадывание ответов. В самом деле, в данных тестах используются такие методы подсчета тестовых баллов, которые направлены на то, чтобы сделать поправку на фактор угадывания. Например, в SAT используется такой метод подсчета, при котором неправильному ответу и пропущенному ответу приписываются разные веса (коэффициенты). В частности, правильный ответ на вопрос засчитывается как 1 балл, вопрос, на который был дан неверный ответ, оценивается в -0.25 балла, а пропущенный вопрос не оценивается. Не вдаваясь в излишние детали, скажем только, что данный способ кодирования ответов приводит к минимизации выгоды, получаемой от угадывания. Интересно, впрочем, что «умелая» догадка все же является выгодной для тех, кто выполняет тест SAT. Другими словами, если респондент может сразу исключить один или несколько вариантов ответа, то выбор наугад среди оставшихся вариантов является выгодным для получения более высокого итогового балла.
Контроль содержания теста с целью обнаружения установок на ответ и дальнейшего вмешательства
Установки респондентов на тот или иной ответ могут оставаться проблемой даже после того, как разработчики тестов попытались свести к минимуму их существование и их влияние на тестовые баллы. Несмотря на самые тщательные попытки предотвратить или уменьшить степень влияния установок, они все же могут оказывать определенное влияние на отдельные ответы, принимаемые на основе теста решения и проводимые по результатам теста анализы. В качестве дополнительной степени защиты против установок на ответ пользователи тестов могут различными способами определять те ответы, которые, вероятно, обусловлены установкой. В данном и следующем разделах будут обсуждаться методы идентификации респондентов, которые демонстрируют наличие той или иной установки на ответ. После того, как данных респондентов идентифицировали, у пользователей теста существует несколько вариантов действий по отношению к их ответам, такие как исключение из рассмотрения и статистический контроль.
Несколько известных тестов из области психопатологии и психологии личности включают в себя шкалы валидности. Шкалы валидности представляют собой наборы пунктов, включенные в опросник и направленные на количественную оценку той степени, в которой респондент склонен демонстрировать ту или иную установку на ответ. Пользователи тестов могут изучить паттерн ответов респондента на данный набор пунктов и количественно оценить степень, в которой этот паттерн ответов отражает угадывание, установку на согласие, искусственно «хорошие» или искусственно «плохие» ответы и т.д. Психометрика уделяла большое внимание созданию и оценке шкал валидности для таких широко используемых тестов, как стандартизованный многофакторный метод исследования личности (MMPI), клинический многоосевой опросник Милона (MCMI), опросник личности NEO-PI, Калифорнийский личностный опросник CPI.
Вероятно, наиболее известные шкалы валидности – те, которые входят в состав MMPI. Последнее издание MMPI (MMPI-2) включает в себя как минимум семь шкал, направленных на предоставление информации о склонности респондента к той или иной установке на ответ. Например, шкала L оценивает попытки респондента создать излишне положительное впечатление о себе. Согласно Graham (1990), шкала L (иногда называемая «Шкала лжи») состоит из 15 пунктов, описывающих «незначительные недостатки и слабости, которые большинство людей готовы в себе признать» (с.23). Люди, отрицающие в себе эти очень распространенные недостатки и слабости, получат по шкале L высокий балл. Таким образом, шкала L может быть рассмотрена как шкала социальной желательности. Шкала F (иногда именуемая «Шкала нечастой встречаемости») входит в состав MMPI и состоит из 64 пунктов, с утверждениями которых соглашается, как правило, очень незначительная часть респондентов. Высокий балл по шкале F отражает некую форму недобросовестных ответов, которая может быть обусловлена ответами наугад, симуляцией неблагополучия, склонностью соглашаться или, наоборот, не соглашаться со всеми пунктами – или же истинными нарушениями психологического состояния респондента. Дополнительные шкалы валидности, входящие в состав MMPI, включают в себя шкалу К (для обнаружения «симуляции здоровья»), шкалу VRIN (изменчивая непоследовательность в ответах), оценивающую склонность респондента отвечать наугад, и шкалу TRIN (направленная непоследовательность в ответах), оценивающую склонность респондента соглашаться или не соглашаться с большинством утверждений.
Один из вышеупомянутых примеров может помочь проиллюстрировать способ, с помощью которого паттерн ответов респондента может быть использован для обнаружения определенной установки на ответ. Рассмотрим снова гипотетические ответы респондентов, представленные в Таблице 10.1с. Как видим, установка на согласие создает довольно специфический паттерн ответов в сбалансированной шкале. Предположение об абсолютном «всезнании» позволило нам говорить о том, что респондент 1 отвечал под влиянием установки на согласие. Внимательный анализ ответов данного респондента показывает, что он непостоянен в довольно специфическом смысле. Как вы помните, рассматриваемый четырехпунктовый тест был сбалансирован при помощи двух прямых пунктов (1 и 3) и двух обратных пунктов (2 и 4), и в кодировании ответов также применялось обращение.
Основываясь на процессе обращения, можно ожидать от «добросовестного» респондента достаточно последовательные ответы. Например, человек с неподдельно высоким уровнем удовлетворенности работой должен выбирать ответы, в основном лежащие выше средней отметки по шкале. Респондент 2 проявляет такого рода последовательность – все его ответы (т.е. 7, 5, 6, 7) находятся выше средней отметки в 4 балла. Следовательно, ответы данного респондента последовательно указывают на высокую степень удовлетворенности работой. Ответы респондента 6 также последовательно находятся на уровне среднего или ниже среднего, и этот паттерн ответов указывает на относительно низкий уровень удовлетворенности работой.
В противоположность этому, человек с установкой на согласие будет склонен выбирать ответы так, что при правильной перекодировке они будут оказываться то выше, то ниже средней отметки. Например, респондент 1 так отвечал на вопросы теста, что после перекодировки баллы оказались разбросанными относительно среднего. Это противоречит тому, что ожидается от человека с действительно высоким либо низким истинным уровнем выраженности измеряемого признака. Пользователь теста, не располагающий «всезнанием», может рассмотреть данный непоследовательный паттерн ответов и обоснованно заподозрить, что это является доказательством наличия у респондента установки на согласие.
Если пользователь теста заметил, что респондент проявляет один или несколько типов установки на ответ, существует как минимум три варианта использования этой информации с целью внесения поправок в процесс оценки или анализа. Во-первых, можно исключить результаты данного респондента из последующего рассмотрения. На практике психодиагност может попросить человека снова пройти тест либо просто не обращать внимания на результаты тестирования для данного респондента. Согласно одному из экспертов по прикладной психодиагностике, если ответы индивида являются нечестными или «недобросовестными», тогда соответствующие результаты «должны считаться невалидными и исключаться из дальнейшего рассмотрения» (Graham, 1990, с.22). В ситуации научного исследования психодиагност может исключить показатели данного респондента из статистических анализов. Второй вариант – сохранить результаты, но использовать их с осторожностью. В прикладном контексте пользователь теста может принять во внимание «подозрительные» баллы, но не делать на них основной упор в итоговой оценке или диагностике индивида. В исследовательском контексте пользователь теста может оставить данные и просто принять тот факт, что различные типы установок на ответ могут так или иначе искажать результаты анализа. Третий вариант для исследователя - сохранить любые потенциально ненадежные данные, но использовать соответствующие статистические методы контроля и поправки. Такие процедуры, как частичная корреляция или множественная регрессия позволяют исследователям использовать баллы по шкалам валидности для «статистического контроля» потенциально невалидных ответов. Например, такие методы позволяют исследователю рассмотреть связь между удовлетворенностью работой и самооценкой престижности отдельно для тех респондентов, которые отвечают добросовестно, и для тех респондентов, которые при ответах руководствуются той или иной установкой.
Несмотря на то, что шкалы валидности кажутся полезными, специалисты в области психометрики и пользователи тестов нуждаются в объективном доказательстве их полезности. Некоторые исследования показывают несостоятельность таких шкал (например, Piedmony, McCrae, Riemann, & Angleitner, 2000), но многие все же свидетельствуют в пользу «валидности шкал валидности». Пример типичного исследования представлен Ханом (Hahn, 2005). В этом исследовании использовался «аналоговый» дизайн, при котором участники разделялись на несколько групп. Одна группа состояла из пациентов психиатрических клиник. Поскольку никто из этих пациентов не запросил за участие в тестировании какой-либо компенсации, их посчитали репрезентативными по отношению к добросовестным респондентам с выраженной психопатологией. Вторая группа состояла из студентов, которых попросили давать невалидные ответы. Их проинструктировали сознательно симулировать психологическое неблагополучие, что позволило считать этих студентов «аналогом» всех респондентов, которые стремятся по результатам теста выглядеть более психологически неблагополучными, чем на самом деле. Все участники выполнили MMPI-2, анализировалась способность шкал валидности к обнаружению различий между двумя группами. Результаты показали, что, как и ожидалось, симулянты получили более высокие баллы по шкалам валидности, оценивающим склонность респондента симуляции неблагополучия (например, шкала F). Хотя можно обоснованно сомневаться в том, насколько можно распространять на генеральную совокупность результаты, полученные на студентах, которые притворялись психологически неблагополучными (или склонными к социальной желательности), по большей части данное исследование доказывает, что шкалы валидности действительно дифференцируют подобные группы (Baer & Miller, 2002; Rogers, Sewell, Martin, & Vitacco, 2003).
В целом встроенные в тест шкалы валидности могут быть достаточно полезным методом обнаружения у респондента той или иной установки на ответ. Включая подобные шкалы в состав более обширного набора шкал, диагностирующих свойства личности или психопатологические симптомы, разработчики тестов предоставляют пользователям возможность обнаружить потенциально невалидные тестовые баллы и вмешаться тем или иным способом. Несмотря на некоторое беспокойство по поводу применимости данных исследований в реальности, солидное их количество доказывает, что шкалы валидности хорошо работают для дифференциации «намеренно обманывающих» и искренних респондентов.
Использование специализированных тестов для обнаружения установок на ответ и дальнейшего вмешательства
Последний из рассматриваемых нами методов обращения с установками на ответ тесно взаимосвязан с предыдущим. Помимо шкал валидности, встроенных в большие опросники свойств личности или психопатологий, психологами были разработаны отдельные тесты для определения разнообразных типов установки на ответ. Как и встроенные шкалы валидности, такие тесты могут использоваться по-разному – они позволяют пользователям идентифицировать и отсеивать «недобросовестных» респондентов, а также статистически контролировать искажающее влияние установок на ответ.
Тем не менее, такие тесты используются как еще минимум двумя способами. Во-первых, с целью лучше понять сущность установок на ответ, психологи используют такие тесты для изучения их психологических причин и следствий. Измеряя склонность респондента к установке на ответ и коррелируя ее с другими психологическими, поведенческими и демографическими переменными, психологи могут прийти к более глубокому пониманию возможных когнитивных, эмоциональных и мотивационных факторов, которые порождают недобросовестность в ответах. Во-вторых, разработчики и оценщики тестов могут использовать самостоятельные шкалы валидности для оценки той степени, в которой результаты теста находятся под влиянием установки на ответ. Например, они могут обнаружить, что результат нового теста имеет сильную корреляцию с определенной установкой на ответ, и использовать данную информацию для улучшения теста или для того, чтобы предупредить администраторов теста насчет потенциальных проблем.
Широко распространены тесты, призванные измерять индивидуальные различия респондентов в склонности давать социально желательные ответы. Особенно часто используется тест социальной желательности Кроуна-Марлоу (Crowne & Marlowe, 1960). Тест направлен на определение склонности респондента заявлять о наличии у него редких добродетельных качеств и отрицать распространенные недостатки. Он содержит 33 утверждения, такие как «Перед голосованием я тщательно изучаю профессионализм всех кандидатов» (редко встречающееся положительное качество) и «Иногда у меня возникают сомнения в том, смогу ли я добиться успеха в жизни» (распространенный недостаток). Респонденты дают оценку каждому пункту по дихотомической шкале верно/неверно. Если респондент заявляет о наличии многих редких достоинств и отрицает, что имеет большинство распространенных недостатков, тогда его результат рассматривается как свидетельство попытки выглядеть более привлекательно в социальном плане.
Как отмечалось ранее при обсуждении установки на социальную желательность, недавние исследования доказывают, что эта установка более сложна, чем предполагалось в 1940-х, 1950-х, и 1960-х годах (Paulhus, 2002). На одном из этапов своих исследований Paulhus с коллегами разработали Краткий опросник социальной желательности (Brief Inventory of Desirable Responding, BIDR). Последняя исследовательская версия BIDR (Paulhus, 1991) содержит две основных шкалы – шкала «Самообман - улучшение» (20 пунктов) и шкала «Управление впечатлением» (20 пунктов). Кроме того, на сайте авторов приведена дополнительная шкала – «Самообман - отрицание», состоящая из 20 пунктов. Пункты включают в себя самоочевидные утверждения (например, «Я полностью рациональный человек»), на которые нужно ответить по семизначной шкале, варьирующейся от полностью не согласен к полностью согласен. Высокий результат по тесту показывает предрасположенность к ответам в социально привлекательном ключе. Исследования показывают, что BIDR является внутренне согласованным тестом, устойчивым по крайней мере на протяжении 5 недель и способным валидно измерять заявленные конструкты (Paulhus, 1991).
Существуют также тесты, призванные обнаруживать симуляцию неблагополучия в области когнитивных нарушений. Например, Тест на подсчет точек (DCT – Dot Counting Test; Lezak, 1995) включает в себя 12 карточек, на которых расположено различное количество точек. На половине карточек точки сгруппированы, на остальных – изображены в случайном порядке. Испытуемых просят сосчитать точки на каждой карточке как можно быстрее, при этом сами ответы и время выполнения фиксируются администратором. Предположительно, на подсчет точек, изображенных в хаотичном порядке, должно уходить больше времени, чем для систематично сгруппированных точек. Следовательно, подозрение на симуляцию появляется тогда, когда испытуемому требуется одинаковое время на подсчет и сгруппированных, и хаотично расположенных точек. Несмотря на то, что данные исследований противоречивы, основная их часть показывает, что Тест на подсчет точек является потенциально полезным методом обнаружения симуляций когнитивного нарушения (Binks, Gouvier, & Waters, 1997; Boone и др., 2002).
Несмотря на то, что тесты социальной желательности и тесты на склонность к симуляции нарушений более распространены, чем методики диагностики других типов установки на ответ, такие методики все же существуют. Например, Каучем и Кенистом (Couch & Keniston, 1960) был разработан тест для диагностики установки на согласие; впрочем, в своем обзоре методик диагностики различных типов установки на ответ Paulhus (1991) делает вывод о том, что «ни один из инструментов, заявляющихся на измерение общей установки респондента на согласие, не может быть рекомендован исследователю» (с.48). Сходным образом, Greenleaf (1992) критикует литературу, описывающую установку на крайние ответы, за недостаточное внимание к разработке стандартизованного теста, диагностирующего такого рода установку. В самом деле, Greenleaf ссылается на противоречивые результаты, полученные в исследованиях коррелятов установки на крайние ответы, и он обращает внимание на тот факт, что такая неоднозначность может быть частично объяснена тем, что разные исследователи используют разные (невалидизированные) методики диагностики установки на крайние ответы. Несмотря на то, что Greenleaf предлагает свой 16-пунктовый тест установки на крайние ответы, он отмечает, что «необходима разработка более совершенных методик» (с.347).
ВНЕШНИЕ И ВНУТРЕННИЕ ФАКТОРЫ, ОПРЕДЕЛЯЮЩИЕ УСТАНОВКИ НА ОТВЕТ
Данный краткий раздел нацелен на прояснение терминологии, с которой можно столкнуться в психометрической литературе. В данной главе при обсуждении установок на ответ были упомянуты разнообразные варианты того, как респондент может «недобросовестно» отвечать на утверждения теста. Были названы различные факторы, которые могут являться причиной таких недобросовестных ответов. Некоторые из этих факторов являются временными, отражающими характеристики либо ситуации тестирования (например, последствия тестирования), либо самого теста (например, формат теста или неоднозначность формулировок). Такие факторы зачастую называют внешними (или ситуативными) (Paulhus, 1991). Другого рода факторы сильнее связаны с константными характеристиками индивида (например, возможность выглядеть социально желательно беспокоит одних респондентов больше, других - меньше). Такие факторы зачастую называются внутренними (или стилями ответов). Таким образом, установка респондента на тот или иной ответ может быть обусловлена внешними (какими-то характеристиками самой ситуации тестирования) и внутренними (какими-то характеристиками индивидуальности респондента) причинами. Заметьте, однако, что в использовании этих терминов между психологами на настоящий момент не существует единства10.
РЕЗЮМЕ
Как было показано в данной главе, установка респондента на ответ может вносить в результаты теста систематическую ошибку, которая может как снизить психометрическое качество теста, так и исказить психологическую интерпретацию тестовых баллов. Было показано также, что установка респондента на ответ может быть обусловлена характеристиками теста (например, непонятными формулировками или неоднозначными вариантами ответа), характеристиками ситуации тестирования (например, когда от результатов по тесту отчасти зависят серьезные последствия), а также характеристиками самих респондентов (например, склонностью респондента к самообману, податливостью или скрытностью).
Ученые, занимающиеся поведением, хорошо осведомлены насчет данных установок и их влияний на прикладные решения и исследовательские выводы (там, где эти выводы и решения основаны на психологическом тестировании). Для того, чтобы избавиться от проблем, обусловленных установками респондентов на тот или иной ответ, психологами было разработано множество стратегий, направленных либо на предотвращение самого существования таких установок, либо на снижение их влияния на тестовые баллы, либо на их обнаружение и внесение в полученные данные соответствующих поправок.
РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
Основательный обзор изданий по симуляции неблагополучия, особенно в контексте психопатологического тестирования:
Berry, D.T.R., Baer, R.A., Rinaldo, J.C., & Wetter, M.W. (2002). Assessment of malingering. In J.N.Butcher (Ed.), Clinical personality assessment (2nd ed., pp. 269-302). New York: Oxford University Press.
Классический анализ установок на согласие и социальную желательность, посвященный MMPI:
Block, J. (1965). The challenge of response sets: Unconfounding meaning, acquiescence, and social desirability in the MMPI. New York: Appleton-Century-Crofts.
Другая классическая статья из истории психометрических исследований установок респондента на ответ:
Cronbach, L.J. (1946). Response sets and test validity. Educational and Psychological Measurement, 6, 475-494.
Недавний обзор, обобщающий теории и исследования в области сущности и методов оценки социальной желательности за несколько последних десятилетий:
Paulhus, D.L. (2002). Socially desirable responding: The evolution of a construct. In H.Braun, D.N.Jackson, & D.E. Wiley (Eds.), The role of constructs in psychological and educational measurement (pp. 67-88). Hillsdale, NJ: Lawrence Erlbaum.
Анализ метода оценки установки респондента на крайние ответы:
Greenleaf, E.A. (1992). Measuring extreme response style. Public Opinion Quarterly, 56, 328 – 351.
Теория и эмпирическое исследование установки на согласие:
Knowles, E.S., & Condon, C.A. (1999). Why people say “yes”: A dual-process theory of acquiescence. Journal of Personality and Social Psychology, 77, 379 – 386.
