Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Фар, Бакарак - Психометрика (перевод Попова А.Ю.).doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
1.58 Mб
Скачать

Глава 8 валидность теоретические основы

Представьте, что вы подали документы на работу вашей мечты. Вы потратили немало сил, времени и, возможно, денег, чтобы стать достойным кандидатом на эту должность, и, наконец, у вас появилась возможность занять ее. Одним из условий приема на работу в этой компании, является заполнение личностного опросника. Спустя 1-2 недели после подачи документов и заполнения опросника, вам отказывают. Несмотря на то, что этого не было сказано напрямую, вы догадываетесь, что решение компании отчасти основывается на “результатах“ теста, который вы заполняли. Кроме обиды и, возможно, гнева, какую еще реакцию это может вызвать у вас?

Вероятно, у вас возникнут вопросы. Вы задумаетесь над тем, что именно измеряет данный опросник. Есть ли какие-то доказательства, что опросник в действительности является хорошим инструментом измерения того, для чего бы он ни был предназначен? Есть ли какие-то теоретические или логические основания считать, что результаты опросника имеют отношение к тому, как вы будете справляться со своей работой? И самое главное, есть ли достоверные данные, подтверждающие, что результаты опросника действительно являются показателем профессиональной успешности?

В ответ на ваши вопросы менеджер по персоналу скажет, что опросник – весомая и неотъемлемая составляющая процедуры приема на работу. Он может сказать, что компания в течение многих лет пользовалась этим опросником, и заверить вас, что по своему личному опыту знает, что этот тест достаточно точно помогает спрогнозировать, какие именно кандидаты станут хорошими работниками. Однако если тестирование применяется при принятии столь важных решений, необходимо иметь более весомые подтверждения точности и пригодности теста, чем “ свой личный опыт“.

Все эти вопросы относительно опросника – вопросы валидности, которая является, пожалуй, основной проблемой психологических измерений. В данной главе приводится определение валидности, рассматривается ее значение и смысл, а также приводятся основные типы эмпирических свидетельств, используемых при исследовании валидности теста. Кроме того, описываются различия между несколькими подходами к валидности, разводятся понятия валидности и надежности теста, обсуждается важность психометрических исследований валидности. Читателю станет очевидно, что личный опыт человека, проводящего тестирование, не может служить показателем валидности теста.

ЧТО ТАКОЕ ВАЛИДНОСТЬ?

Понятие валидности развивалось на протяжении более 60 лет, и за это время были предложены различные определения. Согласно одному их основных определений, валидность - это “степень того, насколько тест измеряет именно то, для чего он предназначен“. Несмотря на то, что это определение является относительно общепринятым и недвусмысленным, оно несколько поверхностно. Согласно более точному определению, отражающему более современный этап в развитии психометрики, валидность – это «степень эмпирической и теоретической поддержки интерпретации тестовых баллов в предполагаемых сферах использования» теста (AERA, APA, & NCME, 1999, с.9). Из этого более точного определения можно сделать несколько немаловажных выводов.

Во-первых, сам по себе диагностический инструмент не может являться валидным или невалидным. Свойство валидности касается в первую очередь интерпретации тестовых баллов и способов их использования. Рассмотрим в качестве примера шкалу «Добросовестность», входящую в состав пересмотренного личностного опросника NEO Коста и Мак-Крея (NEO-PI-R; Costa & McCrae, 1992). NEO-PI-R – это многофакторный опросник, измеряющий 5 относительно независимых факторов, каждый из которых подразделяется на 6 более узких подшкал. Один из «больших» факторов, измеряемых этим опросником, получил название «Добросовестность». Шкала добросовестности состоит из 48 пунктов1, каждый из которых представляет собой утверждение, касающееся убеждений респондента, его интересов, поведения и т.п. Авторы теста предлагают для этой шкалы довольно четкую интерпретацию результатов. Согласно авторам NEO-PI-R, высокие баллы по данному набору пунктов отражают склонность человека к «активному процессу планирования, организации и выполнения поставленных задач», а также «целеустремленность, решительность и большую силу воли» (Costa & McCrae, 1992, с.16).

Набор пунктов сам по себе не может являться валидным или невалидным. Валидность также не является свойством тестовых баллов, полученных при суммировании 48 пунктов теста. Валидность – это свойство авторской интерпретации тестовых баллов. Корректна ли авторская интерпретация тестовых баллов, полученных на наборе из 48 пунктах, в терминах способности к планированию, организованности и решительности?

Если говорить о валидности не только относительно интерпретации результатов теста, то это понятие можно расширить и на «предполагаемые сферы использования» тестовых баллов. Так, шкала добросовестности опросника NEO-PI-R может применяться работодателем при выборе кандидатов на ту или иную должность. Эксперты в области работы с персоналом могут считать, что кандидаты, набирающие высокий балл по шкале добросовестности, станут ответственными, старательными, мотивированными и надежными сотрудниками. На основе такой интерпретации баллов по данной шкале работодатель может применять ее для выявления кандидатов с высоким уровнем добросовестности и при принятии решений о приеме на работу. Но существует ли объективная причина считать, что баллы по шкале добросовестности действительно служат основанием, по которому можно различать потенциально лучших или худших работников? Другими словами, даже если интерпретация баллов по шкале добросовестности NEO-PI-R в качестве «реальной» добросовестности валидна, означает ли это, что данная шкала дает адекватный прогноз качества будущей профессиональной успешности работника?

Психологический тест можно сравнить с молотком. Вам могут сказать, что молоток - полезный инструмент, однако польза, которую он приносит, зависит от того, для чего он используется. Если вам нужно вбить или вынуть гвоздь из какой-либо поверхности – молоток очень полезен. Если вам нужно во время работы придержать листок бумаги или, например, пробить участок штукатурки в стене, тогда молоток действительно будет очень полезен. Однако если нужно закрутить гайку, распилить дерево, сменить электрическую лампочку или вызвать мастера, чтобы закрыть отверстие в стене, тогда молоток абсолютно бесполезен. Таким образом, слишком грубо и упрощенно говорить, что молоток – полезный инструмент, безотносительного того, для чего он будет использоваться. Так же грубо и упрощенно было бы говорить, что определенный диагностический инструмент, такой как шкала добросовестности в NEO-PI-R, является валидным, не учитывая того, каким образом он будет интерпретирован и использован. Интерпретация баллов по шкале добросовестности в качестве показателя именно добросовестности может быть валидной, кроме того, использование этой шкалы может помочь вам выбрать добросовестного мастера-ремонтника, однако данная шкала не валидна, например, для измерения интеллекта или экстраверсии.

Несмотря на то, что понятие валидности касается именно интерпретации тестовых баллов и сферы их использования, а не самого теста, очень часто можно услышать фразу типа: «шкала добросовестности в NEO-PI-R является валидной». Существует по крайней мере две причины, по которым специалист, применяющий тест, может высказывать такого рода утверждения, противоречащие приведенному выше определению валидности. Во-первых, у психодиагноста может не быть четкого понимания того, что такое валидность. Несмотря на то, что многие психологические тесты, охраняемые авторскими правами, могут приобрести только высококвалифицированные специалисты, не каждый специалист обладает достаточно глубокими познаниями в области психометрики. Вторая причина – это экономия времени. Другими словами, вместо того, чтобы говорить, что «интерпретация баллов по шкале добросовестности NEO-PI-R как эмпирических показателей добросовестности валидна», иногда в целях более лаконичного выражения мысли говорится, что «шкала добросовестности в NEO-PI-R является валидной». Это не должно вносить путаницу. В психодиагностике валидность относится к интерпретации и применению тестовых баллов, но не к самому тесту.

Следующий важный вывод из определения валидности заключается в том, что валидность – это количественная характеристика, и ее нельзя описывать через простое присутствие или отсутствие. Вместо противопоставления «валиден — невалиден» cледует противопоставлять сильную валидность интерпретации теста — слабой. Не существует никакого магического порога, за которым начинается валидность. Для исследователя валидность должна быть решающим фактором при выборе теста. Хотя такой выбор основывается на многих практических, теоретических и психометрических факторах, тест можно выбирать только при наличии достаточно достоверных доказательств, говорящих в пользу предполагаемой интерпретации и области применения. Либо же исследователю может понадобиться сделать выбор из нескольких тестов, тогда необходимо взвесить, насколько надежными являются эмпирические свидетельства, на которых эти тесты основываются. Например, работодатель для диагностики надежности, ответственности и мотивации кандидатов может применять целый ряд тестов и шкал. Шкала добросовестности NEO-PI-R – разумный выбор, но работодателю необходимо принять во внимание и альтернативные варианты, которые могут даже больше подходить для измерения именно тех характеристик, которые интересуют заказчика.

Третьим важным аспектом валидности является то, что валидность интерпретации теста основывается как на теории, так и на эмпирических данных. В гипотетическом примере, приведенном в начале этой главы, менеджер по персоналу утверждает, что знает пользу используемых тестов по собственному опыту. Это не может служить достаточным основанием. Для того чтобы быть уверенным в интерпретации и использовании результатов теста, необходимо эти способы интерпретации и использования теста подвернуть эмпирической проверке. Кроме того, в современных подходах к проблеме валидности подчеркивается необходимость обоснования предполагаемых интерпретаций и способов применения теста с позиций солидной психологической теории.

Хотя многие основательно разработанные психодиагностические инструменты имеют достаточное количество эмпирических свидетельств в пользу валидности их типичных интерпретаций, многие таких свидетельств все же не имеют. Например, одна из популярных методик «оценки» личности - анализ почерка. Несмотря на популярность и долгую историю анализа почерка, научных данных, прошедших экспертную оценку, недостаточно для того, чтобы утверждать, что почерк что-то говорит о личности. В настоящее время в Интернете можно найти множество тестов, претендующих на статус диагностического инструмента. Например, один из них известен под названиями «Цветовой тест», «Цветогеника» и «Личностный цветовой тест». Такого рода тесты якобы основаны на «цветовой психологии», разработанной Максом Люшером (Luscher & Scott, 1969). При прохождении «Цветового теста» респонденту предлагается 8 цветов, необходимо выбрать наиболее предпочитаемые (см. http://www.colorquiz.com/). После совершения этой процедуры дважды респондент получает ряд интерпретаций относительно «источников стресса», «подавленных характеристик», «желаемых целей» и «текущих проблем». Идея о том, что цветовые предпочтения говорят что-то о личности респондента, достаточно интересна, но является ли интерпретация цветовых предпочтений валидной? Обзор научной литературы не дает практически никаких оснований считать цветовые предпочтения валидными в качестве инструмента, измеряющего личностные характеристики (напр., Picco & Dzindolet, 1994).

Учитывая, что научных оснований для того, чтобы считать цветовые предпочтения валидными для измерения личности, мало, интересно рассмотреть «эмпирические свидетельства», представленные на сайте Цветового теста (см. http://www.colorquiz.com/about.html). В рубрике для заинтересованных читателей на сайте есть вопрос: «Является ли тест надежным?». Полагаем, что авторы веб-сайта используют этот термин не в строго психометрическом смысле (см. предшествующие главы) и имеют в виду не надежность, а валидность, т.е. вопрос о том, имеет ли тест смысл и является ли он полезным в качестве инструмента для измерения личностных свойств. Зная об очевидном недостатке научных подтверждений валидности цветовых предпочтений в качестве инструмента диагностики личностных свойств, читатель, возможно, не удивится ответу, предложенному на сайте. Относительно качества «Цветового теста» авторы говорят: «Мы оставляем его на ваше усмотрение. Единственное, что мы можем сказать, это то, что ряд корпораций и университетов используют тест Люшера при зачислении или приеме на работу». Очевидно, авторы сайта подразумевают, что Цветовой тест – это валидный инструмент для измерения некоторых аспектов личности и что его результаты используются для принятия решений относительно живых людей. Очевидно, однако, что менеджер по персоналу, использующий любую из версий Цветового теста, должен быть готов защищать свое решение в суде. Поскольку очевидно, что научные доказательства валидности теста как показателя свойств личности весьма незначительны, у кандидатов, которым было отказано в приеме на работу на основании результатов тестирования, есть законные основания быть недовольными и подать в суд.

Современное понимание валидности требует теоретических и эмпирических данных, подтверждающих ту или иную интерпретацию тестовых баллов. Например, существуют ли убедительные данные, показывающие, что респонденты, набравшие относительно большое количество баллов по шкале добросовестности NEO- PI-R, действительно являются более добросовестными, чем респонденты, набравшие по этой шкале относительно небольшое количество баллов? Есть ли доказательства того, что студенты, хорошо справившиеся с тестом академических способностей SAT2, в действительности получают более высокие отметки, чем те, кто справился с ним несколько хуже? Стоит ли за утверждением «ряд корпораций и университетов используют тест Люшера при зачислении или приеме на работу» что-то, подтверждающее идею о том, что цветовые предпочтения действительно отражают какие-то свойства личности? Несмотря на то, что Люшер, возможно приводил теоретические основания полагать, что цвет каким-то образом относится к личности, такая теория не является достаточным основанием для того, чтобы считать Цветовой тест валидным личностным опросником. Чтобы быть уверенным в валидности интерпретаций теста, необходимы эмпирические данные. Эти данные должны быть получены из высококвалифицированного исследования, и они должны служить доказательством валидности определенных интерпретаций тестовых баллов.

В следующих разделах будут рассмотрены различные виды доказательств и свидетельств, которые могут служить основанием для выводов о валидности интерпретаций теста. Как уже говорилось, понятие валидности развивалось в течение многих лет. Многие годы в сферах психологии и образования понятие валидности рассматривалось как состоящее из трех компонентов. В таком традиционном подходе выделяется 3 вида валидности – содержательная, критериальная и конструктная. Рассмотрены будут все эти виды валидности, однако особое внимание будет уделено современной точке зрения, которая отводит особую роль конструктной валидности (Messik, 1993). Конструктная валидность – это степень того, насколько тестовые баллы могут интерпретироваться как эмпирический показатель определенного психологического конструкта. В 1999 году современная точка зрения на тестирование была представлена тремя крупнейшими организациями в сфере психологии и образования: Американской ассоциацией исследований в области образования (AERA), Американской психологической ассоциацией (APA) и Национальным советом по диагностике в образовании (NCME). Данные три организации опубликовали новую версию Стандарта образовательного и психологического тестирования. В этом документе были выделены пять типов эмпирических свидетельств, имеющих отношение к оценке валидности интерпретации тестовых баллов (AERA, APA, NCME, 1999). Общая конструктная валидность интерпретации тестовых баллов зависит от содержания теста, внутренней структуры теста, психологического процесса, задействованного при ответах на пункты теста, взаимосвязей между баллами теста и другими переменными, а также от последствий использования теста.

Рисунок 8.1. Современный взгляд на показатели, имеющие отношение к валидности теста

ЭМПИРИЧЕСКИЕ СВИДЕТЕЛЬСТВА ВАЛИДНОСТИ: СОДЕРЖАНИЕ ТЕСТА

В одном из типов валидности оценивается степень совпадения между действительным содержанием теста и тем содержанием, которое должно быть в него вложено. Если тест будет интерпретироваться как отражающий определенный психологический конструкт, в его содержании должны быть отражены все основные составляющие данного конструкта. Предполагаемая природа конструкта должна предписывать соответствующее содержание теста. Данный тип валидности иногда называют содержательной, однако существуют два фактора, которые могут поставить содержательную валидность под сомнение.

Угрозы содержательной валидности

Первая угроза содержательной валидности возникает тогда, когда в тесте присутствует нерелевантное конструкту содержание. Тест не должен содержать заданий или вопросов, не имеющих отношения к конструкту, который лежит в основе интерпретации тестовых баллов. Представьте, что вас попросили разработать для студентов срезовый тест знаний по психологии личности, направленный на измерение «знаний Фрейда» в том объеме, который студенты получали на лекциях, семинарах и дискуссиях. В процессе обучения затрагивались три широкие темы – структура личности (ид, эго, суперэго), стадии развития личности и защитные механизмы. В идеале срезовый тест знаний должен содержать задания на три эти темы, ни больше и ни меньше. Например, в тесте не должно быть вопросов, касающихся биографии Фрейда, так как они не рассматривались в процессе аудиторной работы и, следовательно, нерелевантны, т.к. не имеют отношения к конструкту «знания Фрейда, полученные на лекциях, семинарах и дискуссиях». Содержание теста, отражающее проблемы, характеристики или понятия, не имеющие отношения к конструкту, называют конструктно-нерелевантным. Такое содержание не связано с ключевым конструктом, измеряемым при интерпретации теста, и включение в тест такого рода заданий снижает валидность.

Следующей угрозой содержательной валидности теста является недостаточная представленность конструкта. Хотя тест и не должен содержать заданий, выходящих за рамки ключевого конструкта, он должен включать в себя по возможности весь объем содержания, имеющего отношение к конструкту. Тест, предназначенный для оценки «знаний Фрейда, полученных на лекциях, семинарах и дискуссиях», должен содержать задания по всем трем темам, пройденным в курсе. Тест, содержащий задания только на структуру личности и стадии психосексуального развития, будет иметь слабую валидность в качестве показателя «знаний Фрейда, полученных на лекциях, семинарах и дискуссиях», т.к. он не содержит заданий на тему «защитные механизмы». Недостаток такого теста заключается в недостаточной представленности конструкта, означающей, что содержание теста не включает в себя полный спектр заданий, необходимых для полного отображения содержания конструкта. Словом, тест должен содержать полный спектр заданий, отражающих ключевой конструкт, - ни больше и ни меньше.

В действительности создателям и пользователям теста приходится находить компромисс между идеальной содержательной валидностью и ситуацией реального тестирования. Выше говорилось о том, что тест должен включать в себя задания, представляющие собой адекватную выборку из релевантного конструкту содержания (ни больше и ни меньше). Однако четких правил для определения того, что является «адекватной выборкой», не существует. На практике у создателя теста может не быть возможности включить в содержание теста задания, в равной степени тщательно отражающие все аспекты и нюансы изучаемого конструкта. Например, создатель теста для оценки «знаний Фрейда, полученных на лекциях, семинарах и дискуссиях» должен учитывать тот факт, что на выполнение теста у студентов может быть всего 50 минут. Таким образом, он может быть вынужден включать в тест задания, отражающие лишь некоторые из изученных со студентами содержательных областей. Например, он может включить вопросы касательно только трех стадий из теории развития личности Фрейда. Таким образом, тест может не отражать всех возможных аспектов конструкта, но остается надежда, что выбранные задания все же отражают исходный конструкт достаточно полно. Словом, на степень полноты содержания, включаемого в тест, накладывают ограничение такие факторы, как продолжительность тестирования, утомление респондентов, распределение их внимания и т.д.

Содержательная валидность и очевидная валидность

С содержательной валидностью тесно связана очевидная валидность. Очевидная валидность – это степень того, насколько тест взаимосвязан с определенным конструктом с точки зрения человека, не располагающего специальными сведениями, например, испытуемого или представителя правовой системы. Таким образом, если испытуемому содержание теста кажется релевантным, тест обладает очевидной валидностью. Очевидная валидность, как правило, не считается важным психометрическим свойством теста, т.к. мнение неспециалистов не имеет прямого отношения к его эмпирическому и теоретическому качеству.

Хотя очевидная валидность, возможно, не является решающей с психометрической точки зрения, она может иметь важные последствия для практического применения теста. Очевидное значение и релевантность содержания теста может повлиять на мотивацию испытуемых отвечать серьезно и честно. Например, рассмотрим психологический опросник, предлагаемый кандидатам на работу в правоохранительные органы. Кандидаты могут предполагать, что такой опросник должен включать вопросы и задания на решение проблем, навыки общения, надежность, трудовую этику и т. д. Если в действительности опросник включает вопросы относительно сексуальных установок или семейной истории, тогда у кандидатов на работу могут возникнуть вопросы относительно законности и релевантности проводимой процедуры. Как следствие, многие респонденты могут отвечать либо беспорядочно, либо стремясь показать себя исключительно с положительной стороны, либо же вообще отказаться заполнять опросник. Польза от такого тестирования будет весьма сомнительной. Таким образом, тест, обладающий высокой очевидной валидностью, будет лучше воспринят и испытуемыми, и потенциальными пользователями и администраторами самого теста.

Разница между содержательной и очевидной валидностью очень важна. Содержательная валидность – это то, насколько содержание теста в действительности отражает все аспекты конструкта (ни больше и ни меньше), на измерение которого он направлен. В каком-то смысле содержательную валидность могут оценить только специалисты, имеющие глубокое понимание конструкта, на измерение которого направлен тест. В наилучшем положении для оценки качества теста, направленного на измерение психологического конструкта из определенной содержательной области, находятся специалисты именно в этой области знаний. Очевидная валидность - это степень, в которой неспециалисты считают тест релевантным тому, для измерения чего (как им кажется) он предназначен. Хотя представления респондентов о тесте могут повлиять на их мотивацию и правдивость при выполнении заданий, они не так часто располагают знаниями о теоретическом и эмпирическом значении оцениваемого психологического конструкта. Таким образом, важным типом эмпирических свидетельств общей конструктной валидности теста является именно содержательная, а не очевидная валидность.

ЭМПИРИЧЕСКИЕ СВИДЕТЕЛЬСТВА ВАЛИДНОСТИ: ВНУТРЕННЯЯ СТРУКТУРА ТЕСТА

Следующий вопрос, относящийся к валидности интерпретаций результатов теста, касается внутренней структуры теста. Внутренняя структура теста - это соотношение частей теста между собой. Например, в некоторых тестах все пункты сильно коррелируют друг с другом, в то время как в других тестах взаимосвязи пунктов делятся на две и более группы. Как будет показано ниже, теоретические основы конструкта несут предпосылки для внутренней структуры теста, измеряющего этот конструкт. Таким образом, важным вопросом валидности является соответствие между действительной внутренней структурой теста и той, которой он должен обладать. Для того чтобы тест мог быть валидно интерпретирован как инструмент измерения определенного конструкта, необходимо, чтобы его внутренняя структура совпадала с теоретически обоснованной структурой конструкта.

Допустим, у исследователя возникло желание оценить методики диагностики самооценки. Пожалуй, наиболее часто для измерения самооценки в психологических исследованиях используется Опросник самооценки Розенберга (RSEI; Rosenberg, 1989). RSEI зачастую применяется для измерения одного внутренне связного конструкта – общей самооценки (global self-esteem). Общая самооценка – это оценка испытуемым собственной ценности «в целом», а RSEI включает в себя 10 пунктов, таких как «Я хорошо к себе отношусь» и «Иногда мне кажется, что я совсем ни на что не годен» (обратите внимание, это утверждение обращено). Исследователи, которые собираются интерпретировать баллы RSEI в качестве инструмента, измеряющего общую самооценку, должны ожидать, что среди этих 10 пунктов существует определенная структура. В данном случае если исследователь на теоретических основаниях полагает, что общая самооценка является единым внутренне связным конструктом, а опросник RSEI является валидным инструментом диагностики самооценки, по результатам психометрического исследования должно обнаружиться, что все пункты теста сильно коррелируют друг с другом, образуя единую тесно связанную группу пунктов. Таким образом, если RSEI действительно является валидным инструментом диагностики общей самооценки, тогда ответы на пункты теста должны демонстрировать одномерную структуру, согласующуюся с теоретическим определением конструкта.

Для другой методики диагностики самооценки ожидания исследователя могут быть несколько иными. Речь идет о Многомерном опроснике самооценки (The Multidimensional Self-Esteem Inventory (MSEI; O'Brien & Epstein, 1988)), созданном для диагностики как общей самооценки, так и восьми частных ее компонентов. Авторы теста утверждают, что концептуальная модель, лежащая в основе MSEI, разделяет иерархию самооценки на два основных уровня. Первый уровень соответствует общей самооценке. Он относится к наиболее базовым обобщенным оценочным чувствам респондента по отношению к самому себе. Второй уровень соответствует оценочным суждениям среднего уровня обобщенности, которые называют компонентами самооценки (с.7).

Этот теоретический подход к самооценке был основан на более ранних исследованиях, показавших, что на самооценку в первую очередь оказывают влияние компетентность, симпатии окружающих, любовь окружающих, личная активность, моральное самоодобрение, внешняя привлекательность и физические возможности. Таким образом, авторы утверждают, что данные факторы в совокупности выражают большинство событий в жизни личности, как правило, оказывающих влияние на самооценку.

Если баллы MSEI могут валидно интерпретироваться как показатели данных компонентов самооценки, тогда ответы на пункты теста должны демонстрировать особую структуру, соответствующую многоуровневому концептуальному определению конструкта. Другими словами, пункты теста MSEI должны образовывать несколько различных групп; они не должны образовывать единую внутренне связную группу. Фактически, пункты должны объединиться в такие группы, которые более или менее точно соответствуют каждому из компонентов конструкта.

Как говорилось в Главе 4, для оценки внутренней структуры (т.е. размерности) психологических тестов исследователи зачастую применяют статистическую процедуру, называемую факторным анализом. Некоторые пункты теста могут более сильно коррелировать друг с другом, чем с остальными пунктами, и как следствие образовывать группы пунктов, называемые измерениями или факторами. Факторный анализ помогает выявить в наборе пунктов определенные факторы и исследовать из природу.

Как вы помните, факторный анализ позволяет работать по крайней мере с тремя фундаментальными проблемами, имеющими отношение к внутренней структуре теста. Во-первых, с его помощью можно выяснить, какое количество факторов содержится в том или ином наборе пунктов. Многие специалисты в области социальной психологии и психологии личности считают общую самооценку единым внутренне связным конструктом. Следовательно, если RSEI в действительности может валидно интерпретироваться как инструмент диагностики общей самооценки, тогда ответы респондентов на 10 пунктов теста должны объединяться в один фактор. Если факторный анализ покажет, что пункты RSEI образуют 2 или более факторов, валидность RSEI в качестве инструмента, измеряющего общую самооценку, попадет под сомнение. Таким образом, при оценке внутренней структуры теста число факторов является немаловажным аспектом.

Чтобы это продемонстрировать, рассмотрим ответы на пункты RSEI ста сорока девяти студентов. Собранные данные были подвергнуты факторному анализу, после чего был рассмотрен график каменистой осыпи (см. Рис. 8.2). Как вы помните, график каменистой осыпи – это графическое представление собственных чисел факторов, которые, в свою очередь, зачастую используются в процессе принятия решения относительно количества факторов, содержащихся в наборе пунктов. На данном графике исследователь сперва ищет относительно большой «обрыв» между точками. Как видно на Рисунке 8.2, относительно большой «обрыв» наблюдается между первой точкой (расположенной по оси собственных чисел приблизительно на значении 5.2) и второй (расположенной по оси собственных чисел приблизительно на значении 1.1), остальные «обрывы» между соседними значениями по оси собственных чисел относительно малы. Тот факт, что относительно большой «обрыв» наблюдается после первой точки, служит доказательством одномерной структуры данных (ответов респондентов на пункты RSEI). Поскольку полученный результат соответствует теоретическим ожиданиям, он служит доказательством того, что внутренняя структура RSEI свидетельствует о валидности этого теста в плане диагностики общей самооценки.

Вторая проблема, решаемая с помощью факторного анализа - обнаружение связей между факторами / измерениями внутри многомерного теста. Как уже было сказано, в виде многомерного теста, исследующего несколько компонентов самооценки, создавался опросник MSEI. Если исследователь полагает, что все компоненты самооценки независимыми, то в таком многомерном тесте должны обнаружиться шкалы, которые не коррелируют между собой. Однако если согласно теории компоненты самооценки каким-то особым образом связаны между собой, факторный анализ поможет обнаружить эти связи.

Чтобы исследовать эти взаимосвязи, авторы теста MSEI провели факторный анализ (O'Brien & Epstein, 1988, с.15-16). Этот анализ привел к обнаружению в MSEI интересной трехфакторной структуры шкал. При помощи ортогонального вращения исследователи обнаружили, что некоторые шкалы MSEI (например, «общая самооценка», «компетентность», «личная активность»), объединяются и образуют фактор «глобальной самооценки», который авторы интерпретируют отчасти как отражающий «способность активно и напрямую влиять на мир, демонстрируя свои возможности, способности к лидерству, физическую ловкость и самодисциплину» (с.16). Другие шкалы MSEI (например, «симпатии окружающих», «любовь окружающих») объединились в фактор «социальной самооценки», которая, по интерпретации авторов, «зависит от обратной связи со стороны окружающих, а также одобрения или неодобрения, получаемого от значимых личностей» (с.16). Еще две шкалы («моральное самоодобрение» и «защитное самоусиление») объединяются и образуют фактор «защитное поведение и личная самооценка», который, по мнению авторов, «далеко не так значим, как объективная или ощутимая обратная связь со стороны общества» (с.16)

Третьей основной целью использования факторного анализа в связи с валидостью является определение того, какие пункты относятся к какому фактору. Во время разработки теста концептуальное понимание конструкта приводит исследователя к формулировке специфических пунктов, отражающих определенные аспекты конструкта. Таким образом, чтобы оценить качество теста, необходимо убедиться в том, что пункты, предназначенные для измерения определенного фактора, действительно относятся именно к этому фактору и ни к какому другому. Как вы помните, такого рода оценка производится на основании рассмотрения факторных нагрузок, каждая из которых выражает взаимосвязь пункта с фактором.

Так, например, авторы MSEI предоставляют результаты факторного анализа всех пунктов своего опросника (O'Brien 8; Epstein, 1988, с.14-15). Ими было показано, что практически каждый пункт теста тесно связано с тем компонентом конструкта, на измерение которого он и был изначально задуман, и слабо взаимосвязан со всеми остальными компонентами. Например, 10 пунктов, сформулированных на шкалу «компетентность», оказались четко взаимосвязанными с соответствующим фактором (и ни с одним другим). Сходным образом, 10 пунктов, формулировавшихся на шкалу «самоодобрение», оказались взаимосвязанными именно и только с этой шкалой. Тем не менее, результаты анализа не были безупречными. Например, несмотря на то, что 10 пунктов, входящих в шкалу «внешняя привлекательность», оказались взаимосвязанными именно и только с этой шкалой, в соответствующий фактор «внешняя привлекательность» вошли также 2 пункта, задумывавшиеся для шкалы «общая самооценка», и 3 пункта, первоначально отнесенных исследователями к шкале «симпатии окружающих». Несмотря на некоторое несовершенство внутренней структуры MSEI, авторы в целом довольны тем, что факторный анализ предоставляет эмпирическую поддержку в пользу валидности внутренней структуры теста.

В целом внутренняя структура теста – важный аспект конструктной валидности. Внутренняя структура теста должна соответствовать структуре конструкта, на измерение которого направлен тест. Как правило, внутреннюю структуру анализируют при помощи корреляций между пунктами теста и подшкалами теста (если таковые имеются), для этого исследователи часто прибегают к факторному анализу.

ЭМПИРИЧЕСКИЕ СВИДЕТЕЛЬСТВА ВАЛИДНОСТИ: ПРОЦЕСС ОТВЕТА РЕСПОНДЕНТА НА ПУНКТ

Третий тип свидетельств валидности – совпадение между психологическими процессами, которые респонденты в действительности задействуют в процессе выполнения теста, и теми процессами, которые они должны задействовать. Многие психологические тесты основаны на определенных допущениях относительно психологических процессов, используемых респондентами при ответах на пункты (задания, вопросы или утверждения) теста. Например, исследователь, разрабатывающий методику на экстраверсию, может включить в нее такое утверждение, как «Я часто хожу на вечеринки», предполагая, что респондент прочитает это утверждение, вспомнит то количество раз, которое он бывал на вечеринках, и решит, можно ли это число назвать «часто». Если респондент не следует этой схеме действий, тогда тестовые баллы нельзя будет интерпретировать в полном соответствии с тем, как это намеревался делать исследователь.

Сложно уловимый процесс ответа респондента на пункт иллюстрируется недавним исследованием, посвященным влиянию депривации контроля на когнитивную успешность. В предшествующих исследованиях было показано, что люди, лишенные возможности осуществлять достаточный контроль результатов при выполнении одного задания, показывают ухудшенные результаты при выполнении следующих. В исследовании испытуемые сначала выполняли задание, во время которого некоторые из них могли осуществлять контроль над шумом, а другие - нет. При условии «контроль над шумом» все испытуемые находились в обстановке громкого гудящего шума, и им нужно было выучить последовательность клавиш, которая помогает на время этот шум уменьшать. Во время выполнения задания половине испытуемых нужно было выучить очень простую последовательность, что гарантировало, что в конце концов они смогут контролировать шум. Второй половине была предложена последовательность, которую было невозможно выучить, что гарантированно вело к тому, что они не могли в достаточной степени контролировать шум. После задания на контроль шума всем испытуемым было предложено выполнить ряд словесных заданий. Им выдали список слов, где спутаны буквы (например, афинм), и нужно было восстановить исходное слово (например, нимфа). Испытуемых попросили выполнять задания по очереди и переходить к следующему только после выполнения предыдущего. За показатель когнитивной успешности было взято общее число слов, которые были верно распознаны. По гипотезе исследователей лишение возможности контролировать шум должно было ослабить внимание, что привело бы к более низким результатам при расшифровке слов.

Задумайтесь на минуту о том, какие умственные действия должны были выполнять испытуемые по предположению исследователей. Исследователи предположили, что испытуемым понадобится сосредоточить когнитивные ресурсы внимания на заданиях со словами. Хотя такие когнитивные факторы, как интеллект и предшествующий опыт, также влияют на выполнение заданий со словами, эти факторы были взяты за постоянные, так как участники групп выбирались в случайном порядке. Таким образом, исследователи предположили, что в случае, если между группами обнаружится разница в среднем количестве верно расшифрованных слов, это произошло потому, что лишение участников возможности контролировать шум приведет к снижению способности полностью сконцентрировать внимание на заданиях со словами. Ослабление когнитивных ресурсов снизит способность испытуемых концентрироваться на заданиях со словами, что в свою очередь приведет к низким успехам при выполнении этих заданий.

Результаты не подтвердили ожиданий. Участники, лишенные возможности контролировать шум, выполнили такое же количество заданий со словами, что и те, кто не был лишен возможности контроля. Многие исследователи приняли бы это как данные, опровергающие гипотезу о влиянии депривации контроля на когнитивную успешность. Однако ученые, проводившие это исследование, обратили пристальное внимание на сам процесс выполнения испытуемыми когнитивных задач со словами. Изучая ответы испытуемых, исследователи увидели, что не все следовали инструкции и переходили к следующему слову только после расшифровки предыдущего. То есть некоторые участники забыли об инструкции или сознательно решили ее игнорировать. Внимательное рассмотрение показало разницу между группами в степени «хитрости» поведения испытуемых: по сравнению с группой, имевшей возможность контролировать шум, в противоположной группе «хитрило» большее количество участников.

О чем говорит этот результат в свете психологических процессов, влияющих на измерение показателя когнитивной успешности? Хотя исследователи предполагали, что разница в результатах когнитивной деятельности преимущественно будет отражать различия в процессах внимания, исследование показало по крайней мере один дополнительный процесс, оказавший влияние на успешность когнитивной деятельности. В частности, на когнитивную успешность оказал влияние фактор «выполнение инструкции»: испытуемые, которые «хитрили», могли расшифровать большее количество слов. Возможно, гипотеза о том, что депривация контроля ухудшает внимание и, следовательно, снижает когнитивную успешность, в действительности была верной, но участники группы, лишенной возможности контроля, «хитрили», в результате чего их показатели когнитивной успешности оказались завышенными.

Надеемся, данный пример проясняет немаловажное положение о том, что конструктная валидность частично может оцениваться с позиций психологических процессов, задействованных во время ответа респондента на пункт. В приведенном выше примере валидность задач со словами как показателя основанной на внимании когнитивной успешности была невысокой. Пристальное рассмотрение собранных эмпирических данных показало, что на выполнение задач со словами мог повлиять также такой фактор, как соблюдение (или несоблюдение) испытуемым экспериментальной инструкции. В целом в отношении исходной гипотезы данное исследование не является завершенным, однако внимание ученых к психологическим процессам, протекающим в сознании респондентов во время выполнения диагностических заданий, поднимает весьма интригующие вопросы о взаимосвязи между депривацией контроля и соблюдением правил и инструкций.

ЭМПИРИЧЕСКИЕ СВИДЕТЕЛЬСТВА ВАЛИДНОСТИ: ВЗАИМОСВЯЗИ С ДРУГИМИ ПЕРЕМЕННЫМИ

Четвертый тип эмпирических свидетельств валидности – взаимосвязи между баллами валидизируемого теста и другими переменными. Современный взгляд на проблему валидности предполагает повышенное внимание к теоретическому содержанию конструкта, который, как предполагается, лежит в основе интерпретации тестовых баллов. Если тестовые баллы респондента интерпретируются как выражающие определенный психологический конструкт, теоретическое понимание этого конструкта должно создать у исследователя некоторые ожидания относительно закономерностей взаимосвязи тестовых баллов с другими переменными.

Например, если опросник самооценки Розенберга (RSEI), как предполагается, измеряет общую самооценку, следует основательно проанализировать природу и сущность общей самооценки как психологического феномена. Исследователю необходимо ответить на вопрос о том, каким образом общая самооценка взаимосвязана с такими психологическими конструктами, как ощущение счастья, депрессия, интеллект, социальная мотивация, ассертивность и т.д. Теоретическое понимание самооценки может привести исследователя к мысли о том, что люди с высоким уровнем самооценки должны быть относительно счастливыми, высокомотивированными на социальные взаимодействия, а также не должны испытывать депрессию. Кроме того, теоретическое содержание конструкта предполагает, что самооценка не связана с интеллектуальными способностями – в среднем интеллект людей с низкой самооценкой настолько же развит, как и интеллект людей с высокой самооценкой. Таким образом, теоретическое наполнение конструкта подсказывает исследователю определенный паттерн взаимосвязей между самооценкой и рядом других переменных. Если баллы по опроснику RSEI действительно могут интерпретироваться как показатель самооценки, между этими баллами и такими параметрами, как ощущение счастья, депрессия, социальная мотивация и интеллект, должен обнаружиться определенный паттерн взаимосвязей.

Таким образом, четвертый тип эмпирических свидетельств валидности касается соответствия между тем, какие корреляции теста с другими переменными были обнаружены, и тем, какие корреляции должны были обнаружиться. Если наблюдаемый паттерн корреляции с другими тестами в целом соответствует теоретически предсказанному, это является свидетельством в пользу валидности интерпретации теста как показателя исследуемого конструкта. Представим, например, что было проведено исследование, в котором респондентов (помимо RSEI) просили заполнить тесты на ощущение счастья, депрессию, социальную мотивацию и интеллект. Если обнаруживается, что RSEI и в самом деле положительно взаимосвязан с ощущением счастья и социальной мотивацией, отрицательно взаимосвязан с депрессией и не коррелирует с интеллектом, уверенность в том, что баллы теста RSEI можно валидно интерпретировать как показатель самооценки, повышается. И наоборот, если наблюдаемый паттерн корреляции с другими тестами не соответствует теоретически предсказанному, это является свидетельством против валидности интерпретации теста как показателя исследуемого конструкта. Если обнаруживается, что баллы по тесту RSEI не коррелируют с ощущением счастья и социальной мотивацией, уверенность исследователя в валидности интерпретации тестовых баллов с позиций самооценки уменьшается.

При оценке паттерна корреляций между валидизируемым тестом и другими переменными рассматривается конвергентная валидность. Конвергентная валидность – это степень взаимосвязи баллов валидизируемого теста с показателями сходных психологических конструктов. В примере с тестом RSEI на теоретических основаниях предполагалось, что общая самооценка связана с ощущением счастья и социальной мотивацией. Кроме того, теоретически ожидалась обратная взаимосвязь между самооценкой и депрессией. Таким образом, если в исследовании обнаруживается, что самооценка действительно связана с ощущением счастья, социальной мотивацией и (отрицательно) с депрессией, можно утверждать, что были получены эмпирические свидетельства конвергентной валидности теста.

Зачастую при оценке валидности интерпретации тестовых баллов исследователи просят респондентов заполнить несколько тестов, направленных на измерение одного и того же конструкта. К примеру, можно было бы попросить респондентов, помимо RSEI, заполнить опросник самооценки Куперсмита (Coopersmith, 1967/1981) и Многомерный опросник самооценки MSEI. Естественно, между баллами по тесту RSEI и этими другими опросниками на самооценку ожидаются сильные положительные взаимосвязи. Если этого не происходит, в валидности теста RSEI как показателя самооценки можно усомниться. Кроме того, для оценки теста используются ответы «информантов». Например, можно было бы попросить каждого из респондентов назвать одного близкого знакомого, а затем раздать этим близким знакомым тест, в котором необходимо отвечать на вопросы о самооценке респондента. Хотя в данном случае и не ожидалось бы чрезмерно высокого коэффициента корреляции, между самоописанием респондента и экспертной оценкой со стороны его близкого знакомого можно ожидать по крайней мере положительную взаимосвязь. Другими словами, ожидалось бы, что мнения самих респондентов и суждения их близких знакомых совпадут. В целом можно сказать, что конвергентная валидность зачастую выражается в форме корреляционных взаимосвязей между различными способами измерения одного конструкта.

Оценивая паттерн взаимосвязей между валидизируемым тестом и другими переменными, необходимо также изучить свидетельства дивергентной валидности3. Дивергентная валидность – это степень того, насколько тестовые баллы не взаимосвязаны с показателями других конструктов, не связанных с исследуемым. В приведенном примере на теоретических основаниях предполагалось, что общая самооценка не связана с интеллектом. Таким образом, в исследовании должно обнаружиться, что баллы респондентов по RSEI не коррелируют (или слабо коррелируют) с показателями интеллектуальных способностей. Если же в исследовании обнаруживается, что баллы по RSEI и интеллект положительно взаимосвязаны, это является свидетельством недостаточной дивергентной валидности RSEI как показателя самооценки. В данном случае RSEI, похоже, измеряет нечто большее, чем самооценку.

Дивергентная валидность – важное и в чем-то непростое понятие. Независимо от того, являются ли цели тестирования исследовательскими или прикладными, пользователи теста должны быть уверены в том, что им точно известно, какая именно психологическая переменная измеряется. Рассмотрим гипотетическое исследование, которое могло бы быть проведено специалистом по психологии развития. Исследователя интересует взаимосвязь между самооценкой и способностями к обучению. Он просит выборку старшеклассников заполнить опросник RSEI, а также получает у них разрешение на использование их баллов успеваемости в школе. Исследователь вычисляет корреляцию между баллами по тесту RSEI и средним баллом успеваемости, коэффициент корреляции равен 0.40. Интерпретируется это так: ученики, обладающие относительно высокой самооценкой, имеют тенденцию хорошо учиться в школе. На основе такого рода исследования можно даже сделать вывод о том, что школам следует вкладывать дополнительные ресурсы в развитие самооценки учеников. Результаты и выводы исследования могут признать имеющими важность для теоретической психологии, кроме того, эти выводы могут повлиять на распределение школьного бюджета.

Перед тем, как безоговорочно верить выводам, сделанным по результатам исследования, необходимо внимательно проанализировать использованные методы, в том числе дивергентную валидность теста, который (предположительно) измеряет самооценку. Истинность сделанных выводов отчасти зависит от диверегнтной валидности RSEI как показателя общей самооценки. В случае, если тестовые баллы RSEI коррелируют с коэффициентом интеллекта, можно утверждать, что RSEI обладает низкой дивергентной валидностью и измеряет (хотя бы частично) также и интеллект. Таким образом, корреляцию, полученную в исследовании, можно было бы объяснить с позиций того, что ученики, обладающие более выраженными интеллектуальными способностями, имеют тенденцию лучше учиться в школе. В самом деле, возможно, что самооценка на самом деле совсем не связана с успеваемостью, и исследователь в своих выводах допустил серьезную ошибку. Такого рода ошибка могла бы пагубно сказаться как на теоретической психологии, так и на использовании и без того ограниченных школьных ресурсов.

При оценке этого типа эмпирических свидетельств валидности выделяют также конкуррентную валидность и прогностическую. Конкуррентная валидность выражает степень корреляции баллов валидизируемого теста с другими переменными, измеренными одновременно с проведением тестирования по основной методике. Так, например, Интернет-сайт Совета колледжей (компании, которая проводит тестирование по тесту SAT), содержит информацию о том, что субтест SAT на логическое мышление «является мерой тех навыков критического мышления, которые понадобятся вам для достижения успеха при обучении в колледже» (College Board, 2006). Как оценить валидность теста SAT как показателя навыков, необходимых для успешной учебы? Одна из возможностей – протестировать с помощью SAT респондентов-старшеклассников и скоррелировать полученные баллы со средним баллом успеваемости в старших классах (GPA)4. Другими словами, можно исследовать взаимосвязь между баллами SAT и баллами GPA, полученными приблизительно в то же время, что и проводилось тестирование. Прогностическая валидность выражает степень корреляции баллов валидизируемого теста с другими переменными, измеренными в отсроченный момент времени. Например, при другом способе оценки валидности SAT можно было бы протестировать старшеклассников по SAT и скоррелировать эти баллы со средней успеваемостью (GPA) во время первого года обучения в колледже. Другими словами, можно было бы исследовать взаимосвязь между баллами SAT и баллами GPA, полученными через год или больше после тестирования. Хотя различие между конкуррентной валидностью и прогностической валидностью традиционно считается важным, их объединяет то, что оценивается соответствие между баллами валидизируемого теста и другими переменными, имеющими отношение к исходному конструкту. Как уже говорилось, соответствие между тестовыми баллами и другими переменными обозначается как конвергентная валидность. В связи с этим можно утверждать, что конкуррентная и прогностическая валидность являются, в сущности, разновидностями конвергентной.

Исследования конвергентной и дивергентной валидности обладают множеством важных нюансов. Вероятно, данный тип эмпирических свидетельств валидности является самым значительным среди всех остальных. В приведенном здесь обсуждении были рассмотрены лишь теоретические основы и актуальность использования этих показателей. Поскольку конвергентная и дивергентная валидность так важны, более детальному их рассмотрению будет посвящена следующая глава.

ЭМПИРИЧЕСКИЕ СВИДЕТЕЛЬСТВА ВАЛИДНОСТИ: ПОСЛЕДСТВИЯ ТЕСТИРОВАНИЯ

Как уже говорилось, одно из ключевых различий между традиционным подходом к оценке трех компонентов валидности и современным подходом заключается в том, что в современном подходе подчеркивается первичность конструктной валидности по отношению к содержательной и критериальной (которая более подробно будет обсуждаться ниже). Впрочем, еще более радикальным и дискуссионным отличием является утверждение (высказываемое в рамках современного подхода) о том, что последствия тестирования являются одним из аспектов валидности.

В Стандарте образовательного и психологического тестирования говорится о том, что валидность включает в себя «преднамеренные и непреднамеренные последствия использования теста» (AERA, APA, & NCME, 1999, с.16). Cronbach (1988) утверждает, что разработчики, пользователи и оценщики тестов «обязаны следить за тем, чтобы последствия тестирования для отдельных лиц и организаций были благоприятными, а особенно – предотвращать неблагоприятные» (с.6). Так, например, необходимо обеспокоиться по поводу практики применения теста, если и сам этот тест, и конструкт, лежащий в его основе, больше «работают» на мужчин, чем на женщин. Являются ли тестовые баллы одинаково валидными (как показатель измеряемого конструкта) для респондентов обоих полов? Насколько велика разница в тех преимуществах, которые тест дает мужчинам и женщинам?

Предположение о том, что последствия тестирования связаны с конструктной валидностью, вызвало немало споров. Вряд ли кто-либо не согласится с тем, что пользователи теста, разработчики и руководящие лица должны задумываться о справедливости программы тестирования по отношению ко всем группам респондентов. Тем не менее, не все согласятся с тем, что последствия программы тестирования следует рассматривать как один из аспектов научной оценки значения тестовых баллов. Так, утверждение о том, что валидность включает в себя оценку реальных и потенциальных последствий тестирования, рассматривается Lees-Haley (1996). Автор задается вопросами: «Но последствий для кого? И кто будет решать? Вражеские психологи? Пацифисты? Генералы? Чьи именно социальные ценности необходимо использовать при оценке валидности применения этих тестов?» (с.982). Очевидно, проникновение ценностных суждений в объективный процесс научного исследования поднимает ряд интересных проблем. Lees-Haley говорит напрямик: «оценка валидности последствий тестирования представляет собой вторжение политики в область науки» (с.982).

Приверженцы рассмотрения последствий тестирования как составной части валидности отвечают на такого рода возражения тем, что науку вообще невозможно отделить от личных и общественных ценностей. Проблемы, которые исследуются учеными, определяются частично ценностями общества, частично – ценностями самих ученых. Ценностные суждения влияют и на теоретические предположения и допущения ученых, и даже на те названия, которые ученые дают исследуемым конструктам. В качестве примера, основанного на немаловажной работе Messick (1993), рассмотрим двух психологов, разрабатывающих теорию одного из личностных свойств. Один из них полагает, что соответствующему конструкту необходимо дать название «гибкость - ригидность»: этот конструкт будет дифференцировать респондентов, способных адаптировать свои когнитивные и поведенческие особенности к изменяющимся обстоятельствам, и респондентов, склонных к сохранению когнитивного и поведенческого постоянства. Другой психолог, анализируя исходный конструкт и предполагаемые индивидуальные различия, которые он должен диагностировать, приходит к убеждению о том, что этот конструкт необходимо назвать «замешательство - устойчивость». Какие из этих названий более корректны с «научной» точки зрения? Следует ли высокий уровень когнитивной и поведенческой вариативности рассматривать как гибкость или же как замешательство? Следует ли низкий уровень когнитивной и поведенческой вариативности рассматривать как ригидность - или же это устойчивость?

Рассмотрим также такую личностную характеристику, как склонность испытывать, распознавать, контролировать и анализировать эмоциональные реакции. Представим себе, что ученый разработал тест, измеряющий данную характеристику, и обнаружил, что в среднем женщины набирают по этому тесту более высокие баллы, чем мужчины. Какое название разработчик теста подберет для самого теста и для того конструкта, на измерение которого он направлен? Учитывая, что женщины в среднем набирают более высокие тестовые баллы, насколько вероятно, что ученый назовет данный конструкт «эмоциональной чувствительностью»? А если бы результаты указали на то, что более высокие баллы получают мужчины, был бы исследователь более склонен к тому, чтобы назвать конструкт «эмоциональным интеллектом»? Далее, представьте, что менеджеру по персоналу сказали, что у вас высокий уровень «эмоциональной чувствительности». Будет ли его мнение о вас другим, нежели в том случае, если бы ему сказали, что у вас высокий «эмоциональный интеллект»? Какой из этих «ярлыков» вы предпочитаете? Повысятся ли шансы кандидата на работу быть принятым, если менеджер по персоналу будет убежден, что этот работник «интеллектуален», а не «чувствителен»?

Суть в том, что ценностные суждения могут оказывать некоторое (иногда весьма значительное) влияние на процесс научного исследования. Приверженцы теории о том, что последствия тестирования являются частью валидности, утверждают, что такого рода влияния необходимо распознавать и оценивать настолько точно, насколько это возможно в конкретной ситуации.

Проблема предвзятости теста будет подробнее обсуждаться в Главе 11, впрочем, некоторые комментарии уместны и здесь. Ранее говорилось, что валидность последствий тестирования отражает вероятность того, что для некоторых из респондентов результаты будут использованы несправедливо или некорректно. Важно разграничивать последствия тестирования и справедливость теста. Тест может иметь неблагоприятные последствия (для одного человека или для группы людей), однако при этом быть справедливым. Представьте, к примеру, что женщины склонны набирать более высокие баллы, чем мужчины, по методикам диагностики добросовестности. Представьте также, что директор по персоналу использует опросник добросовестности при приеме кандидатов на работу, как следствие в этой компании работает больше женщин, а не мужчин. Является ли это для мужчин «неблагоприятным последствием»?

В данном случае справедливость теста имеет отношение к природе половых различий. Почему мужчины и женщины набирают в тесте разное количество баллов? Во-первых, возможно, имеет место систематическая ошибка теста: пригодность теста как показателя добросовестности для разных групп респондентов неодинакова; по какой-то причине тест является адекватным показателем добросовестности в группе женщин, но не в группе мужчин. Такая ситуация является уже проблемой валидности: тест неодинаково валиден для различных групп респондентов. Следовательно, управленческие решения, принятые частично на основе тестовых баллов, могут быть несправедливыми по отношению к респондентам мужского пола.

Во-вторых, возможно, что систематической ошибке тест не подвержен. В таком случае тест является одинаково валидным показателем добросовестности как среди мужчин, так и среди женщин, а причина в том, что женщины в действительности несколько добросовестнее мужчин. В данном случае управленческие решения, принятые частично на основе тестовых баллов, несправедливыми уже не будут (при условии, что существуют эмпирические свидетельства того, что добросовестность является предиктором профессиональной успешности).

Что же насчет последствий самого тестирования? Независимо от того, справедлив ли тест, мужчины испытывают на себе неблагоприятные последствия его применения. О систематической ошибке теста речь идет лишь тогда, когда он неодинаково валиден для мужской и женской частей выборки. Наличие групповых различий тестовых баллов само по себе ничего не говорит о справедливости теста или о его систематической ошибке, т.е. о валидности теста как показателя интересующей исследователя психологической характеристики. Более подробное обсуждение данных вопросов, как и описание способов оценки систематической ошибки теста в пользу одной из групп респондентов, приведено в Главе 11.

ДРУГИЕ ПОДХОДЫ К ПРОБЛЕМЕ ВАЛИДНОСТИ

До сих пор в данной главе валидность понималась в терминах того, насколько точно тестовые баллы могут быть интерпретированы как показатель определенного психологического конструкта. В данном подходе подразумевается, что тестовые баллы взаимосвязаны с конструктом, имеющим четко выраженную теоретическую основу. В самом деле, те типы эмпирических свидетельств валидности, которые обсуждались выше, имеют отношение к соответствию между различными аспектами ответов респондента на утверждения теста и различными аспектами теоретических оснований исследуемого конструкта. Исходя из такой сильной привязки тестовых баллов к теоретически обоснованным психологическим характеристикам можно утверждать, что этот подход к валидности, в сущности, является ориентированным на теорию. Тем не менее, существует по крайней мере три альтернативных подхода к проблеме валидности, которые могут встретиться читателю в научном обиходе, в связи с чем приводим здесь их краткое описание.

Критериальная валидность – один из таких альтернативных подходов, который снимает акцент с концептуального значения или интерпретации тестовых баллов. Возможно, что пользователи тестов хотят только лишь дифференцировать группы респондентов или предсказать значения каких-то переменных, которые будут измеряться в будущем. Например, менеджеру по персоналу тест может быть необходим для того, чтобы предсказать, кто из кандидатов на работу окажется успешным сотрудником, а кто – нет. С сугубо практической точки зрения менеджеру неважно, какой именно психологический конструкт измеряется в тесте, как неважно и то, каков содержательный психологический смысл низких либо высоких баллов. В данном случае единственное, что интересует менеджеры по персоналу – способность теста отличать хороших работников от плохих работников. Если тест с этим «справляется», то для нужд работодателя он достаточно «валиден».

В традиционной трехкомпонентной теории валидности критериальная валидность выражает прогностическую способность тестовых баллов по отношению к определенным критериальным переменным. С этой точки зрения ключевым показателем валидности является эмпирически полученная взаимосвязь между баллами валидизируемого теста и баллами по критериальной переменной, такой как «профессиональная успешность». В свою очередь, так как конкуррентная и прогностическая валидность также вычисляются через взаимосвязь теста с определенными критериальными переменными, эти два типа валидности традиционно рассматривались как разновидности критериальной. Согласно традиционному подходу к критериальной валидности, психологическое содержание тестовых баллов не имеет особого значения – все, что имеет значение, это способность теста дифференцировать группы респондентов и предсказывать определенные результаты.

Хотя термин «критериальная валидность» в психометрике весьма распространен и рассматривается как отдельный вид валидности, современная точка зрения предполагает, что взаимосвязи валидизируемого теста с критериальными переменными необходимо рассматривать в более широком контексте – в рамках конструктой валидности (Messick, 1993). С этой точки зрения доказательство критериальной валидности само по себе не является достаточным, даже если речь идет о прикладном использовании теста, например, в целях отбора персонала. Messick (1993) полагает, что «даже в целях принятия решений в прикладной области полагаться на критериальную валидность или широту содержательного наполнения теста недостаточно. Всегда необходимо исследовать значение теста, следовательно, его конструктную валидность, и делается это не только для подтверждения интерпретации тестовых баллов, но и для обоснования применения теста в той или иной сфере» (с.17).

В другом альтернативном подходе к проблеме валидности подчеркивается необходимость исследования значения тестовых баллов в противоположность тестированию определенных гипотез о нем. Другими словами, вместо того, чтобы предполагать, что теоретические основы конструкта полностью разработаны, а затем тестировать определенные гипотезы относительно этой теории, пользователи и разработчики теста могут провести его оценку исходя из того, что тестовые баллы сами по себе являются важным и информативным объектом исследования. Такой «индуктивный» подход к исследованию валидности предполагает изучение взаимосвязей между тестовыми баллами и большим набором потенциально важных и существенных психологических переменных (Gough, 1965; Ozer, 1989). Тот подход к исследованию валидности, которому в данной главе было уделено наибольшее внимание, называется «дедуктивным» (Ozer, 1989), т.к. в нем оценка валидности осуществляется путем дедуктивного вывода определенной гипотезы на основе теоретического понимания конструкта и дальнейшего эмпирического тестирования этой гипотезы. Если дедуктивный подход больше ориентирован на эмпирическую проверку теории, то индуктивный подход является в большей степени разведочным. Целью индуктивного подхода является понимание всех нюансов значения тестовых баллов даже за пределами того значения, которое приписывается им на основе теоретического понимания исходного конструкта. В данном случае исследователь «позволяет конструктам развиваться и изменяться в самом процессе разработки теста» (Tellegen & Waller, в печати).

Индуктивный подход к валидности может быть наиболее оправданным в исследовательском контексте, и рассмотреть его можно как возвратно-поступательный процесс. В прикладном контексте разработчики и пользователи теста, вероятно, акцентируют внимание на использовании теста в четко определенных целях, например, для прогноза профессиональной успешности. В исследовательском же контексте разработчики и пользователи теста могут быть заинтересованы в том, чтобы обнаружить новую область интересов и разработать под нее новый теоретический конструкт. В таком случае разработка и психометрическая оценка теста протекают параллельно с эволюционирующим пониманием исходного конструкта. Так, Tellegen и Waller (в печати) описывают процесс разработки и оценки Многофакторного опросника личности (Multidimensional Personality Questionnaire, MPQ). Последняя версия MPQ включает в себя 11 первичных шкал (например, «социальная эффективность», «достижения», «стрессовые реакции»), сгруппированные в четыре обобщенные черты (напр., позитивная эмоциональность темперамента, негативная эмоциональность темперамента). Разработка MPQ была обусловлена «желанием прояснить и акцентировать природу нескольких важных или центральных факторов, постоянно упоминающихся или подразумевающихся в литературе по психологии личности» (с.10). На протяжении многолетнего процесса разработки пункты MPQ постоянно формулировались, диагностировались, анализировались и формулировались заново. В процессе этой работы исследователи уточнили свое понимание теоретических конструктов, лежащих в основе этого теста.

Хотя индуктивный подход и является полезным в плане расширения и уточнения представлений исследователя о теоретических и практических основах теста, в литературе по психодиагностике он упоминается не слишком часто. Как правило, тесты разрабатываются на основе строго определенных конструктов, а сами разработчики направляют свои усилия на оценку интерпретации тестовых баллов относительно этих заранее определенных конструктов. Время и усилия на исследование более широкого спектра областей применимости теста затрачивается учеными гораздо реже.

Третий альтернативный подход к проблеме валидности акцентирует исключительно взаимосвязь между тестом и психологическим конструктом. Borsboom, Mellenbergh и Van Heerden (2004) полагают, что единственной проблемой валидности теста является то, обусловлены ли ответы респондентов именно тем конструктом, на измерение которого направлен тест. Другими словами, тест является валидной мерой конструкта если и только если предполагаемый конструкт действительно оказывает влияние на балл, который получает респондент по результатам тестирования. Исходя из этих соображений, Borsboom и др. отвергают аргумент о том, что последствия тестирования важны для оценки валидности. Кроме того, они полагают даже, что корреляции баллов по валидизируемому тесту с другими психологическими характеристиками также не относятся напрямую к валидности теста. Авторы утверждают, что «первоначальной целью валидизации является предоставление теоретического объяснения процессов, которые приводят к результатам измерения» (с.1067).

Подход, предложенный Borsboom (2004), представляет собой интересную альтернативу тем концепциям, которые описывались в данной главе. Очевидно, что он в сильной степени противопоставлен тем подходам, в которых акцентируется важность критериальной валидности и индуктивного исследования валидности. Последние два подхода либо минимизируют значение психологического конструкта как такового (критериальная валидность), либо предполагают, что понимание исследователем теоретического наполнения конструкта эволюционирует и изменяется в процессе разработки теста (индуктивный подход). В противоположность этому, в подходе, предложенном Borsboom с коллегами, акцентируется значение четко выраженного теоретического понимания отдельно взятого конструкта, для которого разрабатывается тест. Другими словами, конструкты не только существуют и не только являются важной составляющей процесса оценки валидности, но и являются ведущим и определяющим компонентом разработки и валидизации теста. С точки зрения исходного определения валидности, предложенного в этой главе (и основанного на Стандарте образовательного и психологического тестирования, AERA, APA, & NCME, 1999), может показаться, что Borsboom с коллегами отбрасывают слишком много факторов, оставляя лишь необходимость рассмотрения конструктов и теоретически обоснованное исследование ответов респондентов на пункты диагностического инструмента.

СОПОСТАВЛЕНИЕ НАДЕЖНОСТИ И ВАЛИДНОСТИ

Теперь, когда читатель имеет представление о понятии валидности, полезно было бы сопоставить валидность с надежностью. Данные два понятия являются фундаментальными для психометрики, поэтому необходимо четко понимать разницу между ними.

Как говорилось в предшествующих главах, надежность теста – это степень того, насколько различия в тестовых баллах отражают индивидуальные различия между респондентами по тому признаку, который оказывает влияние на результаты тестирования. После рассмотрения проблемы валидности это определение можно расширить и сказать, что надежность теста – это степень того, насколько различия в тестовых баллах отражают индивидуальные различия между респондентами по тому признаку, который оказывает влияние на результаты тестирования, независимо от того, что это за признак. Другими словами, можно вычислять надежность теста даже не зная потенциальной интерпретации тестовых баллов и не обладая информацией о том, каклй именно психологический признак измеряется.

С другой стороны, валидность по своей сути связана с интерпретацией тестовых баллов и природой измеряемого признака очень тесно. В каком-то смысле можно утверждать, что надежность является характеристикой ответов на пункты теста, в то время как валидность является характеристикой интерпретации тестовых баллов. Другими словами, надежность – это относительно несложное свойство ответов респондента на утверждения или вопросы теста, а валидность – свойство, в большей степени отражающее психологическую теорию и содержательное значение тестовых баллов.

Хотя это и разные понятия, валидность и надежность взаимосвязаны как концептуально, так и статистически. С концептуальной точки зрения во многих областях наук о поведении валидность предполагает надежность. Так, например, интеллект обычно рассматривают как психологический признак, довольно устойчивый как во времени, так и в различных ситуациях. Интеллект, как правило, не претерпевает сильных изменений с течением недель и даже месяцев. Следовательно, тест, который призван измерять уровень интеллекта, должен быть достаточно устойчивым во времени. Другими словами, валидный тест интеллекта должен быть надежным. Если баллы теста неустойчивы во времени (т.е. методика обладает низкой ретестовой надежностью), такой тест не может являться валидным показателем интеллекта. Хотя валидность зачастую предполагает надежность, обратное неверно. Тест может обладать замечательной внутренней согласованностью пунктов и высокой ретестовой надежностью, но тем не менее его интерпретация может не являться валидной. В целом можно утверждать, что для валидности интерпретации тестовых баллов необходимо, чтобы тест был надежным, однако только лишь то, что тест надежен, не означает, что интерпретация его результатов валидна.

ВАЖНОСТЬ ИССЛЕДОВАНИЙ ВАЛИДНОСТИ

Надеемся, что значение валидности читателю теперь очевидно. Надеемся, что приведенные примеры убедили его в том, что валидность является, возможно, наиболее важным аспектом психометрического качества теста. В данном разделе подчеркивается важность валидности в психологических исследованиях и психологической практике. Когда психологическое измерение проводится в каких-либо серьезных целях, результаты этого измерения имеют смысл лишь тогда, когда тест достаточно валиден. При отсутствии валидности такого рода измерения бессмысленны с научной точки зрения, а иногда даже и опасны.

На валидности основана способность ученых интерпретировать подавляющую часть исследований в науках о поведении. Цели научного исследования включают в себя описание, предсказание и объяснение некоторой области реального мира, будь это область физическая или психологическая. Точность описания, предсказания и объяснения зависит, в свою очередь, от способности исследователя манипулировать существенными переменными и измерять их. Так, в рамках социальной психологии исследовалась гипотеза о том, что увлечение жестокими видеоиграми увеличивает склонность человека к агрессивному поведению (напр., Anderson & Dill, 2000; Bartholow, Sestir, & Davis, 2005). Результаты исследований указывают на то, что видеоигры и в самом деле оказывают влияние на агрессивность. Однако следует помнить о том, что такого рода исследование частично основано на измерении такой переменной, как «склонность к агрессивному поведению». Если данная переменная измерена достаточно валидна, уверенность в результатах описанного исследования увеличится. Если же «склонность к агрессивному поведению» измерена недостаточно валидно, в исследовательском выводе можно усомниться. В отсутствии валидности теста научное понимание роли видеоигр в подростковой агрессивности сильно искажено.

Таким образом, влияние валидности на научный процесс несколько абстрактно: валидность влияет на точность научного понимания реальности. Валидность теста в исследовательском контексте может иметь и более конкретное значение. Как известно, одна из целей научного исследования – сопровождение решений в различных областях общественной жизни. Такие решения могут применяться как для всего общества в целом, так и для отдельно взятого человека, но в обоих случаях валидность будет иметь большое значение.

В отсутствии валидности решения по социальным вопросам могут быть необоснованными, бесполезными и даже опасными. В июне 2006 года в Палате представителей Конгресса США проводились слушания по поводу насилия, изображаемого в популярных видеоиграх. Причиной послужила обеспокоенность по поводу того, что наблюдение насилия в видеоиграх имеет разрушительные последствия для тех, кто в них играет, особенно для молодых людей. Таким образом, проведенные слушания были основаны на предположении о том, что насилие в видеоиграх увеличивает агрессивность в поведении людей. Разумеется, ключевым вопросом является вопрос об эмпирической обоснованного этого предположения. Если существуют сильные эмпирические свидетельства в пользу правомерности приведенного утверждения, можно говорить о том, что слушания конгресса проходили на относительно хорошей научной базе. Если же исследования проводились с использование тестов, обладающих низкой валидностью, необходимо серьезно усомниться в значении этих исследований. Как следствие, любые управленческие решения, принятые на основе таких сомнительных исследований, сами являются сомнительными.

Если бы Конгресс США принял закон на основе научных исследований, валидность которых сомнительна, каковы могли бы быть последствия? Время и усилия конгрессменов были бы потрачены зря, а принятый закон был бы необоснованным. Кроме того, можно себе представить, что на «предотвращение» агрессии путем кампаний против агрессивных видеоигр было бы потрачено немало бюджетных денег. Если тесты, применяемые в научных исследованиях, обладали низкой валидностью, то эти деньги были бы потрачены зря. Если же деньги на такие кампании были выделены путем сокращения бюджета каких-либо других социальных программ (возможно, действительно полезных для общества), данное управленческое решение в конечном итоге навредило бы тем людям, которые могли выиграть от участия в этих программах. Следует пояснить, что мы ни в коем случае не пытаемся опорочить качество исследований по психологическому эффекту агрессивных видеоигр. Большинство исследований в этой сфере действительно хорошо спланировано и проведено. Данный пример используется лишь в целях иллюстрации фундаментальных взаимосвязей между валидностью теста, качеством исследования и принятием общественно значимых решений.

И наконец, в отсутствии валидности теста необоснованными или даже опасными могут быть решения, принимаемые в отношении отдельных людей. Среди решений, которые хотя бы частично основаны на результатах психологического тестирования, помещение детей в специализированные классы, прием абитуриентов в колледж, принятие клинических решений и предоставление кандидатам на работу той или иной должности. Такого рода решения могут изменить жизнь человека, проходившего тестирование, а качество самого теста может оказать сильное влияние на заключение, принятое по его результатам. Пока эти решения принимаются на основе хорошо валидизированных тестов, можно надеяться, что их использование принесет и респондентам, и диагностам только лишь пользу. Если решения принимаются на основе адекватного использованных и хорошо валидизированных тестов, можно надеяться, что детей поместят в более подходящие для них классы; кандидаты на работу с большей вероятностью найдут такую должность, которая соответствует их интересам, склонностям и способностям; студентов примут в те учебные заведения, которые соответствуют уровню их возможностей; пациентам поставят такие диагнозы, которые повысят вероятность успешного лечения.

Тем не менее существует возможность, что решения будут приниматься на основе тестов, обладающих низкой валидностью, или, например, на основе некорректного применения тестов, которые были валидизированы для использования в других целях. В первой главе данной книги обсуждался один из законов Северной Каролины, гласящий: «умственно отсталый человек, осужденный за совершение убийства первой степени, не может быть приговорен к смертной казни» (Уголовно-процессуальный акт, 2007). Как уже говорилось, решение по поводу диагноза умственной отсталости принимается частично на основе «индивидуального, научно обоснованного, стандартизованного теста на коэффициент интеллекта, проводимого лицензированным психиатром или психологом». Надеемся, что слова научно обоснованный и стандартизованный читаются во многом как «научно валидизированный». Надеемся также, что эта проблема известна юристам.

РЕЗЮМЕ

В данной главе были описаны концептуальные основы валидности теста. По определению, приведенному в Стандарте образовательного и психологического тестирования, валидность – это «степень эмпирической и теоретической поддержки интерпретации тестовых баллов в предполагаемых сферах использования» теста (AERA, APA, & NCME, 1999, с.9). Выше были описаны несколько ключевых следствий из такого понимания валидности: валидность имеет отношение к интерпретации тестовых баллов, это количественный показатель, и он основан как на эмпирических свидетельствах, так и на теории. Поскольку эмпирические свидетельства являются при исследовании и оценке валидности ключевым моментом, выше также описывались пять типов эмпирических свидетельств, имеющих существенное отношение к валидности теста: содержание теста, его внутренняя структура, процесс ответа на утверждения или вопросы теста, взаимосвязь с другими переменными и последствия тестирования. Далее было проведено сопоставление современного подхода к пониманию валидности и традиционных подходов, все еще имеющих широкий обиход, а также сопоставление валидности и надежности. Наконец, была еще раз обозначена важность исследования валидности в контексте научной работы и прикладного использования тестов.

РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА

Недавняя работа по валидности теста, содержащая обширный обзор основополагающих подходов к проблеме валидности и уже ставшая классической:

Messick, S. (1989). Validity. In R. L. Linn (Ed.), Educational measurement (3rd ed., pp. 13-103). New York: Macmillan.

Еще один основательный обзор современных достижений в области валидности тестов:

Shepard, L. A. (1993). Evaluating test validity. In L. Darling-Hammond (Ed.), Review of research in education (Vol. 19, pp. 405-450). Washington, DC: American Educational Research Association.

Классическая в истории исследований валидности статья, одна из наиболее часто цитируемых психологических статей:

Cronbach, L. J., & Meehl, P. E. (1955). Construct validity in psychological tests. Psychological Bulletin, 51, 281-302.

Интересное дополнение к современным теориям конструктной валидности:

Schmidt, F. L. (1988). Validity generalization and the future of criterion-related validity. In H. Wainer & H. I. Braun (Eds.), Test validity (pp. 173-189). Hillsdale, NJ: Lawrence Erlbaum.

Интересные комментарии о понятии валидности последствий тестирования:

Lees-Haley, P. R. (1996). Alice in validityland, or the dangerous consequences of consequential validity. American Psychologist, 51, 981-983.

Наиболее современный взгляд на проблему валидности с точки зрения трех ведущих организаций, занимающихся психологическим тестированием:

American Educational Research Association, American Psychological Association, and National Council on Measurement in Education. (1999). Standards for educational and psychological testing. Washington, DC: American Educational Research Association.