Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Бодалев А.А., Столин В.В. - Общая психодиагностика (2000)

.pdf
Скачиваний:
716
Добавлен:
16.09.2017
Размер:
2.49 Mб
Скачать

ad - bc

j = (3.2.13)

(a + b)(c + d )(a + c)(b + d )

Как известно, значимость фи-коэффициента определяется с по мощью критерия хи-квадрат:

X12 = j 2 n

(3.2.14)

Если вычисленное значение хи-квадрат выше табличного с одной степенью свободы, то нулевая гипотеза (о нулевой устойчивости) отвергается. Удобство использования фи-коэффициента состоит в том, что он одновременно оценивает степень оптимальности данного пункта теста по силе (трудности): фи-коэффициент оказывается тем меньшим, чем сильнее частота ответов«да» отличается от частоты ответа «нет».

Кроме того, сама четырехклеточная матрица позволяет проследить возможную несимметричность в устойчивости ответов«да» и «нет» (это важнее для задач, чем для вопросов: например, может оказаться, что все испытуемые, уже решившие однажды данную задачу, решают ее при повторном тестировании; это наводит на мысль о том, что при втором тестировании происходит сбережение опыта, приобретенного при первом тестировании). Выявленные в результате такого анализа неустойчивые и неинформативные(слишком сильные или слишком слабые) пункты должны быть исключены из теста. Пункты следует считать недостаточно устойчивыми, если на репрезентативной выборке величина1 - j превышает 0,71. При этом φ< 0,5.

Для т<?го чтобы повысить одномоментную(синхронную) надежность теста, следует из исходной пилотажной батареи пунктов

1

отбросить те, которые плохо согласованы с остальными . В отсутствие компьютера согласованность для пунктов также очень просто определяется с помощью четырехклеточной матрицы. В этом случае

в первом

столбце суммируются ответы испытуемых «высоиз-

кой».группы (пр величине суммарного балла), во втором столбце -

из «низкой».

 

 

Да

 

Высокая

Низкая

 

A

 

B

 

Нет

 

C

 

D

 

При

нормальном распределении частот суммарных баллов

1 В ряде пособий показатель согласованности для пунктов называется дискриминативностью пунктов (Гайда В. К., Захаров В П., 1982).

91

«высокая» и «низкая» группы отсекаются справа и слева27%-ными маргинальными квантилями (рис. 8).

Для оценки согласованности с суммарным баллом применяется полная1 или упрощенная формула фи-коэффициента:

2a -P -1

ji = 1 (3.2.15)2

Pi (N *-Pi )

где Pi - количество ответов «верно» («да») на i-й пункт теста; N* - сумма всех элементов матрицы;

N* = n • 0,54 где n - объём выборки;

Pi = а + b - При включении в эстремальную группу1/3 выбор-

ки

N* = 0,66 • n.

Рис. 8. Квантили «высокой» и «низкой» группы на графике распределения тестовых баллов

В некоторых случаях подобный анализ позволяет уточнить ключ для пункта: если пункт получает значимый положительный фи-коэффициент, то ключ определяется значением «+1», если пункт получает значимый отрицательный фи-коэффициент значением «-1». Если пункт получает незначимый фи-коэфф.ициент, то его целесообразно исключить из теста.

При ручных вычислениях фи-коэффициента удобно вначале с помощью формул (3.2.14) и (3.2.15) определить граничное значение значимого (по модулю) фи-коэффициента. Например, при объеме выборки в 100 человек и уровне значимости р< 0,01 пороговое значение вычисляется так:

 

 

 

 

x02,01

 

 

 

 

 

 

 

j

 

=

=

 

6,63

» 0.27

(3.2.16)

 

 

 

 

 

 

 

 

 

 

n

100

 

 

 

 

 

 

1Полная формула отличается от формулы (3.2.13) наличием в числителе вычитаемого (а + b + с +d)/2 - поправки с учетом вклада, который i-й пункт вносит в суммарный балл:

2Если 2а –Р1< 0, то числитель в формуле (3.2 15) выглядит так: 2а1+1

92

При постоянном использовании компьютера при подсчете суммарных баллов ключ для каждого пунктаQ целесообразно определить в виде самого фи-коэффициента(или другого коэффициента корреляции), определенного при коррелировании ответов на пункт с суммарным баллом. Тогда тестовый балл подсчитывается по формуле

k

 

xi =åRijCj ,

(3.2.17)

j=1

где хi — суммарный балл i-го испытуемого;

Rij - ответ «верно» (+1) или «неверно» (-1) i-го испытуемого на

i-й пункт;

Сi- ключ для i-го пункта: С = +1 для прямого, С= -1 для обрат-

ного.

Более чувствительный коэффициент, который также применяется для дихотомических пунктов, - это точечный бисериальный коэффициент корреляции, учитывающий амплитуду отклонения индивидуальных суммарных баллов от среднего балла:

 

1

n

 

 

å x * - pi

x

 

 

rpbi

=

n

3.2.18)

 

 

 

 

 

 

S x pi qi

 

 

 

 

где å x* - сумма финальных баллов

тех индивидов, которые

дали утвердительный ответ на i-й пункт теста (решили i-ю задачу); Sx - стандартное отклонение для суммарных баллов всех инди-

видов из выборки;

pi qi - стандартное отклонение по i-му пункту;

x - средний балл по всем пунктам.

А. Анастази относит критерий внутренней согласованности теста к валидности (Анастази А., 1982, кн. 1, с. 143), однако если и можно в данном случае говорить о валидности, то только в смысле особой внутренней валидности теста. Как правило, слишком высокая согласованность снижает внешнюю валидность теста по критерию (см. раздел 3.3). Если проверяется согласованность пунктов, составленных одним автором (одним коллективом по стандартной инструкции), то выявление достаточного набора согласованных пунктов свидетельствует о внутренней валидности(согласованности) разработанного диагностического понятия (конструкта).

В компьютерных данных факторного анализа аналогом корреляции пункта с суммарным баллом является нагрузка пункта на ведущий фактор («факторная валидность» в терминах А. Анастази).

93

Если прибегать к геометрическому изображению нагрузки как проекции вектора-пункта на ось-фактор, то структура пунктов хорошо согласованного теста предстанет в виде пучка векторов, плотно прилегающих к фактору и вытянувшихся вдоль его оси (рис. 9).

Рис. 9. Векторная модель соотношения«прямых» и «обратных» эмпирических пунктов с релевантным(измеряемым) фактором и иррелевантными («шумовыми») факторами

Последовательность действий при проверке надежности:

1.Узнать, существуют ли данные о надежности теста, предполагаемого к использованию, на какой популяции и в какой диагностической ситуации проводилась проверка. Если проверки не было или признаки новых популяции и ситуации явно специфичны, провести заново проверку надежности с учетом указанных ниже -воз можностей.

2.Произвести повторное тестирование на всей выборке стандартизации и подсчитать все коэффициенты, как для целого теста, так и для его отдельных пунктов. Анализ полученных коэффициентов позволит понять, насколько пренебрежима ошибка измерения, дает ли данный тест интервальную шкалу(высокий r) или только диагностичен для крайних групп(высокий φ), насколько устойчиво измеряемое свойство во времени(возможен ли статистический прогноз - проекция тестового балла на будущее), в каких своих пунктах тест менее надежен (анализ этих пунктов позволяет психологически осмыслить содержательный механизм взаимодействия пунктов с испытуемыми).

3.Если возможности обследования испытуемых ограниченны, произвести повторное тестирование только на части выборки (не менее 30 испытуемых), подсчитать (вручную) ранговую или четырехклеточную корреляцию для оценки внутренней согласованности и стабильности теста в целом.

3.3. ВАЛИДНОСТЬ ТЕСТОВ

Проблемы валидизации психологических тестов являются

94

центральными для дифференциальной психометрики, но, к сожалению, до сих пор решенными не до конца. Решение этой проблемы зависит не от статистического аппарата, а от уровня развития теоретического аппарата дифференциальной психологии.

Валидность и надежность. Валидность (или обоснованность) всякой процедуры измерения состоит в однозначности(устойчивости) получаемых результатов относительно измеряемых свойств объектов, т, е. относительно предмета измерения. Отличие понятия валидности от надежности измерения удобно раскрывать с помощью различения «объекта» и «предмета» измерения. Надежность - это устойчивость процедуры относительно объектов. Надежность не обязательно предполагает валидность. В психологии довольно часто возникает такая ситуация, когда исследователь вначале предлагает определенную процедуру измерения, показывает ее надежностьспособность устойчиво различать объекты, но вопрос о валидности остается открытым.

Если в сенсорной психофизике вопрос о валидности измерений оказывается в значительной степени затушеванным тем обстоятельством, что простейшие физические стимулы достаточно однозначно детерминируют измеряемые свойства ощущений, то в дифференциальной психометрике значимость проблемы валидности резко возрастает. Здесь ситуация подобна той, когда в психофизическом опыте испытуемому не указывают, по какому именно параметру следует сравнивать стимулы. Пусть испытуемый А понял инструкцию так, что стимульные объекты надо сравнивать по весу, а испытуемый Б - по размеру. Если процедура измерения будет повторена по отношению к тем же объектам, то она даст вполне устойчивые данные относительно объектов, но не даст валидной информации ни о шкале ощущений «веса», ни о шкале ощущений «размера».

При измерении способностей предъявляемый тест отнюдь не обязательно актуализирует именно тот психический процесс, который предполагается измерить. Например, столкнувшись с уже встречавшейся однажды задачей(например, с анаграммой «дзиканпр»), испытуемый может начать запоминать просто то решение, к которому он уже однажды пришел(слово «праздник»), чем заново решать эту задачу. Здесь будет измеряться скорее уровень словесной памяти, чем уровень вербального интеллекта. Точно так же реальная валидность некоторых тестов раскрывается только в результате значительного опыта работы с ними. Например, доказано, что ряд тестов, внешне вы глядящих интеллектуальными, на деле измеряют скорее личностно-стилевые особенности индивида, чем операциональные возможности интеллекта, например, методика «креативного поля» Д. Б. Богоявленской.

Устойчивость теста относительно объектов(испытуемых) яв-

95

ляется необходимым, но не достаточным условием его устойчивости относительно измеряемых атрибутов(свойств) объектов. Надежность является необходимым, но не достаточным условием валидности. Отсюда вытекает основное соотношение психометрики:

валидность ≤ надежность.

Это означает, что валидность теста не может превышать его надежность.

Данное соотношение, однако, неверно трактовать как указание на прямую пропорциональную связь валидности и надежности. Повышение надежности отнюдь не обязательно приводит к повышению валидности1. В терминах А. Анастази валидность определяется репрезентативностью теста относительно измеряемой области поведения. Если эта область поведения складывается из разнообразных феноменов, то содержательная валидность теста автоматически требует представленности в нем моделей всех этих разнообразных феноменов. Возьмем глобальное понятие «речевая способность» (этому психолингвистическому термину в традиционной тестологии соответствует термин «вербальный интеллект»). Сюда относятся такие относительно независимые друг от друга навыки, как навыки письма и чтения. Если заботиться о содержательной валидности соответствующего теста, то нужно ввести в него группы заданий на проверку этих довольно разных по своему операциональному составу компонентов вербального интеллекта. Вводя разнородные пункты и субшкалы (субтесты), мы обязательно сокращаем внутреннюю согласованность, одномоментную надежность теста, но зато добиваемся существенного повышения валидности. Таким образом, для расширения области применения теста психодиагност должен избегать излишнего повышения внутренней согласованности. Одновременно с этим снижением внутренних корреляций между различными пунктами теста (об этом уже говорилось в разделе 3.1) обязательно исчезает отрицательный эксцесс на кривой распределения тестовых баллов, и она все более приближается по форме к нормальной кривой.

Эмпирическая валидность. Если в случае с содержательной валидностью оценка теста производится за счет экспертов(устанавливающих соответствие заданий теста содержанию предмета измерения), то эмпирическая валидность измеряется всегда с помощью статистического коррелирования: подсчитывается корреляция двух рядов значений - баллов по тесту и показателей по внешнему параметру, избранному в качестве критерия валидности.

1 Предельной внутренней согласованностью будет, например, обладать тест-опросник, состоящий из повторения одного и того же вопроса. Но валидность в данном случае будет минимальной.

96

Прагматические традиции западной тестологии привязывали эмпирическую валидность теста к внешним для психологии соци- ально-прагматическим критериям. Эти критерии являются показателями, обладающими непосредственной ценностью для определенных областей практики. Практика всегда имеет целью либо повысить, либо понизить эти показатели. Например, в области педагогической психологии это «успеваемость» (которую надо повысить), в психологии труда это«производительность труда» и «текучесть кадров», в медицине - «состояние здоровья пациента», в психологии управления -«совместимость», «срабатываемость» коллектива, в юридической психологии - «преступность» (которую надо понизить)

и т. п.

Ориентируясь непосредственно на эти категории, психолог, пытающийся скоррелировать результаты теста с этими показателями, фактически решает сразу две задачи: задачу измерения валидности и задачу измерения практической эффективности своей психодиагностической программы. Если получен значимый коэффициент корреляции, то можно считать, что решены с позитивным результатом сразу обе эти задачи. Но если корреляции не обнаружено, то остается неопределенность: либо невалидна сама процедура (тестовый балл не отражает, например, стрессоустойчивость оператора), либо неверна гипотеза о наличии причинно-следственной связи между психическим свойством и социально значимым показателем(стрессоустойчивость не влияет на процент аварийных ситуаций).

Таким образом, социально-прагматические критерии являются комплексными: они позволяют измерить валидность-эффективность, но не каждое из этих двух свойств теста отдельно. На практике психолога часто ожидает и еще более сложная ситуация, когда заказчик требует от психолога на основании полученного диагноза сразу же определенных мер по вмешательству в ситуацию(отбор, консультирование, обучение и т. п.). В этом случае повышение показателей (достоверное по сравнению с контрольной группой) доказывает одновременно и валидность-эффективность диагностики, и эффективность самого вмешательства. А отрицательный результат дает еще большую неопределенность, так как оказывается невозможным отделить неэффективность вмешательства от низкой валидности -ди агностики.

Ориентация на социально-прагматические критерии, приводящие к склейке понятий«валидности измерения» и «причинного прогноза по результатам измерения», бесспорно, сдерживала и продолжает сдерживать развитие концептуального аппарата дифференциальной психологии. При этом суть самого предмета измерения: измеряемого психического свойства - оказывается вне фокуса внимания не только заказчика, но и самого психолога, превращающего-

97

ся в этом случае в тестолога, которого не интересует, что именно он измеряет, главное лишь, чтобы от этого «нечто» перекидывался мостик к полезному эффекту, обеспечивающему психологу социальное признание.

Процедура эмпирической валидизации. Организация выборки при эмпирической валидизации зависит от временного статуса критерия. Если этот критерийсобытие в прошлом(ретроспективная валидизация), то к участию в психодиагностическом обследовании достаточно привлечь только тех испытуемых, которые оказались на экстремальных полюсах по этому критерию1. В результате применяется метод экстремальных(контрастных) групп. Коррелирование с суммарным баллом по тесту оценивается с помощью бисериального коэффициента по формуле (3.2.17). При этом в статусе дихотомической переменной (на месте отдельного пункта) оказывается сам критерий валидности: å x— сумма баллов по тесту, полученных «высокой» группой по критерию; pq - стандартная ошибка критерия, связанная с численностью «высокой» (р) и «низкой» (q) групп.

Если критерий - будущее событие (проспективная валидизация), то выборка должна быть составлена с запасом- с учетом вероятного объема экстремальных групп в будущем. Например, нужно выяснить, позволяет ли диагностика темперамента прогнозировать повышенный риск психосоматических заболеваний (гипертония, язва, астма и т. п.). Пусть на основании эпидемиологических исследований известно, что в течение трех лет .из1000 здоровых людей этими болезнями заболевают 57 человек. Это означает, что превентивной (предупреждающей) диагностикой должно быть охвачено около 2000 человек, чтобы получить численность «высокой» группы (заболевших) порядка 100 человек. Проспективная валидизация выявляет прогностическую эффективность диагностической процедуры. Высокая прогностическая валидность доказывает как валидность самого измерения, так и наличие предполагаемой причинной связи.

Ретроспективная валидизация позволяет в лучшем случае решить только первую из двух задач. Например, если для исследования личностной предрасположенности к совершению краж проведено обследование лиц, находящихся под следствием (т. е. уже совершивших преступление), то выявление акцентированных черт«тревожности», «агрессивности» и т. п. еще не может интерпретироваться как свидетельство причинных факторов преступностиэти черты могут быть лишь следствием сложившихся обстоятельств: лишение свободы, угрызения совести и т. п. (Ратинов А. Р., 1979). Во многих

1 В этом случае имеет место схема исследования, известная под названием «квазиэксперимент»: контроль осуществляется не в виде воздействия на независимую переменную, а в виде привлечения особой выборки испытуемых. Подробнее о квазиэкспериментах см. кн.- Д. Кэмпбелл, 1980.

98

медико-психологических исследованиях был выделен особый диагностический синдром «госпитализации», который обнаруживается у любой категории госпитализированных больных(обычно он выражается в повышении шкал «депрессии» и «ипохондрии» по MMPI – Шхвацабая, 1980). Очевидно, что подобные личностные сдвиги никак нельзя интерпретировать в смысле симптомов предрасположенности к определенным психогенным заболеваниям, ибо они относятся к следствиям, а не к причинам этих заболеваний.

Конструктная валидность. В отличие от прагматической валидизации собственно психологическую валидизацию порой оказывается провести гораздо труднее в силу отсутствия какого-либо более объективного внутрипсихологического критерия, чем сам тест.

Наиболее благополучная ситуация имеется тогда, когда для измерения данного свойства в психологии уже имеется процедура с известной валидностью. В этом случае корреляция между баллами двух тестов - линейная (см. формулу 3.2.3) или ранговая (см. формулу 3.2.5)- указывает на то, обладает ли новый тест конвергентной валидностью по отношению к старому. Если новый тест обнаруживает

высокую конвергентность результатов со старым и одновременно оказывается более компактным и экономичным 'в проведении и подсчете, то психодиагносты получают возможность использовать новый тест вместо старого.

Однако во многих случаях для измеряемого свойства психодиагност не может найти в литературе ни одного уже апробированного теста с известной валидностью. В этом случае он может сформулировать ряд предсказательных гипотез о том, как будет коррелировать его новый тест с другими тестами, измеряющими родственные характеристики испытуемых. Эти гипотезы выдвигаются на основе теоретических представлений об измеряемом свойстве. Их подтверждение указывает на валидность выдвигаемого конструкта, т. е. на конструктную валидность теста. В западной литературе это опера-

циональное определение конструктяой валыидности называется предполагаемой валидностью (assumed validity).

Представления о конструктной валидности тестов постоянно развиваются с пополнением репертуара методик. Эмпирические исследования взаимосвязей результатов, получаемых с помощью разных методик, обогащают теоретические представления об измеряемых свойствах.

С другой стороны, понятие конструктной валидности указывает на высокую зависимость эмпирических связей теста от теоретических представлений его автора об измеряемом свойстве. Для иллюстрации приведен пример взаимоотношений между двумя популярными тест-опросниками: MAS Ж. Тейлор и EPI Г. Айзенка. Многочисленные корреляционные исследования, проведенные на репре-

99

зентативных выборках, показали, что шкала MAS (тревожность) Ж. Тейлор положительно коррелирует со шкалой«нейротизм» и отрицательно со шкалой«экстраверсия» Айзенка. Эти соотношения можно проиллюстрировать графически (рис. 10): вектор MAS оказывается расположенным в квадранте«Нейротизм - Интроверсия», образованном системой из ортогональных(статистически независимых) факторов EPL С точки зрения концепции Г. Айзенка, эти дан-

ные можно рассматривать как свидетельства низкой валидности шкалы Ж. Тейлор: MAS коррелирует не только с релевантным фактором «нейротизм», но и с иррелевантным фактором «интроверсия».

С этой точки зрения, опросник EPI оказывается просто нечувствительным к особой разновидности «нейротизма» - к нейротизму (тревожности) экстравертов; в перечне пунктовMAS отсутствуют высказывания, в которых могла бы проявиться тревожность экстраверта. Однако с точки зрения тоготеоретического смысла, который приписывают показателям MAS К. Спенс и Ж. Тейлор, эта ситуация вполне закономерна, желательна и никак не является артефактомследствием дефекта их диагностического средства. Согласно К. Спенсу, пытавшемуся перенести на человеческое поведение теорию научения Халла, MAS измеряет общий уровень драйва - неспециализированного побуждения, которое достигает максимума как раз при сочетании нейротизма (специфическая активация по Г. Айзенку) и интро-версии (неспецифическая активация)

Рис. 10. Векторная модель соотношения показателя«Тревожность» по тест-опроснику MAS с факторами тестопросника EPI

Таким образом, вовсе не всегда краткие названия тестов -од нозначно выражают теоретический статус диагностического конструкта - понятия об измеряемом свойстве.

Конвергентная и дискриминантная валидность. От того, как психолог определяет диагностический конструкт, зависит стратегия включения в тест определенных пунктов. Если Айзенк определяет свойство «нейротизм» как независимое от экстраверсии-

100