- •Учебное пособие к курсу «психодиагностика»
- •1. Психологическая диагностика как наука
- •2. Понятие теста и его основные характеристики
- •Глава 3. Создание психодиагностических методик (опросников)
- •Глава 4. Психодиагностика как практическая деятельность
- •Глава 5. Психодиагностика способностей и интеллекта
- •Глава 6. Психодиагностика личности и сознания.
- •Глава 7. Диагностика мотивации.
- •Глава 8. Диагностика межличностных отношений
Глава 3. Создание психодиагностических методик (опросников)
В этой главе мы ещё раз вернёмся к проблемам обеспечения приемлемых характеристик теста, и обобщим их. По глубокому убеждению автора, для того, чтобы что-то достаточно глубоко понимать, необходимо представлять себе, откуда оно взялось. Так что практическая цель данной главы – сформировать достаточно глубокое представление о тестах, в частности, об опросниках, благодаря которому можно будет их правильно выбирать и использовать.
Требования к тестам Американской психологической ассоциации, о которых упоминалось в первой главе, содержат определённую последовательность их разработки. И это не формальность, ведь именно технология определяет продукт. Традиционная последовательность такова:
1. Разработка первичной формы опросника. Она включает в себя следующие процедуры:
- выбор предмета диагностики (гипотетического конструкта);
- теоретический анализ конструкта, на его основе – создание теоретического и операционального определений;
- определение области применимости теста (той, в которой он будет валидным);
- выбор типа заданий и формы ответов;
- формулировка заданий и их компоновка.
2. Психометрическая проверка первоначальной формы (ITEM-анализ, анализ пунктов). После проведения первичной формы на специально подобранной выборке выполняются:
- определение дискриминативности каждого из заданий и отбрасывание или изменение заданий, непригодных по этому параметру;
- проверка основных показателей надёжности – однородности и внутренней согласованности, отбрасывание непригодных заданий;
3. Психометрическая проверка исправленной формы – того, что осталось от опросника после предыдущего этапа. После тестирования на новой выборке повторяется этап 2. Если его результаты удовлетворительны, переходят к следующему. Если нет, повторяют предыдущий.
4. Проверка валидности исправленной формы. Если валидность подтверждается, то переходят к следующему этапу.
5. Создание тестовых норм и нормативной интерпретации.
Здесь действительно важна именно такая последовательность, чтобы не было пустых затрат. Ведь, если, например, тест не обладает надёжностью, бесполезно проверять его валидность. Ни надёжности, ни валидности не будет, если не созданы хорошие определения. Если тест не валиден, то создавать тестовые нормы для оценки неизвестно чего тоже не имеет смысла.
Рассмотрим эти этапы подробнее, для самого распространённого вида тестов – личностных опросников. Для простоты будем считать, что в тесте есть только одна шкала.
Всё начинается с определения гипотетического конструкта. Предмет диагностики так называется неслучайно. Напомним, что пока люди не обладают телепатией, чужое психическое недоступно для непосредственного изучения. Остаётся только создавать теоретические гипотезы о том, что собою представляют психические явления. Поэтому и такое название – оно постоянно напоминает, что мы имеем дело не с непосредственной реальностью. К сожалению, малоквалифицированные психологии не помнят об этом и всерьёз думают, что акцентуации, интеллект и другие психические явления существуют объективно, как деревья. Поэтому про всё знают точно и неспособны допустить альтернативные объяснения. Субъективно им легче, но на практике это приводит к грубейшим ошибкам.
Прежде всего, гипотетический конструкт является определённой теоретической моделью. Причём, при создании теста, новой – иначе тест нет смысла разрабатывать. Конечно, разработчик опирается на соответствующее понятие в какой-то из теорий, если не создаёт собственную теорию личности. Но это делает один конкретный человек, и делает уникальным, субъективным способом.
Итак, гипотетический конструкт уточняется с помощью литературы и раздумий автора над нею. Результатом является т.н. теоретическое определение, раскрывающее сущность явления (измеряемого свойства) через его связи с другими психическими свойствами. Пример – статьи в психологических словарях. Но для создания методики определение должно быть более подробным, и раскрывать также причины – другие, более глубокие явления, с которым связано измеряемое. При этом важно, чтобы определение было непротиворечивым корректным с точки зрения логики, иначе тест будет измерять неизвестно что. Именно на этом этапе закладывается основа конструктной валидности будущего теста. Его сложность по сравнению с остальными этапами заключается в том, что пока нет возможности опереться на эмпирический материал. Зато если он выполнен тщательно, с эмпирическим материалом на последующих этапах обращаться гораздо легче. Несколько лет назад две донецкие студентки, разрабатывая новый вариант теста Леонгарда-Шмишека, посрамили суперавторитетного Пола Клайна, автора классического труда «Конструирование психологических тестов». Тот утверждал, что шкала менее чем в двадцать заданий не может обеспечить достаточную внутреннюю однородность (более 0,7). Студентки создали десять шкал размером 11-12 заданий, внутренняя согласованность которых была не менее 0,72. И добились этого именно за счёт очень хороших определений. Правда, на них потратили больше времени, чем на все остальные этапы.
Здесь трудно дать универсальные инструкции. Сформулируем только самую главную: «копайте глубже». То есть нужно описать соотношение измеряемого конструкта с более базовыми свойствами. Например, в Вашем определении основой агрессивного поведения является недостаток принятия окружающими. Тогда он может стать одним из индикаторов.
Сразу же стоит определить характеристики выборки, для которой тест предназначен – пол, возраст, другие параметры, если они важны. Тестов «для людей вообще» не бывает, кроме популярных.
Работа по тщательному формулированию теоретического определения окупается уже на следующем шаге – создании операционального определения. Хорошо уяснив для себя сущность конструкта, мы гораздо более чётко сможем описать поведение и состояния, соответствующие измеряемому свойству. Например, «Нервозность – склонность к поведению, характеризующемуся высокой моторной активностью, сниженной координацией движений, не вполне адекватной ориентацией в пространстве, убыстрённой речью, частыми сменами темы, сниженной концентрацией внимания…».
Следующий шаг – выделение из операционального определения индикаторов – отдельных групп поведенческих особенностей, реже – субъективных состояний или оценок. В нашем примере это «высокая моторная активность», «убыстрённая речь» и т.п. Индикаторы затем описываются более подробно и конкретно, чем части операционального определения. Важно, формулируя индикаторы, помнить теоретическое определение – это помогает дифференцировать и выделить поведение, связанное именно с измеряемым свойством, а не с чем-то другим.
Формы заданий, которые выбираются далее, весьма разнообразны, каждая обладает недостатками и преимуществами. Если ограничиваться личностными опросниками с закрытыми заданиями, то можно выделить такие, как вопросы, утверждения, пары или варианты утверждений.
К каждой форме заданий можно подобрать разные формы ответов. Наиболее распространённые – согласие либо несогласие с утверждениями (дихотомия) или согласие-несогласие-промежуточный вариант (трихотомия). Могут также предлагаться дихотомические или трихотомические ответы на вопросы. В свою очередь, предлагаемые ответы могут представлять собой простые «да», «нет», «не знаю», или более определённые и длинные варианты (например, вопрос «при ссорах Вы…» а) молчите, б) уходите, в) вступаете в полемику). Если варианты или значения «да» и «нет» отличаются качественно, это наиболее удобная форма. В этом случае можно сказать, что каждое отдельное задание измеряет наличие или отсутствие свойства по номинативной шкале.
Если мы хотим получать максимальное количественное разнообразие ответов, используются шкальные оценки утверждений. При этом следует чётко определять параметр, который надлежит оценивать: степень согласия, возможность принятия, интенсивность поведения и т.д. При шкальной оценке обычно используется пять – семь градаций. Очень важно, чтобы испытуемый чётко представлял себе значения каждого из вариантов ответа, и лучше всего их разместить на бланке так, чтобы он их постоянно видел. Наиболее удобен такой способ ответов, если чётко обозначена интенсивность признака. Если оценка строится от минимальной до максимальной выраженности, все градации обозначаются положительными цифрами. Если же свойство выражается и позитивно, и негативно, удобнее обозначать их и отрицательными, и положительными цифрами. Например, «К завистникам Вы испытываете: отвращение (-3), … равнодушие (0), …. сильную симпатию (+3)».
Многое зависит от формулировки задания, но в целом испытуемым когнитивно легче отвечать, если варианты определены, и их немного, то есть при дихотомии или трихотомии. Несколько труднее ему выбрать, если предлагаются более распространённые варианты – тогда нужно держать в голове более одной семантической единицы. Разработчику с ними тоже сложнее, потому что трудно уложить всё разнообразие возможного поведения в 2-3 чётких варианта, испытуемому может не подходить ни один из них.
По всем этим причинам, в личностных опросниках наиболее популярны вопросы или утверждения с трихотомическим ответом. В них ключевой ответ достаточно чётко указывает на наличие свойства, неключевой столь же определённо означает отсутствие свойства, на равную вероятность и наличия, и отсутствия свойства указывает промежуточный ответ.
Далее, к каждому индикатору придумывают ряд заданий. Очень важно чтобы соблюдались следующие требования.
Неочевидность значений ответов: не должно быть легко понятно настоящее значение ключевого ответа. А вот если испытуемому очевидным кажется одно, а задание измеряет нечто другое, это даже хорошо: он чувствует себя умным, а если и искажает, то не измеряемое свойство. Например, вопрос «Вам нравится элитарный кинематограф?» неискушенный испытуемый, скорее всего, сочтёт направленным на диагностику своего эстетического развития. А на самом деле утвердительный ответ дают люди с высоким тщеславием. Для формулирования таких заданий большое подспорье – хорошее теоретическое определение – в нём практически всегда много неочевидных связей.
Довольно очевидное требование – понятность и недвусмысленность. Такие задания позволяют выполнить ещё одно требование – побуждать «к первому пришедшему в голову ответу», с минимумом обдумывания. Вопрос вроде «Согласны ли Вы, что в Вашей жизни, за редким исключением, не остаётся субъективного пространства для рефлексии наиболее аффективно окрашенных актуальных переживаний в сфере перманентных романтических отношений без предполагаемого сокращения психологической дистанции?» может показать эрудицию разработчика и/или ввести испытуемого в транс, но диагностически бесполезен. Здесь уж лучше «Мне некогда переживать о всякой ерунде».
Конкретность. Пример задания, не соответствующего этому требованию: «Иногда мне кажется, что всё как-то так, не то чтобы очень уж слишком». И, по возможности, задания должны касаться поведения, а не чувств – оно более конкретно. А если всё-таки вопрос будет о чувствах, его следует особенно конкретно и определённо формулировать.
В одном задании должен быть только один вопрос или утверждение. Если испытуемый любит собак, а кошек – нет, ему трудно будет с утверждением «Я люблю кошек и собак».
Следует избегать вопросов о частоте, например, «Вы часто печалитесь?». Для одного человека «часто» – это ежедневно, для другого – ежемесячно. Частоту можно оговорить, если это не усложняет задание, в конкретных временных понятиях: «Я грущу каждый день».
Не должны навязываться определённые ответы. Попробуйте свободно выразить свое мнение, не соглашаясь с утверждением «Будучи умным человеком, я считаю необходимым посещать лекции по психодиагностике». Кстати, именно такие вопросы задают в социологических исследованиях с заранее заказанными результатами.
Имеет значение и компоновка заданий. Наиболее важно соблюдать следующие принципы. Желательно одинаковое количество прямых – с ключевым ответом «да» и обратных – с ключевым ответом «нет». В опроснике их лучше чередовать случайным образом. Это позволит избежать «инерции», когда испытуемый трижды подряд отвечает «да», и в четвёртый раз выбирает «да», уже не вникая в задание, по привычке.
Плохо, если задания к одному индикатору идут подряд – испытуемый может «завязнуть» на этом аспекте поведения, и не сразу вникнуть в задания к другому индикатору, когда дойдёт до них. Правильное чередование позволяет распределить внимание на все индикаторы и задания максимально равномерно.
Что касается общего количества заданий в тесте, то в первоначальной форме их должно быть столько, чтобы после отсева их осталось не менее 20. Именно таков минимальный размер шкалы для обеспечения её однородности.
Важно также оформление стимульного материала. Основные, самые простые требования к нему – удобство и хорошая читаемость. Ещё одна важная оформительская «мелочь»: испытуемый обязательно должен сделать какую-то пометку по каждому заданию. Нельзя, например, в качестве промежуточного ответа предлагать пропустить ячейку в бланке ответов («если не согласны, ничего не ставьте»). Иначе испытуемому легко пропустить ряд заданий или вообще сбиться с последовательности, ставя отметки не в тех ячейках.
Когда первоначальная форма, наконец, готова, переходят к тестированию. По поводу необходимого размера выборки спорят, но большинство западных специалистов сходятся на том, что минимальное число испытуемых – 200 человек. Более точный размер зависит от специфики конструкта, есть специальные методы его подсчёта. Разумеется, выборка должна быть репрезентативной (см. курс экспериментальной психологии). Далее изложим действия по обеспечению надёжности теста. Подробно она рассматривалась в предыдущей главе.
После определения частот встречаемости каждого варианта ответа по каждому заданию, отбрасываются те, на которые все или почти все испытуемые отвечают одинаково. Например, для дихотомической формы недискриминативными считаются такие задания, где частота одного из ответов больше 84%, а второго, соответственно, меньше 16%. Основная причина такого распределения – несоблюдение требований к формулировке заданий.
Если таких заданий оказывается слишком много, их можно не отбрасывать, а переформулировать. Обычно недискриминативны задания с очевидной социальной желательностью одного из вариантов и категорично сформулированные, или при навязывании одного из ответов. Например, «Как воспитанный человек, я всегда сохраняю спокойствие». Как думаете, много испытуемых признают себя невоспитанными? Его следует смягчить так, чтобы вероятность обнаружить все варианты была примерно одинакова: «В большинстве ситуаций можно сохранить спокойствие».
Для снижения влияния социальной желательности или стремления выглядеть лучше есть простой, но эффективный способ – «проективные вопросы». Дело в том, что эти влияния сильны, если задание обращено на самого испытуемого, вопрос задаётся в лоб. Если же он будет направлен, к примеру, на «большинство людей», «абстрактного индивидуума» или сформулировано безлично, испытуемый отвечает как бы не о себе, и ему легче не согласиться с утверждением «Большинство людей в сложных ситуациях сохраняют спокойствие». Но откуда ему знать, как ведёт себя большинство людей?
Кстати, на этом же принципе основан один из способов диагностики без тестов, который давно интуитивно применяют детективы. Если Вы попросите человека подробно рассказать о ком-то для него малознакомом, он выдаст гораздо больше информации, чем реально о нём знает. Потому что станет приписывая ему собственные мотивы, особенно бессознательные. Вспомните, как старые девы подробно описывают чужую «развратность», о которой на самом деле знать не могут. Или как мифические олимпийские боги похожи психологически на придумавших их древних греков.
Однако вернёмся к разработке тестов. После исключения недискриминативных заданий, для оставшихся оценивают корреляцию с итоговым баллом (суммой по всей шкале). Очевидно, что непригодны задания, имеющие с ним корреляцию, близкую к нулю (отсутствие связи) – они измеряют что-то другое. После их исключения повышается и общая внутренняя согласованность теста, ведь исключённые задания уже не входят в итоговый балл.
Задания, имеющие отрицательную и значимую корреляцию с итоговым баллом, можно не отбрасывать, а просто поменять ключ обратный: если ключевым было «да», теперь ключевым считаем «нет». Тогда задание будет коррелировать с итоговым баллом уже положительно, и ещё больше повышать внутреннюю согласованность. И при этом стоит подумать, почему мы ошиблись в своём первоначальном предположении о значениях ответа. Это может помочь скорректировать определение конструкта.
Из отобранных и изменённых заданий формируют исправленную форму с соблюдением тех же требований. Её нужно заново опробовать, потому что после отсева непригодных заданий изменяется взаимное влияние заданий друг на друга. Проверка выполняется на аналогичной, но другой выборке, чтобы избежать эффекта тестирования, в частности, припоминания испытуемыми своих ответов. Далее вся процедура проверки повторяется. Если отбор был произведён тщательно, отбрасывать больше нечего: небольшие изменения характеристик отдельных заданий могут быть только из-за новой компоновки заданий. В противном случае всё цикл повторяется до тех пор, пока тест не станет соответствовать требованиям по внутренней согласованности и однородности.
Дальше следует проверка валидности с помощью одного, или, лучше нескольких методов, описанных в предыдущей главе. Они применяются, разумеется, к тем испытуемым, на которых опробовался последний вариант исправленной формы.
Кстати, если при перекрестной валидизации выяснится, что коэффициент корреляции между разрабатываемой методикой и проверочной слишком близок к 1, то новая методика измеряет то же самое. Тогда она остаётся признать, что разработан не новый тест, а всего лишь параллельная форма проверочной методики – тест, измеряющий то же самое, но с другими заданиями. Однако труд тогда не пропадёт даром. Испытуемому он будет казаться другим тестом, и это очень полезно в научных и прикладных исследованиях – ведь тогда измерение не подвержено эффекту тестирования. А в практической работе тестирование с применением параллельных форм даёт более надёжные результаты. Поэтому, например, все варианты шестнадцатифакторного личностного опросника Р. Кеттелла (16PF) состоят из двух параллельных форм: А и В (187 заданий), С и D (105 заданий), E и F (специальный вариант для малограмотных). У всех вариантов совершенно идентичный набор шкал, а у параллельных форм даже одинаковый ключ.
Спустя некоторое время, которое зависит от того, насколько стабильным во времени считается гипотетический конструкт, на всё тех же испытуемых проверяется ретестовая надёжность. Напомним, что она считается достаточной, если коэффициент корреляции между измерениями через время положителен и статистически значим.
Наконец, неизбежно возникает вопрос о психологическом значении тестовых оценок. На уровне «здравого смысла» средняя выраженность измеряемого качества должна бы соответствовать середине шкалы, минимальные оценки – низкой, а максимальные – высокой. Но не будем забывать, что тест изначально является субъективной выдумкой разработчика, а объективность приобретает только при эмпирической проверке. И о том, что наука шире здравого смысла.
На предыдущих этапах эмпирически проверялась надёжность и валидность. Основная идея стандартизации оценок тоже заключается в нахождении эмпирической середины. Ею будут являться оценки, которые имеет большинство испытуемых.
О
дин
из основных постулатов психометрики –
принцип так называемого нормального
распределения. Согласно ему, для любого
свойства на достаточно большой выборке
больше всего средних значений (они
встречаются наиболее часто), а чем больше
значение от середины отклоняется, тем
реже оно встречается. Например, средним
мы называем такой рост, который имеет
большинство людей, а высокими и низкими
считаем тех, кто отклоняется от этого
диапазона. Именно на отклонения, в данном
случае – на лилипутов и баскетболистов,
мы обращаем внимание. Графически это
изображено на рисунке.
Предельно упрощённо можно сказать, что средние значения – это «как у всех». Но даже в пределах нормального распределения мода – наиболее часто встречающееся значение – может быть левее или правее. Это и нужно определить при стандартизации тестовых показателей. Причём «эмпирическая середина» – это не одно значение, а диапазон. На этой основе и создаются тестовые нормы. Именно по ним индивидуальные результаты сопоставляются с общими. В руководстве к таким способом стандартизованным тестам существуют специальные таблицы перевода сырых баллов в стандартные.
Наиболее удобны и чаще всего используются шкалы из десяти (стэны) или девяти (стэнайны) градаций. По ним легко представить себе значение индивидуального показателя. Например, 5 стэнайнов имеют 20 % всех испытуемых, от 4 до 6 – 54% (средние). 1 или 9 стэнайнов – редкость, такие оценки бывают только у 4%. Чем ближе к крайним стандартным оценкам, тем более они уникальны, и тем более выражено свойство.
Необходимо сделать ещё одно важное замечание. Продолжая предыдущий пример, очевидно, что человек с ростом 190 см. будет считаться высоким, но только не среди баскетболистов. Там другая «эмпирическая середина». Иными словами, нормы создаются для конкретных подгрупп. Так, например, в адаптации методики 16PF, выполненной НПЦ «Психодиагностика», даются отдельные нормы для мужчин и женщин и для возрастных категорий 17 – 20 лет, 21 – 25, 26 – 30 и так далее. Очевидно, между этими группами были обнаружены достоверные различия.
Заключительный этап – создание интерпретации, то есть прогнозное описание поведения, свойственного испытуемым с таким-то стандартным баллом. Минимальное описание подразумевает минимальную и максимальную выраженность свойства, но обычно они более подробны.
Нормативная интерпретация создаётся на основе теоретического и операционального определений, скорректированных в ходе проверки валидности. Очень важно для практической интерпретации не принимать их за абсолютную истину. Это относительная истина – в рамках данного подхода к измерению и в рамках теоретической концепции, на которой этот подход основан. Собственно, нормативная интерпретация – это только верхушка айсберга, а хорошо бы представлять его себе полностью. Здесь-то и помогает представление о теоретических основах, подходе автора теста к измерению, процедуре разработки и основных характеристиках. Если оно у Вас есть, можно создавать более адекватные интерпретации, чем нормативная.
Итогом всей работы является руководство, в которое, если это приличный тест, входят:
Стандартный стимульный материал (бланк, опросник и инструкция).
Ключи и шаблоны для обработки.
Краткий теоретический обзор проблемы тестирования данного свойства.
Описание и обоснования «идеологии» измерения в данном тесте.
Теоретическое и операциональное определения конструкта, индикаторы.
Описание популяции, процедуры и условий тестирования.
Описание процедуры разработки и следующие показатели:
общие коэффициенты однородности всей шкалы;
показатели дискриминативности и корреляции с итоговым баллом по каждому заданию;
показатель ретестовой надёжности;
результаты проверки валидности: коэффициенты корреляции с каждой из шкал «проверочных» методик, различия между контрастными группами и т.д.;
описание выборки стандартизации.
Нормы и таблицы перевода сырых баллов в стандартные для каждой категории испытуемых.
Нормативная интерпретация, отдельная хотя бы для низкой, средней и высокой выраженности измеряемого свойства.
Имена авторов, рецензентов, адрес организации-разработчика. Как и с любым другим товаром, если производители сами уверены в его качестве, они не прячутся.
Если всё это есть в руководстве к тесту, есть и гарантия, что тест соответствует требованиям. И, применяя его, вы сделаете только свои собственные ошибки, а не ошибки авторов теста. А чтобы было меньше ваших ошибок, нужно представлять себе ситуацию применения теста. Об этом речь в следующей главе.
