Скачиваний:
25
Добавлен:
10.02.2015
Размер:
102.4 Кб
Скачать

3.2.4. Концепция валидности в психодиагностике

Для получения информации о людях и группах в психодиагностике используются тесты и другие процедуры. В главе 1 утверждалось, что такого рода изучение идет дальше оценки собственно тестируемого поведения. В диагностике обычно различают три типа валидности: прогностическую, конструктную и содержательную.

Валидность - это достаточно сложное понятие. В качестве сходных с ним понятий могут быть названы правдивость, полезность, точность, возможность интерпретации (интерпретируемость), прогностическая способность и помощь в принятии решений. Как уже подчеркивалось, разные типы валидности имеют одну и ту же основу. Однако понятие валидности должно быть четко определено применительно к различным целям, аспектам и контекстам. Такая дифференциация дает информацию о том, в каком контексте концепция валидности может быть использована.

Первая дифференциация типов валидности: прогностическая валидность по внешнему критерию, конструктная и содержательная валидность. В каждом руководстве по психодиагностике можно встретить описание данных трех типов. Гийон (1980) заметил, что эти три типа стали чем-то "... вроде святой троицы". Под прогностической валидностью понимается способность к предсказанию поведения испытуемых на основе критериев. Другое название этого типа валидности - валидность по критерию. Критерием в большинстве случаев выступает социально-значимое поведение, например, успеваемость в школе, профессиональная деятельность или социальная адаптация. Прогностическая валидность теста оценивается по тому, насколько данный прогноз получает подтверждение в будущем или в настоящее время (соответственно прогностическая и конкурентная валидность). Конструктная валидность имеет отношение к теоретическому конструкту самому по себе и включает в себя поиск факторов, объясняющих поведение при выполнении теста. Как особый тип конструктная валидность канонизирована в статье Кронбаха и Миля (1955). Эти авторы оценивали с помощью названного типа валидности все тестовые исследования, которые не были прямо направлены на предсказание некоторых значимых критериев. Это исследование содержало информацию о психологических конструктах. Содержательная валидность требует того, чтобы каждое задание, задача или вопрос, принадлежащие к определенной области, имели равные шансы стать заданиями теста. Валидность по содержанию оценивает соответствие содержания теста (заданий, вопросов) измеряемой области поведения. Некоторые авторы характеризуют этот тип валидности как аспект надежности. Другие авторы (как, например, Lumsden, 1975, с. 270) называют его наиболее важным типом валидности. Поскольку Лумсден считает полную конструктную валидизацию невозможной, он предпочитает так называемый “смягченный подход в требованию ключевых ответов” (“lower keyed approach”), расширяя тем самым границы понятия содержательной валидности. Среди других возможных методов он обращается к разработке тестовых заданий в соответствии с определенными правилами. Оценка содержательной валидности в определенной степени зависит от мнений экспертов. Нередко считается, что эмпирические исследования содержательной валидности отсутствуют. Однако предложенный Кронбахом (cм. Crocker, Aldgina, 1986, с. 222) эксперимент с дублированным построение теста показывает, что проведение исследований содержательной валидности возможно, и такие исследования весьма полезны. Для осуществления этой идеи требуются группы независимых разработчиков тестов, имеющих в своем распоряжении определения содержания заданий, правила выборки заданий из области изучаемых феноменов, правила для проверки заданий и единые критерии для интерпретации. Тесты, составленные двумя командами разработчиков, проводятся на выборке испытуемых. Надежность тестов подсчитывается путем расщепления заданий на две части, в результате чего получают индекс содержательной валидности.

Описание этих трех типов валидности встречается во всех учебниках по психодиагностике. Кроме них выделяются также и другие специфические виды валидности. Мы заимствуем их описание у Дренса (1975). Некоторые авторы (например, Guilford, 1954) приводят описание еще большего числа типов валидности.

Вторая дифференциация валидности: специфические типы. Первый специфический тип - это “внутренняя валидность”. Она относится к требованию, согласно которому корреляция не должна быть тривиальной или тавтологичной. Тестируемые отношения не включаются в определенные понятия. Исследования не должны идти “по кругу”. Это резонные замечания. Однако не так легко избежать чисто семантического уровня разработки психологических конструктов. Например, социальные конструктивисты Смедслунд и Герден упрекают психологов за то, что они занимаются проверкой не реальных гипотез, а тавтологий.

“Факторная валидность” имеет отношение к процедурам многомерного анализа и теории, которая преимущественно используется при конструировании тестов. Считается, что тест обладает факторной валидностью, если он имеет высокую нагруженность по известным факторам. Одним их первых этот тип валидности определил Гилфорд. Предложенная им концепция структуры интеллекта обусловила разработку “тестов одного фактора”, что на самом деле является разработкой простой структуры Терстоуна. Этот тип тестов направлен на измерение только одного конкретного фактора.

“Синтетическая валидность” содержит информацию о том, могут ли данные о валидности теста быть перенесены с одной ситуации на другую. Это имеет важное значение в тех случаях, когда критерий является комплексным. Преставляется ценным иметь в своем распоряжении тест, который предсказывает элементы, связанные с различными критериями.

“Конструктная валидность” обозначает корреляцию данного теста с уже существующими тестами того же типа.

“Внешнюю (очевидную) валидность” по-другому можно определить как валидность “с первого взгляда”, подобно тому как мы говорим о “любви с первого взгляда”. Имеется в виду, что первое впечатление о том, что оценивает тест, соответствует связанному с ним критерию. Это выглядит приемлемым. Но что произойдет, если без проведения каких бы то ни было эмпирических исследований тест будет назван валидным только на том основании, что его критерий представляется вполне очевидным? Дренс (1975) выступает против такого подхода и приводит примеры того, как тесты, казалось бы, предсказывающие критерий, на самом деле это делать не могли. Так, при отборе водителей проводятся испытания в специальном водительском кресле, но они не имеют никакой прогностической валидности. То же самое произошло и с тестом Бурдона-Виерсма при диагностике эпилепсии и использовании на вступительных экзаменах в высшую школу. “Внешняя валидность” предполагает существование прогностической валидности, которая при этом не исследуется эмпирически, а иногда фактически просто отсутствует. Но есть и обратная сторона проблемы. Предположим, что имеется тест, обладающий прогностической валидностью, но оцениваемый экспертами как не имеющий отношения к работе или к школьным достижениям. Естественно, что этот тест не будет допущен к использованию в качестве методики для отбора.

Понятие “инкрементной валидности” относится к требованию, согласно которому тест должен дополнять уже известную прогностическую валидность, основанную на демографических и социально-экономических данных. Этот тип валидности имеет смысл, поскольку валидные методики обязаны конкурировать с имеющимся базальным уровнем знаний. При этом, однако, не отбрасывается тот факт, что корреляции тестовых показателей с демографическими переменными являются информативными показателями, так как тесты могут оказаться пристрастными в отношении определенных групп.

Третья дифференциация: валидность в (квази)экспериментах. Вне психодиагностики в квазиэксперименте различаются четыре типа валидности. Кук и Кэмпбелл (1976) описывают концептуальные схемы исследований, проводимых в педагогической и инженерной психологии. Назначение эксперимента - выявить причинно-следственные связи. План такого исследования содержит указания относительно того, кто, где и когда может подвергаться наблюдению. С помощью идеи Фишера об “идентичных двойниках на все случаи жизни” и случайного выбора условий для субъекта проверяются возможные гипотезы о причинах поведения. В отличие от этого цель квазиэкспериментального исследования состоит в выявлении воздействия той или иной переменной (например, терапии) на зависимые переменные, в то время как случайное соответствие условиям исключено. Различаются следующие виды валидности.

1. Внутренняя валидность (internal validity). Это понятие относится к тому факту, что наблюдаемые изменения зависимой переменной могут быть приписаны другой переменной как “независимой”. Источниками непреднамеренных изменений являются характеристики контрольной и экспериментальной групп, например различия в развитии, отборе, в избирательном участии и выпадении из ситуации эксперимента, а также взаимодействие между этими характеристиками. Факторами, влияющими на характеристики переменных, могут стать сами методики и ситуация эксперимента, например, феномен статистического сведения к среднему, повторное тестирование, тесты, оценивающие различное поведение и события, воздействующие на одни группы и не оказывающие никакого влияния на другие.

2. Валидность статистического вывода. Для того, чтобы выявить влияние независимых переменных при проведении экспериментов, внутриклеточная вариативность матрицы распределения (различия между субьектами) должна быть ограничена. Валидность статистического вывода возрастает (is ameliorated) при увеличении внутриклеточных различий, например, при малой (нерепрезентативной) выборке испытуемых, при разнородности их состава, при неправильном предъявлении независимых переменных или при отсутствии должного контроля за условиями работы контрольной и экспериментальной групп.

3. Внешняя валидность (external validity). Целью любого исследования является обобщение результатов. Но при взаимодействии двух независимых переменных результаты могут приобретать специфический характер, так что может быть неясен эффект каждой из них. Существуют и другие примеры взаимодействия на уровне статистики - между независимой переменной и специфическим расположением субъектов, особенностями времени и ситуации.

4. Конструктная валидность. Этот тип валидности имеет отношение как к зависимой, так и к независимой переменной. Эти переменные должны быть адекватно операционализированы. Здесь не должно быть эффектов "недо..." или “пере...", то есть должно существовать соответствие между сходными и несоответствие между несходными конструктами, причем на содержание конструктов не должны оказывать влияние методы сбора данных. Прямое отношение к конструктной валидности имеют также ожидания экспериментаторов и участников эксперимента, поскольку их гипотезы и предположения могут влиять на результаты.

Таковы различия типов валидности для тестов и квазиэкспериментов (см. Cook, Shadish, 1994). Понятие валидности конкретизировалось также применительно к разным контекстам. В то же время существует тенденция унифицировать понятие валидности.

Интегрированная концепция валидности. Мессик (1988, 1989, 1994) указывает на общие элементы при рассмотрении концепции валидности. Он определяет валидность следующим образом: "Валидность - это обобщенное оценочное суждение о том, насколько адекватными и приемлемыми (на эмпирическом и теоретическом уровнях) являются действия и выводы, основанные на информации о тестовых показателях или результатах других способов оценивания” (Меssick, 1989, с. 13). Валидность не сводится к выводам, вытекающим только из тестовых показателей. Это понятие имеет отношение и к другим методам исследования и фиксации относительно устойчивого типа поведения. Причем относительно устойчивым может быть названо поведение не только личности, но и группы, такое понятие может быть использовано и при характеристике ситуаций, объектов и социальных институтов. Это определение охватывает столь же большую область, как и определение оценивания, данное Джадером и Петерманном (1992) и приведенное в главе 1. Мессик (1988, с. 3) выделил в качестве наиболее важных проблем валидности следующие вопросы: возможность интерпретации, релевантность, возможность практического использования тестовых показателей. Они относятся к трем наиболее известным типам валидности. Он добавляет также четвертый тип: функциональную ценность показателей с точки зрения результатов их социального использования. Автор подчеркивает, что надежность, валидность и объективность тестов - это не только методические требования. Тесты имеют также и социальное значение, поскольку они используются при оценивании людей и условий, в которых те живут. На это также указывает и Кронбах (1988). Вопрос заключается не только в том, является ли методика валидной, но также и в том, отвечает ли она нормам и ценностям общества.

Независимо от Хабермаса (1973) два других автора подчеркивают, что валидность только тогда адекватна, когда она соответствует социальным нормам. Хабермас назвал это "Richtigkiet"*. Конкретный пример того, что последствия использования теста не соответствуют социальным нормам и ценностям, описан Кронбахом (1988). Он указал на то обстоятельство, что, во-первых, результаты тестирования влияют на способ обучения в том отношении, что учителя акцентируют внимание на изучении фактов, и, во-вторых, тесты могут оказаться “пристрастными” в отношении некоторых групп.

Мессик считает наиболее важной понятие конструктной валидности и доказывает, что прогностическая и конструктная виды валидности могут быть рассмотрены как две категории этого типа валидности. Для объяснения связи между предиктором и критерием необходимо наличие теоретической возможности такой связи, например, посредством общего конструкта.

Содержательная валидность предполагает выбор заданий из соответствующей области, которую чаще всего образуют те или иные знания, умения, способности, навыки. Так, соблюдая требования валидности, можно косвенно оценивать знания, навыки, способности.

Валидность - это понятие открытого типа, предполагающее выведение содержательных заключений путем анализа полученных показателей. Нужно ответить на следующие вопросы:

- Корректны ли задаваемые вопросы?

- Все ли важные элементы рассматриваются?

- Существуют ли способы контроля и учета побочной вариативности тестовых показателей?

- Отражает ли процедура подсчета баллов процессы, происходящие в области заданий, и согласуется ли такая процедура с этой областью?

- Имеются ли данные, подтверждающие, что тестовые показатели отражают именно то, что они должны отражать на самом деле? Например, являются ли они показателями личностной черты, которую важно учитывать при профессиональном отборе, тренинге или в ходе терапевтического процесса?

- Существуют ли альтернативные способы интерпретации тестовых показателей или альтернативные способы обработки?

- Являются ли полученные показатели надежными и могут ли быть они обобщены по содержанию, контексту и группам?

- Учитываются ли возможные последствия использования показателей теста?

- Можно ли применять тестовые показатели в конкретных ситуациях?

- Корректно ли используется информация о тестовых показателях?

- Соответствуют ли близкие и далекие по времени последствия применения теста его исходным целям и нет ли нежелательных побочных результатов?

Исследование валидности предполагает приписывание тестовым показателям эмпирических значений, которые не противоречат принятым нормам и ценностям. Ясно, что интерпретация тестовых показателей имеет ценностный характер. При интерпретации результатов выполнения теста как показателей развития интеллекта, когнитивной сложности и некоторых других безоговорочно принимается то положение, что “интеллектуальный” и “сложный” - это “лучше”, чем “неинтеллектуальный” и “простой”.

Соседние файлы в папке Ян Терлак