Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ответ2.doc
Скачиваний:
9
Добавлен:
25.09.2019
Размер:
27.54 Mб
Скачать

Валидность теста

«Валидность теста – это понятие, указывающее нам на то, что тест измеряет и насколько хорошо он это делает. Следует иметь в виду, что название теста не может служить указанием на то, что он измеряет» Узнать, что на самом деле диагностирует данный тест, можно только на основании результатов специальной проверки валидизации (или валидации), когда определяется, с какими независимыми показателями связаны результаты теста.

Валидность теста – соответствие теста измеряемому психическому свойству. Высокая валидность указывает на то, что тест измеряет именно то, что необходимо измерить. На валидность теста негативно влияют случайные факторы. Поэтому в психометрике принято следующее основное психометрическое неравенство: ВАЛИДНОСТЬ < НАДЕЖНОСТЬ, что означает, что валидность не может превышать надежность теста. При прочих равных условиях, чем надежнее тест, тем он валиднее, но надежность теста сама по себе еще не обеспечивает его валидность.

Помимо случайных факторов на валидность теста влияют систематические факторы. Они привносят систематические искажения в результаты. Эти факторы есть другие психические свойства, которые мешают проявиться в результатах теста тому свойству, на которое тест направлен.

Например, мы хотим измерять «потенциал обучаемости» (важнейший компонент общих интеллектуальных способностей человека). Но даем испытуемому тест с жестким ограничением времени исполнения и отсутствием возможности вернуться и исправить допущенную ошибку. Совершенно очевидно, что искомое психическое свойство оказывается смешанным в тесте с ложным психическим свойством — «стрессоустойчивостью»: испытуемые с высокими показателями стрессоустойчивости будут лучше выполнять тест. В этом проявится эффект систематического искажения.

Мы не можем судить о валидности теста до тех пор, пока не сравним его результаты с источником истинной (или хотя бы заведомо более валидной) информации об измеряемом свойстве с критерием.

Очень часто в качестве критерия валидности используется экспертная оценка. Например, мы хотим убедиться, что короткий тест на измерение уровня дисциплинированности валиден. Для этого опрашиваем учителей об уровне дисциплинированности хорошо известных им учеников.

Метод «известных групп». К участию в психометрическом эксперименте по проверке валидности теста приглашаются испытуемые, про которых известно, к какой группе по критерию они относятся. В случае с тестом дисциплинированности подбираются ученики, заведомо дисциплинированные, по данным экспертной оценки учителей («высокая» группа по критерию), и заведомо недисциплинированные («низкая» группа по критерию). После проведения теста мы рассчитываем, например, корреляцию между тестом и критерием.

Метод «известных групп» обладает серьезным недостатком. Он не всегда позволяет использовать тест для прогноза. При формировании «известных групп» оценивается поведение, которое происходило в прошлом, а мы хотим сделать тест дня прогноза поведения, которое будет происходить в будущем.

Традиционно выделяют три типа валидности:

по содержанию;

по критерию;

по конструкту.

Валидность по содержанию. Суть ее заключается в том, что в тесте должны быть представлены в полном объеме и в правильной пропорции ключевые показатели, для диагностики которых он предназначен.

Работа по созданию теста начинается с анализа диагностируемой области и составления так называемой матрицы-спецификации, в которой записывается, какого типа и сколько вопросов должно быть в тесте, что и позволяет обеспечить его валидность по содержанию. Матрицу-спецификацию может создать только эксперт в соответствующей области.

Валидность по содержанию не измеряется, а закладывается уже в процессе разработки теста. Поэтому содержательная валидность не имеет количественного выражения и не может быть представлена как коэффициент корреляции; в руководстве, как правило, приводится матрица-спецификация.

Валидность по критерию. «Валидность по критерию показывает, насколько по результатам теста можно судить об интересующем нас аспекте поведения индивида в настоящем и будущем. Чтобы определить ее, выполнение теста соотносится с критерием, т.е. непосредственной и независимой мерой того, что должен предсказывать тест».

Грамотный пользователь должен ориентироваться не на название теста, а на показатели критериальной валидности: по ним он может определить, что же действительно измеряет тест и для решения каких задач он может быть применен. Поскольку коэффициент критериальной валидности – это коэффициент корреляции между результатами теста и данными по параметру, который необходимо оценить (т.е. критерию), то он интерпретируется так же, как и любой другой коэффициент корреляции.

Обычно коэффициент валидности тестов колеблется в пределах от 0,30 до 0,80, наиболее часто он равен 0,40–0,60. Критериальную валидность, равную 0,40–0,60, можно считать своего рода стандартом. Коэффициент валидности, равный, например, 0,47, говорит о том, что индивидуальные различия результатов по тесту на 47% обусловлены тем фактором, который данный тест измеряет, а на 53% случайны.

Конструктная валидность. «Конструктная валидность теста показывает, насколько его результаты могут рассматриваться в качестве меры некоего теоретического конструкта». Конструктная валидность показывает, что тест измеряет именно тот показатель, для которого предназначен, и делает это достаточно полно. Такими теоретическими психологическими конструктами являются, например, интеллект, внимание, память, моторика руки, скорость реакции и т. д.

Проблема конструктной валидности является наиболее сложной в психодиагностике. Смысл конструктной валидности становится более понятным в сопоставлении ее с критериальной валидностью. Критериальная валидность показывает, например, насколько человек с определенным типом темперамента сможет успешно выполнять какую-то деятельность, а конструктная – насколько тест позволяет охарактеризовать сам тип темперамента этого человека, причем независимо от успешности или неуспешности выполнения конкретной деятельности.

Пользователю теста важна критериальная валидность, исследователю – конструктная. Конструктная валидность показывает, какую именно психологическую реальность диагностирует тест, насколько полно (тест должен охватывать все наиболее значимые аспекты конструкта, но не внешнего критерия, как требуется для валидности по содержанию) и насколько «чисто» (например, тест интеллекта должен быть максимально свободен от влияния темперамента, памяти, внимания и т. д.).

Достоверность теста. Особой разновидностью валидности является достоверность. Речь идет о сознательных или бессознательных искажениях, которые вносит в тестовые результаты сам испытуемый, руководствуясь в ходе теста особой мотивацией, отличающейся от той, которая присуща ему в реальном поведении. Достоверность теста – способность теста защищать информацию от мотивационных искажений. Особенно остро проблема достоверности стоит в случае тестов опросников, которые допускают больше свободы в выборе испытуемым любого варианта ответа.

Типичный прием обеспечения достоверности наличие в тест-опросниках шкал лжи. Эти шкалы основываются главным образом на феномене социальной желательности стремлении испытуемых давать в ходе тестирования социально одобряемую информацию. Если испытуемый набрал по шкале лжи балл выше критического, то его протокол объявляется недостоверным и ему предлагается либо выполнить данный тест еще раз более откровенно, либо выполнить другой тест.

Достоверность тестирования тесно связана со степенью доверительности общения, которую смог психолог установить с данным испытуемым. Здесь полезно различать две диагностические ситуации: консультативную (СИТУАЦИЯ КЛИЕНТА) и аттестационную (СИТУАЦИЯ ЭКСПЕРТИЗЫ). В первом случае испытуемый участвует в тестировании на добровольной основе и сам заинтересован получить рекомендации по результатам тестирования (как, например, в профориентационной консультации). Во втором случае тестирование проводится по инициативе педагога или администрации, психолога, родителей, т. е. других лиц, и эти другие больше заинтересованы в результатах, чем сам испытуемый.

Стандартизация тестов

Первоначальный суммарный балл, подсчитанный с помощью ключа, не является показателем, который можно диагностически интерпретировать. Его называют «сырым тестовым баллом». Применение тестовых норм в профессионально организованной психодиагностике основывается на переводе тестовых баллов из «сырой» шкалы в «стандартную». Эта процедура называется «стандартизация тестового балла».

Выборка, на которой определяются статистические тестовые нормы, называется выборкой стандартизации. Ее численность, как правило, не меньше 200 человек.

Для серьезных профессиональных тестов вместо простейшей линейной стандартизации используется более сложная процедура нелинейной нормализации. В результате этой процедуры разработчики снабжают пользователей теста так называемой «конверсионной таблицей» для перевода сырых баллов в стандартные баллы по заданной шкале. В ней приводится полный перечень соответствий между интервалами сырой шкалы и интервалами стандартной.

После того, как балл по тесту стандартизирован, можно выносить диагностическое заключение. Общее правило здесь таково: если стандартный балл У превышает единицу «верхней» (или «высокой») группы, то данному испытуемому приписывается повышенное значение измеренного психического свойства. Если же стандартный балл У ниже границы «нижней» («низкой») группы, то о данном испытуемом формулируется заключение, соответствующее низкому полюсу измеряемого свойства. Если стандартный тестовый балл У заключен в пределах центрального интервала, то про испытуемого говорят, что у него измеренное свойство выражено в средней степени как у большинства людей.

Любые тестовые заключения при использовании статистических тестовых норм являются относительными. Они зависят от той выборки, на которой производилась стандартизация теста. То, насколько выборка стандартизации позволяет применять тест на широкой популяции, называется Репрезентативность тестовых норм. Репрезентативность – третье важнейшее психометрическое свойство теста. Понимание смысла этого требования к тесту помогает правильно учитывать ограничения в сфере применения теста.

Кроме статистических тестовых норм в современных тестах часто используются критериальные нормы. Они особенно важны для сферы образования.

Проверка репрезентативности тестовых норм осуществляется с помощью анализа так называемого распределения частот тестовых баллов. Одним из простейших методов является проверка нормальности этого распределения. Более сложный и универсальный подход предполагает сравнение двух распределений, построенных для двух случайных половин выборки стандартизации. Если два этих распределения оказываются практически тождественными, то можно говорить о репрезентативности тестовых норм.

Стандартные шкалы — это специально разработанный в психодиагностике инструмент для интерпретации полученных в результате тестирования психологических данных. Для понимания сущности стандартных шкал важны два ключевых понятия: кривая нормального распределения и стандартное отклонение.

Кривая нормального распределения (кривая Гаусса,) - это математический закон, которому подчиняется большое количество явлений в природе.

Стандартное отклонение — это специфическая мера вариативности показателей. Чем меньше стандартное отклонение, тем больше показателей группируется около среднего, чем больше стандартное отклонение — тем больше разброс.

Рис.Кривая нормального распределения: а – с большим стандартным отклонением; б – с меньшим стандартным отклонением

Благодаря стандартным шкалам появляется возможность унифицировать данные тестирования и сравнивать между собой результаты, полученные с помощью разных тестов и в разных группах, более того, в группах разного возраста. Если полученные оценки по тестам перевести в какую-либо стандартную шкалу, то появится математически обоснованная возможность сопоставления результатов.

Чем больше база данных, на которой осуществляется перевод «сырых» баллов в стандартную шкалу, тем более надежной она получается в плане сопоставления с данными других тестов или других групп.