- •Литература
- •Краткий курс лекций
- •Тема 1. Тестология и психометрика
- •Тема 2. Тестирование как метод психологического исследования
- •Тема 3. Понятие психологического теста. Виды тестов.
- •Тема 4. Требования к психологическому тесту и процедуре тестирования
- •Тема 5. Валидность теста
- •Тема 6. Надежность тестовых методик
- •Тема 7. Конструирование теста
- •Тема 8. Разработка тестовых заданий
- •Глоссарий
Тема 6. Надежность тестовых методик
1. Определение. Факторы, влияющие на надежность методики. Стандартная ошибка измерения. Надежность измерения.
2. Понятие о методе измерения ретестовой надежности. Стандартизация процедуры обследования. Взаимосвязь надежности и валидности Надежность параллельных форм. Сущность, достоинства и недостатки.
3. Надежность частей теста, ее определение методом расщепления. Уравнение Спирмена-Брауна.
Надежность – одно из трех главных психометрических свойств любой измерительной психодиагностической методики (теста). Надежность – это устойчивость процедуры тестирования относительно объектов исследования. Надежность – это помехоустойчивость теста, независимость его результата от действия всевозможных случайных факторов. К числу таких факторов относятся:
-
разнообразие внешних материальных условий тестирования, меняющихся от одного испытуемого к другому (время суток, освещенность, температура б помещении, наличие посторонних звуков, отвлекающих внимание, и т. п.);
-
динамичные внутренние факторы, по-разному действующие на разных испытуемых в ходе тестирования (время так называемой «врабатываемости» – выхода на стабильные показатели темпа и точности действий после начала тестирования, скорость наступления утомления и т. п.);
-
информационно-социальные обстоятельства (различная динамика в установлении контакта с психологом или лаборантом, проводящим тестирование; возможное наличие других людей в помещении; наличие предыдущего опыта знакомства с данным тестом; наличие какого-то знания и отношения к тестам вообще и т. п.).
Разнообразие и изменчивость этих факторов так велики, что они обусловливают появление у каждого испытуемого непрогнозируемого по размерам и направлению отклонения измеренного тестового балла от истинного тестового балла. Средняя относительная величина этого отклонения определяется как «стандартная ошибка измерения» (Sе). Величина ошибки измерения указывает на уровень неточности или ненадежности тестовой шкалы.
Низкая корреляция результатов теста между первым и повторным тестированием говорит о том, что случайные факторы существенно искажают результаты теста. Это значит, что тест не обладает необходимой помехоустойчивостью и его нельзя использовать как измерительный инструмент.
Показатель надежности R, который принято считать достаточно высоким, равен или превышает 0,95. Однако в личностных тестах часто пользуются значительно менее надежными тестами с показателями 0,8 – 0,9.
Важнейшим средством повышения надежности теста является стандартизация процедуры обследования. При строгой регламентации процедуры обследования (обстановка и условия работы/учебы испытуемого, характер инструкции, временные ограничения, способы и особенности контакта с испытуемым, порядок предъявления элементов методики, получения первичных оценок и т.д.) существенно уменьшается дисперсия ошибки и повышается надежность теста.
Очевидно, что при небольшом количестве сопутствующих факторов, влияющих на результат исследования, а значит, при их незначительном воздействии на результат теста достоверность тестовых оценок будет выше. Еще в большей степени достоверность данных теста определяется набором измеряемых свойств, их значимостью для осуществления диагностируемой сложной деятельности, полнотой и существенностью отражения в материале теста предмета измерения. Так, чтобы удовлетворить требованиям надежности и валидности, диагностическая методика, предназначенная для профотбора, должна включать анализ широкого круга нередко различных по своей природе показателей, наиболее важных для достижения успеха в данной профессии (уровень внимания, особенности памяти, психомоторика, эмоциональная устойчивость, интересы, склонности и т. д.).
Проведение теста интеллекта у нормально развивающихся детей и их сверстников с нарушениями в интеллектуальном развитии может выявить глубокие количественные и качественные различия в выполнении заданий сравниваемыми группами. Степень надежности дифференциации детей первой и второй групп по данным теста будет характеристикой диагностической валидности оценки умственного развития, получаемой с помощью данной методики.
Проведение теста интеллекта у нормально развивающихся детей и их сверстников с нарушениями в интеллектуальном развитии может выявить глубокие количественные и качественные различия в выполнении заданий сравниваемыми группами. Степень надежности дифференциации детей первой и второй групп по данным теста будет характеристикой диагностической валидности оценки умственного развития, получаемой с помощью данной методики.
Сведения, характеризующие степени обоснованности и статистической надежности развития исследуемой психологической особенности в будущем, составляют прогностическую валидность методики. Заключение об этом типе валидности может быть получено, например, путем сравнения тестовых оценок в одной и той же группе испытуемых спустя определенное время. Основой прогностической валидности является определение того, насколько важен исследуемый признак с точки зрения деятельности испытуемого в будущем с учетом закономерно изменяющихся обстоятельств, перехода на другой уровень развития.
Большинство методик, особенно тестов способностей и интеллекта, исследуется на предмет диагностической и прогностической валидности. Два этих типа валидности нередко объединяют в понятие эмпирической валидности. Здесь подчеркивается общность подхода к их определению, который осуществляется путем статистического коррелирования баллов (оценок) по тесту и показателей по внешнему параметру, избранному в качестве валидизации критерия (см. Валидность критериальная). Критерий валидности выступает в качестве меры, показателя исследуемых психологических особенностей. Так, тесты специальных способностей проверяются путем сопоставления с результатами обучения по другим предметам, достижениями в музыке, рисовании и т. д. Тесты общих интеллектуальных способностей валидизируются сравнением с еще более широкими характеристиками школьных достижений (общая успеваемость, овладение сложными системами знаний и навыков). Критерий валидности является независимым от теста показателем, обладающим непосредственной ценностью для определенных областей практической деятельности. Например, в области педагогической психологии это «успеваемость», в психологии труда — «производительность», в медицинской психологии — «состояние здоровья» и т. д. В качестве непосредственных критериев часто используются экспертные оценки и характеристики лиц, обследованных с помощью валидизируемого теста, данные педагогами, сотрудниками, руководителями.
Во многих случаях бывает сложно или невозможно подобрать адекватный критерий валидизации. При этом особую важность приобретает комплекс характеристик, входящих в тип теоретической валидности. При разработке и использовании теста может быть сформулирован ряд гипотез о том, как будет коррелировать исследуемый тест с другим тестом, измеряющим родственные или противоположные психологические характеристики испытуемых. Эти гипотезы выдвигаются на основании теоретических представлений об измеряемых свойствах как о психологическом конструкте. Подтверждение гипотез свидетельствует о теоретической обоснованности методики, т. е. о степени ее конструктной валидности. Этот тип валидности является наиболее сложным и комплексным.