Вопрос 4.
Надежность – точность психодиагностических измерений, а также стабильность и устойчивость их
результатов по отношению к действию различных посторонних факторов.
Надежность – это помехоустойчивость теста, независимость его результата от действия всевозможных случайных факторов. К числу таких факторов относятся:
разнообразие внешних материальных условий тестирования, меняющихся от одного испытуемого к другому (времени суток, освещенности, температуры в помещении, наличия посторонних звуков, отвлекающих внимание и т. п.);
динамичные внутренние факторы, по-разному действующие на разных испытуемых в ходе тестирования (время так называемой врабатываемости – выхода на стабильные показатели темпа и точности действий после начала тестирования, скорость наступления утомления и т. п.);
информационно-социальные обстоятельства (различная динамика в установлении контакта с психологом или лаборантом, проводящим тестирование; возможное наличие других людей в помещении; наличие предыдущего опыта знакомства с данным тестом; наличие какого-то знания и отношения к тестам вообще и т. п.).
Виды надежности:
Ретестовая – характеристика надежности теста путем повторного тестирования испытуемых при помощи одного и того же теста. Надежность вычисляется по соответствию результатов первого и второго обследований или по сохранению ранговых мест испытуемых в выборке при ретесте.
Вычисляется с помощью коэффициента ранговой корреляции Спирмена или Кэндела.
Коэффициент корреляции рангов Спирмена (rs) определяется из уравнения:
где di – разности между рангами каждой переменной из пар значений X и Y;
n – число сопоставляемых пар.
Коэффициент корреляции рангов Кендела τ определяется следующей формулой:
где Р и Q рассчитываются по таблице.
Этот вид надежности применяется для ограниченного количества тестов, тесты с большим количеством пунктов.
Гомогенная – делится на несколько видов:
надежность параллельных форм – определяемая с помощью форм теста (один тест в 2-х вариантах). Одна и та же группа испытуемых обследуется сначала с использованием основного набора заданий, затем с применением аналогичных, через минимальный интервал времени при тех же условиях.
Оба набора заданий должны отвечать одним и тем же требованиям, давать одинаковые результаты.
надежность частей теста – (метод расщепления) – определяется путем анализа устойчивости результатов отдельных совокупностей тестовых задач или единичных пунктов теста.
Разделение объема заданий теста на сопоставимые части достигается:
- распределение заданий на четные и нечетные. Испытуемый выполняет их на одном сеансе. Потом сравниваются эти части.
- распределение пунктов по принципу близости или равенства значений индексов трудности и дискриминативности.
- разделением задач по времени решения каждой из частей (для тестов скорости).
Вычисляется с помощью коэффициента Кьюдера – Ричардсона
где KR20 - традиционное обозначение получаемого коэффициента;
-дисперсия i-и дихотомической переменной, какой является
i-й пункт теста; р = , q = 1 – p
В настоящее время надежность все чаще определяется на наиболее однородных выборках, т. е. на выборках, схожих по полу, возрасту, уровню образования, профессиональной подготовке и т. п. Для каждой такой выборки приводятся свои коэффициенты надежности. Приводимый показатель надежности применим только к группам, подобным тем, на которых он определялся. Если методика применяется к выборке, отличающейся от той, на которой проверялась ее надежность, то эта процедура должна быть проведена заново.
К.М.Гуревич предложил толковать надежность как комплексную характеристику, включающую:
♦ надежность самого измерительного инструмента;
♦ стабильность изучаемого признака;
♦константность, т. е. относительную независимость результатов от личности экспериментатора.
Основные показатели он предложил обозначить следующим образом:
♦ показатель, характеризующий измерительный инструмент, предлагается называть коэффициентом надежности;
♦ показатель, характеризующий стабильность измеряемого свойства — коэффициентом стабильности;
♦ показатель оценки влияния личности экспериментатора — коэффициентом константности.
Именно в таком порядке рекомендуется осуществлять проверку методики на надежность: целесообразно сначала проверить инструмент измерения. Если полученные данные удовлетворительны, то можно переходить к установлению меры стабильности измеряемого свойства, а уже после этого, при необходимости, заняться критерием константности.
Определение надежности измерительного инструмента. От того, как составлена методика, насколько правильно подобраны задания с точки зрения их взаимосогласованности, насколько она однородна, зависит точность, объективность любого психологического измерения. Внутренняя однородность методики показывает, что ее задания актуализируют одно и то же свойство, признак.
Для проверки надежности измерительного инструмента, говорящего о его однородности (или гомогенности), используется так называемый метод «расщепления». Обычно задания делятся на четные и нечетные, отдельно обрабатываются, а затем результаты двух полученных рядов коррелируются между собой. Для применения этого способа нужно поставить испытуемых в такие условия, чтобы они смогли успеть решить (или попытаться решить) все задания. Если методика однородна, то большой разницы в успешности решения по таким половинкам не будет, и, следовательно, коэффициент корреляции будет достаточно высоким.
Можно делить задания и другим путем. Например, можно сопоставить первую половину теста со второй, первую и третью четверть со второй и четвертой и т. п. Однако «расщепление» на четные и нечетные задания представляется наиболее целесообразным, поскольку именно этот способ наиболее независим от влияния таких факторов, как врабатываемость, тренировка, утомление и пр.
Методика признается надежной, когда полученный коэффициент не ниже 0,75-0,85. Лучшие по надежности тесты дают коэффициенты порядка 0,90 и более.
Определение стабильности изучаемого признака. Определить надежность самой методики – это не значит решить все вопросы, связанные с ее применением. Нужно еще установить, насколько устойчив, стабилен признак, который исследователь намерен измерять. В том, что измеряемый признак со временем меняется, нет ничего опасного для надежности. Все дело в том, в каких пределах варьируются результаты от опыта к опыту у одного и того же испытуемого, не приводят ли эти колебания к тому, что испытуемый по непонятным причинам оказывается то в начале, то в середине, то в конце выборки. Сделать какие-то конкретные выводы об уровне представленности измеряемого признака у такого испытуемого нельзя. Таким образом, колебания признака не должны иметь непредсказуемый характер. Если не ясны причины, по которым происходит резкое колебание, то такой признак не может быть использован в диагностических целях.
Для проверки стабильности диагностируемого признака, свойства используется прием, известный под названием тест-ретест. Он заключается в повторном обследовании испытуемых с помощью той же методики. О стабильности признака судят по коэффициенту корреляции между результатами первого и второго обследования. Он будет свидетельствовать о сохранении или несохранении каждым испытуемым своего порядкового номера в выборке.
На степень устойчивости, стабильности диагностируемого свойства влияют разнообразные факторы. Число их достаточно велико. Выше уже говорилось о том, как важно соблюдать требования единообразия процедуры проведения эксперимента. Так, например, если первое тестирование проводилось в утренние часы, то и повторное должно быть проведено утром; если первый опыт сопровождался предварительным показом заданий, то и при повторном испытании это условие также должно быть соблюдено и т. д.
При определении стабильности признака большое значение имеет промежуток времени между первым и вторым обследованием. Чем короче срок от первого до второго испытания, тем (при прочих равных условиях) больше шансов, что диагностируемый признак сохранит уровень первого испытания. С увеличением временного интервала стабильность признака имеет тенденцию снижаться, так как возрастает число посторонних факторов, влияющих на нее. Следовательно, напрашивается вывод, что целесообразно проводить повторное тестирование через короткий срок после первого. Однако тут есть свои сложности: если срок между первым и вторым опытом небольшой, то некоторые испытуемые могут воспроизвести свои прежние ответы по памяти и, таким образом, отойдут от смысла выполнения заданий. В этом случае результаты двух предъявлений методики уже нельзя рассматривать как независимые.
Коэффициент стабильности методики должен быть достаточно высоким (не ниже 0,80).
Определение константности (относительной независимости результатов от личности экспериментатора). Поскольку методика, разработанная для диагностических целей, не предназначена для того, чтобы вечно оставаться в руках своих создателей, крайне важно знать, в какой мере ее результаты поддаются влиянию личности экспериментатора. Хотя диагностическая методика всегда снабжается подробными инструкциями по ее применению, правилами и примерами, указывающими, как проводить эксперимент, однако регламентировать манеру поведения экспериментатора, скорость его речи, тон голоса, паузы, выражение лица очень трудно. Испытуемый в своем отношении к опыту всегда отразит то, как сам экспериментатор к этому опыту относится (допускает небрежность или действует точно в соответствии с требованиями процедуры, проявляет требовательность, настойчивость или бесконтрольность и т. п.).
Коэффициент константности определяется путем корреляции результатов двух опытов, проведенных в относительно одинаковых условиях на одной и той же выборке испытуемых, но разными экспериментаторами. Коэффициент корреляции не должен быть ниже 0,80.
Только методика, располагающая полной характеристикой надежности, наиболее пригодна для диагностико-практического применения.
Валидность – комплексная характеристика, включающая, с одной стороны, сведения о пригодности
методики для измерения того, для чего она создана, а с другой стороны, информацию
о том, какова ее действенность, эффективность, практическая полезность.
Включает в себя:
- сведения о том, что измеряет данная методика;
- сведения об условиях и о сфере ее применения;
- сведения о способности дифференцировать по определенным признакам;
- сведения характеризующие степень обоснованности и прогностичности результатов теста.
Прежде чем определить валидность теста нужно определить валидизацию ( - мера психологического свойства, на исследование которого направлена методика).
- возраст - результаты реальной деятельности
- стаж - знания, умения, навыки
- образование - сведения полученные другими методиками
- показатель успеваемости
- производственные показатели эффективности деятельности
Виды валидности
Валидность по содержанию – степень соответствия содержания заданий диагностической методики измеряемой области психических свойств.
Закладывается при подборке заданий.
Валидность эмпирическая (опытная) – совокупность характеристик валидности, полученных сравнительным статистическим способом. Измеряется всегда с помощью статистического коррелирования. Проводится корреляционный анализ связи двух рядов значений – оценок теста и показателей по внешнему параметру изучаемого свойства (или результатов другого теста, валидность которого известна). В результате, чем ближе к 1, тем + методика.
Валидность критериальная – комплекс характеристик, которые отражают соответствие и прогноза и диагноза, определенному кругу критериев измеряемой области (интеллект – успешность в школе). При валидизации теста, результат связывают с мнением педагога.
Валидность текущая – характеристика теста, позволяющая различать испытуемых на основе диагностируемого признака, являющегося объектом исследования в данной методике (самооценка, уровень притязаний, вербальный интеллект).
Валидность прогностическая (предсказывающая) – характеризует точность и обоснованность суждения о диагностируемом психологическом качестве, по его результату спустя определенное время после измерения.
Валидность конструктная – отражает степень представленности конструкта в результатах теста. В качестве конструкта могут быть практический и вербальный интнллект, эмоциональная неустойчивость, интроверсия, переключаемость внимания и т.д.
Валидность по возрастной дифференциации – связана с возрастной динамикой изменений исследуемого качества. Характеристика валидности здесь заключается в определении соответствия результатов теста теоретически ожидаемым и практически наблюдаемым изменениям данного конструкта или свойства.
Валидность очевидная – преставление о сфере применения теста, его результативности и прогностической ценности, которое возникает у испытуемого или другого лица, не располагающего специальными сведениями о характере использования и целях методики.