- •Глава 3. Представление о надежности и
- •3.1.2. Понятие надежности в психодиагностике
- •3.1.3. Проблема согласованности трех уровней
- •3.2. Валидность
- •3.2.1. Представление о валидности на уровне здравого смысла
- •3.2.4. Концепция валидности в психодиагностике
- •3.2.5. Пятидесятые годы: новые акценты
- •3.2.6. Статистическая оценка валидности
- •3.2.7. Соотношения трех уровней
- •3.2.8. Некоторые эпистемологические “строительные” блоки
- •3.2.9. Конструктная валидность и системы исследования
3.1.2. Понятие надежности в психодиагностике
Надежность является важным понятием научной психологии. Концептуальная схема и практические процедуры оценки надежности используются и в других научных дисциплинах. В прекрасных обзорах методов оценивания в педагогике под редакцией Американского Совета по образованию всегда отводится место для главы о концептуальных и методических аспектах надежности. Стенли (1971) считает, что о надежности проще говорить на языке формул. Но, отмечает он, внимание должно также уделяться и “логическим и эмпирическим аспектам” (с. 359). “Логический аспект” в терминологии Стенли близок тому, что в данной работе мы называем концептуальным аспектом.
Исходное предположение концепции надежности состоит в том, что при оценивании различных феноменов (биологических, физиологических, психологических) неизбежны ошибки измерения. При повторном измерении никогда не получают те же баллы или ту же сумму баллов, что и в первом измерении. Под надежностью в психодиагностике понимается повторяемость результатов измерения (Runkel, McGrath, 1972; Nunnally, Bernstein, 1994) или согласованность результатов измерения (Feldt, Brennan, 1989, Stanley, 1971). Таким образом, понятие "надежность" показывает степень свободы результатов тестирования от ошибок измерения, а также степень согласованности и повторяемости полученных результатов.
Об ошибках в повседневной жизни говорят в тех случаях, когда человек был способен избежать неудачи или исправить сделанное. "Errare humanum est"*, но в то же время мы говорим: "Я больше никогда не допущу подобной ошибки". Понятие "случайной ошибки" в математической модели является частью этой модели. В этом смысле ошибки могут считаться неизбежными. Совсем не просто описать случайные ошибки. Можно попытаться рассматривать их как характеристику самого процесса оценивания или (что также возможно) как нечто свойственное самому исследуемому феномену. Речь не идет о постоянной или систематической ошибках, которые можно контролировать в процессе психологического оценивания и которых можно избежать путем стандартизации.
Понятие случайной ошибки плохо улавливается на интуитивном уровне, а термин "надежный" иногда соотносится с понятием валидности. Как было показано в гл. 2, случайность и случайные события с трудом воспринимаются таковыми. Люди усматривают закономерности в случайном наборе чисел, и сами они не способны создать такой набор. Всегда соблазнительно видеть структуру или какой-либо план в случайных феноменах. В этом смысле непредвиденные ошибки противоречат интуитивным ожиданиям.
Кроме того, в обыденном языке понятия надежности и валидности иногда отождествляются. Например, прогноз погоды называется надежным в том случае, если он соответствует реальным событиям, а не тогда, когда различные радиовещательные компании дают одинаковую информацию. Лекарство считается надежным тогда, когда дает желаемый эффект, а не когда различные специалисты выписывают одно и то же лекарство в подобных случаях.
Любое руководство по теории тестов перечисляет множество возможных источников случайных ошибок. В качестве таких источников могут быть названы: сам человек, колебания внимания и работоспособности, забывчивость, легкомысленное отношение, импульсивность. Второй источник - это среда. Окружение различается объективно и субъективно. Оно по-разному влияет на субъекта, работающего с тестом. Наконец, и методики, и процедуры, и даже сами исследователи могут быть источниками ошибок. В той мере, в какой эти факторы возможно учесть или устранить, они не являются источниками “ненадежности” теста, но всегда остаются и иные, неконтролируемые, ошибки. Существует ряд практических процедур, определяющих случайные ошибки. Теория "обобщаемости" ("generalizability theory”) Кронбаха, Глезера, Нанды и Раджаратханама (1972) наряду с другими может рассматриваться как система, упорядочивающая источники ошибок. Эта теория определяет различные коэффициенты надежности применительно к той конкретной области заданий, показатели которой психолог хочет обобщить: например, относительно заданий (внутренняя согласованность), относительно времени (стабильность), относительно оценок разных экспертов (согласие между теми, кто производит оценивание). Дисперсионный анализ применяется для оценки всех источников (например, Van der Kamp, 1976; De Gruyter, Van der Kamp, 1991).
Надо признать, что психологам, математикам и методологам не слишком легко представить себе, что же такое случайная ошибка "на самом деле". Но, может быть, к этому и не следует стремиться. В математических моделях трудностей с понятием случайной ошибки не возникает, а практическая ценность этого понятия доказана (личное сообщение Синджера, Амстердам, 20 декабря, 1994).
Исторически сложилось так, что надежность измерительного инструмента или процедуры измерения определяется с помощью двух конкретных показателей: ошибки измерения и коэффициента надежности. Первый отражает расхождение тестовых баллов, получаемых у одного человека. Если величина этого расхождения мала, то измерение допустимо признать надежным. Стандартная ошибка может быть рассмотрена как стандартное отклонение в процессе большого числа измерений, когда в качестве испытуемого выступает один и тот же человек. Практически это недостижимо, так как невозможно много раз предлагать работу с одним и тем же тестом одному и тому же человеку. Выходом из этой ситуации стало введение коэффициента надежности. Коэффициент надежности является выражением двух отношений: постоянства-непостоянства и стабильности-нестабильности. Существует несколько коэффициентов, описание которых можно встретить в любом руководстве по использованию тестов. В 1937 году Кьюдер и Ричардсон составили список этих коэффициентов. Хорошо известны предложенные ими KR-20 и KR-21.
Разработка первого коэффициента надежности приписывается Спирмену (1904). Если невозможно подвергнуть одинаковым тестовым испытаниям одного и того же человека и не существует его двойника (ведь можно же подумать о монозиготных близнецах!), то, очевидно, нужно проявить некоторую изобретательность, чтобы создать "копию" этого человека. Оригинальное решение Спирмена заключалось в том, чтобы сконструировать неких искусственных "двойников для разных целей", по выражению Виттманна (1988, с. 513). То же было сделано Фишером, отцом дисперсионного анализа. Он тоже создавал искусственных двойников, используя их в разных целях. Результаты испытуемых внутри клеток матрицы двумерного распределения представляют собой результаты "двойников", выбранных для оценки дисперсии ошибки. Это, конечно, не реальные, а статистически сконструированные двойники. Задания в тесте Спирмена - это “теоретические” двойники, потому что они представляют случайную выборку в одной из областей вопросов теста. Это было одной из причин определения надежности для параллельных тестов Гулликсена (1950). Блестящая идея Спирмена позволяет определить надежность в виде следующей формулы: “1 минус отношение дисперсии ошибки к общей дисперсии” (см. гл. 1).
У одного и того же теста могут быть различные коэффициенты надежности. Однако изначально нужно знать, какой тип надежности подходит для тех или иных практических и исследовательских целей. Например, что является наиболее приемлемым - согласие ли между экспертами, между разными измерениями, между разными заданиями одного и того же теста или двумя частями одного теста. Пользователь тестов должен выбрать коэффициент, наиболее соответствующий его целям. Обратившись к справочникам, можно определить, имеется необходимый коэффициент надежности или нет.
Понятие "надежность" используется для характеристики тестов, методик и процедур оценивания. Под "надежностью" понимается повторяемость и согласованность результатов тестирования. Концепция надежности предполагает также оценку неизбежных случайных ошибок. Считается, что расхождение между результатами тестирования в отношении какой-либо характеристики основывается на реально существующих, стабильных различиях между людьми. Допускается, что истинные результаты человека стабильны во времени. В основе лежит допущение, что однажды полученные показатели не изменяются (Feldt, Brennan, 1989; Wittmann, 1988; Nunnally, Bernstein, 1994). Это предположение присутствует в известных руководствах по теории тестов (Gulliksen, 1950). Следовательно, можно говорить об “истинных” баллах (истинных в платоновском смысле, т.е. подлинных, идеальных сущностей), в соответствии с которыми все изменения во времени являются только “видимостью”. В настоящее время исследователи уже не делают предположений о существовании неизменных истинных показателей, но требование надежности тестовых показателей остается, поскольку истинные или надежные показатели рассматриваются как предполагаемая оценка многих независимых повторных процедур тестирования. Однако эти истинные или надежные баллы могут изменяться с течением времени.
Понятие надежности в психодиагностике специально разработано для характеристики тестов и других методик. Теоретическая основа заимствована из теории тестов. Но применительно к психодиагностическому процессу концепция надежности обычно не рассматривалась. В каком смысле психодиагностический процесс может быть назван надежным и как можно оценить надежность процесса оценивания? Прямого ответа на этот вопрос не существует.
В первой главе приведено описание измерения случайной ошибки. Учет случайной ошибки позволяет обеспечить интервалы надежности для полученных баллов. Психодиагност предпочитает иметь дело не с точечным оцениванием, а с интервальным, при котором существует 95-процентная вероятность того, что будут получены истинные показатели человека. Кстати, синоптики, делая прогноз погоды, поступают примерно так же.
Невозможно не видеть ценность понятия случайной ошибки. Эти ошибки можно оценить с помощью некоторых искусственных конструктов ("двойников" Спирмена). Однако они остаются чуждыми нашему интуитивному пониманию. Представление о надежности на уровне здравого смысла иногда имеет сходство с психологической концепцией валидности. Отметим, что представляется достаточно соблазнительным рассматривать полученные результаты как стабильные. Однако такого условия нет в современной теории тестов. Классическое понятие параллельного теста базируется на скрытом допущении, что вещи никогда не меняются (см. также Wittmann, 1988). Следствием этого является то, что в теории отсутствуют средства понятийного описания и процедуры измерения феномена динамики и изменений. Слишком просто сказать, подобно Платону, что все изменения - это только "видимость" и что "ничто не ново под луной". Наннелли и Бернштейн (1994) с некоторым сожалением приводят этот вывод в своем собственном руководстве, но это не что иное, как следствие классической теории тестов.
Подведем некоторые итоги. Концепция надежности является важной и сложной. В руководствах по проведению психологического оценивания приводится описание различных коэффициентов надежности. Их вычисление основано преимущественно на классической теории тестов. Концепция надежности развивалась внутри психологии, но она используется и в рамках других наук. Можно встретить замечания, что в психология чрезмерно внимательна к ошибкам, потому что сами психологические концепции содержат слишком много ошибок. Однако Наннелли и Бернштейн (1994) замечают, что проблемы коррекции ошибочного оценивания не чужды медицинским и естественным наукам. Так, например, при измерении давления может быть зафиксировано некоторое непостоянство, как и при измерении психологических характеристик (Lenders, 1988).
