Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лаак Я.Т. - Психодиагностика.doc
Скачиваний:
10
Добавлен:
22.09.2019
Размер:
2.14 Mб
Скачать

3.1. Надежность

Слово «надежность» часто используется в повседневной речи. Например, можно говорить о человеке как о надежном или ненадежном. В психодиагностике понятие «надеж­ность» относится в большинстве случаев к характеристике тестов, процедур и способов оценивания. Более того, суще­ствует теория тестов, которая определяет надежность теста в соответствии с определенными правилами и основывается на представлении о характеристиках тестовых показате­лей. Существуют эмпирические процедуры оценки надеж­ности тестов (это рассматривалось в главе 1). Уровни не являются абсолютно независимыми.

3.1.1. Житейские представления о надежности

В повседневной жизни мы характеризуем человека как надежного или ненадежного. В основе этого лежит наше

84

85

представление о том, можем или не можем мы доверять этому человеку, честен он или нет. Термин «надежность» используется также и при оценке качества информации. Это понятие может также использоваться и при характери­стике презервативов или при оценке долговечности снеж­ного покрова в начале зимы. Надежность представляет интерес для психологов как характеристика человека. Еще в 1928 г. Хартшорн и Мэй попытались оценить индивиду­альные различия людей по характеристике «надежность». По обшему мнению, успех не сопутствовал исследователям при измерении этой характеристики, т.к. она оказалась слишком зависимой от ситуации. Однако в одной из интер­претаций данного исследования эта характеристика была названа стабильной, а нестабильность результатов была приписана низкому методическому уровню сбора и обра­ботки данных (Rushton, Brainerd, Pressley, 1983).

Многие люди рассматривают надежность как важную характеристику. В одном исследовании, проведенном гол­ландскими психологами, 600 родителям предлагалось пере­числить характеристики, которые они считают важными для своих детей. Как показало это исследование, наиболее часто называются следующие качества: честность, справед­ливость, независимость, открытость и ответственность (Van Voorst tot Voorst-Alting van Geusau, 1984).

Долгое время предметом исследований психологов были прилагательные, описывающие личностные характеристи­ки. С помощью эксплоративного факторного анализа, обычно по методу варимакс-вращения, следуя традиции простой структуры по Терстоуну, выделялись и интерпре­тировались отдельные факторы. Существует разделяемое многими исследователями положение о том, что прилага­тельные, описывающие личностные характеристики, могут быть представлены пятифакторной моделью (см. также гл. 5). Эта модель была создана в результате анализа всех прилагательных, с помощью которых можно описать чело­века. Третий фактор из этой модели — «добросовестность» (ответственность) — в какой-то степени напоминает то, что называется надежностью. Приведем список прилага­тельных, представляющих полярные, т.е. наиболее пози­тивные и, соответственно, самые негативные, характеристики по этому фактору, организованный, спо-

86

собный к планированию, эффективный, ответственный, надежный, добросовестный, с одной стороны, и беззабот­ный, хаотический, беспорядочный, легкомысленный, без­ответственный, неряшливый, непредсказуемый, забывчивый, с другой.

В США в прикладной психологии управления использу­ются так называемые «тесты честности» («integrity tests»). И, хотя характеристики этих тестов не бесспорны, они до­статочно хорошо предсказывают соответствующий крите­рий. Этот критерий содержит преимущественно описание таких личностных характеристик и типов поведения, как безответственность, бездеятельность, проблемы с дисцип­линой, возможные нарушения правил во время работы, медлительность и частое отсутствие на рабочем месте. В тесте существуют задания, направленные на выявление та­ких позитивных характеристик, как добросовестность, уп­равляемость, надежность, и задания, выявляющие такие негативные типы поведения, как стремление к сенсациям, ссоры с авторитетными лицами, враждебность (Sackett, 1994). Американские работодатели выбрали из 86 предло­женных характеристик, описывающих подчиненных, те, которые они считают наиболее важными: некоррумпиро­ванное™, целостность натуры, добросовестность. Когни­тивные способности занимают в этом списке шестое место (Ones, Viswesvaran & Schmidt, 1993).

Подведем некоторые итоги. В этом разделе речь шла о том, что понятие «надежность» часто используется в по­вседневном общении для описания качеств того или иного человека. Надежность является очень важной характери­стикой человека, как по мнению родителей, так и по мне­нию работодателей. Характеризуя человека как надежного, мы имеем в виду, что он не действует непредсказуемым образом от случая к случаю. Этот же смысл вкладывается в понятие надежности" в психологии.

3.1.2. Понятие надежности в психодиагностике

Надежность является важным понятием научной психо­логии. Концептуальная схема и практические процедуры оценки надежности используются и в других научных дис­циплинах. В прекрасных обзорах методов оценивания в педагогике под редакцией Американского Совета по обра-

87

зованию всегда отводится место для главы о концептуаль­ных и методических аспектах надежности. Стенли (1971) считает, что о надежности проще говорить на языке фор­мул. Но, отмечает он, внимание должно также уделяться и «логическим и эмпирическим аспектам» (стр. 359). «Логи­ческий аспект» в терминологии Стенли близок тому, что в данной работе мы называем концептуальным аспектом.

Исходное предположение концепции надежности состо­ит в том, что при оценивании различных феноменов (био­логических, физиологических, психологических) неизбежны ошибки измерения. При повторном измерении никогда не будут получены те же баллы или та же сумма баллов, что и в первом измерении. Под надежностью в пси­ходиагностике понимается повторяемость результатов из­мерения (Runkel & McGrath, 1972; Nunnally & Bernstein, 1994) или согласованность результатов измерения (Feldt & Brennan, 1989, Stanley, 1971).Таким образом, понятие «на­дежность» показывает степень свободы результатов тести­рования от ошибок измерения, а также степень согласованности и повторяемости полученных результатов. Об ошибках в повседневной жизни говорят в тех случаях, когда человек мог избежать неудачи или исправить сделан­ное. «Errare humanum est»*, в то же время мы говорим: «Я больше никогда не допущу подобной ошибки».

Понятие «случайной ошибки» в математической модели также является частью этой модели. В этом смысле ошибки могут считаться неизбежными. Совсем не просто описать случайные ошибки. Можно попытаться рассматривать их как характеристику самого процесса оценивания или, что также возможно, как нечто свойственное самому исследу­емому феномену. Речь не идет о постоянной или система­тической ошибках, которые можно контролировать в процессе психологического оценивания и которых можно избежать путем стандартизации. Понятие случайной ошиб­ки плохо улавливается на интуитивном уровне, а термин «надежный» иногда соотносится с понятием валидности. Как было показано в гл. 2, случайность и случайные собы­тия не слишком легки для понимания. Люди усматривают закономерности в случайном наборе чисел и сами они не * Errare humanum est (лат.) — Человеку евойственно ошибаться (прим. перев.)

88

способны создать такой набор. Всегда соблазнительно ви­деть структуру или какой-либо план в случайных феноме­нах. В этом смысле случайные ошибки противоречат интуитивным представлениям.

Кроме того, в обыденном языке понятия надежности и валидности иногда отождествляются. Например, прогноз погоды называется надежным в том случае, если он соот­ветствует реальным событиям, а не тогда, когда различные радиовещательные компании дают одинаковую информа­цию. Лекарство считается надежным тогда, когда оно дает желаемый эффект, но не когда различные специалисты вы­писывают одно и то же лекарство в сходных случаях.

Любое руководство по теории тестов перечисляет множе­ство возможных источников случайных ошибок. В качестве таких источников могут быть названы: сам человек, коле­бания внимания и работоспособности, забывчивость, легко­мысленное отношение, импульсивность. Второй источник — это среда. Окружение различается объективно и субъек­тивно. Оно по-разному влияет на субъекта, работающего с тестом. Наконец, и сами методики, и процедуры, и даже сами исследователи могут быть источниками ошибок. В той мере, в какой можно учесть или устранить эти факторы, они не являются источниками «ненадежности» теста, но всегда остаются иные, неконтролируемые, ошибки. Существует ряд практических процедур, определяющих случайные ошибки. Теория «обобщаемости» («generalizability theory») Кронбаха, Глезера, Нанды и Раджаратнама (1972) наряду с другими может рассматриваться как система, упорядочи­вающая источники ошибок. Эта теория определяет различ­ные коэффициенты надежности применительно к той конкретной области заданий, показатели которой психолог хочет обобщить: например, относительно заданий (внут­ренняя согласованность), относительно времени (стабиль­ность) , относительно оценок разных экспертов (согласие между теми, кто производит оценивание). Дисперсионный анализ применяется для оценки всех источников (см., на­пример, Van der Kamp, 1976, De Gruvter & Van der Kamp, 1991).

Надо признать, что психологам, математикам и методо­логам не так легко представить себе, что же такое случай­ная ошибка «на самом деле». Но, может быть, к этому и не

89

следует стремиться. В математических моделях трудностей с понятием случайной ошибки не возникает, а практиче­ская ценность этого понятия доказана (личное сообщение Сниджерса, Амстердам, 20 декабря, 1994).

Исторически сложилось так, что надежность измери­тельного инструмента или процедуры измерения определя­ется с помощью двух конкретных показателей: ошибки измерения и коэффициента надежности. Первый отражает расхождение тестовых баллов, получаемых у одного чело­века. Если величина этого расхождения мала, то измерение может быть признано надежным. Стандартная ошибка рас­сматривается как стандартное отклонение в процессе боль­шого числа измерений на одном и том же человеке. Практически это недостижимо, так как невозможно много раз предлагать работу с одним и тем же тестом одному и тому же человеку. Выходом из этой ситуации стало введе­ние коэффициента надежности. Коэффициент надежности является выражением двух отношений: постоянства — не­постоянства и стабильности — нестабильности. Существу­ет несколько коэффициентов, описание которых можно встретить в любом руководстве по использованию тестов. В 1937 году Кьюдер и Ричардсон составили список этих коэф­фициентов. Хорошо известны предложенные ими KR-20 и KR-21.

Разработка первого коэффициента надежности припи­сывается Спирмену (1904). Если невозможно подвергнуть одинаковым тестовым испытаниям одного и того лее чело­века и не существует его двойника (ведь можно же подумать о монозиготных близнецах!), то, очевидно, нужно проявить некоторую изобретательность, чтобы создать «копию» это­го человека. Оригинальное решение Спирмена заключа­лось в том, чтобы сконструировать неких искусственных «двойников для разных целей», по выражению Уиттманна (1988, стр. 513). То же было сделано Фишером, отцом дис­персионного анализа. Он тоже создавал искусственных двойников, используя их в разных целых. Результаты ис­пытуемых внутри клеток матрицы двумерного распределе-ния представляют собой результаты «двойников», выбранных для оценки дисперсии ошибки. Это, конечно, не реальные, а статистически сконструированные двойники. Задания в тесте Спирмена — это «теоретические» двойни-

ки, потому что они представляют случайную выборку в одной из областей вопросов теста. Это было одной из причин определения надежности для параллельных тестов Гуллик-сена (1950). Блестящая идея Спирмена позволяет опреде­лить надежность в виде формулы: 1 минус отношение дисперсии ошибки к общей дисперсии (см. гл. 1).

У одного и того же теста могут быть различные коэффи­циенты надежности. Однако изначально нужно знать, ка­кой тип надежности подходит для тех или иных практических и исследовательских целей. Например, что является наиболее приемлемым — согласие ли между экс­пертами, между разными измерениями, между разными заданиями одного и того же теста или двумя частями одного теста. Пользователь тестов должен выбрать коэффициент, наиболее соответствующий его целям. Обратившись к спра­вочникам, можно определить, имеется необходимый коэф­фициент надежности или нет.

Понятие «надежность» используется для характеристи-.-ки тестов, методик и процедур оценивания. Под «надежно­стью» понимается повторяемость и согласованность результатов Тестирования. Концепция надежности предпо­лагает также оценку неизбежных случайных ошибок. Счи­тается, что расхождение между результатами тестирования в отношении какой-либо характеристики основывается на реально существующих, стабильных различиях между людьми. Допускается, что истинные результаты человека стабильны во времени. В основе лежит допущение, что од­нажды полученные показатели не изменяются (Feldt & Brennan, 1989, Wittmann, 1988, Nunnally & Bernstein, 1994). Это предположение присутствует в известных руко­водствах по теории тестов (Gulliksen, 1950). Следователь­но, можно говорить об «истинных» баллах (истинных в платоновском смысле, т.е. подлинных, идеальных сущно­стей) , в соответствии с которыми все изменения во времени являются только «видимостью». В настоящее время иссле­дователи уже не делают предположений о существовании неизменных истинных показателей, но требование надеж­ности тестовых показателей остается, поскольку истинные или надежные показатели рассматриваются как предпола­гаемая оценка многих независимых повторных процедур тестирования. Однако эти истинные или надежные баллы могут изменяться с течением времени.

90

91

Понятие надежности в психодиагностике специально разработано для характеристики тестов и других методик. Теоретическая основа заимствована из теории тестов. Но применительно к психодиагностическому процессу кон­цепция надежности обычно не рассматривалась. В каком смысле психодиагностический процесс может быть назван надежным и как можно оценить надежность процесса оце­нивания? Прямого ответа на этот вопрос не существует.

В первой главе приведено описание измерения случай­ной ошибки. Учет случайной ошибки позволяет обеспечить интервалы надежности для полученных баллов. Психоди­агност предпочитает иметь дело не с точечным оценивани­ем, а с интервальным, при котором существует 95-процентная вероятность того, что будут получены ис­тинные показатели человека. Кстати, синоптики, делая прогноз погоды, поступают примерно так же.

Невозможно не видеть ценность понятия случайной ошибки. Эти ошибки можно оценить с помощью некоторых искусственных конструктов («двойников» Спирмена). Од­нако они остаются чуждыми нашему интуитивному пони­манию. Представление о надежности на уровне здравого смысла иногда имеет сходство с психологической концеп­цией валидности. Отметим, что представляется достаточно соблазнительным рассматривать полученные результаты как стабильные. Однако такого условия нет в современной теории тестов. Классическое понятие параллельного теста базируется на скрытом допущении, что вещи никогда не меняются (см. также Wittmann, 1988). Следствием этого является то, что в теории отсутствуют средства понятийно­го описания и процедуры измерения феномена динамики и изменений. Слишком просто сказать, подобно Платону, что все изменения — это только «видимость» и что «ничто не ново под луной». Наннелли и Бернштейн (1994) с некото­рым сожалением приводят этот вывод в своем собственном руководстве, но это не больше и не меньше, чем следствие из классической теории тестов.

Подведем некоторые итоги. Концепция надежности яв­ляется важной и сложной. В руководствах по проведению психологичесого оценивания приводится описание различ­ных коэффициентов надежности. Их вычисление основано преимущественно на классической теории тестов. Концеп-

ция надежности развивалась внутри психологии, но она используется и в рамках других наук. Можно встретить замечания, что в психологии слишком много внимания уде­ляется ошибкам, потому что сами психологические концеп­ции содержат слишком много ошибок. Однако Наннелли и Бернштейн (1994) замечают, что проблемы коррекции ошибочного оценивания не чужды медицинским и естест­венным наукам. Так, например, при измерении давления может быть зафиксировано некоторое непостоянство, как и при измерении психологических характеристик (Lenders, 1988).

3.1.3. Проблема согласованности трех уровней психодиагностики при определении надежности

В предыдущем разделе описывались житейские пред­ставления о надежности и психологические концепции на­дежности, обсуждались различия между ними. Житейские представления о надежности можно углубить и дополнить положениями научной психологии о существовании слу­чайных ошибок, согласованности и повторяемости. Также возможна и обратная ситуация, когда представления из житейской психологии дадут толчок для разработки содер­жания понятия надежности.

Отношение между математическим определением на­дежности и содержанием психологических теорий нельзя назвать простыми и ровными. Леви (1974, стр. 21) крити­ковал классическую теорию тестов, отмечая, что «.. .теория тестов сильна своим практическим применением, но ее от­ношение к другим психологическим теориям сомнительно, неясно». Уиттманн (1988) делает замечание сходного ха­рактера, а Вуд (1989) считает, что то же самое может быть высказано и по адресу современной теории анализа ответов на задания теста (IRT).

Конечно, психометрики выдвигают аргументы в свою защиту, отмечая при этом недостатки содержания самих психологических теорий и говоря о том, что исследователи не понимают теории тестов. Например, Мелленберг (1980) приводит в качестве примера исследование клинических психологов, которые оценивают «адаптацию», рассматри­вая различия между показателями, полученными при ха­рактеристике «образа-Я» и характеристике «идеального

92

9?,

образа-Я». Клинические психологи были удивлены, не об­наружив корреляции этих показателей с другими индика­торами адаптации. Мелленберг отметил ненадежность показателей различий и вероятность того, что существует корреляция между двумя этими измерениями. В получен­ных результатах нет ничего удивительного, считает Мел­ленберг: они могли быть предсказаны исходя из определения надежности показателей различий в класси­ческой теории тестов.

Иногда происходит просто путаница. Автору этой книги предложили однажды высказать свое мнение о тесте, кото­рый оценивает способность детей воспринимать предмет, показанный с разных сторон, как тождественный. Методи­ка основана на концепции Пиаже о понимании необходи­мости учета точки зрения на объект. Пиаже использовал известный тест с тремя горами: детям предлагалось описать, что, по их мнению, видят те дети, которые смотрят на горы с другого места. Маленькие дети допускают ошибки при выполнении этого теста. Ошибки учитывались при начис­лении ребенку баллов за выполнение теста. Для детей раз­ного возраста был определен коэффициент согласованности. Данный показатель оказался ниже для старших детей и выше для детей из семей с низким соци­ально-экономическим статусом. Однако, это объяснялось той простой причиной, что показатели разброса для ма­леньких детей и детей из семей с низким социально-эконо­мическим статусом были больше. Указанный феномен является феноменом развития, т.к. более старшие дети де­лают меньше ошибок при решении заданий на понимание перспективы. Следовательно, при работе с этим тестом дол­жен быть использован другой индекс надежности. * Попытка связать психологию, занимающуюся разработ­кой предметного содержания, с психометрикой или со ста­тистической моделью может быть обнаружена при разработке теории аспектов (the facet theory). В рамках этой теории анализируются соответствующие и независи-. мые аспекты конструктов и идет поиск приемлемых спосо­бов их оценивания (см. например, De Groot & Medendorp,

1986).

Как показано в этой главе, взаимодействие между уров­нями протекает не всегда гладко. Временами оно ведет к

94

трениям между психологами, занимающимися разработкой предметного содержания, с одной стороны, и психометри­ками — с другой. Это противостояние имеет, вероятно, тот же характер, что и противоречие между клиническим и статистическим подходами (см. гл. 4). Однако это противо­стояние способствует также и лучшем пониманию концеп­ций надежности, повторяемости, внутренней согласованности и источников случайных ошибок, а также способов их оценивания.