- •Москва "наука" 1993
- •Глава первая
- •1. Становление основных подходов к измерению установок (1920-е - 1930-е годы)
- •3. Психологическая ориентация: ф.Олпорт, л.Л.Терстоун, р.Ликерт
- •4. Традиция Гутмана-Лазарсфельда
- •2. Надежность и валидность эмпирическх моделей
- •3. Множественные индикаторы в оценке качества измерения
- •1. Концептуализация и косвенное измерение
- •2. Взаимозависимость концептуализации и измерения:
- •1. Обобщение моделей структурных уравнений с латентной переменной и "общеизвестные истины" измерения
- •2. Г£гяао-методология и процедуры автоматического поиска моделей
- •4. Реалистская стратегия измерения
- •Вместо заключения: о радикальной критике "количественных" процедур в социологии 1
- •Литература
2. Надежность и валидность эмпирическх моделей
П ервый из этих подходов полнее всего изложен в уже упоминавшейся книге Р.Зеллера и Э.Карминеса [242 ].
Р.Зеллер и Э.Карминес предложили переформулировку определений валидности и надежности, а также критерии и практические методы их оценки. Предложенная ими концептуализация надежности и валидности (как и другие ориентации в моделирующем подходе к измерению) базируется на том, что наблюдаемые значения измеряемой переменной (X) равны сумме истинных значений (Г), систематической ошибки измерения (S) и случайной ошибки измерения (R)6. Т.е.:
X = Т + S + R. (2.10)
Тогда для генерального среднего измеренных баллов можно записать:
Е(Х) = Е(T) +E(S), (2.11)
так как для случайной ошибки действительны прежние предположения. Для конечной выборки наблюдений среднее измеренное значение переменной становится несмещенной оценкой "истинного балла", к которой прибавлена средняя систематической ошибки [242. Р.12].
В присутствии и случайной, и систематической ошибок для ожидаемой дисперсии можно из:
σ2x = σ2( t + s + r )
вывести, что
σ2x = σ2 t + σ2 s + σ2 r + 2σ ts (2.12)
(Так как по определению σ tr = σ sr = 0.) Здесь существенно, что так как Т и S могут быть скоррелированы, суммирование дисперсий Т, S и R не обязательно дает дисперсию X. Причем ковариация Т и S может быть и больше, и меньше нуля. Можно оценить дисперсию случайной ошибки и наблюдаемых значений. Однако невозможно ничего сказать о дисперсии истинного компонента, систематической ошибки и ковариации TS, не сделав каких-то дополнительных содержательных предположений ("не существует чисто механической процедуры для идентификации латентных переменных с гарантированной теоретической валидностью" [146. Р.9]).
В этом контексте можно ввести следующие различения для надежности и валидности: "Надежность - это доля неслучайной
дисперсии; валидность - та доля дисперсии наблюденных значений, которая относится к истинному компоненту" [242. Р.13]. Т.е.:
Такое определение согласуется с данными выше содержательными определениями валидности и надежности. Кроме того, из него становится ясным, что различие валидности и надежности индикатора зависит от присутствия систематической ошибки измерения. Если совокупность индикаторов измеряет только заданный теоретический конструкт с точностью до случайных погрешностей, то валидность будет равна надежности. Чем больше доля систематического ошибочного компонента, тем больше надежность будет превосходить валидность.
Наконец, в гипотетическом случае, когда вся наблюденная дисперсия индикатора будет обусловлена систематической ошибкой (скажем, из-за неправильной спецификации теоретической модели), валидность будет нулевой, а надежность - абсолютной.
Все изложенные представления, как уже говорилось, в принципе были достаточно осознаны и в психометрической традиции (по крайней мере, к середине 60-х годов). Однако близкая к контролируемому эксперименту ситуация тестирования позволяла, в принципе, находить " паллиативные" средства конструктной валидации.
Скажем, необходимость учета содержательных представлений о тестируемом свойстве в области образовательного тестирования могла реализовываться в конкретных процедурах оценки репрезентативности тестового материала (по объему и содержанию) относительно заранее известной учебной программы. Идею совпадения теоретической модели "поведения" изучаемого свойства с реальностью легко было осуществить, например, через оценку его возрастной динамики в "естественном эксперименте" (если тест X измеряет вербальный интеллект, то показатели для детей должны расти с каждым годом) [2. С.141 ].
В социальных же науках, где экспериментальный контроль практически недостижим, где целью является не тестирование или дифференциальная диагностика, а измерение переменных на микро-и макро-уровне, и где систематическая ошибка весьма типична, неудовлетворенность таким подходом к качеству измерения была значительно острей. Это и вызвало появление новых подходов в данной области.
Если принять предложенную формулировку надежности и валидности, то можно выделить два обобщенных критерия их оценки: 1) внутренняя ассоциация как паттерн взаимоотношений между
69
индикантами, предназначенными для измерения одного теоретического конструкта, и 2) внешняя ассоциация как паттерн отношений между индикантами данного конструкта и другими переменными [242. Р.151
Критерий внутренней ассоциации предполагает, что существуют позитивные интеркорреляции между индикаторами, что соответствует содержательному пониманию надежности как согласованности. Наиболее популярной техникой оценки внутренней согласованности пунктов (совокупности индикаторов, субтестов шкалы) является факторный анализ. Сторонники факторного анализа как средства оценки качества измерения иногда склонны полагать, что именно факторный анализ, выявляющий эмпирическую многомерную структуру матрицы корреляций между пунктами, может использоваться для полной оценки конструктной валид-ности отдельных индикаторов:"Каждый тест может быть охарактеризован посредством основных факторов, определяющих его показатели, весом, или нагрузкой, каждого фактора и корреляцией теста с каждым из них. Такая корреляция именуется факторной валидностью теста" [2. С.143]. Однако такая точка зрения переоценивает роль факторного анализа в оценке качества измерения, хотя бы в силу того, что не принимает во внимание проблему интерпретации факторов. Сама по себе интерпретация фактора как релевантного определенному теоретическому конструкту (или, наоборот, представляющего другой конструкт либо артефакт метода) невозможна без принятия каких-то предположений о валидности измерения (за исключением случая, когда систематическая ошибка отсутствует).
Нам кажется более обоснованным использование факторного анализа как средства оценки систематических компонентов наблюденной дисперсии, т.е. "доли наблюденной дисперсии, представленной истинными значениями и неслучайными или систематическими ошибками" [242. Р.15]. Исходя из этого, Р.Зеллер и Э.Карминес предложили процедуру использования факторного анализа для эмпирической оценки надежности, создания новых факторных переменных (шкал) и построения исходной модели измерения, адекватность и параметры которой подлежат дальнейшей комплексной оценке.
Н аиболее эффективным подходом, с точки зрения этих авторов, является одновременная оценка надежности и валидности измерения. При этом для оценки надежности (и как воспроизводимости, и как согласованности) часто применимы методы классической теории тестов, сравнительные достоинства которых авторы анализируют в [242. Р.48-76 ]. Оценка надежности связана со случайной ошибкой измерения (чем выше надежность, тем ниже случайная ошибка и наоборот). Точные оценки надежности измерения могут быть получены при использовании моделей факторного анализа. Причина заключается в том, что наиболее общий метод оценки надежности для линейных
70
сводных показателей (суммирующих оценки для отдельных ин-дикаторов-субтестов) - "альфа" Кронбаха - равна надежности лишь когда все индикаторы (пункты) строго параллельны или тау-эквива-лентны19, т.е. она устанавливает нижнюю границу надежности
[242. Р.59] (см. также: [1. С.123; 36. С.70]).
С практической точки зрения, условия, когда "альфа" Кронбаха не дает хорошей оценки надежности, весьма существенны для социологического измерения. Это происходит, когда "пункты измеряют один концепт в неравной мере, или измеряют более одного концепта, равно или неравно" [242. Р.60]. Существенна здесь и типичная для социологии ситуация невозможности подобрать большое число индикаторов-пунктов для одного теоретического концепта20. Уже сами условия, ограничивающие полезность коэффициента Кронбаха, предполагают применимость и релевантность оценки надежности, основанной на факторном анализе. В этом контексте становится понятной популярность двух коэффициентов надежности, основанных на факторном анализе - "тега" и "омега". Общее обоснование использования факторного анализа в оценке надежности достаточно полно и лаконично изложено в отечественной работе
[1. С.127-129], где, в частности, отмечается, что так как для заданного числа пунктов в тесте (шкале) большей корреляции между пунктами соответствует большая надежность, а высокая корреляция также является условием выделения небольшого числа значимых факторов, то надежность теста может быть связана с результатами его факторизации. "Факторизация гомогенного теста должна давать один главный фактор, на котором эти (входящие в тест) высказывания имели бы заметные нагрузки... Использование факторного анализа для определения надежности гетерогенного теста сводится, по существу, к процессу гомогенизации посредством факторного расчленения высказываний теста. При этом каждый выделенный фактор объединяет в себе предложения одного гомогенного теста" [1. С.127-128].
Коэффициент "тега" основан на модели анализа главных компонент и может быть содержательно интерпретирован с учетом того, что основная задача в ней заключается не в объяснении корреляции между признаками, а в объяснении максимальной доли дисперсии наблюдений [52. С. 15]. Надежность гомогенного теста (шкалы), образованного пунктами, вошедшими в первую компоненту:
где N - число пунктов, a A i - наибольшее (т.е. первое) собственное число. (В случае гетерогенного теста можно подвергнуть повторному анализу каждую полученную подсовокупность пунктов-высказы-
71
ваний.) "Тета" может рассматриваться как максимизированное значение альфа-коэффициента.
Р.Зеллер и Э.Карминес рассматривают и другой коэффициент надежности - "омега", основанный на модели общих факторов и предложенный Д.Хейсом и Дж.Борнстедом в 1970 г. Приведем его упрощенную формулу для корреляций между пунктами:
где а - число пунктов, Ь - сумма корреляций между пунктами, hi -общность P-ro пункта.
При этом отмечается, что так как общности в модели общих факторов оцениваются, существует доля неопределенности при вычислении "омеги" (но не "теты"). Все три коэффициента ("альфа", "омега" и "тега") будут равны, если корреляции между пунктами равны (при равенстве дисперсий пунктов). Для тау-эквивалентных пунктов а < в < Q [242. Р.63]. Различия между коэффициентами "альфа" и "тега" либо "омега" будут существенны, когда высказывания теста (шкалы) имеют очень гетерогенные интеркорреляции (однако эти различия можно уменьшить, исключив "слабые" пункты). Процедура, предложенная Р.Зеллером и Э.Карминесом для оценки надежности [242. Р.67-75 ], включает в себя факторизацию, построение и эмпирическую оценку параметров причинной модели измерения, коррекцию на аттенюацию корреляций между неизмеряемыми конструктами в модели (если в исследовании ставилась задача оценить взаимосвязь различных конструктов, измерявшихся разными совокупностями индикаторов) , оценку надежности сводных показателей, анализ матрицы корреляций после резидуализации (чтобы убедиться, что она содержит только случайную ошибку). Обсуждаются также критерии, указывающие на присутствие только случайной ошибки [242. Р.71-75]. После выполнения всех шагов этой процедуры исследователь имеет основания утверждать, что "причинная модель содержит всю надежную дисперсию" [242. Р.76 ].
Однако абсолютная надежность, как уже говорилось, не гарантирует валидности эмпирических показателей. В принципе, очень надежная мера может быть совершенно невалидной, если все инди-канты отражают лишь систематическую ошибку. Источником этой систематической ошибки может быть и артефакт метода (самый простой и распространенный случай - позиционный стиль ответа, response set), и другой теоретический конструкт, неучтенный в модели. На многочисленных примерах Р.Зеллер и Э.Карминес показывают, что задача оценки валидности значительно сложнее, чем в случае оценки надежности (именно в силу возможного присутствия систематической ошибки). Конечно, если в процессе измерения имеют место лишь случайные ошибки, валидность будет равна надежности, однако "при измерении большинства теоретических концептов, используемых в социальных науках, измерение, по всей вероятности, содержит и случайную, и систематическую ошибку"
72
[242, Р. 159 ]. Оценка же систематической ошибки (и, таким образом, валидности) в значительно большей степени является теоретической проблемой, чем сугубо статистической. Здесь не может существовать чисто механической процедуры. Стратегия, предложенная Р.Зеллером и Э.Карминесом, основана на теоретических импликациях процедур эмпирического измерения. Исходя из теоретической концепции, делаются предсказания о возможных отношениях валиди-зируемых показателей к другим (внешним) переменным. Т.е. предполагается, что валидная мера имеет такой паттерн связей с теоретически релевантными внешними переменными, который согласован с ожидаемым на основании теоретических предположений. При этом уверенность исследователя в валидности эмпирического измерения тем выше, чем больше таких проверок конструктной валидности, основанных на критерии внешней ассоциации, удалось успешно провести. Наиболее эффектной является стратегия одновременного оценивания надежности и валидности, так как эмпирические показатели должны обладать и статистическими свойствами надежности, и концептуальной валидностью при измерении сложных и высокоабстрактных понятий социологической теории.
Так как предложенный Р.Зеллером и Э.Карминесом подход в значительной мере зависит от конкретного теоретического контекста и причинной модели измерения, т.е. от содержательных соображений, его эффективность проще всего продемонстрировать на каком-то примере. Таким примером может служить, в частности, проведенный ими анализ предложенной У.Шутцем концепции межличностного поведения и соответствующей модели измерения. Эта концепция "Фундаментальной ориентации межличностных отношений в поведении" (FIRO-B) постулирует, что лишь удовлетворительные отношения с другими людьми могут удовлетворить потребности, мотивирующие поведение в сфере общения [46; 209 ]. Безуспешность попыток установить такие отношения ведет к фрустрации потребности и, следовательно, к возрастанию тревожности. Существует три фундаментальных межличностных потребности - включенность, контроль и расположение (любовь). Кроме того, поведение, относящееся к каждой из межличностных потребностей, описывается в двух ортогональных измерениях: поведение самого субъекта по отношению к другим и желаемое им поведение со стороны других. В соответствии с этими теоретическими представлениями был создан опросник, состоящий из шести шкал, измеряющих ортогональные, независимые (по гипотезе Шутца) теоретические концепты: 1) выражаемая субъектом межличностная потребность во включенности, 2) "желаемая" потребность во включенности (т.е. связанная с ожидаемым поведением других людей, 3) выражаемая в поведении субъекта потребность в контроле, 4) желаемый контроль со стороны других людей, 5) выражаемая потребность в проявлении расположения, 6) желаемое расположение со стороны других.
Опросник FIRO-B состоит из 54 пунктов, т.е. из 9 высказываний для каждой из 6 шкал концептуального пространства межличностного поведения размерности 3x2.
73
Р.Зеллер и Э.Карминес провели факторный анализ опросника в целом и каждой из шести шкал, проверку конструктной валидности по критерию внешней ассоциации, а также оценку надежности суммарных баллов по каждой шкале после исключения "слабых" пунктов [242. Р.123-136, 155-158 ]. Одновременная оценка надежности и валидности показала, что высказывания FIRO-B измеряют в действительности четыре теоретически специфицированных концепта: включенность, контроль и два аспекта расположения - "Близкое и личностное" и "Холодное и дистантное". Проведенный анализ не дает оснований для предложенного Шутцем разведения желаемого и ожидаемого поведения в сфере межличностных отношений. При этом, в частности, выяснилось, что полученное при исходной факторизации расщепление "контрольных" пунктов на два фактора отражает не наличие двух измерений контроля, а существование общего фактора контроля и артефакта метода - позиционного стиля с гветов у части испытуемых. Т.е. формулировка исходных вопросов вела к систематической ошибке измерения для части выборки. Применение критерия внешней ассоциации и Q-техники факторизации (объединение респондентов в группы-факторы) позволило отделить влияние "позиционных" ответов от истинного влияния фактора контроля. Для иллюстрации этого результата приведем оцененную модель измерения для шкалы контроля опросника FIRO-B (рис.3). Однако, как отмечает Р.Зеллер и Э.Карминес, артефакты метода не всегда могут быть обнаружены. В случае шкалы контроля из опросника FIRO-B, выявление не связанной с содержанием шкалы доли систематической вариации ответов, зависящей от формы представления высказываний, было облегчено тем, что часть пунктов была негативной (по отношению к измеряемому свойству). Если же влияние артефактов метода на все индикаторы имеет одно направление, то задача оценки модели измерения становится практически невыполнимой без привлечения дополнительных теоретических соображений для повторной конструктной валидации и дополнительных показателей для расширения модели измерения. Традиционный подход, основанный прежде всего на чисто статистической оценке надежности, здесь неэффективен. В этом примере он привел бы к получению "завышенной" надежности при низкой валидности. Конечно, некоторые приемы выявления артефактов метода, разработанные в психометрике, могут быть применены в социологическом измерении - например, использование "прямых" и "обратных" пунктов. Однако в большинстве случаев эти простые средства неэффективны и едва ли применимы. Едва ли возможно разрабатывать "шкалы лжи" для каждого социологического опроса или вводить в анкету многочисленные вопросы - дубли или "экзотические" вопросы для выявления случайной тактики ответов респондента.
Конкретный подход к оценке качества измерения, предложенный
Р.Зеллером и Э.Карминесом, не стал окончательным решением
черченных проблем. В этом подходе недостаточно разработаны
проблемы измерения, возникающие при неправильной спецификации
теоретической модели. Удовлетворительное решение этих проблем
74
Контроль
Рис. 3. Модель измерения для шкалы кош-роля опросника FIRO-B.21
Позиционный ответ (ResPonse set )
возможно лишь при соотнесении понятия "валидность" со "вспомогательной теорией измерения", о чем будет идти речь в главе III данной работы. Однако в этом подходе достаточно ясно выражено стремление перейти от понимания измерения как "числового приписывания" к его трактовке как процесса связывания понятий теории с языком наблюдения и, следовательно, к комплексной оценке качества измерения с учетом и статистических свойств, и содержательной адекватности. Безусловную ценность представляют и содержащиеся в этом подходе эвристические приемы, позволяющие установить зависимость качества эмпирических индикаторов от влияния неслучайных ошибок измерения - артефактов метода и ошибок теоретической спецификации, искажающих параметры модели измерения. Однако прежде чем давать оценку новым, самостоятельным подходам к измерению, оказавшим существенное влияние на американскую эмпирическую социологию 60-х - 70-х годов, рассмотрим в общих чертах еще один такой подход, использующий иную стратегию оценки качества показателей.