Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Diagnost_prozed_Devyatko

.pdf
Скачиваний:
5
Добавлен:
30.05.2015
Размер:
2.05 Mб
Скачать

внешней переменной помимо концептуальной переменной, которую он представляет, и собственной случайной ошибки измерения. Г.Костнер, как уже говорилось, показал, что критерий согласованности для модели с двумя индикаторами каждой переменной является необходимым, но не достаточным условием, и рассмотрел случаи, когда уравнение 2.20 выполняется (в пределах ошибки выборки) при наличии неслучайной ошибки измерения. Один из таких случаев показан на рис.5А, другой - на рис.5Б.

Диаграмма на рис.5А отражает ситуацию неслучайной ошибки при измерении индикаторов одной переменной (например,y1 и у2 - смежные вопросы анкеты, измеряющие одно качество). В случае такой модели изменится лишь уравнение 2.19 из системы, которое не использовалось при получении критерия 2.20. На рис.5Б изображена ситуация, когда один индикатор детерминируется двумя неизмеряемыми переменными, что вполне возможно, когда между переменными существует тесная взаимосвязь и они трудно разделимы теоретически (например, это социальный и экономический престиж соответственно). Для этой модели в нашей первоначальной системе уравнений 2.14 -2.19 нужно переписать два:

Однако и в этом случае критерий согласованности будет выпол-

rx y

ry

2

x

2

= rx y

2

ry

x

2

1

1

 

1

1

 

няться, т.е.

так как : (а с d + аf) (Ь с е) = (асe) (b с d + bf) .

Кроме того, в некоторых случаях (например, при наличии неслучайной ошибки измерения между индикаторами разных концептуальных переменных) различия между левой и правой частями критерия согласованности будут очень малы и неотличимы от ошибки выборки, так как будут выражены через произведение многих путевых коэффициентов, каждый из которых меньше единицы.

Как показал Х.Блейлок [83] , предложенный Г.Костнером подход, может быть распространен на все рекурсивные модели (определение рекурсивных причинных систем см.: [53. С.139-141] ) , т.е. для любого числа концептуальных переменных. Так, для двухиндикаторной модели с тремя переменными будут существовать три критерия согласованности. Однако добавление новых переменных будет вести к резкому возрастанию вычислительных сложностей и числа оценок для каждого коэффициента, что порождает проблемы оценивания. Поэтому для сложных моделей со многими переменными и многими индикаторами, которые, однако, не очень типичны для обычной практики, используют факторно-аналитические процедуры, основанные на методе максимального правдоподобия.

80

Г.Костнер также показал, что уже для моделей, содержащих три индикатора каждой переменной, можно выявить некоторые типы систематических ошибок, т.е. не просто обнаружить наличие систематической ошибки, но и "локализовать" невалидный индикатор и исключить его. Для откорректированной модели измерения, где ошибки измерения случайны, из соответствующих путевых коэффициентов можно получить оценки надежности. Для модели с тремя индикаторами для каждой из двух переменных существует девять критериев согласованности (Костнер рассматривал ее как совокупность девяти двухиндикаторных моделей) [113; 225.

Р.38-39]:

Приведем пример. Пусть в действительности имеет место ситуация, изображенная на рисунке 6. Исследователь же исходит из предположения, что присутствуют лишь случайные ошибки измерения, т.е. у индикаторов х3 и у, нет общего источника вариации.

Так как для каждой переменной используются три индикатора, то, рассматривая, какие из критериев 2.20-2.28 не выполняются, можно обнаружить источник неслучайной ошибки в модели. В данном случае не будут удовлетворены условия 2.21, 2.22, 2.27 и 2.28, включающие корреляцию rx3y1 , тогда как в остальных случаях равенство будет удовлетворено. Таким образом, исследователь может исключить из модели два невалидных индикатора 3 и у1) и далее получить множественные оценки остальных параметров, в частности, оценить надежность остальных индикаторов, как в случае модели с двумя индикаторами.

Следует, однако, помнить о том, что при увеличении числа индикаторов в модели число получаемых оценок будет возрастать в

6 И.Ф.Девятко

81

Рис. 6. Модель Костнера с двумя переменными и шестью индикаторами (с выявляемой неслучайной ошибкой).

Рис. 7. Причинная модель измерения для двух свойств и двух методов.

геометрической прогрессии [242. Р. 173]. Поэтому обычно модели с тремя индикаторами используют для выявления невалидных

индикаторов (систематической ошибки измерения), а для оценки параметров возвращаются к модели с двумя индикаторами, не порождающей серьезных проблем, если число концептуальных переменных невелико [225. Р.40].

В начале данного раздела речь шла об определенном сходстве многоиндикаторного подхода с процедурой конвергентно- дискрими-нантной валидизации, предложенной Д.Кэмпбеллом и Д.Фиске. При этом мы оговорили, что построение причинных моделей измерения со множественными индикаторами позволило показать, что использование многометодной матрицы свойств далеко не всегда является эффективным средством проверки конструктной валидности. Так как процедура Д.Кэмпбелла и Д.Фиске неоднократно описана в литературе (например, [2. С. 144-146]), укажем лишь, что суть процедуры заключается в применении разных методов измерения - заполняемый респондентом опросник, структурированное интервью, наблюдение и т.п. - к оценке двух или более свойств. В результате получается матрица "свойства/методы", элементами которой являются коэффициенты корреляции, включающие в себя и коэффициенты надежности (на главной диагонали), и коэффициенты валидности. В работах Р.Алтаузера и соавт. [72; 73] содержится анализ "М-М"-матриц с помощью причинных моделей измерения. Проиллюстрируем выводы, полученные в этих работах, на простейшем примере двух свойств (концептуальных переменных X и Y) и двух методов. Матрица для этого примера показана в таблице 2.1.

Не считая оценок надежности (заключенных в скобки), в матрице содержится шесть наблюдаемых коэффициентов корреляции для

82

Таблица 2.1. Матрица корреляций для двух свойств и двух методов [225. Р.48]

четырех различных индикаторов (два метода для каждого из двух свойств). Вариация каждого индикатора имеет два независимых источника - свойство, т.е. концептуальная переменная, и метод измерения. Представим эти отношения с помощью причинной модели измерения на рисунке 7.

Здесь X и Y - значения двух свойств, М{ и М2 представляют влияние двух используемых методов. Существует какая-то корреляция между истинными значениями двух свойств (S), и между влияниями двух методов. Последнее предположение весьма правдоподобно если допустить существование сходных факторов, воздействующих на реакцию респондента - социальной желательности, тематики самопрезентации или просто сходства способа измерения. Модель на рис.7 не доопределена (шесть измеряемых коэффициентов и десять параметров, подлежащих оцениванию).

Однако, следуя правилам путевого анализа, можно выразить все корреляции через путевые коэффициенты, что позволяет оценить четыре основанных на этих корреляциях критерия валидности, предложенных Кэмпбеллом и Фиске (что и было сделано в работах

[72; 73], см. также: [225. Р.47-55]).

Таким образом, получаем для коэффициентов валидности (одно

rx1x2 = ab +lpR

ry1 y2 = cd +mkR

свойство, разные методы): (2.29) (2.30)

Для корреляций между различными свойствами, измеренными разными методами:

rx1 y2 = adS +lkR

rx2 y1 =bcS + pmR

(2.31) (2.32)

83Для корреляций разных свойств, измеренных одним методом:

rx1 y1 = acS +lm

rx1x2 rx1 y1 > 0

Третий критерий предполагает, что корреляция двух измерений (разными методами) одной переменной будет выше, чем корреляция двух черт, измеренных одним методом. Например,

rx2 y2 =bdS + pk

(2.33) (2.34)

Первый критерий Кэмпбелла и Фиске требует, чтобы коэффициенты валидности г и ry1y2 были высоки и статистически значимы. Однако из уравнений 2.29 и 2.30 очевидно, что это требование будет выполняться либо из-за высоких значений эпистемических корреляций а, b, с, d, либо из-за того, что влияние метода измерения велико (/, т, p и k) и методы скор-релированы (ср. обсуждение в предыдущем разделе). Следовательно, даже прямая оценка валидности будет корректной лишь если предположить, что методы совершенно не скоррелированы. Но такое предположение может вы-

глядеть правдоподобным лишь в очень редких ситуациях.

Второй критерий предполагает сравнение между коэффициентами валидности и корреляциями между разными свойствами, измеренными разными же методами (стоящими в той же ко-

ry1 y2 rx2 y1 > 0

лонке и столбце). Корреляции между методами при измерении одного свойства должны быть выше, чем при измерении разных свойств, т.е., например:

Для рассматриваемого коэффициента валидности это равнознач-

но:

cd + mkR-(bcS + PmR)>0.

Перегруппируем слагаемые, чтобы разделить компоненты, связанные с концептуальной переменной и с методом:

(с d - b с S) + (k -P) т R > 0 .

(2.35)

Обсуждаемый критерий предполагает, что большое различие этих корреляций должно указывать на то, что два измерения У должны быть связаны сильнее, чем измерение Y и измерение второго свойства. Действительно, если d и b приблизительно равны, величина первого компонента будет функцией от (1 - S). Но для этого нужно предположить, что второй компонент должен быть близок к нулю. Это возможно либо когда влияния метода невелики (либо корреляция между двумя методами равна нулю), либо эфекты метода велики и приблизительно равны (k = P). В последнем случае критерий будет удовлетворен при наличии сильных артефактов метода.

Следовательно, осмысленное применение критерия дискриминантной валидности возможно лишь при принятии допущения об отсутствии сильных эффектов метода (что, как уже говорилось, далеко не всегда может быть оправдано).

84

т.е.

(а b + I P R) — (а с S + I т)

или

(а b — а с S) + I (P R — т) > 0.

По аналогии с предыдущим критерием, если предположить, что эпистемические корреляции b и с приблизительно равны, первый компонент будет функцией от (1 — 5) и его величина будет зависеть от корреляции между X и Y. Во втором компоненте присутствует разность между произведением двух путевых коэффициентов - р и R - и одним коэффициентом т. Так как величины путевых коэффициентов меньше единицы, то второй компонент, вероятно, будет меньше 0. Если эффекты метода сильны, то значение второго компонента будет сравнительно большим и отрицательным, а интересующее нас различие между корреляциями - маленьким. Т.е., .если дисперсия метода больше дисперсии свойства, то критерий будет не удовлетворен, что согласуется с идеей Д.Кэмпбелла и Д.Фиске. Однако, чтобы дисперсия, связанная с методами, была заметна, связь между свойствами (S) должна быть невелика или первый компонент должен иметь сравнительно небольшое значение. Если же свойства высоко коррелируют, то величина первого компонента будет небольшой и результирующая разность корреляций rx1x2 и rx1y1 окажется маленькой даже тогда, когда второй компонент будет также невелик. Т.е. в этом случае влияние артефактов метода будет переоцениваться. Таким образом, третий критерий адекватен лишь для случая, когда заранее можно предположить отсутствие значительной корреляции между свойствами.

Четвертый критерий, предложенный Д.Кэмпбеллом и Д.Фиске, предполагает сравнение паттернов корреляций внутри блоков, относящихся к одному методу (внутри пунктирных прямоугольников, подобных выделенному в таблице 2.1) . Отношения между свойствами должны сохраняться вне зависимости от используемого метода. Для того, чтобы проверить этот критерий, "М-М"-матрица должна быть расширена хотя бы до трех свойств. Мы не будем приводить здесь выкладки, так как ход рассуждений аналогичен вышеизложенным. Можно показать, что критерий будет удовлетворен даже при наличии существенных эффектов метода, если соответствующие пути будут приблизительно равны бсак это было показано при анализе второго критерия валидности)27 . В таком случае применение четвертого

85

27 См., например: [225. Р.51-53].

критерия ограничено ситуациями, коща можно заранее принять предположение о том, что каждый метод имеет отличное по величине влияние для каждого свойства, т.е. выраженность артефактов данного метода зависит от того, какое свойство измеряется. Это предположение нельзя назвать очевидным, так как оно само нуждается в проверке.

Таким образом, анализ критериев конвергентно-дискриминант- ной валидности с позиций причинных моделей измерения с множественными индикаторами показал, что по крайней мере три из предложенных критериев в действительности требуют очень сильных допущений, которые достаточно нечасто могут быть приняты даже для простых ситуаций. Введение же даже небольших усложнений в модель, приближающее ее к реальности (например, предположения о воздействии измерения первого индикатора каждой черты на последующие измерения других индикаторов [225. Р.53-54 ]), делает применение кэмпбелловского подхода к валидности практически невозможным. Работы Р.Алтаузера, Т.Хеберлейна и Р.Скотта, осуществивших анализ возможностей и ограничений использования "М-М"-матриц для оценки валидности измерения, содержали и некоторые подходы к выявлению влияния метода измерения для простейших моделей с двумя свойствами и двумя методами. Более общим, однако, представляется подход, связанный с увеличением числа свойств или числа используемых индикаторов. Переопределенными будут уже модели с четырьмя методами измерения для двух свойств (либо модели, содержащие четыре измеряемых свойства и два метода измерения). В этом случае появляется возможность оценки всех релевантных параметров. Однако, как уже говорилось, этот подход ведет к появлению множественных оценок каждого параметра.

Очень плодотворным оказалось применение многоиндикаторных моделей измерения и для двух других классов задач - анализа сравнимости индикаторов [89] и оценки ретестовой надежности и истинной стабильности измеряемого свойства. Как отмечалось в предыдущем разделе, оценка ретестовой надежности в рамках традиционного психометрического подхода осложнена проблемой стабильности измеряемого свойства и применима к достаточно узкому диапазону ситуаций. Без явного задания модели измерения и при наличии лишь двух замеров она может основываться лишь на непроверяемом предположении об отсутствии истинных изменений в концептуальной переменной. Априорное принятие такого допущения может считаться оправданным применительно к конституционально обусловленным психофизиологическим характеристикам индивида (например, скорости моторной реакции), но совершенно неприемлемо, когда речь идет о динамических социальных процессах. Даже при очень небольших временных интервалах мнения и установки могут достаточно радикально меняться.

Д.Хейс (1971 г.) показал, что существует возможность получения отдельных оценок надежности и стабильности при введении в панель третьей волны [145]. Однако и здесь все еще требуются некоторые

86

сильные допущения (в частности, о постоянстве эпистемических корреляций, т.е. фактически коэффициентов одномоментной надежности) . Д.Уайли и Дж.Уайли показали, что это допущение не всегда обосновано и предложили способ оценки модели с тремя волнами и одним индикатором без стандартизации.Единственным априорным предположением в этом случае является постоянство дисперсии ошибок индикатора [240 ]. Еще одно спорное допущение, присутствующее в панельных моделях, - это нескоррелированность возмущений концептуальной переменной (концептуальных ошибок и. ) в последовательные моменты времени. Как и в случае скоррелированных ошибок измерения, прибавление дополнительных волн не дает возможности оценить параметры. Однако Д.Хейс показал, что прибавление четвертой волны позволяет проверить гипотезу о нескоррелированности возмущений, так как в этом случае может быть выведен критерий согласованности.

Х.Блейлок предложил альтернативный подход для панельных моделей с использованием множественных индикаторов в двух или более временных точках [85 ]. Получающиеся в результате модели аналогичны ранее обсуждавшимся моделям с двумя переменными и множественными индикаторами (только здесь вместо двух концептуальных переменных имеется одна, измеренная дважды). Преимущества использования множественных индикаторов в данном случае - это достаточность двух волн данных, отсутствие ограничений на устойчивость коэффициентов одномоментной надежности, возможность проверки допущений о скоррелированности ошибок индикаторов с помощью уже описанных критериев согласованности. Однако и здесь возникает проблема множественных оценок параметров, о которой мы неоднократно упоминали и на которой вкратце остановимся немного ниже после обсуждения проблемы значимости выводов, получаемых при проверке модели.

Как было показано ранее, переопределенные модели со множественными индикаторами, дающие несколько оценок для каждого параметра, позволяют сформулировать критерии согласованности. Критерий согласованности - это средство проверки валидности для каждого из индикаторов и для модели в целом. И при изложении комбинированного подхода к оценке качества измерения в предыдущем разделе, и при анализе многоиндикаторного подхода мы неоднократно подчеркивали, что наиболее адекватной стратегией оценки валидности является построение и проверка модели измерения, а не валидизация отдельного индикатора. Однако любой критерий согласованности в моделях со множественными индикаторами предполагает, что при корректности модели левая и правая части критерия должны быть равны. Если же их разность больше нуля, то возникает проблема оценки значимости этого различия. Обсуждая критерии согласованности и соответствующие модели, мы не уделяли внимания этой проблеме, т.е. не подчеркивали, что любое нарушение равенства может быть связано и с выборочной природой данных. В действительности существует необходимость проверки гипотезы о вероятности выполнения равенства в совокупности при данной ве-

87

личине отклонения от точного равенства в выборке. Следовательно, необходимо решить статистическую задачу проверки значимости. Такой тест значимости был создан за несколько десятилетий до появления первых моделей со множественными индикаторами Ч.Спирменом и К.Хользингером (1924 г.) при разработке простой модели факторного анализа [225. Р.70-72]. Предложенная этими авторами величина "тетрадической разности" сходна с критерием согласованности Костнера, поэтому оценка стандартной ошибки этой величины вполне подходит для аналогичной оценки различия между левой и правой частями критерия согласованности.

Тетрадическая (или тетрадная) разность (t d) для модели с двумя переменными и четырьмя индикаторами определяется как:

td = rx1 y1 rx2 y2 rx1 y2 rx2 y1

Для оценки стандартной ошибки (S.E.) используется формула

[225. Р.71]:

 

 

S.E. =(k 2k

2

+4k ) / N +k

4

/ N 2

 

 

 

 

 

 

 

 

(2.38)

где:

 

 

 

1

 

 

 

 

 

 

3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

N - размер выборки

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k

 

= r2

 

+r2

y

 

+r

2

y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

x y

2

 

 

x

 

 

x

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

2

1

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k2

= rx x

rx y

ry y

2

+rx x

rx y

2

rx

y

+rx y

rx y

2

ry y

2

+ry x

ry

x

ry y

2

 

 

1

2

1

1

 

1

 

 

 

 

1

2

1

2

 

2

1

1

1

1

 

1

2

2

2

1

k3

= rx x

rx y

rx

y

2

ry y

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

2

1

1

 

2

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k

4

=(1r 2

 

)2 (1r

2

y

)2

 

+(1r 2

y

)2 (1r 2

 

)2

 

 

 

 

 

 

 

 

x y

 

 

 

 

 

 

 

x

2

 

 

 

x

 

 

 

 

x y

2

 

 

 

 

 

 

 

 

 

1

1

 

 

 

 

 

 

 

2

 

 

 

 

2

1

 

 

 

 

1

 

 

 

 

 

 

 

 

Так

 

как данная формула предполагает довольно громоздкие

вычисления, то на практике используют

 

ее значительно более

простоеприближение:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(2.39)

S.E. 2r (1r) / N

- где г - среднее четырех корреляций, входящих в критерий. Эта более простая формула может использоваться во всех случа-

ях, кроме тех, когда и N, и эмпирические корреляции малы. Используя эту формулу для оценки стандартной ошибки, можно применить простой ^-критерий для оценки значимости отличия полученной величины td от нуля [225. Р.71 ]. Значение будет равно отношению:

t = td S.E.

88

Далее с помощью стандартной таблицы t -распределения определяют уровень значимости (для N - 1 степеней свободы).

Существует, однако, еще одна проблема, возникающая при использовании критерия согласованности. Если наблюдаемые корреляции очень малы, то даже ошибочная модель может пройти проверку значимости, так как разность между двумя парами таких корреляций заведомо будет очень мала. Поэтому обычно предлагается не использовать критерий согласованности, когда корреляции между индикаторами меньше или равны 0,3 [73; 225 ]. Для проверки корректности модели в этом случае рекомендуется сравнить между собой различные оценки каждого параметра. В случае, если эти оценки очень близки по величине, можно считать модель верной. Существуют и другие, более сложные тесты значимости для моделей со множественными индикаторами (см.: [176]).

Значительно более сложной проблемой является наличие нескольких различающихся оценок для каждого параметра. Это "цена", которую приходится платить за переопределенность (которая, в свою очередь, необходима для проверки согласованности). Как уже говорилось, в модели с двумя переменными и четырьмя индикаторами для каждого параметра имеется две оценки, в модели с тремя индикаторами для каждой переменной оценок будет уже девять и т.д. Даже если модель успешно прошла проверку по критерию согласованности, эти оценки могут заметно расходиться. Возникает проблема выбора между этими оценками эпистемических корреляций (т.е. надежности индикаторов) или корреляций между переменными с поправкой на надежность. Для решения этой проблемы предлагались разные способы: простое усреднение оценок для каждого параметра, усреднение оценочных уравнений для получения одного значения и т.д. [225. Р.73 ]. В принципе любая из этих процедур дает несмещенную оценку, так как правильно определенная модель является теоретически несмещенной. Однако в статистическом оценивании, помимо несмещенности, требуется и эффективность оценки, т.е. выборочное распределение оценок должно обладать сравнительно небольшой дисперсией. Так как обсуждение собственно статистических проблем несколько выходит за рамки нашего изложения, ограничимся лишь двумя замечаниями. Во-первых, отсутствие окончательного решения проблемы "наилучшей" оценки служило поводом для критики многоиндикаторного подхода [242. Р.173 ]. Во-вторых, так как в переопределенной модели эффективной оценкой может быть лишь взвешенная средняя, где "веса" отражают вариативность исходных оценок, простое усреднение дает лишь несмещенную оценку. Конечно, для элементарных моделей с небольшим количеством оценок каждого параметра эта проблема не очень существенна, любое взвешивание дает результат, не слишком отличающийся от простого усреднения. Однако по мере усложнения модели измерения (и увеличения числа оценок) возникает необходимость перехода от простых методов путевого анализа к методам максимального правдоподобия.

Отметим, однако, что любые более сложные подходы к оценке параметров могут применяться лишь к конкретной теоретически

89

специфицированной модели измерения с несколькими индикаторами. Описанный нами подход со множественными индикаторами, как и подход к оценке качества измерения, обсуждавшийся в предыдущем разделе, важен именно для понимания содержательных аспектов измерения и роли модели измерения в комплексной оценке надежности и валидности. Понимание этой содержательной стороны проблемы позволяет оценить вклад социологов в традиционные психометрические представления о надежности и валидности.

Оценивая роль рассмотренных подходов к реконцептуализации понятия качества измерения в социологии, отметим, во-первых, что возникновение этих подходов было бы невозможным без принципиально новой и возникшей собственно в социологии трактовки измерения как основанного на содержательных теоретических представлениях процесса соотнесения высокоабстрактных понятий теории с данными наблюдений, в " снятой" форме представленного в модели измерения. Во-вторых, сами новые подходы к оценке качества измерения, ориентированные на проверку гипотез об адекватности принятой модели измерения (а не на оценку качества отдельных показателей), послужили толчком к дальнейшему углублению именно тех представлений об измерении, которые первоначально инициировали их появление28. Т.е. понимание сложной и носящей обоюдный характер взаимосвязи теоретически заданного предмета измерения, его метода и конкретных эмпирических показателей, к которому подводила рассмотренная концепция качества измерения, способствовало отказу от узко инструментальной трактовки функций измерения. Новое, более широкое определение функций измерения очень точно, на наш взгляд, передано в следующем тезисе: "Их (измерительных операций) неизменная функция коренится во взаимосвязях между их концептуальными и операциональными аспектами, в семантически целесообразном и эмпирически реализуемом соответствии числовым операциям и в надлежащей спецификации, которая соотнесена с природой объекта измерения, с используемыми измерительными инструментами, применяемым способом измере-

ния..." [9. С.31 ].

Рассмотренные подходы к оценке валидности и надежности измерения в силу своей относительной простоты не могут быть использованы в ситуациях, когда модель измерения очень сложна. Для оценки параметров очень сложных моделей в последнее время используются значительно более изощренные статистические процедуры (например, анализ ковариационных структур). Однако применение таких процедур осмысленно лишь тогда, когда исследователь имеет серьезные основания подозревать наличие конкретных типов неслучайной ошибки в своих данных и способен отчетливо сформулировать проверяемую модель. В то же время достоинства сравнительно простых подходов тесно связаны с их недостатками, т.е. с существованием ограничений на сложность модели. Прежде всего, необходимость заранее сформулировать все допущения, касающиеся

90

28О том, какразвивались этиобщиеметодологические представления оприродеизмерения

ио его связи с социологической теорией, будет идти речь в последующих главах

структуры модели, заставляет исследователя эксплицировать, явно задавать все имеющиеся у него представления о природе и взаимосвязи переменных, возможных влияниях метода измерения на его результат. Тем самым возникают определенные гарантии против опаснейшей иллюзии эмпирической социологии - иллюзии "самоочевидной интерпретируемости результатов измерения" (см.: [7; 35]), не зависящей от теоретических представлений. С другой стороны, преодолевается противоположный соблазн строить в принципе непроверяемые теории, где все связано со всем, в надежде, что хороший методист должен найти способ устранить ошибки измерения и откорректировать инструмент (оценить ретестовую надежность отдельного индикатора, указать корреляцию с суммарным баллом и т.п.). Конечно, тема зависимости измерения от теории не исчерпывается проблемами определения валидности и надежности (ряд других проблем будет анализироваться в следующей главе), однако анализируя эволюцию взглядов на качество измерения в американской социологии 60-х - 70-х годов, нельзя не признать, что этот процесс характеризовался растущим пониманием специфики целей, задач и методов собственно социологического исследования, все большей "автономизацией" подходов и отказом от некритического копирования отдельных приемов психометрики. не исключавшим, впрочем, принятия конструктивных идей.

Глава третья

КОНЦЕПТУАЛИЗАЦИЯ, ИЗМЕРЕНИЕ, МОДЕЛИРОВАНИЕ: НОВАЯТРАКТОВКАДИАГНОСТИЧЕ-

СКОЙПРОЦЕДУРЫВСОЦИОЛОГИИ

1. Концептуализация и косвенное измерение как предмет "вспомогательных теорий измерения" (исходныепредпосылки)

Впервые понятие "вспомогательной теории измерения" было введеноХ.М.Блейлокомв статье1968 г.29 В этой статье, названной "Проблема измерения: разрыв между языками теории и исследования" [82], Блейлоку удается принципиально реорганизовать сам "гештальт" традиционных споровосоотношении теоретического и эмпирическоговсоциологическоманализе. Всущности, ниодноиз используемыхвстатьепонятий(теоретическийконструкт, эмпирический операциональный индикатор, измерение какприписывание числовых значений объектам "по правилам", валидность) не несет в себе принципиально нового содержания. Новизна заключается в том, чтоБлейлокопределяетвкачестведействительнопроблематичного. Этим"действительнопроблематичным" итеоретическинагруженным пунктом оказывается сампроцессизмерения, обычно рассматривавшийся как скорее рутинная и собственно техническая манипуляция, обосновываемая если не на сугубо эмпирическом уровне, то с помощью какой-то "общей теории измерения", не имеющей ничего общего с содержательной (substantive) теорией, подвергаемойэмпирическойпроверке. Врезультатетакойсмысловой реорганизациипринципиальнойметодологической проблемойвсоциологииоказывается дляХ.Блейлока не "охватывающий" закон и не "аксиоматико-дедуктивная система" (хотя влияние этого круга позитивистских идеалов ощущалось в ранних работах Блейлока и справедливо критиковалось - см.: [183; 241]), а связь между содержательной социологической теорией и открытой по отношению к этой содержательной теории концепцией измерения, чаще всего остающейся имплицитной и "замаскированной" какими-то утилитарнымиилиad hoc обоснованиямивыбораэмпирическихпоказателей техилииныхтеоретических переменных. Вдальнейшем Блейлокуудалось болеесистематически проанализировать связимежду концептуализациейиизмерениемиегоболеепоздниеработысодержат детальный анализ возможностей учета в причинных теориях измерениямультикаузальности, неразделимостисодержательныхи "измерительных" эффектов, принципиальной ограниченности доступных нам данных и возможностей сравнения и, более того, попытки определить круг "эмпирически безнадежных" ситуаций, когдатеоретическиеспорыиуточняющиеэмпирическиеисследования заведомо бесплодны [84; 86; 88; 90]. Исходной точкой роста,

92

29 Некоторые основные положения концепции Блейлока были обоснованы в более ранних работах [80; 81].

постоянным центром кристаллизации этого круга идей служит тема "вспомогательной теории измерения", позволяющая удерживать определенную теоретическую высоту даже в дебрях технических проблем, скажем, константности параметров структурных уравнений (при обосновании сравнимости измерений) или нелинейной связи неизмеряемой переменной и переменной индикатора. Поэтому нам представляется полезным, прежде чем перейти к обсуждению более поздних взглядов Х.Блейлока, вкратце изложить идеи, развиваемые ввышеупомянутойстатье1968 г.

Отмечая существование разрывамежду социологической теорией и реальными эмпирическими исследованиями, Блейлок подчеркивает, что если этот разрыв и нельзя полностью закрыть в силу ограниченностисамогонаучногометода, тоипопыткиегоигнорировать всякий раз обнаруживаются в "эмпирических" на первый взгляд проблемах - результаты исследований оказываются несопоставимыми, в планировании исследования внимательный критик находит огрехи (например, не были проконтролированы смешивающиефакторыиливзяты"нете" индикаторы), авыводывсегдаможно оспорить, так как для проверки всех возможных альтернативных гипотез всегда не достает нужных данных. С точки зрения Блейлока, неоценимую роль в прояснении проблематичности соотношения теоретического и эмпирического, и прежде всего - отношения процесса измерения к процессу конструирования теории, сыграла полемика вокруг операционализма, которая в социологии достигла максимума в 30-40-е годы. Операционализм и крайний эмпиризм свершили благое дело уже тем, что они "постоянно подчеркивали, что проблема измерения является ключевой для прогресса любой науки" [82. Р.6]. Ведь даже самая красноречивая теория без адекватного измерения обречена остаться непроверяемой, так как всегда существуютнеменеекрасноречивыеальтернативныетеории.

Проанализировав взгляды П.У.Бриджмена, А.С.Эддиштона и защищавшего операционалистский подход в социологии Дж.ЭЛандберга, Блейлок отмечает, чтообщей и нелишенной смысла посылкой здесь является утверждение, что понятия эмпирически могут быть соотнесены не в терминах "внутренне присущих качеств" (например, масса как количество материи), а в терминах действительных эмпирическихопераций (показаний стрелкивесов).

Это утверждение, с точки зрения Блейлока, обосновано постольку, поскольку обнажает и подчеркивает принципиальное различие языков теории и эмпирического исследования. Блейлок особо отмечает, что Бриджмен, в ответ на критику, признал что операции являются необходимым, но не достаточным условием введения понятий (т.е. смысл понятия может быть шире его операционального смысла), и более того - расширил круг возможных операций, чтобы включить в их число и нефизические. Наиболее существенными Блейлок считает следующие антиоперационалистские аргументы: операциональные определения недоступны для конструктивной критики; препятствуют прогрессу науки, так как непозволяют работать сновымиситуациямииещенеизмеряемымипонятиями(ср. [65 ]),

93

а кроме того, в силу своей финальности и ригидности препятствуют дальнейшим попыткам усовершенствовать измерение и классификацию. И самое существенное, с точки зрения Блейлока, - неясным остается, как приходят к операциональным понятиям. Именно этот вопрос, будь он поставлен в операционализме, сделал бы возможным анализ проблем концептуализации и измерения и, вероятно, избавил бы операционалистский подход от крайних упрощений и некоторой карикатурности. Но, с другой стороны, сама по себе артикулированная постановка этого вопроса во многом стала возможна именно в результате бурных дискуссий вокруг операционализма.

Блейлок считает, что прежде чем практически решать проблему соотнесения высокоабстрактных понятий социологической теории с набором переменных, имеющихся в распоряжении социолога-эмпи- рика, ее нужно корректно сформулировать на некотором метауровне, т.е. на уровне философии науки (отметим здесь, что для более поздних взглядов Блейлока вообще не характерно стремление обосновать свой анализ дилеммы концептуализации и измерения отсылками к общим логико-философским или историческим концепциям науки, позитивистским или каким-нибудь иным, за исключением предметного обсуждения или критики отдельных аргументов). В качестве возможной конструктивной альтернативы операционалистскому подходу Х.Блейлок рассматривает подход, изложенный Ф.Нортропом в работе 1947 г. [190]. Нортроп различает два типа понятий (и два языка науки) - 1) понятия, задаваемые интуитивно, означивающие что-то, что может быть непосредственно воспринято [190. Р.36], и 2) понятия, задаваемые через постулирование, т.е. понятия, значение которых полностью или частично определяется постулатами дедуктивной теории, в которую они введены. Эти два вида понятий определяют два языка, преобладающих на последовательных стадиях развития науки - естественноисторической стадии, характеризуемой ведущей ролью метода прямого наблюдения, классификации и дескриптивного анализа, и более продвинутой стадии формулирования дедуктивной теории. Однако существенными для собственной концепции Блейлока оказываются не эти взгляды на генезис научных понятий и стадии созревания науки, а то, как Нортроп определяет характер соотнесения интуитивных понятии с понятиями, заданными через постулирование.

Отношением, соединяющим язык теории с обсервационным языком, является эпистемическая корреляция - "отношение, соединяющее ненаблюдаемый компонент чего-либо, обозначенного через постулируемое понятие, с его ("чего-либо") прямо наблюдаемым компонентом, обозначаемым интуитивным понятием" [190. Р.119]. Т.е. эпистемическая корреляция соединяет вещь, известную одним способом, с той же по сути вещью, известной другим способом (делая возможным, например, переход от массы как количества материи к массе как "показанию стрелки"). Блейлок довольно детально анализирует обоснованность введения двух разных языков, отмечая, что смешивание понятий теории и интуитивных понятий в одном языке привело бы к появлению бессмысленных утверждений, скажем, о

94

цвете электрона30. Рассматривается здесь и проблема изоморфного "отражения" понятий теории в понятия наблюдения, при этом Блейлок вслед за Нортропом делает вывод о невозможности их однозначного соединения и неизбежности существования "остатка" - теоретически определенных понятий, не имеющих операционального индикатора. Самым же существенным в обсуждении нортроповской концепции эпистемических корреляций для дальнейших рассуждений Блейлока оказывается следующее - 1) не существует строго логического обоснования перехода от постулируемых понятий к интуитивным; 2) эпистемические корреляции непосредственно не наблюдаемы и принимаются учеными "по общему согласию" как априорно (до наблюдения и эксперимента) устанавливаемая взаимосвязь между постулируемыми сущностями и непосредственно наблюдаемыми фактами; и, как следствие предыдущих рассуждений, 3) никакая дедуктивно сформулированная теория не является "прямо проверяемой" [82. Р.10-11 ]. И хотя в дальнейшем первая и вторая из перечисленных констатации превращаются для Блейлока собственно в проблему, а для устранения или, по крайней мере, осознания всех логических следствий этой проблемы будут разрабатываться причинные модели измерения, эти рассуждения оказываются очень важны для становления концепции теоретического обоснования измерения в социологии. Они помогают осознать, во-первых, произвольный, т.е. связанный с выбором (не всегда эксплицирующим свои основания), характер соотнесения теоретических переменных с эмпирическими индикаторами и, во-вторых, вытекающую отсюда необходимость разработки общей модели концептуализации измерения в причинных терминах. Последнее в общем случае означает посту-

лирование определенных причинных отношений между неизмеряемой переменной и ее индикаторами. Причем каждое из таких постулируемых отношений должно быть заранее и развернуто обоснованно через совокупность допущений. Эти допущения вытекают из содержательных соображений теории, относящихся к процессам "реального мира", связывающим индикатор и неизмеряемую переменную.

Прежде чем перейти к детальному анализу проблем концептуализации, косвенного измерения и "вспомогательных теорий измерения" в данной статье и более поздних работах Х.Блейлока, нам необходимо сделать небольшое отступление и вкратце ответить на естественно возникающий вопрос: в чем все же состоит принципиальная новизна подхода Блейлока к проблеме измерения в социологии? Ведь и представление о латентной переменной, и концепция теоретической валидности были введены ранее, и именно как реакция на существование "пропасти" между теоретическими конструктами и операционально определенными индикаторами. Отчасти на этот вопрос ответил и сам Х.Блейлок в книге " Концептуализация и

95

30Сам этот ход рассуждения довольно любопытен с точки зрения влияния " адаптированных" сюжетовфилософиинаукинаранниевзглядыБлейлокаидр. эмпирическиориентированных социологов60-хгодов. Воснованиеэтогорассуждения ужевстроенапосылка, что утвержденияили гипотезуполучают, комбинируя" всемивозможнымиспособами" исходныепонятия.

измерение", вышедшей в 1982 г. Отмечая тесную, но не всегда получающую должное внимание со стороны исследователей взаимосвязь между теоретической концептуализацией и решением сугубо технических или формальных проблем измерения, он пишет: "... забота о концептуализации часто мотивирует или помогает рационализировать многие из более специальных дискуссий, нацеленных на разработку формальных или аксиоматических оснований выбора модели измерения. Многие обсуждения проблем шкалирования, как и посвященные шкалированию учебные курсы, имеют дело с процедурными вопросами "болтов и гаек", так что философскими и теоретическими основаниями часто пренебрегают или, по меньшей мере, недоводят до достаточного уровняосознания явную заботу о теории. Однако те, кто внес самый активный вклад в создание этих техник <измерения> - Л.Л.Терстоун, Пол Лазарсфельд, Луи Гутман, Клайд Кумбс, Роджер Шепард, Патрик Суппес, Р.Льюс, Амос Тверски и Дэйвид Кранц,- также были очень заинтересованы в проблеме сцепления между теоретически определенными конструктами и операциональными процедурами, хотя, возможно, они определяли проблему другими способами. Так, Гутман (1944) представлял проблему в выборочных терминах, т.е. через отбор пунктов из содержательного универсума. Терстоун (1947), разрабатывая обоснование для вращения осей в факторном анализе, сосредоточил внимание на критерии экономности, стремясь прежде всего к "простой структуре". Лазарсфельд [1954) понимал эту проблему в терминах латентных классов, внутри которых паттерны ответов в сущности случайны..." [89. Р.43 ]. Х.Блейлок здесь вводит, хотя и не заостряет, очень существенное различение между своим подходом и взглядами предшественников. И заключается оно в принятии детерминистских представлений о связи между неизмеряемой (в том числе, латентной) переменной и переменной-индикатором. Хотя в отдельном случае окончательно определить или количественно оценить эту связь часто невозможно, ее надо отчетливо и заранее специфицировать в модели измерения, как и все другие причинные связи31 . В противном случае нельзя отличить ошибки субстантивной теории от ошибок, связанных с теоретическим обоснованием измерения, а зачастую - и заподозрить их существование (т.е. детерминизм здесь выступает как норма исследовательского подхода, а не как онтологический постулат о том, "как обстоят дела на самом деле"). На первый взгляд, различие взглядов Х.Блейлока и, например, П.Лазарсфельда, наиболее последовательно развивавшего представления о вероятностной природе отношений теоретической переменной и ее индикатора, не так уж велико, а идея спецификации всех причинных связей в модели измерения, когда заведомо известно, что некоторые из них вообще не могут быть оценены численно, кажется не вполне обоснованной. Не проще ли принять вероятностную парадигму отношения индикатора к латентной переменной, чем

96

31 Предположение о причинной связи между неизмеряемой переменной и эмпирическим индикатором может быть истолковано как исключительно методологический принцип, о чем будет говориться далее в этой же главе.

строить гипотезы о характере причинных связей, которые в некоторых случаях в принципе невозможно проверить? Для ответа на этот вопрос нам представляется полезным привести один иллюстративный пример. В статье по истории квантификации в социологии П.Лазарсфельд [165] анализирует причины неудачи А.Кетле в измерении нефизических интеллектуальных и "моральных" характеристик через манифестные характеристики поведения, являющиеся следствием первых, не поддающихся прямому измерению. Отмечая, что представления Кетле о косвенном измерении латентных качеств, представляющих теоретический интерес, и его теория измерения социальных явлений значительно опередили свое время (притом, что, в силу свойственной социальным наукам "дисконтинуально-сти", не стали прямым основанием дальнейшей традиции социологического измерения), Лазарсфельд полагает, что трудности, с которыми столкнулся Кетле при решении интересовавшей его проблемы, были связаны с детерминистским характером его представлений о связи неизмеряемой переменной и ее индикатора. Аргументация Лазарсфельда построена на анализе конкретного примера измерения кри-

минальной тенденции ("Penchant au crime") [165. Р.305-309]. Изло-

жив точку зрения Лазарсфельда, мы проанализируем этот пример на языке "вспомогательных теорий измерения", что позволит сделать более рельефным различие вероятностной, "симптоматической" концепции измерения (Спирмен, Терстоун, Лазарсфельд) и детерминизма причинных моделей измерения32 .

Кетле располагал данными об уровне преступности для большого числа групп населения (выделенных по социально-демогра- фическим признакам - пол, возраст, образование и т.д.). При этом его не удовлетворяло чисто дескриптивное описание различий между группами ("дескриптивных корреляций"). Он использовал свои оценки уровня преступности как показатели скрытых наклонностей к преступлению. Как отмечает Лазарсфельд, это давало Кетле преимущество более драматического описания результатов и почву для теоретической интерпретации [165. Р.305 ]. Большая частота убийств среди молодежи, чем среди представителей старших возрастов, расценивалась как свидетельство "насильственной природы молодости", более высокий уровень преступности среди мужчин - как проявление "ограниченной природы женской личности" (которая сама по себе не поддается прямому измерению). Кетле осознавал уязвимость для критики применяемого им метода эмпирического обоснования выво-

7 И.Ф.Девятко

97

32 Можно следующим образом определить суть детерминистской критики вероятностного подхода: никакая теория измерения, связывающая теоретический конструкт и эмпирический индикатор, не может быть построена как обобщение формальных допущений моделей латентно-структурного или факторного анализа. Применение послед них само может быть обосновано лишь через уже заданную теорию измерения, связанную с проверяемой содержательной теорией (описывающей релевантные характеристики социальной реальности, относительно которых оценивается обоснованность допущений). Поэтому представления о вероятностном выводе относительно латентного континуума или "универсума признаков", являясь гипотетическими моделями процесса измерения не могут быть обоснованы теми техниками измерения, которые послужили «поводом» для их появления.

да о неизмеряемых переменных (тенденциях, склонностях) и постоянно стремился найти контраргументы (фактически вводя новые допущения в свою "теорию измерения"):

1)верно, что число совершенных преступлений не равно числу преступников, но так как бдительность полиции можно считать приблизительно постоянной (для разных групп), то это не играет роли при сравнении криминальных тенденций по возрастным или каким-либо другим социально-демографическим группам;

2)верно, что криминальная тенденция проявляется при определенных обстоятельствах и не проявляется при других, т.е. мы имеем дело с "Penchant apparent" а не с "Penchant reel", но для сравнитель-

ных целей обе равно пригодны (Кетле проводит "эмпирическую проверку" этого допущения, сравнивая распределение числа обвинений, приговоров и оправданий для разных возрастных групп);

3)действительно, отсутствует возможность сравнить данные социальной статистики по всему населению с данными по преступникам (Кетле не располагал, например, статистикой образования), но можносноваприменитьотносительныеоценки, например, построить кросс-классификацию преступников по полу и образованию.

Однако, пишет Лазарсфельд, все это еще не решает главной проблемы: "Что предполагается, когда делается вывод от совершенных преступлений к криминальной тенденции? Сделал ли Кетле нечто большее, чем просто заменил словами "криминальная тенденция" наблюдаемые оценки преступности?" [165. Р.306]. С точки зрения Лазарсфельда, Кетле принял детерминистскую модель: "причина (тенденция к преступлению в данной группе) - следствие (доля совершивших преступления в этой группе)", тогда как в социальных науках типичной является вероятностная связь между индикаторами (симптомами) и гипотетическими конструктами.

Какова, с точки зрения Лазарсфельда, природа этих вероятностных отношений? Оказывается, они необходимо связаны с нелинейностью отношения "тенденция - симптом". Объясняя причину, по которой Кетле не смог отказаться от детерминистской модели в пользу вероятностной, Лазарсфельд указывает на аксиоматически принимаемое Кетле допущение "пропорциональности причин и следствий", т.е. в терминологии самого Лазарсфельда, предположение о линейных отношениях между латентным континуумом, который пытается измерять Кетле, и вероятностью индикатора, который он может наблюдать. Далее Лазарсфельд без труда демонстрирует на примерах, что график, операциональная характеристика наблюдаемого индикатора на латентном континууме, может иметь любую форму, помимо линейной. Но в обоих приводимых им вымышленных примерах (теста конформности по отношению к моральным нормам и измерения "репродуктивной стратегии семей", имеющей результатом определенное число рождений мальчиков и девочек) хотя и наличествует безусловно нелинейное отношение гипотетической переменной и индикатора, сама нелинейность не выводится из постулата вероятностной связи. Т.е. вероятностная трактовка связи " тенденция - симптом" оказыва-

98

ется сама по себе бесполезна для выявления нелинейности этой связи. Напротив, объясняя в обоих случаях,) почему отношение оказалось нелинейным, Лазарсфельд просто вводит дополнительные объясняющие переменные в причинную модель, делая ее более сложной, но не индетерминистской (в случае теста - это зависимость формы кривой от различающей мощности вопроса, в случае числа рождений - это влияние на конечный исход, помимо "тенденции иметь мальчиков", "тенденции продолжать рождения до появления мальчика", которая делает сверх-представленным потомство семей, имеющих биологическую склонность к рождению девочек). Суть здесь, оказывается, не в вероятностной природе самой связи, а в нелинейности зависимости конкретного эмпирического индикатора либо в присутствии неучтенной объясняющей переменной (которую в принципе можно включить в нашу причинную модель измерения, если мы ее эксплицитно рассматриваем, и найдя для этой неучтенной переменной независимый индикатор, вычленить чистый эффект интересующей нас "тенденции"). Суммируя, можно сказать, что Лазарсфельд прав, отмечая сверхупрощающий и часто вводящий в

заблуждение характер сделанного Кетле допущения о прямой линейной связи неизмеряемой тенденции и ее манифестации33 , но ошибается, когда считает, что нелинейный (1-й пример) и мультикаузальный (2-й пример) характер нашей модели измерения делает обоснованным, теоретически или из практических соображений, постулат о вероятностной природе измерения. И собственный ход рассуждений Лазарсфельда демонстрирует, сколь существенны для выбора формальной модели, описывающей характер отношений между доступными нам индикаторами и измеряемыми латентными характеристиками, содержательные представления о причинных связях "реального мира", вытекающие из теории явления (хотя, еще раз это , подчеркнем, результирующая формальная модель может оперировать и вероятностями).

Интересно отметить, что "стохастическая" аргументация никак , не соотнесена в данном случае с проблемой конструктной валидности измерения, которую Лазарсфельд также затрагивает в данной статье [165. Р.307-308]. В сущности, конструктная валидность - т.е. обоснованность связывания гипотетического конструкта теории с данным эмпирическим индикатором, - явно избыточное понятие с точки зрения последовательно "вероятностного" подхода. В общем случае любой тест, не обладающий конструктной валидностью, может иметь ненулевую вероятность "положительного" ответа на него в любой точке латентного континуума. Рассуждение Лазарсфельда об условиях, при которых допустим вывод от наблюдаемого поведения (доля преступлений в данной группе или при данных социальных обстоятельствах) к причине, т.е. к "преступным тенденциям" (на микроуровне анализа - мотивационным состояниям принадлежащих кэтой

7*

99

33 Пример с долей рождений мальчиков действительно показывает, что связь причины -, тенденции и ее следствия - индикатора может быть обратной, т.е. при всех принятых допущениях о причинных связях в модели измерения следствием будет меньшее ожидаемое число рождений мальчиков (и большее среднее число рождений девочек).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]