Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Девятко итог все.doc
Скачиваний:
1
Добавлен:
10.07.2022
Размер:
3.11 Mб
Скачать

2. Надежность и валидность эмпирическх моделей

П ервый из этих подходов полнее всего изложен в уже упоминав­шейся книге Р.Зеллера и Э.Карминеса [242 ].

Р.Зеллер и Э.Карминес предложили переформулировку опреде­лений валидности и надежности, а также критерии и практические методы их оценки. Предложенная ими концептуализация надежно­сти и валидности (как и другие ориентации в моделирующем подходе к измерению) базируется на том, что наблюдаемые значения изме­ряемой переменной (X) равны сумме истинных значений (Г), сис­тематической ошибки измерения (S) и случайной ошибки измере­ния (R)6. Т.е.:

X = Т + S + R. (2.10)

Тогда для генерального среднего измеренных баллов можно записать:

Е(Х) = Е(T) +E(S), (2.11)

так как для случайной ошибки действительны прежние предположе­ния. Для конечной выборки наблюдений среднее измеренное значе­ние переменной становится несмещенной оценкой "истинного бал­ла", к которой прибавлена средняя систематической ошибки [242. Р.12].

В присутствии и случайной, и систематической ошибок для ожидаемой дисперсии можно из:

σ2x = σ2( t + s + r )

вывести, что

σ2x = σ2 t + σ2 s + σ2 r + 2σ ts (2.12)

(Так как по определению σ tr = σ sr = 0.) Здесь существенно, что так как Т и S могут быть скоррелированы, суммирование дисперсий Т, S и R не обязательно дает дисперсию X. Причем ковариация Т и S может быть и больше, и меньше нуля. Можно оценить дисперсию случайной ошибки и наблюдаемых значений. Однако невозможно ничего сказать о дисперсии истинного компонента, систематической ошибки и ковариации TS, не сделав каких-то дополнительных содержательных предположений ("не существует чисто механиче­ской процедуры для идентификации латентных переменных с гаран­тированной теоретической валидностью" [146. Р.9]).

В этом контексте можно ввести следующие различения для надежности и валидности: "Надежность - это доля неслучайной

дисперсии; валидность - та доля дисперсии наблюденных значений, которая относится к истинному компоненту" [242. Р.13]. Т.е.:

Такое определение согласуется с данными выше содержательны­ми определениями валидности и надежности. Кроме того, из него становится ясным, что различие валидности и надежности индика­тора зависит от присутствия систематической ошибки измерения. Если совокупность индикаторов измеряет только заданный теорети­ческий конструкт с точностью до случайных погрешностей, то валидность будет равна надежности. Чем больше доля систематиче­ского ошибочного компонента, тем больше надежность будет превос­ходить валидность.

Наконец, в гипотетическом случае, когда вся наблюденная дис­персия индикатора будет обусловлена систематической ошибкой (скажем, из-за неправильной спецификации теоретической моде­ли), валидность будет нулевой, а надежность - абсолютной.

Все изложенные представления, как уже говорилось, в принципе были достаточно осознаны и в психометрической традиции (по крайней мере, к середине 60-х годов). Однако близкая к контроли­руемому эксперименту ситуация тестирования позволяла, в принципе, находить " паллиативные" средства конструктной валидации.

Скажем, необходимость учета содержательных представлений о тестируемом свойстве в области образовательного тестирования мог­ла реализовываться в конкретных процедурах оценки репрезента­тивности тестового материала (по объему и содержанию) относитель­но заранее известной учебной программы. Идею совпадения теоре­тической модели "поведения" изучаемого свойства с реальностью легко было осуществить, например, через оценку его возрастной динамики в "естественном эксперименте" (если тест X измеряет вербальный интеллект, то показатели для детей должны расти с каждым годом) [2. С.141 ].

В социальных же науках, где экспериментальный контроль практически недостижим, где целью является не тестирование или дифференциальная диагностика, а измерение переменных на микро-и макро-уровне, и где систематическая ошибка весьма типична, неудовлетворенность таким подходом к качеству измерения была значительно острей. Это и вызвало появление новых подходов в данной области.

Если принять предложенную формулировку надежности и валидности, то можно выделить два обобщенных критерия их оценки: 1) внутренняя ассоциация как паттерн взаимоотношений между

69

индикантами, предназначенными для измерения одного теоретического конструкта, и 2) внешняя ассоциация как паттерн отношений между индикантами данного конструкта и другими переменны­ми [242. Р.151

Критерий внутренней ассоциации предполагает, что существуют позитивные интеркорреляции между индикаторами, что соответствует содержательному пониманию надежности как согла­сованности. Наиболее популярной техникой оценки внутренней согласованности пунктов (совокупности индикаторов, субтестов шкалы) является факторный анализ. Сторонники факторного ана­лиза как средства оценки качества измерения иногда склонны полагать, что именно факторный анализ, выявляющий эмпириче­скую многомерную структуру матрицы корреляций между пункта­ми, может использоваться для полной оценки конструктной валид-ности отдельных индикаторов:"Каждый тест может быть охаракте­ризован посредством основных факторов, определяющих его показа­тели, весом, или нагрузкой, каждого фактора и корреляцией теста с каждым из них. Такая корреляция именуется факторной валидностью теста" [2. С.143]. Однако такая точка зрения переоце­нивает роль факторного анализа в оценке качества измерения, хотя бы в силу того, что не принимает во внимание проблему интерпретации факторов. Сама по себе интерпретация фактора как релевантного определенному теоретическому конструкту (или, нао­борот, представляющего другой конструкт либо артефакт метода) невозможна без принятия каких-то предположений о валидности измерения (за исключением случая, когда систематическая ошибка отсутствует).

Нам кажется более обоснованным использование факторного анализа как средства оценки систематических компонентов наблю­денной дисперсии, т.е. "доли наблюденной дисперсии, представлен­ной истинными значениями и неслучайными или систематическими ошибками" [242. Р.15]. Исходя из этого, Р.Зеллер и Э.Карминес предложили процедуру использования факторного анализа для эм­пирической оценки надежности, создания новых факторных пере­менных (шкал) и построения исходной модели измерения, адекват­ность и параметры которой подлежат дальнейшей комплексной оценке.

Н аиболее эффективным подходом, с точки зрения этих авторов, является одновременная оценка надежности и валидности измерения. При этом для оценки надежности (и как воспроизводимости, и как согласованности) часто применимы методы классической теории те­стов, сравнительные достоинства которых авторы анализируют в [242. Р.48-76 ]. Оценка надежности связана со случайной ошибкой измере­ния (чем выше надежность, тем ниже случайная ошибка и наоборот). Точные оценки надежности измерения могут быть получены при ис­пользовании моделей факторного анализа. Причина заключается в том, что наиболее общий метод оценки надежности для линейных

70

сводных показателей (суммирующих оценки для отдельных ин-дикаторов-субтестов) - "альфа" Кронбаха - равна надежности лишь когда все индикаторы (пункты) строго параллельны или тау-эквива-лентны19, т.е. она устанавливает нижнюю границу надежности

[242. Р.59] (см. также: [1. С.123; 36. С.70]).

С практической точки зрения, условия, когда "альфа" Кронбаха не дает хорошей оценки надежности, весьма существенны для социологического измерения. Это происходит, когда "пункты изме­ряют один концепт в неравной мере, или измеряют более одного концепта, равно или неравно" [242. Р.60]. Существенна здесь и типичная для социологии ситуация невозможности подобрать боль­шое число индикаторов-пунктов для одного теоретического концеп­та20. Уже сами условия, ограничивающие полезность коэффициента Кронбаха, предполагают применимость и релевантность оценки надежности, основанной на факторном анализе. В этом контексте становится понятной популярность двух коэффициентов надежно­сти, основанных на факторном анализе - "тега" и "омега". Общее обоснование использования факторного анализа в оценке надежно­сти достаточно полно и лаконично изложено в отечественной работе

[1. С.127-129], где, в частности, отмечается, что так как для заданного числа пунктов в тесте (шкале) большей корреляции между пунктами соответствует большая надежность, а высокая корреляция также является условием выделения небольшого числа значимых факторов, то надежность теста может быть связана с результатами его факторизации. "Факторизация гомогенного теста должна давать один главный фактор, на котором эти (входящие в тест) высказыва­ния имели бы заметные нагрузки... Использование факторного ана­лиза для определения надежности гетерогенного теста сводится, по существу, к процессу гомогенизации посредством факторного рас­членения высказываний теста. При этом каждый выделенный фактор объединяет в себе предложения одного гомогенного теста" [1. С.127-128].

Коэффициент "тега" основан на модели анализа главных компо­нент и может быть содержательно интерпретирован с учетом того, что основная задача в ней заключается не в объяснении корреляции между признаками, а в объяснении максимальной доли дисперсии наблюдений [52. С. 15]. Надежность гомогенного теста (шкалы), образованного пунктами, вошедшими в первую компоненту:

где N - число пунктов, a A i - наибольшее (т.е. первое) собственное число. (В случае гетерогенного теста можно подвергнуть повторному анализу каждую полученную подсовокупность пунктов-высказы-

71

ваний.) "Тета" может рассматриваться как максимизированное зна­чение альфа-коэффициента.

Р.Зеллер и Э.Карминес рассматривают и другой коэффициент надежности - "омега", основанный на модели общих факторов и предложенный Д.Хейсом и Дж.Борнстедом в 1970 г. Приведем его упрощенную формулу для корреляций между пунктами:

где а - число пунктов, Ь - сумма корреляций между пунктами, hi -общность P-ro пункта.

При этом отмечается, что так как общности в модели общих факторов оцениваются, существует доля неопределенности при вы­числении "омеги" (но не "теты"). Все три коэффициента ("альфа", "омега" и "тега") будут равны, если корреляции между пунктами равны (при равенстве дисперсий пунктов). Для тау-эквивалентных пунктов а < в < Q [242. Р.63]. Различия между коэффициентами "альфа" и "тега" либо "омега" будут существенны, когда высказы­вания теста (шкалы) имеют очень гетерогенные интеркорреляции (однако эти различия можно уменьшить, исключив "слабые" пунк­ты). Процедура, предложенная Р.Зеллером и Э.Карминесом для оценки надежности [242. Р.67-75 ], включает в себя факторизацию, построение и эмпирическую оценку параметров причинной модели измерения, коррекцию на аттенюацию корреляций между неизме­ряемыми конструктами в модели (если в исследовании ставилась задача оценить взаимосвязь различных конструктов, измерявшихся разными совокупностями индикаторов) , оценку надежности сводных показателей, анализ матрицы корреляций после резидуализации (чтобы убедиться, что она содержит только случайную ошибку). Обсуждаются также критерии, указывающие на присутствие только случайной ошибки [242. Р.71-75]. После выполнения всех шагов этой процедуры исследователь имеет основания утверждать, что "причинная модель содержит всю надежную дисперсию" [242. Р.76 ].

Однако абсолютная надежность, как уже говорилось, не гаранти­рует валидности эмпирических показателей. В принципе, очень надежная мера может быть совершенно невалидной, если все инди-канты отражают лишь систематическую ошибку. Источником этой систематической ошибки может быть и артефакт метода (самый простой и распространенный случай - позиционный стиль ответа, response set), и другой теоретический конструкт, неучтенный в модели. На многочисленных примерах Р.Зеллер и Э.Карминес пока­зывают, что задача оценки валидности значительно сложнее, чем в случае оценки надежности (именно в силу возможного присутствия систематической ошибки). Конечно, если в процессе измерения имеют место лишь случайные ошибки, валидность будет равна надежности, однако "при измерении большинства теоретических концептов, используемых в социальных науках, измерение, по всей вероятности, содержит и случайную, и систематическую ошибку"

72

[242, Р. 159 ]. Оценка же систематической ошибки (и, таким образом, валидности) в значительно большей степени является теоретической проблемой, чем сугубо статистической. Здесь не может существовать чисто механической процедуры. Стратегия, предложенная Р.Зелле­ром и Э.Карминесом, основана на теоретических импликациях процедур эмпирического измерения. Исходя из теоретической кон­цепции, делаются предсказания о возможных отношениях валиди-зируемых показателей к другим (внешним) переменным. Т.е. пред­полагается, что валидная мера имеет такой паттерн связей с теоре­тически релевантными внешними переменными, который согласован с ожидаемым на основании теоретических предположений. При этом уверенность исследователя в валидности эмпирического измерения тем выше, чем больше таких проверок конструктной валидности, основанных на критерии внешней ассоциации, удалось успешно провести. Наиболее эффектной является стратегия одновременного оценивания надежности и валидности, так как эмпирические пока­затели должны обладать и статистическими свойствами надежности, и концептуальной валидностью при измерении сложных и высоко­абстрактных понятий социологической теории.

Так как предложенный Р.Зеллером и Э.Карминесом подход в значительной мере зависит от конкретного теоретического контекста и причинной модели измерения, т.е. от содержательных соображе­ний, его эффективность проще всего продемонстрировать на каком-то примере. Таким примером может служить, в частности, прове­денный ими анализ предложенной У.Шутцем концепции межлично­стного поведения и соответствующей модели измерения. Эта концеп­ция "Фундаментальной ориентации межличностных отношений в поведении" (FIRO-B) постулирует, что лишь удовлетворительные отношения с другими людьми могут удовлетворить потребности, мотивирующие поведение в сфере общения [46; 209 ]. Безуспешность попыток установить такие отношения ведет к фрустрации потребно­сти и, следовательно, к возрастанию тревожности. Существует три фундаментальных межличностных потребности - включенность, контроль и расположение (любовь). Кроме того, поведение, относя­щееся к каждой из межличностных потребностей, описывается в двух ортогональных измерениях: поведение самого субъекта по отношению к другим и желаемое им поведение со стороны других. В соответствии с этими теоретическими представлениями был создан опросник, состоящий из шести шкал, измеряющих ортогональные, независимые (по гипотезе Шутца) теоретические концепты: 1) выражаемая субъектом межличностная потребность во включенности, 2) "желаемая" потребность во включенности (т.е. связанная с ожидаемым поведением других людей, 3) выражаемая в поведении субъекта потребность в контроле, 4) желаемый контроль со стороны других людей, 5) выражаемая потребность в проявлении расположения, 6) желаемое расположение со стороны других.

Опросник FIRO-B состоит из 54 пунктов, т.е. из 9 высказываний для каждой из 6 шкал концептуального пространства межличност­ного поведения размерности 3x2.

73

Р.Зеллер и Э.Карминес провели факторный анализ опросника в целом и каждой из шести шкал, проверку конструктной валидности по критерию внешней ассоциации, а также оценку надежности суммарных баллов по каждой шкале после исключения "слабых" пунктов [242. Р.123-136, 155-158 ]. Одновременная оценка надежно­сти и валидности показала, что высказывания FIRO-B измеряют в действительности четыре теоретически специфицированных концеп­та: включенность, контроль и два аспекта расположения - "Близкое и личностное" и "Холодное и дистантное". Проведенный анализ не дает оснований для предложенного Шутцем разведения желаемого и ожидаемого поведения в сфере межличностных отношений. При этом, в частности, выяснилось, что полученное при исходной фак­торизации расщепление "контрольных" пунктов на два фактора отражает не наличие двух измерений контроля, а существование общего фактора контроля и артефакта метода - позиционного стиля с гветов у части испытуемых. Т.е. формулировка исходных вопросов вела к систематической ошибке измерения для части выборки. Применение критерия внешней ассоциации и Q-техники факториза­ции (объединение респондентов в группы-факторы) позволило отде­лить влияние "позиционных" ответов от истинного влияния фактора контроля. Для иллюстрации этого результата приведем оцененную модель измерения для шкалы контроля опросника FIRO-B (рис.3). Однако, как отмечает Р.Зеллер и Э.Карминес, артефакты метода не всегда могут быть обнаружены. В случае шкалы контроля из оп­росника FIRO-B, выявление не связанной с содержанием шкалы доли систематической вариации ответов, зависящей от формы представле­ния высказываний, было облегчено тем, что часть пунктов была не­гативной (по отношению к измеряемому свойству). Если же влияние артефактов метода на все индикаторы имеет одно направление, то задача оценки модели измерения становится практически невыпол­нимой без привлечения дополнительных теоретических соображений для повторной конструктной валидации и дополнительных показате­лей для расширения модели измерения. Традиционный подход, осно­ванный прежде всего на чисто статистической оценке надежности, здесь неэффективен. В этом примере он привел бы к получению "за­вышенной" надежности при низкой валидности. Конечно, некоторые приемы выявления артефактов метода, разработанные в психометри­ке, могут быть применены в социологическом измерении - например, использование "прямых" и "обратных" пунктов. Однако в большин­стве случаев эти простые средства неэффективны и едва ли приме­нимы. Едва ли возможно разрабатывать "шкалы лжи" для каждого социологического опроса или вводить в анкету многочисленные воп­росы - дубли или "экзотические" вопросы для выявления случайной тактики ответов респондента.

Конкретный подход к оценке качества измерения, предложенный

Р.Зеллером и Э.Карминесом, не стал окончательным решением

черченных проблем. В этом подходе недостаточно разработаны

проблемы измерения, возникающие при неправильной спецификации

теоретической модели. Удовлетворительное решение этих проблем

74

Контроль

Рис. 3. Модель измерения для шкалы кош-роля опросника FIRO-B.21

Позиционный ответ (ResPonse set )

возможно лишь при соотнесении понятия "валидность" со "вспомо­гательной теорией измерения", о чем будет идти речь в главе III дан­ной работы. Однако в этом подходе достаточно ясно выражено стремление перейти от понимания измерения как "числового приписывания" к его трактовке как процесса связывания понятий теории с языком наблюдения и, следовательно, к комплексной оценке качества измерения с учетом и статистических свойств, и со­держательной адекватности. Безусловную ценность представляют и содержащиеся в этом подходе эвристические приемы, позволяющие установить зависимость качества эмпирических индикаторов от вли­яния неслучайных ошибок измерения - артефактов метода и ошибок теоретической спецификации, искажающих параметры модели из­мерения. Однако прежде чем давать оценку новым, самостоятельным подходам к измерению, оказавшим существенное влияние на американскую эмпирическую социологию 60-х - 70-х годов, рассмотрим в общих чертах еще один такой подход, использующий иную стратегию оценки качества показателей.