
Этапы процесса моделирования
Моделируя, исследователи обычно следуют схеме, описанной ниже [10].
1. Рисуется «диаграмма путей», включающая все переменные, входящие в состав моделируемой причинно-следственной системы. Переменные, не являющиеся результатом влияния других переменных, включенных в диаграмму, называются независимыми. Переменные, представляющие собой результат действия других переменных, называются зависимыми. В диаграммах путей актуальные (измеряемые) переменные изображаются квадратами, а латентные — овалами или кругами. Двунаправленные стрелки используются для обозначений корреляций и ковариаций независимых переменных. Однонаправленные стрелки, часто называемые коэффициентами путей, представляют влияния одних переменных на другие. Направление стрелок соответствует направлению влияний.
Рис. 1. Схематическое изображение типов соотношений латентных (Y) и актуальных (х) переменных.
Актуальные переменные x1 и х4 являются индикаторами латентной переменной Y1, причем x1 и х4 коррелируют, поскольку они перекрывают друг друга в своих описаниях Y1. Если, однако, путем парциальной регрессии или частной корреляции исключить сферу пересечения x1 и Х4 из анализа, то корреляция между этими переменными сведется к нулю. Переменная x2 является индикатором двух латентных переменных, Yi и Y2, т. е. входит в структуру как фактора, описывающего Y1, так и фактора, описывающего Y2. И, наконец, переменная х3 представляет переменную Y2. Ни одна из актуальных переменных не описывает латентные конструкты точно; все х включают в себя что-то еще (случайную ошибку измерения, ошибку метода, и так далее), что «загрязняет» чистоту отражения латентных переменных.
2. Диаграммы переводятся на язык уравнений множественных регрессий. При этом записывается столько уравнений, сколько модель содержит в себе переменных, требующих объяснения, т. е. количество уравнений соответствует количеству зависимых переменных.
3. Системы уравнений подвергаются статистическому анализу при помощи статистических пакетов типа LISREL, Мх или EQS. Задачей такого рода анализа является проверка соответствия модели, сформулированной посредством системы уравнений, и эмпирических данных. Коэффициенты путей, являющиеся стандартизированными парциальными регрессионными коэффициентами, показывают степень влияния причинных переменных на следственные.
4. Адекватность модели определяется посредством как статистических, так и нестатистических средств.
5. Осуществляется перебор моделей на данных одной и той же выборки. Одним из способов подобного перебора является сравнение иерархических, гнездовых моделей путем подсчета инкрементных
116
тестов с использованием распределения c-квадрат.
Некоторые типы моделей, употребляемые в млсу
Измерительные модели, позволяющие оценивать надежность и валидность психологических инструментов.
Измерительная модель в КФА. Надежность и валидность инструментария, используемого в психологии, представляют собой предмет постоянной заботы профессиональных психологов. Достаточно часто исследователям приходится иметь дело с набором различных показателей, каждый из которых в той или иной мере «заражен» ошибкой измерения. Поскольку латентные переменные являются свободными от ошибок измерения показателями глубинных процессов или структур, они часто рассматриваются как индикаторы, способные как суммировать, так и представлять различные переменные в случае присутствия некоей общей дисперсии между ними. Эти латентные переменные могут быть как причинами, так и следствиями или ковариациями других гипотетических конструктов.
Как КФА, так и более общий метод анализа путей, включающий латентные переменные, позволяют оценивать конструктную, конвергентную и дискриминантную валидность. В моделях, имеющих дело с латентными переменными, весьма нежелательные ошибки измерения, являющиеся компонентами актуальных переменных, могут быть представлены посредством специальных терминов и, тем самым, привносимая ими дисперсия будет исключена из определений латентных переменных и смоделирована отдельно. Что же по поводу тех моделей, спросит читатель, разработанных в контексте анализа путей, которые включают в себя только актуальные переменные, выступающие в ролях как предсказывающих, так и результирующих факторов? В подобных моделях актуальные переменные скрывают в себе ошибку измерения, отдифференцировать которую невозможно, что ведет к искаженным оценкам других параметров модели. Одна из главных причин популярности моделей, включающих латентные переменные, в том и заключается, что такого рода моделирование позволяет отделить дисперсию ошибки и тем самым смоделировать «совершенное», безошибочное измерение скрытых процессов так, что относительная величина влияния латентной переменной на актуальную будет отражением того, насколько актуальная переменная действительно» является индикатором глубинной структуры, а не результатом искажающих влияний ошибки измерения.
Несмотря на то, что каждое конкретное измерение содержит в себе ошибку, измерительная модель в том варианте, в котором она формулируется и тестируется в рамках КФА, строится на основе анализа паттерна корреляций актуальных переменных. Использование множественных индикаторов для каждого латентного конструкта позволяет при анализе ковариаций актуальных переменных представить степень, с которой каждая из этих переменных отражает латентную переменную. Остаточная же дисперсия, неучтенная латентными факторами, состоит из случайных и специфичных компонентов ошибки.
Параметры измерительной модели описывают измерительные достоинства актуальных переменных, на основании которых, в свою очередь, может быть подсчитана внутренняя согласованность, являющаяся одним из видов надежности измерения [25]. В рамках LISREL надежность актуальных переменных представляется в виде квадратов множественных корреляций этих переменных с латентным конструктором3[3]. В EQS оценка надежности осуществляется путем вычитания квадратов коэффициентов ошибок измерения
117
каждой из актуальных переменных из 1 при подсчете стандартного решения. Эти оценки, в зависимости от дизайна исследования, могут как являться, так и не являться подходящими индексами надежности. Поскольку эти индексы в рамках КФА будут учитывать специфичность теста в качестве дисперсии ошибки, эти индексы могут выступать в роли оценок надежности только в том случае, когда дизайн позволяет суммировать всю специфическую дисперсию в рамках общего факторного пространства. Это может быть сделано, например, с панельными данными (см. ниже).
КФА может быть полезен для разработки валидного и надежного психологического инструментария, например, психометрических тестов. Применимость этого подхода также была показана в рамках клинической работы при разработке инструментов, оценивающих страх и тревожность [17],[33]. Особенно настойчиво исследователи[33]подчеркивают возможность и необходимость использования КФА, позволяющего тестировать гипотезы и валидизировать теории, в контексте клинической психологии, отличающейся наличием большого количества опросников, тестов и методик с привлекательными названиями, но низкой конструктной валидностью (иными словами, измеряющими что-то иное вместо того, что заявлено в названии методики). Р. Моррис и коллеги иллюстрируют свое утверждение примером исследования связей страхов и соматических жалоб у детей школьного возраста и показывают, что практики могут с большим доверием относиться к результатам, полученным при использовании КФА, по сравнению с традиционными факторными процедурами. В дополнение они говорят о преимуществах разработки модели в преддверии непосредственного сбора материала и советуют избегать «случайного» сбора материала, т. е. использования неаргументированного набора методик при отсутствии четкой теоретической модели.
К. Йореског [23]описал примеры моделей КФА, позволяющих оценивать уровень психометрического соответствия тестов на основе классификации (параллельные, тау-эквивалентные и однородные или конергические), разработанной в классической теории тестов[28]. Используя гнездовые модели, исследователь может протестировать серию изменяющихся по степени строгости (начиная с модели с наибольшим числом свободных параметров и кончая моделью с наименьшим числом свободных, т. е. с большим числом фиксированных параметров) гипотез, касающихся психометрических достоинств тестов, путем приравнивания различных параметров моделей друг к другу. Например, модель параллельных тестов требует выполнения допущений о равенстве друг другу как факторных нагрузок, так и дисперсии ошибки, в то время как тау-эквивалентная модель подразумевает равенство только факторных нагрузок. Д. Френсис разработал усложненный вариант описанной выше модели[21]. В его интерпретации модель позволяет тестировать степень эквивалентности различных нейропсихологических тестов в разных популяциях и на разных возрастных этапах. Р. Миллсап и Г. Эверсон[32]представили класс измерительных моделей в рамках КФА, в которых в анализ включаются не только ковариационные матрицы, но и матрицы средних актуальных переменных.
Заканчивая этот параграф, еще раз предостережем читателей от возможной ошибки. В то время как КФА, как было показано выше, позволяет формулировать и тестировать различные предположения, ведущие к оценке надежности измерений, эти самые оценки не будут иметь никакого смысла, если модель, на основании которой это оценивание было произведено, не соответствует характеристикам эмпирических данных. Итак, первое — оценка характеристик эмпирических данных, проверка моментов распределения и убеждение в том, что эмпирические данные пригодны для использования МЛСУ; затем — создание адекватных моделей и их статистическое сравнение; и лишь затем
118
оценивание параметров.
Лонгитюдные модели со множественными индикаторами. В дополнение к теоретическим преимуществам, возникающим при использовании латентных переменных, а не измеряемых с ошибками единичных актуальных переменных, которые, как надеется автор, стали теперь очевидны читателю. МЛСУ также предоставляет некоторые статистические возможности, появляющиеся при работе с множественными индикаторами теоретических конструктов и позволяющими получить информацию относительно стабильности и надежности измерений в разные моменты времени. Напомним, что одномерные (с одной переменной) лонгитюдные модели не позволяют оценить возможное влияние коррелирующих ошибок измерения[37]. Примером лонгитюдных моделей с множественными индикаторами может являться модель развития интеллекта, где измерения осуществляются посредством нескольких актуальных переменных (например, вербального и невербального IQ) в разные моменты времени (например, 6, 8 и 10 лет).
Кроме того, как было упомянуто выше, при сборе кросс-секциональных данных и использовании обычного КФА, разделение специфической дисперсии и дисперсии ошибки становится невозможным. Замечательное обсуждение этого вопроса было сделано в работе Р. Миллсапа и Г. Эверсона [32; 487]. Одним из способов выделения различных компонентов остаточной дисперсии является использование лонгитюдных (панельных) КФА моделей. Панельными данными называют результаты работы с крайне похожими между собой или идентичными инструментами, используемыми в одной и той же выборке испытуемых по крайней мере два (или больше) раза в несовпадающие моменты времени. Внимание привлекалось к тому факту[37], что оценивание надежности совершенно необходимо при осуществлении моделирования панельных данных.
Если тест-специфичная ошибка измерения рассматривается как случайная ошибка, надежность отдельных пунктов теста недооценивается. Однако при использовании МЛСУ становится возможным разложение дисперсии на специфичные и случайные ошибки измерения [35]. Например, тест-специфичная ошибка в измерении любого индикатора латентной переменной в исходных данных может быть смоделирована как коррелирующая с измерением того же индикатора в другой момент времени4[4]. КФА позволяет исследователю эксплицитно моделировать эти тест-специфичные коррелирующие ошибки с целью получения оценки ошибки измерения, свойственной для использованного метода. Таким образом, могут быть оценены как случайная, так и специфичная ошибка измерения.
К. Йореског проанализировал пример разделения тест-специфичной и ситуационно-специфичной дисперсий для модели с шестью переменными, которые измерялись в четыре различных временных момента [23]. Панельные данные, проанализированные в этой работе, были получены из большого исследования процесса взросления, где измерения осуществлялись по результатам тестов способности и успешности в 5, 7, 9 и 11 классах. К. Йореског предложил для каждого временного среза двухфакторное решение с двумя коррелирующими общими факторами — факторами вербальных и количественных способностей. Степень соответствия модели заметно улучшилась, когда к факторам способностей были добавлены тест-специфичные факторы, сквозные для всех временных моментов — по одному фактору для каждого из тестов. Оценивая компоненты дисперсии, автор обнаружил, что факторы способностей объясняют значимо большую долю изменчивости, в то время как тест-специфичные дисперсии были
119
сравнительно малы.
Модель множественных признаков и множественных методов. Лонгитюдные панельные модели, упомянутые в предыдущем разделе, являются частным случаем более общего подхода, позволяющего оценивать дискриминантную, конвергентную и конструктную валидность. Этот подход обычно называют моделированием множественных признаков и множественных методов (МПММ)[15]. Смысл МПММ заключается в том, что несколько различных признаков измеряется посредством нескольких инструментов или методов. Этот подход употребляется для определения истинных отношений среди признаков при наличии как дисперсии метода, так и случайной ошибки. Метод КФА был назван предпочтительным при работе с МПММ данными[17]. В ситуациях, когда дисперсии как признака, так и метода учитываются при планировании эксперимента, КФА может подтвердить существование факторов признаков и методов[23],[24]. Также используя КФА, исследователь может учесть коррелирующие ошибки. В нескольких работах обсуждались различные парадигмы и ограничения КФА МПММ моделей, позволяющих оценивать как конвергентную и дискриминантную валидность, так и искажения, вызываемые различными методами. Г. Марш утверждает, что в ситуации, когда факторы методов не могут быть четко определены, предпочтительнее не моделировать эти факторы как независимые, а рассматривать их как коррелирующие ошибки измерения[29].
Рис. 2 представляет собой схематическое представление гипотетической МПММ модели, тестирующей конвергентную и дискриминантную валидность десяти измерений трех признаков: тревожности, депрессии и гневливости [11]. Три фактора методов также присутствуют в модели: самоотчет, родительская и учительская оценки. Дискриминантная валидность может быть оценена путем анализа величины корреляций между факторами признаков.
Очевидно, что исследователю следует ожидать какую-то степень корреляции между различными психологическими состояниями (неортогональность факторов); слишком большие корреляции, однако, будут свидетельствовать против способности тестов определять разные состояния. Конвергентная валидность может быть оценена при анализе нагрузок каждого из тестов на факторы признаков. Факторы методов объясняют разделенную дисперсию, возникающую за счет схожих методических характеристик разных тестов.
Д. Коул проанализировал несколько примеров использования полного и неполного МПММ дизайнов в клинических исследованиях [17]. Он показал, реанализируя результаты, полученные другими авторами, что его находки в основном подтвердили исходные модели и предоставили большое количество ценных второстепенных заключений. Одним из наиболее интересных и полных примеров, разработанных Коулом, является его переоценка данных из исследования по валидизации детских тестов гневливости и депрессии. Эти два конструкта были измерены при использовании 8 инструментов, причем среди методов были самоотчет, оценивание одноклассниками и учителями и ранжирование учителями. Модель, включающая два коррелирующих фактора признаков и три коррелирующих фактора методов (самоотчет, оценивание и ранжирование), была найдена лучшей среди перебранных моделей. Тот факт, что гневливость и депрессия не показали значимых корреляций, был проинтерпретирован как свидетельство дискриминантной валидности тестов. Конвергентная валидность была продемонстрирована частично, поскольку, несмотря на то, что большинство индивидуальных измерений показали значимые ассоциации с соответствующими факторами признаков, одна из ассоциаций была значительно меньше, чем другие, а другая имела противоположный знак.
Разрабатывая технику использования концепции МПММ, Дж. Дж. Стейн,
120
Рис. 2.Схематическое представление МПММ КФА модели. Актуальные переменные представлены прямоугольниками, латентные переменные — овалами. В модель входят три фактора признаков (тревожность, депрессия и гневливость) и три фактора методов (родительская и учитель екая оценки и самоотчет). Остаточные ошибки на диаграмме не показаны.
М. Ньюкомб и П. Бентлер выделили среди моделируемых латентных измерений частоту, количество использования наркотических и опьяняющих веществ (НОВ), субъективное восприятие степени использования НОВ, интенсивность нарушения различных типов деятельности, вызванных НОВ, и употребление специфических НОВ. Факторы, описывающие употребление специфических НОВ, рассматривались как аналоги методических факторов, а более общие факторы использования НОВ — как факторы черт. Другие примеры использования МПММ КФА приемов включают оценку валидности самоотчета об употреблении алкоголя и других НОВ путем разделения четырех методов сбора данных и выделение факторов поддержки ровесников и семьи, оцениваемых тестами одиночества, социальной поддержки и социальной материальной помощи [34].
Одной из главных проблем при использовании МЛСУ для оценивания надежности и валидности является игнорирование статистических и теоретических допущений, лежащих в основе этого метода. Например, использование техники максимального правдоподобия, используемой обычно в МЛСУ, подразумевает, что анализируемые переменные распределены нормально [11]. Кроме того, в случае работы с панельной лонгитюдной моделью, феномен истощения выборки (отказ испытуемых
121
от дальнейшего участия в исследовании), может повлиять на качество и психометрические характеристики данных, так как возможно появление различного рода искажений и изменение параметров репрезентативности. Проблемы также могут возникнуть с размером и структурой выборки, которые могут оказаться неадекватными для решения задач стандартизации и валидизации. Необходимо также помнить о возможности появления ситуаций, когда используется слишком мало индикаторов латентных переменных, что может привести к неспособности однозначно идентифицировать модель.
Д. Коул [17]рекомендует использование КФА при решении задач валидизации тестов, но подчеркивает, что качество оценок, полученных путем применения КФА, не может быть лучше, чем характеристики эмпирических данных, т. е., если моменты распределения переменных, задействованных в анализе, не соответствуют моментам нормального распределения, оценки валидности и надежности, во-первых, будут невысоки, а во-вторых, неадекватны. Кроме того, понятно, что если модель была специфицирована неправильно, то оценки также могут не соответствовать действительности. В дополнение к вышесказанному, читатель должен быть предостережен против формулирования любого рода заключений на основе post hoc модификаций тестируемой модели. Кросс-валидизация, проведенная при наличии двух разных выборок, представляет собой надежный способ подтверждения того, что в анализе не происходит капитализации шанса, особенно в ситуации, когда в модель включены остаточные дисперсии коррелирующих ошибок.