Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Плохотников Эконометрия _2015.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
14.82 Mб
Скачать

Лекция 10 причинное моделирование. Путевой анализ sepath

Дается введение в путевой анализ в пакете STATISTICA, именуемый SEPATH. Указанная процедура позволяет изу­чать причинные связи в сложных многофакторных эконо­мических, социальных процессах и явлениях с помощью структурных уравнений. Рассматриваются примеры постро­ения диаграмм путей и язык путевого анализа. Определя­ются явные и латентные (скрытые), эндогенные и экзогенные переменные.

f

Построение системы структурных уравнений позволяет глубже

изучить причинные связи, лежащие в основе вариации результи­рующих переменных. При этом происходит вьщеление и оценка косвенных (латентных, опосредованных) и прямых (явных, непо­средственных) влияний признаков. По этой причине системы структурных уравнений часто интерпретируются как статистиче­ские описания причинно-следственных связей, как причинные мо­дели. Структурное моделирование представляет собой попытку преодолеть косвенный характер изучения связей: с его помощью удается выделить причинные связи между переменными явным образом.

Установить направленность связей, их причинный характер можно лишь на основе содержательного анализа изучаемого явле­ния, в ходе которого формулируются гипотезы о структуре влия­ний. Систему причинных гипотез удобно изображать в виде графа связей, вершинами которого являются переменные — причины или следствия, ориентированные дуги соответствуют постулируемым причинным отношениям, а неориентированные ребра — отношени-ям координационного изменения, не структурируемым в данной схеме.

Для верификации гипотез необходимо соответствие между гра->ом и системой уравнений, описывающей его. Алгебраическая стема, соответствующая графу без контуров (петель), является ^-курсивной системой, позволяющей рекуррентно определять зна­ния входящих в нее переменных. В такой системе в уравнения

149

для признаков Ytk включаются все переменные, за исключением тех, что расположены выше них по графу связей.

Структурные модели позволяют не только оценивать непосред. ственное влияние переменных, но и прогнозировать поведение системы, определять значения эндогенных переменных. Если же такая задача не ставится и требуется лишь уточнить характер связей переменных, то применяется путевой анализ (р-анализ). Само на­звание подсказывает, что в данном методе активно используется граф связей, изоморфный системе уравнений.

Метод путевого анализа (или путевых коэффициентов) предло­жен в 1920-х годах американским генетиком С. Райтом. В других областях этот метод получил признание в середине 1960-х годов. Так, в биометрии (социометрии) он использовался для построения причинных моделей. Экономистам этот метод все еще мало знаком.

Моделирование структурными уравнениями

Благодаря объединению многомерного статистического анали­за (факторного, кластерного, дискриминантного и некоторых дру­гих методов анализа) с новейшими вычислительными средами была создана новая, но уже получившая признание техника моде­лирования структурными уравнениями SEPATH.

Объектом моделирования структурными уравнениями являют­ся сложные системы, внутренняя структура которых неизвестна. Наблюдая параметры системы с помощью SEPATH, можно иссле­довать ее структуру, установить причинно-следственные взаимо­связи между элементами системы.

Основные задачи, для решения которых используются структур­ные уравнения, следующие:

  1. Причинное моделирование, или анализ путей, при проведении которого предполагается, что между переменными имеются причинные взаимосвязи. Возможна проверка гипотез и под­гонка параметров причинной модели, описываемой линей­ными уравнениями.

  2. Подтверждающий факторный анализ, используемый как раз-витие обычного факторного анализа для проверки опреДе' ленных гипотез о структуре факторных нагрузок и корреля­ций между факторами.

  3. Построение регрессионных моделей — модификация много­мерного линейного регрессионного анализа, в котором к°'

150

эффициенты регрессии зафиксированы: они равны либо друг другу, либо каким-нибудь заданным значениям.

  1. Моделирование ковариационной структуры, которое позволяет проверить гипотезу о том, что матрица ковариаций имеет определенный вид.

  2. Моделирование корреляционной структуры, которое позволяет проверить гипотезу о том, что матрица корреляций имеет определенный вид.

  3. Моделирование структуры средних, которое позволяет иссле­довать структуру средних одновременно с анализом диспер­сий и ковариаций. *

Постановка задачи структурного моделирования в пакете STATIS-TICA выглядит следующим образом1. Пусть имеются переменные, для которых известны статистические моменты, например матри­ца выборочных коэффициентов корреляции или ковариаций. Та­кие переменные называют явными. Реальные связи между наблю­даемыми явными переменными могут быть достаточно сложными, однако предполагается, что имеется некоторое число скрытых, или латентных, переменных, которые с известной степенью точности объясняют структуру этих связей. Таким образом, с помощью ла­тентных переменных строится модель связей между явными и неявными переменными.

В некоторых моделях латентные переменные можно рассмат­ривать как причины, а явные — как следствия, такие модели назы­ваются причинными. Скрытые переменные, в свою очередь, могут быть связаны между собой. Структура связей допускается сколь угодно сложной, однако тип ее постулируется: это связи, описы­ваемые линейными уравнениями. Какие-то параметры линейных моделей известны, какие-то — нет и являются свободными.

Обозначим неизвестные параметры Р,, р2, ..., (Зт, а матрицу выборочных коэффициентов корреляции или ковариаций через R. Пересчитаем эту матрицу формально с помощью модели, тогда получим новую матрицу R' = Д'(р,, Р2,..., ри). Пусть p(R, R) — не-к°торая функция, измеряющая различие двух матриц, тогда задача с°стоит в том, чтобы построить оценки неизвестных параметров, беспечивающих минимум этой функции, т.е. p(R, R') = min. Раз­личные функции р соответствуют различным методам оценивания.

Боровиков В.П., Боровиков И.П. STATISTICA. Статистический анализ и обработка данных в среде Windows. M.: Филинъ, 1998. С. 528.

151

Основная идея моделирования структурными уравнениями состо. ит в том, что можно проверить, связаны ли переменные У и v линейной зависимостью Y= fix, анализируя их дисперсии и кова. риации. Идея основана на простом свойстве среднего и диспеп. сии: если умножить каждое число некоторой статистики на кон-станту а, среднее значение также умножится на а, при этом дис. персия умножится на а2. Эта идея может быть различными способами обобщена на несколько переменных, связанных сис­темой линейных уравнений. При этом правила преобразований становятся более громоздкими, вычисления — более сложными но основной смысл остается прежним — можно проверить, свя­заны ли переменные линейной зависимостью, изучая их диспер­сии и ковариации.

Отметим, что если бы были известны наблюдаемые значения У и X, то найти значение параметра р* можно было бы методом наи­меньших квадратов. Однако в структурном моделировании обе переменные или одна из них могут быть латентными, т.е. с неиз­вестными значениями.

Процесс моделирования состоит из следующих пяти этапов:

  1. Формирование модели включает предварительное описание способов, которыми предположительно связаны между со­бой явные и латентные переменные (вначале это делается графически, на языке диаграммы путей, затем переводится на программный язык).

  2. С помощью определенных правил программа перерабатыва­ет модель, сформулированную на языке путевых диаграмм (PATH), в модель для дисперсий и ковариации переменных. Программа определяет, какие значения дисперсий и ковари­ации переменных получаются в текущей модели на основа­нии входных данных. Модель записывается в файл модели с расширением *.CMD.

  3. Программа проверяет, насколько хорошо полученные дис­персии и ковариации удовлетворяют предложенной модели.

  4. Программа сообщает пользователю полученные результаты статистических испытаний, а также выводит оценки пара­метров и стандартные ошибки для численных коэффициен­тов в линейных уравнениях вместе с большим количеством дополнительной диагностической информации.

  5. На основании этой информации пользователь решает, хор0' шо ли текущая модель согласуется с исходными данными-

152

Путевой анализ в пакете STATISTICA

Для задания структурных связей между переменными в пакете STATISTICA используется командный язык PATH, который по своим возможностям похож на диаграммы путей. Только для прос­ох систем можно описать связи между переменными сразу на ЯзЫке PATH. Сложные системы желательно вначале изобразить "Рафически. Для этого служат диаграммы путей, которые можно Построить либо на бумаге, либо непосредственно на экране, ис­пользуя графические возможности системы STATISTICA или ка-°го-нибудь иного графического редактора.

153

154

зе или остатки в регрессионном), изображаются внутри овалов или окружностей.

Следует помнить, что идеальное соответствие модели и данных невозможно по ряду причин. Структурные модели с линейными зависимостями, как и любые другие математические модели, пред. ставляют собой лишь приближение реальных явлений. Природные же явления, как правило, далеки от линейных зависимостей. Ис­тинность многих статистических предположений, накладываемых на исследуемую модель, остается под вопросом. По этой причине в прикладных исследованиях вместо вопроса «Идеально ли модель согласуется с данными?» должен ставиться вопрос «Согласуется ли модель достаточно хорошо, чтобы быть полезной для практиче­ского использования и разумного объяснения структуры наблюда­емых данных?»

Согласно документации пакета STATISTICA диаграммы путей состоят из переменных, соединенных стрелками и дугами, пред­ставляющими соответственно направленные и ненаправленные связи между переменными. Эти переменные должны быть либо эндогенными, либо экзогенными.

Эндогенная (или внутрисистемная) переменная — это перемен­ная, которая входит в качестве зависимой переменной хотя бы в одно линейное уравнение структурной модели. На эндогенные переменные указывает как минимум одна стрелка. На рис. З в ка­честве эндогенной выступает переменная Cs.

Экзогенная (или внесистемная) переменная — это переменная, которая не входит в качестве зависимой переменной ни в одно уравнение структурной модели. На рис. З в качестве экзогенной выступает переменная Ys. На экзогенную переменную может ука­зывать одна-единственная стрелка ее собственной дисперсии (epsl нарис. З).

Таким образом, любая переменная относится к одной из четы­рех категорий: явной эндогенной (manifest endogenous), явной эк­зогенной (manifest exogenous), латентной эндогенной (latent endo­genous) и латентной экзогенной (latent exogenous).

Правила составления диаграммы путей состоят из девяти пунктов:

  1. Явные переменные всегда изображаются в прямоугольниках или квадратах, а латентные переменные — внутри овала или окружности.

  2. Каждая направленная связь представляется с помошь10 стрелки между двумя соответствующими переменными.

156

  1. Ненаправленные связи не обязательно должны явно отобра­жаться на диаграмме.

  2. Ненаправленные связи, явно отображаемые на диаграмме, обозначаются в виде дуги от переменной к самой себе или к другой переменной.

  3. Эндогенные переменные не могут соединяться с другими переменными с помощью дуг.

  4. Номера свободных параметров выводятся в виде чисел, раз­мещенных на середине дуги или стрелки.

  5. Фиксированное значение для дуги или стрелки всегда при­водится в виде числа с плавающей точкой. Это число обычно располагается на середине дуги или стрелки.

  6. Диаграммы, относящиеся к разным вероятностным про­странствам, отделяются разграничительной линией и слова­ми «Группа 1» (для первого пространства), «Группа 2» и т.д. в каждой области диаграммы.

  7. Для всех экзогенных переменных должны быть явно или неявно указаны с помощью фиксированных значений или свободных параметров их дисперсии и ковариации.

Если ковариации или дисперсии выражены неявно, выпол­няются следующие правила:

  1. для латентных экзогенных переменных дисперсии, не име­ющие явного выражения на диаграмме, предполагаются фиксированными и равными единице, а ковариации, не имеющие явного описания, — равными нулю;

  2. для явных экзогенных переменных дисперсии и ковариации, не имеющие явного представления на диаграмме, полагаются свободными параметрами, каждый из которых имеет свой порядковый номер. Номера свободных параметров не совпадают с номерами параметров, явно употребляемыми на диаграмме.

Существуют простые правила, задающие соответствия между Представлением модели с помощью диаграммы и представлением на языке PATH.

1. Каждая стрелка или дуга записывается на отдельной строке.

  1. Пробелы игнорируются.

  2. Явные переменные представляются полными именами, за­ключенными в квадратные скобки.

  3. Имя [CONSTANT] резервируется для обозначения перемен­ной с дисперсией 0 и средним 1.

157