- •Предисловие
- •Определение эконометрики
- •Лекция 10 причинное моделирование. Путевой анализ sepath
- •Лекция 11 временные ряды
- •Лекция 13 модели бокса - дженкинса
- •Лекция 14 прогнозирование в моделях бокса - дженкинса
- •Российская экономика в глобальном контексте: кризисный сценарий
- •Содержание
- •214000, Г. Смоленск, проспект им. Ю. Гагарина, 2.
Лекция 10 причинное моделирование. Путевой анализ sepath
Дается введение в путевой анализ в пакете STATISTICA, именуемый SEPATH. Указанная процедура позволяет изучать причинные связи в сложных многофакторных экономических, социальных процессах и явлениях с помощью структурных уравнений. Рассматриваются примеры построения диаграмм путей и язык путевого анализа. Определяются явные и латентные (скрытые), эндогенные и экзогенные переменные.
f
Построение системы структурных уравнений позволяет глубже
изучить причинные связи, лежащие в основе вариации результирующих переменных. При этом происходит вьщеление и оценка косвенных (латентных, опосредованных) и прямых (явных, непосредственных) влияний признаков. По этой причине системы структурных уравнений часто интерпретируются как статистические описания причинно-следственных связей, как причинные модели. Структурное моделирование представляет собой попытку преодолеть косвенный характер изучения связей: с его помощью удается выделить причинные связи между переменными явным образом.
Установить направленность связей, их причинный характер можно лишь на основе содержательного анализа изучаемого явления, в ходе которого формулируются гипотезы о структуре влияний. Систему причинных гипотез удобно изображать в виде графа связей, вершинами которого являются переменные — причины или следствия, ориентированные дуги соответствуют постулируемым причинным отношениям, а неориентированные ребра — отношени-ям координационного изменения, не структурируемым в данной схеме.
Для верификации гипотез необходимо соответствие между гра->ом и системой уравнений, описывающей его. Алгебраическая стема, соответствующая графу без контуров (петель), является ^-курсивной системой, позволяющей рекуррентно определять знания входящих в нее переменных. В такой системе в уравнения
149
для признаков Ytk включаются все переменные, за исключением тех, что расположены выше них по графу связей.
Структурные модели позволяют не только оценивать непосред. ственное влияние переменных, но и прогнозировать поведение системы, определять значения эндогенных переменных. Если же такая задача не ставится и требуется лишь уточнить характер связей переменных, то применяется путевой анализ (р-анализ). Само название подсказывает, что в данном методе активно используется граф связей, изоморфный системе уравнений.
Метод путевого анализа (или путевых коэффициентов) предложен в 1920-х годах американским генетиком С. Райтом. В других областях этот метод получил признание в середине 1960-х годов. Так, в биометрии (социометрии) он использовался для построения причинных моделей. Экономистам этот метод все еще мало знаком.
Моделирование структурными уравнениями
Благодаря объединению многомерного статистического анализа (факторного, кластерного, дискриминантного и некоторых других методов анализа) с новейшими вычислительными средами была создана новая, но уже получившая признание техника моделирования структурными уравнениями SEPATH.
Объектом моделирования структурными уравнениями являются сложные системы, внутренняя структура которых неизвестна. Наблюдая параметры системы с помощью SEPATH, можно исследовать ее структуру, установить причинно-следственные взаимосвязи между элементами системы.
Основные задачи, для решения которых используются структурные уравнения, следующие:
Причинное моделирование, или анализ путей, при проведении которого предполагается, что между переменными имеются причинные взаимосвязи. Возможна проверка гипотез и подгонка параметров причинной модели, описываемой линейными уравнениями.
Подтверждающий факторный анализ, используемый как раз-витие обычного факторного анализа для проверки опреДе' ленных гипотез о структуре факторных нагрузок и корреляций между факторами.
Построение регрессионных моделей — модификация многомерного линейного регрессионного анализа, в котором к°'
150
эффициенты регрессии зафиксированы: они равны либо друг другу, либо каким-нибудь заданным значениям.
Моделирование ковариационной структуры, которое позволяет проверить гипотезу о том, что матрица ковариаций имеет определенный вид.
Моделирование корреляционной структуры, которое позволяет проверить гипотезу о том, что матрица корреляций имеет определенный вид.
Моделирование структуры средних, которое позволяет исследовать структуру средних одновременно с анализом дисперсий и ковариаций. *
Постановка задачи структурного моделирования в пакете STATIS-TICA выглядит следующим образом1. Пусть имеются переменные, для которых известны статистические моменты, например матрица выборочных коэффициентов корреляции или ковариаций. Такие переменные называют явными. Реальные связи между наблюдаемыми явными переменными могут быть достаточно сложными, однако предполагается, что имеется некоторое число скрытых, или латентных, переменных, которые с известной степенью точности объясняют структуру этих связей. Таким образом, с помощью латентных переменных строится модель связей между явными и неявными переменными.
В некоторых моделях латентные переменные можно рассматривать как причины, а явные — как следствия, такие модели называются причинными. Скрытые переменные, в свою очередь, могут быть связаны между собой. Структура связей допускается сколь угодно сложной, однако тип ее постулируется: это связи, описываемые линейными уравнениями. Какие-то параметры линейных моделей известны, какие-то — нет и являются свободными.
Обозначим неизвестные параметры Р,, р2, ..., (Зт, а матрицу выборочных коэффициентов корреляции или ковариаций через R. Пересчитаем эту матрицу формально с помощью модели, тогда получим новую матрицу R' = Д'(р,, Р2,..., ри). Пусть p(R, R) — не-к°торая функция, измеряющая различие двух матриц, тогда задача с°стоит в том, чтобы построить оценки неизвестных параметров, беспечивающих минимум этой функции, т.е. p(R, R') = min. Различные функции р соответствуют различным методам оценивания.
Боровиков В.П., Боровиков И.П. STATISTICA. Статистический анализ и обработка данных в среде Windows. M.: Филинъ, 1998. С. 528.
151
Основная идея моделирования структурными уравнениями состо. ит в том, что можно проверить, связаны ли переменные У и v линейной зависимостью Y= fix, анализируя их дисперсии и кова. риации. Идея основана на простом свойстве среднего и диспеп. сии: если умножить каждое число некоторой статистики на кон-станту а, среднее значение также умножится на а, при этом дис. персия умножится на а2. Эта идея может быть различными способами обобщена на несколько переменных, связанных системой линейных уравнений. При этом правила преобразований становятся более громоздкими, вычисления — более сложными но основной смысл остается прежним — можно проверить, связаны ли переменные линейной зависимостью, изучая их дисперсии и ковариации.
Отметим, что если бы были известны наблюдаемые значения У и X, то найти значение параметра р* можно было бы методом наименьших квадратов. Однако в структурном моделировании обе переменные или одна из них могут быть латентными, т.е. с неизвестными значениями.
Процесс моделирования состоит из следующих пяти этапов:
Формирование модели включает предварительное описание способов, которыми предположительно связаны между собой явные и латентные переменные (вначале это делается графически, на языке диаграммы путей, затем переводится на программный язык).
С помощью определенных правил программа перерабатывает модель, сформулированную на языке путевых диаграмм (PATH), в модель для дисперсий и ковариации переменных. Программа определяет, какие значения дисперсий и ковариации переменных получаются в текущей модели на основании входных данных. Модель записывается в файл модели с расширением *.CMD.
Программа проверяет, насколько хорошо полученные дисперсии и ковариации удовлетворяют предложенной модели.
Программа сообщает пользователю полученные результаты статистических испытаний, а также выводит оценки параметров и стандартные ошибки для численных коэффициентов в линейных уравнениях вместе с большим количеством дополнительной диагностической информации.
На основании этой информации пользователь решает, хор0' шо ли текущая модель согласуется с исходными данными-
152
Путевой анализ в пакете STATISTICA
Для задания структурных связей между переменными в пакете STATISTICA используется командный язык PATH, который по своим возможностям похож на диаграммы путей. Только для просох систем можно описать связи между переменными сразу на ЯзЫке PATH. Сложные системы желательно вначале изобразить "Рафически. Для этого служат диаграммы путей, которые можно Построить либо на бумаге, либо непосредственно на экране, используя графические возможности системы STATISTICA или ка-°го-нибудь иного графического редактора.
153
154
Следует помнить, что идеальное соответствие модели и данных невозможно по ряду причин. Структурные модели с линейными зависимостями, как и любые другие математические модели, пред. ставляют собой лишь приближение реальных явлений. Природные же явления, как правило, далеки от линейных зависимостей. Истинность многих статистических предположений, накладываемых на исследуемую модель, остается под вопросом. По этой причине в прикладных исследованиях вместо вопроса «Идеально ли модель согласуется с данными?» должен ставиться вопрос «Согласуется ли модель достаточно хорошо, чтобы быть полезной для практического использования и разумного объяснения структуры наблюдаемых данных?»
Согласно документации пакета STATISTICA диаграммы путей состоят из переменных, соединенных стрелками и дугами, представляющими соответственно направленные и ненаправленные связи между переменными. Эти переменные должны быть либо эндогенными, либо экзогенными.
Эндогенная (или внутрисистемная) переменная — это переменная, которая входит в качестве зависимой переменной хотя бы в одно линейное уравнение структурной модели. На эндогенные переменные указывает как минимум одна стрелка. На рис. З в качестве эндогенной выступает переменная Cs.
Экзогенная (или внесистемная) переменная — это переменная, которая не входит в качестве зависимой переменной ни в одно уравнение структурной модели. На рис. З в качестве экзогенной выступает переменная Ys. На экзогенную переменную может указывать одна-единственная стрелка ее собственной дисперсии (epsl нарис. З).
Таким образом, любая переменная относится к одной из четырех категорий: явной эндогенной (manifest endogenous), явной экзогенной (manifest exogenous), латентной эндогенной (latent endogenous) и латентной экзогенной (latent exogenous).
Правила составления диаграммы путей состоят из девяти пунктов:
Явные переменные всегда изображаются в прямоугольниках или квадратах, а латентные переменные — внутри овала или окружности.
Каждая направленная связь представляется с помошь10 стрелки между двумя соответствующими переменными.
156
Ненаправленные связи не обязательно должны явно отображаться на диаграмме.
Ненаправленные связи, явно отображаемые на диаграмме, обозначаются в виде дуги от переменной к самой себе или к другой переменной.
Эндогенные переменные не могут соединяться с другими переменными с помощью дуг.
Номера свободных параметров выводятся в виде чисел, размещенных на середине дуги или стрелки.
Фиксированное значение для дуги или стрелки всегда приводится в виде числа с плавающей точкой. Это число обычно располагается на середине дуги или стрелки.
Диаграммы, относящиеся к разным вероятностным пространствам, отделяются разграничительной линией и словами «Группа 1» (для первого пространства), «Группа 2» и т.д. в каждой области диаграммы.
Для всех экзогенных переменных должны быть явно или неявно указаны с помощью фиксированных значений или свободных параметров их дисперсии и ковариации.
Если ковариации или дисперсии выражены неявно, выполняются следующие правила:
для латентных экзогенных переменных дисперсии, не имеющие явного выражения на диаграмме, предполагаются фиксированными и равными единице, а ковариации, не имеющие явного описания, — равными нулю;
для явных экзогенных переменных дисперсии и ковариации, не имеющие явного представления на диаграмме, полагаются свободными параметрами, каждый из которых имеет свой порядковый номер. Номера свободных параметров не совпадают с номерами параметров, явно употребляемыми на диаграмме.
Существуют простые правила, задающие соответствия между Представлением модели с помощью диаграммы и представлением на языке PATH.
1. Каждая стрелка или дуга записывается на отдельной строке.
Пробелы игнорируются.
Явные переменные представляются полными именами, заключенными в квадратные скобки.
Имя [CONSTANT] резервируется для обозначения переменной с дисперсией 0 и средним 1.
157
