Churakov_Mat_met_obr_exp_dan_v_ekon
.pdfZ\- т^ — ^, Z2 = w^ + ^, где ^ — подлежащая определению величи на, обеспечивающая условие (1.30).
Запишем равенство (1.30) в развернутом виде:
I J expHz-/w^)^/2a^}d^=l-a,
^|2nGl '«гЧ
или же, заменив переменную (z ~ yn^l^z. "^ ^,
1 |
^ |
о |
I — |
J exp{-5^/2}dy = l - a , b = ^/c^. |
|
J ^ |
|
|
л12п~ь |
|
Это соотношение, если учесть нормировку плотности вероят ностей, легко преобразуется к виду
1 ~ о I ~ь
a = -p=-Jexp{-5'^/2}dy + -T==- J expf-^"^/2}d5 =
1 |
-^ |
0 |
л/2я |
J exp{-5'^/2}dy, |
откуда следует ^ = —G^Ua/i, где Wcc/2 есть a/2 — квантиль стандарт ного гауссовского распределения N{0, 1). Следовательно, с веро ятностью 1 — а имеем
^z + ^z^a/2 <1<т^-' ajUa/2 =>
Z + a^Woc/2 < m^ < г - а^^а/2.
с учетом определения w^ получим
|
г_ |
1 + ^ |
л, |
^ ' |
1{п-Х) |
1-^а |
2(/2-1) |
|
|
0^ |
|
Найдем приближенное решение этого неравенства относи тельно Гух, заменив на границах неравенства величину Гу^ ее оцен
к о й ГууГ,
с<0,51п - ^^<^, |
(1.31) |
30
,^d^Q^5ln\^±^-^. (1.32) ^-fyx л1п-3 2(л-1)
Из левого неравенства (1.31) имеем
Гу^ > (е^' - 1) / (е^' + 1) = (е' - е^') / (/ + e'') = th с,
где th с — гиперболический тангенс с.
Аналогично из правого неравенства Гу^ < th d. Следовательно, с вероятностью 1 — а
lhc<ry^<thd, |
(1.33) |
что и будет доверительным интервалом для истинного коэффи циента корреляции Гух, Таким образом, для построения интерва ла (1.33) следует задаться доверительной вероятностью 1 - а, найти по эмпирическим данным коэффициент Гд^^с, воспользовав шись определением (1.21), по соответствующим таблицам или машинным программам выявить значение и^д, т. е. а/2-кванти- ли стандартного гауссовского распределения N{0, 1), по форму лам (1.32) рассчитать величины с, rfи, наконец, по таблицам для гиперболического тангенса или машинным образом найти гра ницы интервала th с, th d. Заметим, что величина (1.29), содержа щаяся в (1.32), также может быть найдена по таблицам обратного гиперболического тангенса, так как
Z = 0,51п-—г— = arc th Я.^.
^'ух
1.5.5. Критерий проверки гипотезы Щ при векторной экзогенной переменной
В заключение настоящего раздела остановимся еще на одном до статочно важном обстоятельстве. Ранее предполагалось, что эн догенная переменная определяется единственной экзогенной пе ременной и что выявляется степень связи между ними. Во многих задачах экзогенных переменных несколько. Если по эксперимен тальным данным анализируется связь с одной из экзогенных пе ременных (говорят — парная связь), то оставшиеся экзогенные
31
переменные выступают в роли мешающих параметров и сущест венно влияют на результаты анализа. Поэтому эксперимент дол жен быть организован так, чтобы всем значениям исследуемой экзогенной переменой соответствовали одни и те же неизменные (постоянные) значения оставшихся экзогенных (мешающих) пе ременных. При этом не исключено, что результаты анализа будут зависеть от того, какие именно неизменные значения принимают мешающие экзогенные переменные. Все это существенно услож няет анализ парных связей.
Есть условие, при выполнении которого отмеченные пробле мы практически себя не проявляют. Оно заключается в том, что совместно эндогенная переменная Y и экзогенные переменные Х^^\ Х^^\ ..., Х^^^ подчинены (s + 1)-мерному гауссовскому рас пределению. В этом случае частный коэффициент корреляции ро/ между эндогенной переменной Y и j-й экзогенной переменной ^(/) (у = 1 2,..., s), вычисленный в предположении, что остальные зкзогенные переменные приняли некоторые фиксированные значения, не зависит от уровней, принимаемых остальными (ме шающими) экзогенными переменными, и может быть рассчитан по формуле [1]
Роу=- /^ i > |
(1.34) |
i^o^M |
|
где Ry — алгебраическое дополнение /у-го (/,у = О, 1...., 5) элемента корреля
ционной матрицы R случайных величин |
У,Х^\Х |
|
|
|
|
(1) V^r ...,X^'\T.Q. |
|
1 |
^01 |
|
|
R = По 1 |
|
(1.35) |
|
|
|
1 |
|
Здесь Гу — коэффициент корреляции величин |
при |
||
чем принято Х^^^ =У.В частности, при 5 = 2 получим: |
|
||
Р01 = |
|
^20 "^21^10 |
|
Р02 = |
|
||
^(1-П2)(1-4) |
|
^ 12)0-1)1) |
|
Дальнейшая технология практического применения этих со отношений сводится к следующему. Пусть получены экспери-
32
ментальные данные в объеме д^/, хР\ xf^\ ..., х/'^^ /=1,2,..., п. По формулам, подобным (1.21), находятся эмпирические коэффи циенты корреляции Гу величин Х^^\ Х^\ i = О, 1, 2, ..., s - 1, у = /'+ 1, / + 2, ..., 5. Из этих величин с учетом их симметрии со ставляется матрица R аналогичным (1.35) образом и с помощью (1.34) рассчитываются эмпирические частные коэффициенты корреляции, роу, у = 1, 2,..., 5. Для истинного значения каждого из них строится доверительный интервал, подобный (1.33), причем границы интервала находятся подобным (1.32) образом, но с од ной существенной поправкой: величина п заменяется на « - 5 + 1, где число S — 1 представляет собой количество мешающих пара метров.
В связи со случаем многих экзогенных переменных полезно остановиться на особенностях применения линейных регресси онных множеств вида (1.18), при которых модель (1.8) будет вы глядеть так:
Г= 00 + 0iA^<^> + 02^^^^ + ... + 0Д(^> + е. |
(1.36) |
Для выявления факта зависимости эндогенной переменной Y от совокупности экзогенных переменных Х^^\ Х^^\ ..., Х^^"^ ис пользуется множественный коэффициент корреляции Ry^, опреде ляемый равенством [1]
Rl^=l-\R\/Roo, |
(1.37) |
где \R\ - определитель матрицы (1.35), У?оо — как и в (1.34), алгебраи ческое дополнение элемента гоо = 1 этой матрицы.
Пусть матрица (1.35) построена по эмпирическим данным. Тогда доказывается, что выборочный коэффициент Ry^, вычис ленный в соответствии с (1.37), но по эмпирической матрице Л, оказывается таков, что величина
n-S-l RyY
Y = — ; |
=~7~ |
(1-38) |
^l-R
вслучае справедливости гипотезы HQ: Л ^ ^ = О подчинена распреде лению Фишера с (s, п — S — I) степенями свободы, те. F(s, n — s—l)- распределению. Последующий анализ проводится по схеме, по-
33
добной той, которая ранее привела нас к правилу (1.28). А имен но: задаются вероятностью а ошибки первого рода или, что экви валентно, доверительной вероятностью 1 — а справедливости ги потезы Но; по соответствуюш;им справочным или программным материалам находят величину и^юоа» т. е. 100а%-ную точку рас пределения Фишера с числом степеней свободы числителя s и знаменателя п — s — 1. Если окажется у > W\QQ^, ТО гипотеза Но отвергается с вероятностью ошибиться а (уровень значимости критерия). При противоположном неравенстве предпочтение от дается гипотезе Но с вероятностью 1 — а правильности этого ре шения. Полезное свойство модели (1.36) проявляется также в том, что изложенный алгоритм анализа ситуации сохраняет свои свойства и при отклонении совместной плотности вероятностей величин У, Х^^\ Х^^\ ..., Х^^^ от гауссовской [1].
Глава 2
МЕТОДЫ ОЦЕНИВАНИЯ ПАРАМЕТРОВ РЕГРЕССИОННЫХ МОДЕЛЕЙ
2.1. Проблема оценивания и общие характеристики точечных оценок. Неравенство Рао - Крамера
Пусть, как и ранее, Y— единственная эндогенная переменная, за висящая от S экзогенных переменных Х^^\ Х^'^\ ..., Х^^\ Предпо лагается, что сам факт зависимости установлен на основе предва рительного анализа экспериментальных данных в соответствии с вышеизложенными методами или является логическим следст вием содержательного существа изучаемого явления. Пусть да лее, обоснована модель представления эндогенной переменной в форме (1.8). Аппроксимирующая неизвестную регрессию функ ция/(Л", в) определена с точностью до вектора неизвестных пара метров в и принадлежит множествам вида (1-18), (1.19). Для оп ределенности будем руководствоваться более общим случаем (1.19); таким образом, связь эндогенной и экзогенных перемен ных определяется соотношением
Г = f е,л|/дх^^>,л^<2>,...,л^<^>)+£(х^^>,х(2\...,^^^>), (2.1)
/=0 |
|
или,более лаконично, |
|
y=\|f'^(A)e + e(A), |
(2.2) |
где использованы естественные обозначения в = [0о, Эь |
•» ^т]\ |
Х= [Х^'\ Х^^\ ..., X^'^f, v^ = [i|/o, 1|/ь .^., V|/J. |
|
Следствием проведенного эксперимента является совокуп ность величин (1.1), (1.2) (для скалярной эндогенной перемен ной в (1.2) следует положить к = I), которая в терминах модели (2.2) опишется соотношениями
yj = \|г'^(дс,)в + Bj(xj),j =1,2, ..., п, |
(2.3) |
где символ Ej(xj) представляет собой ошибку ву-й точке эксперимен та (upHX=xj).
35
в матрично-векторных обозначениях п выражений (2.3) сво дятся к одному:
j; = Ye + e, |
(2.4) |
где у - Lvi, У2, ..., УпУ — вектор значений эндогенной переменной и
|
\4'' |
ei |
>р = V'^(X2) G R их(от+1) |
!хР , |
е = £2 |
^^ix„) |
.^\ |
.^«J |
|
|
Последующая задача построения регрессионной модели (2.2) сводится к определению вектора параметров в по результатам эксперимента, представленного апостериорной выборкой у. Этот вектор связан с параметрами в соотношением (2.4), в котором матрица Y определена через экспериментально полученные зна чения экзогенных переменных и известна, а вектор е представля ет собой совокупность неизвестных величин, обобщенно тракту емых как ошибки эксперимента.
Если бы ошибок эксперимента не было, то для определения величин во, 01, ..., 0;;j достаточно было бы провести т + 1 изме рений эндогенной переменной при надлежащем выборе такого же количества значений вектора экзогенных переменных и из т + 1 уравнений yj = \|Г^(дсу)в,У = 1, 2,..., m + 1, найти интересую щие нас параметры (проблему разрешимости этих уравнений мы здесь не обсуждаем). Однако каждое реальное наблюдение из (2.3), помимо неизвестных величин ©о, ©ь ..., &пг^ содержит не известную ошибку эксперимента, поэтому сколько бы измере ний ни проводилось, точно определить параметры в невозмож но. Но при достаточно большом числе измерений (п> m-h I) вли яние ошибок можно путем рациональных операций над экспери ментальными данными у уменьшить и найти по наблюдениям (2.4) некоторые величины ©о, ©ь ..., ©^^ в определенном смысле близкие к истинным, но неизвестным значениям параметров ©о, ©1, ..., ©^. Эти величины Идiзыв2iю^ точенными оценками параме тров е.
В связи с поиском оценок возникают два вопроса: как форма лизовать понятие близости вектора оценок в = [©о, ©i,.--, &т\^ и оцениваемых параметров в (в каком смысле понимать близость)
36
и как найти оценки, наилучшие с позиции установленного смыс ла близости. Ответ на первый вопрос приводит к понятию крите рия качества оценивания. Ответ на второй вопрос позволяет опре делить вычислительные операции, которые надо провести над экспериментальными данными у, чтобы получить наилучшие в смысле этого критерия оценки как функции экспериментальных данных в/ = 0/ (уи У2, •••. Уп) = ©/(у). ^ = 0. Ь •••, ^, т.е. получить
алгоритм оптимального оценивания.
В зависимости от объема и характера наших знаний о свойст вах оцениваемых параметров и ошибок эксперимента, предшест вующих самому эксперименту, применяют тот или иной метод оценивания. Информацию, содержащуюся в вероятностных ха рактеристиках параметров и ошибок, которая может быть как из вестной, так и неизвестной до проведения эксперимента, назы вают априорной. Так, может быть известна априорная совместная плотность вероятностей а)е(е) вектора ошибок е. Вектор парамет ров в может классифицироваться как неизвестный или как слу чайный. В первом случае он является неслучайным, но априори мы о нем ничего не знаем и полагаем, что его компоненты могут при нимать любые значения в диапазоне от —со до 4-оо. Во втором слу чае считается, что вектор в принимает значения в соответствии с априорной плотностью вероятностей сое(в). В общем случае эта плотность исследователю может быть и неизвестна, но объективно существует. Неизвестный вектор в часто удобно интерпретировать как случайный с бесконечно большими дисперсиями его компо нент и нулевым средним значением. Плотности сое(е) и сое(в) уста навливают на основании каких-либо аналитических расчетов или специально организованных экспериментов, предшествующих проведению основного эксперимента с исходными данными (2.4).
Независимо от способа вычисления оценки &(у) по результа там у проведенного эксперимента с ней связывают ряд определе ний.
1. Оценку в называют условной, если априорная информация, используемая при ее вычислении, ограничена условной плотнос тью вероятностей L(y\&) экспериментальных данных, найденной в предположении, что вектор параметров в принял некоторое фиксированное значение. Условные оценки обычно применяют при решении задач с неслучайными параметрами.
2. Оценку в называют безусловной, если априорная информа ция, используемая при ее вычислении, сводится к безусловной
37
совместной плотности вероятностей со(у, в) экспериментальных данных и оцениваемых параметров. Безусловные оценки ищутся в задачах со случайными параметрами, априорные свойства кото рых в объеме их совместной плотности вероятностей сое(в) долж ны быть известны.
Заметим, что условная оценка может относиться и к случай ному параметру, если априорная информация о нем неизвестна или не используется из-за существенного усложнения алгоритма оценивания. Для таких ситуаций безусловная оценка может быть найдена путем усреднения условной оценки по всем возможным значениям вектора параметров в .
3. Условную оценку в называют состоятельной, если при нео граниченном объеме выборки (п -> оо) каждый ее компонент схо дится по вероятности к соответствующему компоненту вектора в, т.е. если при V6 > О
Иш Р{|ё/ - 0/1 > 5} = О при « -^ оо, / = о, 1, ..., т.
4. Безусловную оценку в называют состоятельной, если при неограниченном увеличении объема выборки каждый ее компо нент по вероятности сходится к среднему значению соответству ющего компонента вектора в , т.е. если при V5 > О
lim P{\Qi - M{ei}\ > 5} = О при л -> оо, / = О, 1,..., т.
5. Условную оценку в называют несмещенной, если среднее значение этой оценки, полученное ее усреднением по возмож ным значениям вектора у при фиксированном векторе 9, равно самому оцениваемому параметру:
Myiemy)} |
= 1 e(y)L(y I e)d>; = в. |
(2.5) |
|
—со |
|
Здесь Му^^{.,.} — символ условного усреднения. |
|
|
6. Безусловную оценку в |
называют несмещенной, если среднее |
значение этой оценки, полученное ее усреднением по возмож ным значениям вектора >? при всех возможных значениях вектора в, равно среднему значению оцениваемого параметра:
с» |
(2.6) |
Му{ё{у)}= J e(y)(ayiy)dy=-M[e}. |
—оо
38
Здесь Му{...} — символ безусловного усреднения, (Оу(у) - безус ловная плотность вероятностей вектора данных у и интегралы понимаются как многомерные [как и в (2.5)]:
оо |
оо |
оо |
оо |
f dy= |
j |
i ...f |
йу1йу2..Лу^. |
—оо |
—оо —оо —оо |
7. Условную оценку вэ называют эффективной, если среднее значение квадрата отклонения каждого ее компонента от соот ветствующего компонента вектора в не больше среднего квадра та отклонения для любой другой оценки:
^>1в{(ё/э - е/)2} = min0M^|e{(e, - 0,)2}, / = О, 1,..., т.
Здесь усреднение проводится по всем значениям вектора у при фиксированном векторе в, т.е. понимается в смысле (2.5).
8.Аналогичным образом определяется эффективная безуслов ная оценка, однако усреднение проводится по всем возможным значениям векторов >? и в, т.е. понимается в смысле (2.6).
9.Оценку называют достаточной, если для ее вычисления нет необходимости знать каждый компонент>'i, >^2? •••» З^л апостериор ной выборки у, а достаточно иметь одну или несколько функций от выборки, через которые и выражается оценка. Эти функции называют достаточными статистиками.
Внастоящее время теория статистических решений и матема тическая статистика рекомендуют много способов вычисления оценок. Эти способы отличаются объемом используемой априор ной информации, критериями оценивания, сложностью вычис ления оценок, соответствующих различным критериям, и т.д. Однако как бы ни был совершенен метод оценивания, принци пиально при конечном числе п экспериментальных данных не удается добиться полного совпадения оценок в и оцениваемых параметров в . Чтобы судить о степени приближения к оценивае мым параметрам, в рассмотрение вводят понятие ошибки оцени ваниях], определяемой естественным образом: г\(у, в) = в (у) - в . Так как вектор наблюдений у случаен и вектор параметров в так же может быть случайным, то вектор ошибок всегда случаен и по этому не может быть надежной мерой качества оценивания. Для описания точности оценивания используют неслучайные пока затели, построенные на основе случайной ошибки. Для условной
39