Churakov_Mat_met_obr_exp_dan_v_ekon
.pdf1 w |
2 |
1 |
|
--Se/ |
-~x(m) |
||
^ ^ |
/=l |
|
_ m |
1 |
'^ |
0 |
1 |
имеет распределение Фишера, или jp-распределение ст,п степе нями свободы. В таком случае пишут z ~ F{m, п). При л > 4 дока зывается:
п 2 2п (mi-n-l) ^^-2 m(n-4){n-2f
Определение 1.5. Случайный векторЛ^= [Xi Х^ ... Xj^ называ ется гауссовским, или нормально распределенным, если совмест ная плотность вероятностей CO^.(JC) его компонентов определяется выражением
^A:W= / =-ехр{-0,5(дс-/Пд^)^А'~^(лс-1У1;с)},
V(27if l i f j
где mjc. R'* и Ад^ € R'*^'^ - параметры распределения.
В этом случае сокращенно пишут X - Щт^, Кх). Функцию cOxW называют л-мерной гауссовской плотностью вероятностей. При п = 1ип='2 мы с нею уже встречались в (1.9) - (1.12). Дока зывается, что гПх = М{Х} — математическое ожидание вектора X, Кх = МЦХ— тхКХ— ntx)^} — его ковариационная матрица.
Определение 1.6. Пусть случайная величина X имеет непре рывную функцию распределения вероятностей F(x) = Р(Х < х), где Р{.) - вероятность соответствующего события; де(0, 1) — не которое число. Тогда квантилью (или квантилем [21]) уровня q, или ^-квантилью распределения F(x) называется такое число Ug,
4ToF(Ug) = P(X<Ug)==g,
Определение 1.7. Пусть в условиях предыдущего определения
d
—•F(x) — симметричная относительно оси ординат плотность ах
вероятностей случайной величины X, Тогда двусторонней д-кван- тилью распределения F(x) называют такое число tg, что
Р{\Х\ <tg) = q.
20
1 — I — Г
-1.5 -1 -0,5 О 0,5 1
X
Рис. 1.2. Функция распределения вероятности Ug = >vioo(i - q)
Определение 1.8. Пусть задано число Q G (0,100). Тогда Q-npo- центной точкой непрерывного распределения F(x) называется та кое число WQ, ЧТО выполняется условие 1 - F(WQ) = Р(Х > WQ) -
=\^~^Q, Очевидно, Uq = У^\щ\-д) (рис. 1.2).
1.5.Предварительный (дорегрессионный) анализ зависимости эндогенной и экзогенных переменных
1.5.1. Общие принципы
Обычно при поиске зависимости между эндогенной и экзоген ными переменными предполагается, что еще на этапе предвари тельного анализа составлен «список» экзогенных переменных, влияющих, по нашему мнению, на эндогенную переменную. Во многих случаях уже из содержательного существа проблемы на личие влияния можно считать непреложной истиной и не под вергать его сомнению. Так, например, покупательные возможно сти семьи наверняка зависят от ее среднедушевого дохода. Одна ко в иных ситуациях такая прозрачность в априорной оценке влияния экзогенной переменной на эндогенную отсутствует и необходимо соответствующее обоснование с привлечением оп ределенных формализованных подходов. Трудно заранее, напри мер, утверждать, что производительность технологической уста новки зависит именно от этой, а не иной характеристики исполь зуемого сырья.
21
С к а л я р н а я э к з о г е н н а я п е р е м е н н а я . Рассмотрим случай скалярных эндогенной ¥и экзогенной Jf переменных. Ес ли Уи X— гауссовские и нормально связанные (в смысле совмест ной гауссовской плотности вероятностей) величины, то, как бы ло показано в п. 1.3, мерой их статистической связи является ко эффициент корреляции Гу^. Для совместно гауссовских величин из равенства Гу^ — О следует их независимость. При негауссовских величинах это не всегда так, и даже при Гу^ = О величины могут оказаться функционально зависимыми. Чтобы подчеркнуть факт равенства нулю коэффициента корреляции, случайные величи ны при Гух = О называют некоррелированными. Такие величины могут оказаться зависимыми, но эту зависимость средствами гру бого для исследования подобных ситуаций инструментария в ви де коэффициента корреляции зарегистрировать не удается. Тем не менее коэффициент корреляции используется как своеобраз ный индикатор связи и при негауссовских величинах. По опреде^ лению коэффициент корреляции
I |
с» |
оо |
icjal |
J |
J {y--my){x-m^)iii{y,x)dy6x. |
Однако практически таким аналитическим способом вычис лить коэффициент корреляции не удается, так как обычно неиз вестны не только совместная плотность вероятностей co(j, х), но и даже числовые характеристики величин ¥и X. На помощь при ходит предположение о том, что можно провести эксперимент, в котором экзогенной переменной Jf придаются значения х^, Х2,..., х^ и регистрируются (измеряются) соответствующие значения >^i, У2^ "-^ Уп эндогенной переменой Y. Набор значений экзогенной переменной может быть следствием какого-либо естественного процесса (пассивный э к с п е р и м е н т ) или сформирован ис кусственно из определенных соображений (активный э к с п е римент) . Независимо от природы экспериментальных данных они позволяют найти приближенное значение Гу^ коэффициента корреляции Гух, которое принято называть эмпирической (выбо рочной) оценкой. Хотя принципиально эту оценку можно найти
22
различными способами, каждый из которых приводит к своему результату, наиболее распространенной оказывается оценка вида
|
fyx= I ^'"^ |
^ |
(1.21) |
|
Ji(y/-p)^i(x,-x)2 |
|
|
|
V/=i |
/=i |
|
^ \ ^ |
_ 1 '^ |
|
|
где у=-1з^/, |
x = - S x , . |
|
|
Ha множестве возможных значений случайной величины Y величина (1.21) является также случайной. Чтобы можно было по ней судить о корреляционной связи величин 7и X, нужны стати стические характеристики самой величины (1.21) или какой-ли бо иной величины, но функционально связанной с Гу^. Пусть та кой величиной (часто говорят — статистикой) является некая величина у = Wyjd- Тогда последующий анализ проводится по до статочно типовым для подобных исследований схемам.
В рассмотрение вводятся две гипотезы:
HQ: корреляционная связь между Yn ^отсутствует (г^ = 0); Hi: величины Ум Хкоррелированы {Гу^ ^ 0).
Любое последующее решение проблемы сопровождается дву мя возможными ошибками:
ошибка первого рода — принять гипотезу Hj, когда в действи тельности справедлива гипотеза HQ;
ошибка второго рода — принять гипотезу HQ, когда в действи тельности справедлива альтернатива Н].
Обозначим через а = P(Hi|Ho) вероятность ошибки первого рода, через Р = P(Ho|Hi) — вероятность ошибки второго рода. Ве личина 1 — а является условной вероятностью правильного ре шения при выполнении гипотезы HQ, аналогично 1 ~ Р есть веро ятность правильного решения при условии, что справедлива ги потеза Hj. Величину а часто нгзыъдiютуровнем значимости крите рия, величину 1 — р — мощностью критеррш.
Решение задачи должно сводиться к обоснованному выбору одной из двух гипотез: Но или Н| на основе значения величины у, полученного по эмпирическим данным Сиь xj), (у2, Х2),..., (Уп^ х^). Величина уе R, где R, как обычно, множество всех вещественных
23
чисел. Тогда геометрически решение можно интерпретировать так: множество возможных значений величины у, т.е. R, следует разбить на два подмножества Го и Tj (Го и Г1 = R) так, чтобы на илучшим в некотором смысле образом из условия уе Го следовало принятие гипотезы Но, а при условии ys Г\ предпочтение отдава лось гипотезе Hi. Чтобы формализовать этот замысел, прежде всего нужно выявить смысл словосочетания «наилучшим обра зом», т.е., по существу, сформулировать критерий оптимальнос ти, закладываемый в процедуру решения задачи. Возможны сле дующие варианты (п. 1.5.2 — 1.5.5).
1.5.2. Критерий идеального наблюдателя
Уже отмечалось, что любое решение задачи сопровождается ошибками первого и второго рода с соответствующими вероят ностями а и р. Если известны априорные вероятности Ро ^ Р\ справедливости гипотез Но и Hi соответственно (иначе можно принять/?о =Pi = 0,5), то величина/?oOt +/^iP будет безусловной вероятностью ошибочного решения. Первое слагаемое здесь яв ляется безусловной вероятностью ошибки первого рода, т.е. веро ятностью выполнения двух событий: справедлива гипотеза Но с априорной вероятностью/7о, но принимается гипотеза Hj с услов ной вероятностью а. Аналогична структура второго слагаемого. Очевидно, решение задачи целесообразно искать так, чтобы бе зусловная вероятность ошибочного решения оказалась наимень шей. Это значит, что подмножества Го и Г1 (или только Г^ так как Го = Л \ ri) следует находить в процессе решения оптимизацион ной задачи
/?oa+/?i|3-^ niin. |
(1.22) |
Условие (1.22) называют критерием идеального наблюдателя
(иногда — критерием Котельникова). Рассмотрим его более вни мательно.
Пусть известны условные плотности вероятностей со(у|Но) и (O(Y |HI) величины у соответственно при выполнении гипотез Но и Hi. Тогда
a=|co(y|Ho)dy, |3=Jco(y|Hi)dy,
24
и условие (1.22) переписывается так:
PQ J CO(Y I Ho)dY + Pi J co(Y I Hi)dY -> min.
ПГо
Поскольку
Jco(Y|Hi)dY=Ja)(Y|Hi)dY+Ja)(Y|Hi)dY = l, R П Го
оптимизационная задача может быть записана в новой редакции:
А - J (РМУ I Н] ) - /?о^(У I Ho))dY ^ min. г,
Чтобы эта целевая функция была минимальна, значение интефала должно быть максимальным. Это достигается, если под множество Г] выбрано так, что во всех принадлежащих ему точ ках подынтегральная функция неотрицательна, т.е.
/;I(O(Y|HI)-POCO(Y|HO)>0. (1.23)
Таким образом, если при найденном по эмпирическим дан ным значении величины Y выполняется неравенство (1.23), то принимается гипотеза Hj. При противоположном неравенстве предпочтение отдается альтернативе HQ. Лаконично это записы вается так:
a)(Y|Hi) |
^' |
. |
(1.24) |
|
(O(Y|HO) < —=>Но
А
Выражение (1.24) совместно с правилом вычисления Y пред ставляет собой алгоритм решения задачи по критерию идеально го наблюдателя.
1.5.3. Критерий Неймана - Пирсона
Второй возможный подход к решению задачи основывается на так называемом критерии Неймана - Пирсона. Его целесообраз но применять в тех случаях, когда последствия от ошибок перво го и второго рода не являются равноценными. В этих случаях ре-
25
шение задачи ищут таким образом, чтобы вероятность одной из ошибок оказалась ограниченной некоторой малой величиной, а вероятность второй при этом приняла наименьшее значение. На пример,
/7i(3 —> min прироа = 5 = const, |
(1.25) |
где 5 — выбранная малая величина.
Эти условия и формируют критерий Неймана — Пирсона. «Рычагом» их реализации по-прежнему является выбор опти мальных подмножеств Го и Г]. Задача (1.25) относится к классу задач на условный экстремум и решается методом неопределен ных множителей Лагранжа. С этой целью составляется функция Лагранжа
L=Pi^-hX(poa-3),
где Л. - неопределенный множитель Лагранжа.
Используя предыдущую схему преобразований, записываем функцию Лагранжа в иной форме:
i: = /7il(o(Y|Hi)dY + M;^oJco(Y|H,)dY-5) =
Го |
Г, |
= /?! - J[/?iCo(Y|Hi)-A/7oCO(Y|Ho)]dY-X5.
Г)
Опять же минимальное значение функции L достигается при максимальном значении интеграла, что, в свою очередь, обеспе чивается выбором подмножества Г} таким образом, чтобы во всех принадлежащих ему точках подынтегральная функция была по ложительной. Отсюда по аналогии с (1.24) вытекает правило
> ^ = > H i
CO(Y|HI)
(O(Y|HO) <-—=»Но
Рх
-1
отличающееся от (1.24) только выбором порога XpQPi~ . Чтобы окончательно найти этот порог, следует вычислить множитель Лафанжа X. Принципиально это делается на основе ограничения Роа = 5 , но данная задача нетривиальная.
26
1.5А. Критерий проверки гипотезы HQ при скалярной экзогенной переменной
Рассмотренные два подхода предполагают, что известны вероят ностные свойства величины у при обеих гипотезах HQ и Н|. Во многих практических задачах такую статистику найти не удается, но можно установить величину у с известными вероятностными свойствами при справедливости одной из гипотез. Тогда задача формулируется и решается так.
Пусть проверяется справедливость гипотезы HQ И известна ус ловная плотность вероятностей (о(у|Но). Задавшись вероятностью а ошибки первого рода (наиболее часто принимают а = 0,05), на
ходят такое подмножество Го с R, что |
|
Р(уе Го|Но) = 1 - а . |
(1.26) |
Если теперь по экспериментальным данным найдено кон кретное численное значение величины у и оказалось, что уе Го, то
сдоверительной вероятностью 1 — а признается справедливость гипотезы НоЕсли же окажется у^ Го, то гипотеза Но отвергается
свероятностью ошибиться а. В задачах эконометрики, в частно сти применительно к обсуждаемой здесь конкретной проблеме установления связи эндогенной и экзогенной переменных, этот подход используется наиболее широко.
Итак, возвратимся непосредственно к нашей задаче (п. 1.5.1). Уже отмечалось, что коэффициент Гу^ на множестве значений эн догенной переменной Гявляется случайной величиной, и дока зывается (например, [1]), что при совместно гауссовских величи
нах ¥иХ,п> 200 и \гу^ < 1 приближенно Гу^. ~ N(ryx, (1 - |
Vy^^ln). |
Однако практически этим свойством воспользоваться не удается |
|
из-за невыполнения условий, при которых оно справедливо. |
|
Известен [1] более полезный для наших целей результат: ве |
|
личина |
|
Y=0^ / . |
(1.27) |
при малых I Гуд: I и выполнении гипотезы Но приблизительно рас пределена по закону Стьюдента с п-1 степенями свободы. Это об стоятельство позволяет величину (1.27) использовать для разра-
27
ботки критерия проверки гипотезы Но в соответствии с принци пом (1.26). Учитывая четность и, как следствие, симметричность /-распределения, множество Го будем искать в виде отрезка Го = l—g, g], причем величину g найдем из условия
g
J a)(Y|Ho)dY=l-a,
-g
где CO(Y|HO) — плотность вероятности величины у при гипотезе Но, т.е. /-распределение с п-2 степенями свободы.
С учетом нормировки плотности вероятности это равенство можно переписать так:
a = J(o(Y|Ho)dY+ f(o(Y|Ho)dY=2fa)(Y|Ho)dY=27(o(Y|Ho)dY.
^ |
-оо |
- оо |
g |
Отсюда следует, что - g = Ua/2, g = wiooa/2 («a/2 = -vviooa/2), где Wot/2 — oc/2 — квантиль распределения Стьюдента с п—2 степенями свободы, wiooa/2 ^^ть lOOa/2-процентная точка того же распреде ления. Это позволяет сформулировать следующий критерий про верки гипотезы Но.
Пусть проведен активный или пассивный эксперимент и на основе полученных данных по формуле (1.21) найдено конкрет ное значение эмпирического коэффициента Гух. Тогда если ока жется, что
у п-2 |
^ ^Jn-2 |
|
^ух I |
_ < V 2 |
или r^^-j=_>iVioOa/2. |
j |
^ < V 2 |
ИЛИ Гу^-т^ |
^|l-r}, |
^1 |
ТО гипотеза Но об отсутствии корреляционной связи между ¥иХ отвергается с вероятностью ошибиться а. Эти оба неравенства можно выразить одним:
\fyx\ I ^^ >>^100а/2- |
(1.28) |
Таким образом, если по экспериментальным данным найдена величина Гух, а по соответствующим таблицам (или машинным
28
образом - см. далее) ~ величина wiooa/2 и окажется справедли вым неравенство (1.28), то гипотеза Но об отсутствии связи меж ду переменными У и X отвергается с вероятностью а ошибиться. При противоположном неравенстве гипотеза HQ считается не противоречащей экспериментальным данным с вероятностью 1 — а правильности этого решения. Заметим, что таблицы, содер жащие характерные точки различных распределений и приведен ные во многих литературных источниках (например, [1], [3], [15], [30] и др.), мы не тиражируем, так как эти данные легко получить средствами большинства современных пакетов прикладных про грамм. Так, при а = 0,05 и л = 15 величина Wiooa/2 распределения Стьюдента с л — 2 степенями свободы легко находится с помо щью, например, такой микропрограммы в Mathcad'e
а: = 0,05 л: = 15
( |
а |
^ |
: 2,161. |
rooti pt(x,n-2)-l |
+ 'z, |
X, 0,10 |
|
V |
2 |
у |
|
Если найдена оценка (1.21), можно найти доверительный ин тервал для истинного значения коэффициента корреляции Гу^. С этой целью используется предложенная Р. Фишером статистика
1, |
1 + ^ух |
(1.29) |
г = - 1 |
п ^ , |
которая уже при небольших п оказывается приближенно гауссовской с параметрами
1 1 + О'^ |
''ух |
2 |
1 |
|
^ 2 1-Гух 2(/2-1)' |
^ |
/7-3' |
|
|
Если задаться доверительной вероятностью 1 |
- а , то можно |
найти соответствующую интервальную оценку величины z, удов летворяющую традиционному условию
^ ^ i ^ ^ < ^ 2 ) = l - o c , |
(1.30) |
где Zi,Z2- фаницы интервала.
Так как гауссовская плотность симметрична относительно математического ожидания, границы zu ^2 будем искать в виде
29