Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Churakov_Mat_met_obr_exp_dan_v_ekon

.pdf
Скачиваний:
30
Добавлен:
26.03.2016
Размер:
5.46 Mб
Скачать

1 w

2

1

--Se/

-~x(m)

^ ^

/=l

 

_ m

1

'^

0

1

имеет распределение Фишера, или jp-распределение ст,п степе­ нями свободы. В таком случае пишут z ~ F{m, п). При л > 4 дока­ зывается:

п 2 2п (mi-n-l) ^^-2 m(n-4){n-2f

Определение 1.5. Случайный векторЛ^= [Xi Х^ ... Xj^ называ­ ется гауссовским, или нормально распределенным, если совмест­ ная плотность вероятностей CO^.(JC) его компонентов определяется выражением

^A:W= / =-ехр{-0,5(дс-/Пд^)^А'~^(лс-1У1;с)},

V(27if l i f j

где mjc. R'* и Ад^ € R'*^'^ - параметры распределения.

В этом случае сокращенно пишут X - Щт^, Кх). Функцию cOxW называют л-мерной гауссовской плотностью вероятностей. При п = 1ип='2 мы с нею уже встречались в (1.9) - (1.12). Дока­ зывается, что гПх = М{Х} — математическое ожидание вектора X, Кх = МЦХ— тхКХ— ntx)^} — его ковариационная матрица.

Определение 1.6. Пусть случайная величина X имеет непре­ рывную функцию распределения вероятностей F(x) = Р(Х < х), где Р{.) - вероятность соответствующего события; де(0, 1) — не­ которое число. Тогда квантилью (или квантилем [21]) уровня q, или ^-квантилью распределения F(x) называется такое число Ug,

4ToF(Ug) = P(X<Ug)==g,

Определение 1.7. Пусть в условиях предыдущего определения

d

—•F(x) — симметричная относительно оси ординат плотность ах

вероятностей случайной величины X, Тогда двусторонней д-кван- тилью распределения F(x) называют такое число tg, что

Р{\Х\ <tg) = q.

20

1 — I — Г

-1.5 -1 -0,5 О 0,5 1

X

Рис. 1.2. Функция распределения вероятности Ug = >vioo(i - q)

Определение 1.8. Пусть задано число Q G (0,100). Тогда Q-npo- центной точкой непрерывного распределения F(x) называется та­ кое число WQ, ЧТО выполняется условие 1 - F(WQ) = Р(Х > WQ) -

=\^~^Q, Очевидно, Uq = У^\щ\-д) (рис. 1.2).

1.5.Предварительный (дорегрессионный) анализ зависимости эндогенной и экзогенных переменных

1.5.1. Общие принципы

Обычно при поиске зависимости между эндогенной и экзоген­ ными переменными предполагается, что еще на этапе предвари­ тельного анализа составлен «список» экзогенных переменных, влияющих, по нашему мнению, на эндогенную переменную. Во многих случаях уже из содержательного существа проблемы на­ личие влияния можно считать непреложной истиной и не под­ вергать его сомнению. Так, например, покупательные возможно­ сти семьи наверняка зависят от ее среднедушевого дохода. Одна­ ко в иных ситуациях такая прозрачность в априорной оценке влияния экзогенной переменной на эндогенную отсутствует и необходимо соответствующее обоснование с привлечением оп­ ределенных формализованных подходов. Трудно заранее, напри­ мер, утверждать, что производительность технологической уста­ новки зависит именно от этой, а не иной характеристики исполь­ зуемого сырья.

21

С к а л я р н а я э к з о г е н н а я п е р е м е н н а я . Рассмотрим случай скалярных эндогенной ¥и экзогенной Jf переменных. Ес­ ли Уи X— гауссовские и нормально связанные (в смысле совмест­ ной гауссовской плотности вероятностей) величины, то, как бы­ ло показано в п. 1.3, мерой их статистической связи является ко­ эффициент корреляции Гу^. Для совместно гауссовских величин из равенства Гу^ — О следует их независимость. При негауссовских величинах это не всегда так, и даже при Гу^ = О величины могут оказаться функционально зависимыми. Чтобы подчеркнуть факт равенства нулю коэффициента корреляции, случайные величи­ ны при Гух = О называют некоррелированными. Такие величины могут оказаться зависимыми, но эту зависимость средствами гру­ бого для исследования подобных ситуаций инструментария в ви­ де коэффициента корреляции зарегистрировать не удается. Тем не менее коэффициент корреляции используется как своеобраз­ ный индикатор связи и при негауссовских величинах. По опреде^ лению коэффициент корреляции

I

с»

оо

icjal

J

J {y--my){x-m^)iii{y,x)dy6x.

Однако практически таким аналитическим способом вычис­ лить коэффициент корреляции не удается, так как обычно неиз­ вестны не только совместная плотность вероятностей co(j, х), но и даже числовые характеристики величин ¥и X. На помощь при­ ходит предположение о том, что можно провести эксперимент, в котором экзогенной переменной Jf придаются значения х^, Х2,..., х^ и регистрируются (измеряются) соответствующие значения >^i, У2^ "-^ Уп эндогенной переменой Y. Набор значений экзогенной переменной может быть следствием какого-либо естественного процесса (пассивный э к с п е р и м е н т ) или сформирован ис­ кусственно из определенных соображений (активный э к с п е ­ римент) . Независимо от природы экспериментальных данных они позволяют найти приближенное значение Гу^ коэффициента корреляции Гух, которое принято называть эмпирической (выбо­ рочной) оценкой. Хотя принципиально эту оценку можно найти

22

различными способами, каждый из которых приводит к своему результату, наиболее распространенной оказывается оценка вида

 

fyx= I ^'"^

^

(1.21)

 

Ji(y/-p)^i(x,-x)2

 

 

V/=i

/=i

 

^ \ ^

_ 1 '^

 

 

где у=-1з^/,

x = - S x , .

 

 

Ha множестве возможных значений случайной величины Y величина (1.21) является также случайной. Чтобы можно было по ней судить о корреляционной связи величин 7и X, нужны стати­ стические характеристики самой величины (1.21) или какой-ли­ бо иной величины, но функционально связанной с Гу^. Пусть та­ кой величиной (часто говорят — статистикой) является некая величина у = Wyjd- Тогда последующий анализ проводится по до­ статочно типовым для подобных исследований схемам.

В рассмотрение вводятся две гипотезы:

HQ: корреляционная связь между Yn ^отсутствует (г^ = 0); Hi: величины Ум Хкоррелированы {Гу^ ^ 0).

Любое последующее решение проблемы сопровождается дву­ мя возможными ошибками:

ошибка первого рода — принять гипотезу Hj, когда в действи­ тельности справедлива гипотеза HQ;

ошибка второго рода — принять гипотезу HQ, когда в действи­ тельности справедлива альтернатива Н].

Обозначим через а = P(Hi|Ho) вероятность ошибки первого рода, через Р = P(Ho|Hi) — вероятность ошибки второго рода. Ве­ личина 1 — а является условной вероятностью правильного ре­ шения при выполнении гипотезы HQ, аналогично 1 ~ Р есть веро­ ятность правильного решения при условии, что справедлива ги­ потеза Hj. Величину а часто нгзыъдiютуровнем значимости крите­ рия, величину 1 — р — мощностью критеррш.

Решение задачи должно сводиться к обоснованному выбору одной из двух гипотез: Но или Н| на основе значения величины у, полученного по эмпирическим данным Сиь xj), (у2, Х2),..., (Уп^ х^). Величина уе R, где R, как обычно, множество всех вещественных

23

чисел. Тогда геометрически решение можно интерпретировать так: множество возможных значений величины у, т.е. R, следует разбить на два подмножества Го и Tj (Го и Г1 = R) так, чтобы на­ илучшим в некотором смысле образом из условия уе Го следовало принятие гипотезы Но, а при условии ys Г\ предпочтение отдава­ лось гипотезе Hi. Чтобы формализовать этот замысел, прежде всего нужно выявить смысл словосочетания «наилучшим обра­ зом», т.е., по существу, сформулировать критерий оптимальнос­ ти, закладываемый в процедуру решения задачи. Возможны сле­ дующие варианты (п. 1.5.2 — 1.5.5).

1.5.2. Критерий идеального наблюдателя

Уже отмечалось, что любое решение задачи сопровождается ошибками первого и второго рода с соответствующими вероят­ ностями а и р. Если известны априорные вероятности Ро ^ Р\ справедливости гипотез Но и Hi соответственно (иначе можно принять/?о =Pi = 0,5), то величина/?oOt +/^iP будет безусловной вероятностью ошибочного решения. Первое слагаемое здесь яв­ ляется безусловной вероятностью ошибки первого рода, т.е. веро­ ятностью выполнения двух событий: справедлива гипотеза Но с априорной вероятностью/7о, но принимается гипотеза Hj с услов­ ной вероятностью а. Аналогична структура второго слагаемого. Очевидно, решение задачи целесообразно искать так, чтобы бе­ зусловная вероятность ошибочного решения оказалась наимень­ шей. Это значит, что подмножества Го и Г1 (или только Г^ так как Го = Л \ ri) следует находить в процессе решения оптимизацион­ ной задачи

/?oa+/?i|3-^ niin.

(1.22)

Условие (1.22) называют критерием идеального наблюдателя

(иногда — критерием Котельникова). Рассмотрим его более вни­ мательно.

Пусть известны условные плотности вероятностей со(у|Но) и (O(Y |HI) величины у соответственно при выполнении гипотез Но и Hi. Тогда

a=|co(y|Ho)dy, |3=Jco(y|Hi)dy,

24

и условие (1.22) переписывается так:

PQ J CO(Y I Ho)dY + Pi J co(Y I Hi)dY -> min.

ПГо

Поскольку

Jco(Y|Hi)dY=Ja)(Y|Hi)dY+Ja)(Y|Hi)dY = l, R П Го

оптимизационная задача может быть записана в новой редакции:

А - J (РМУ I Н] ) - /?о^(У I Ho))dY ^ min. г,

Чтобы эта целевая функция была минимальна, значение интефала должно быть максимальным. Это достигается, если под­ множество Г] выбрано так, что во всех принадлежащих ему точ­ ках подынтегральная функция неотрицательна, т.е.

/;I(O(Y|HI)-POCO(Y|HO)>0. (1.23)

Таким образом, если при найденном по эмпирическим дан­ ным значении величины Y выполняется неравенство (1.23), то принимается гипотеза Hj. При противоположном неравенстве предпочтение отдается альтернативе HQ. Лаконично это записы­ вается так:

a)(Y|Hi)

^'

.

(1.24)

 

(O(Y|HO) < —=>Но

А

Выражение (1.24) совместно с правилом вычисления Y пред­ ставляет собой алгоритм решения задачи по критерию идеально­ го наблюдателя.

1.5.3. Критерий Неймана - Пирсона

Второй возможный подход к решению задачи основывается на так называемом критерии Неймана - Пирсона. Его целесообраз­ но применять в тех случаях, когда последствия от ошибок перво­ го и второго рода не являются равноценными. В этих случаях ре-

25

шение задачи ищут таким образом, чтобы вероятность одной из ошибок оказалась ограниченной некоторой малой величиной, а вероятность второй при этом приняла наименьшее значение. На­ пример,

/7i(3 —> min прироа = 5 = const,

(1.25)

где 5 — выбранная малая величина.

Эти условия и формируют критерий Неймана — Пирсона. «Рычагом» их реализации по-прежнему является выбор опти­ мальных подмножеств Го и Г]. Задача (1.25) относится к классу задач на условный экстремум и решается методом неопределен­ ных множителей Лагранжа. С этой целью составляется функция Лагранжа

L=Pi^-hX(poa-3),

где Л. - неопределенный множитель Лагранжа.

Используя предыдущую схему преобразований, записываем функцию Лагранжа в иной форме:

i: = /7il(o(Y|Hi)dY + M;^oJco(Y|H,)dY-5) =

Го

Г,

= /?! - J[/?iCo(Y|Hi)-A/7oCO(Y|Ho)]dY-X5.

Г)

Опять же минимальное значение функции L достигается при максимальном значении интеграла, что, в свою очередь, обеспе­ чивается выбором подмножества Г} таким образом, чтобы во всех принадлежащих ему точках подынтегральная функция была по­ ложительной. Отсюда по аналогии с (1.24) вытекает правило

> ^ = > H i

CO(Y|HI)

(O(Y|HO) <-—=»Но

Рх

-1

отличающееся от (1.24) только выбором порога XpQPi~ . Чтобы окончательно найти этот порог, следует вычислить множитель Лафанжа X. Принципиально это делается на основе ограничения Роа = 5 , но данная задача нетривиальная.

26

1.5А. Критерий проверки гипотезы HQ при скалярной экзогенной переменной

Рассмотренные два подхода предполагают, что известны вероят­ ностные свойства величины у при обеих гипотезах HQ и Н|. Во многих практических задачах такую статистику найти не удается, но можно установить величину у с известными вероятностными свойствами при справедливости одной из гипотез. Тогда задача формулируется и решается так.

Пусть проверяется справедливость гипотезы HQ И известна ус­ ловная плотность вероятностей (о(у|Но). Задавшись вероятностью а ошибки первого рода (наиболее часто принимают а = 0,05), на­

ходят такое подмножество Го с R, что

 

Р(уе Го|Но) = 1 - а .

(1.26)

Если теперь по экспериментальным данным найдено кон­ кретное численное значение величины у и оказалось, что уе Го, то

сдоверительной вероятностью 1 — а признается справедливость гипотезы НоЕсли же окажется у^ Го, то гипотеза Но отвергается

свероятностью ошибиться а. В задачах эконометрики, в частно­ сти применительно к обсуждаемой здесь конкретной проблеме установления связи эндогенной и экзогенной переменных, этот подход используется наиболее широко.

Итак, возвратимся непосредственно к нашей задаче (п. 1.5.1). Уже отмечалось, что коэффициент Гу^ на множестве значений эн­ догенной переменной Гявляется случайной величиной, и дока­ зывается (например, [1]), что при совместно гауссовских величи­

нах ¥иХ,п> 200 и \гу^ < 1 приближенно Гу^. ~ N(ryx, (1 -

Vy^^ln).

Однако практически этим свойством воспользоваться не удается

из-за невыполнения условий, при которых оно справедливо.

Известен [1] более полезный для наших целей результат: ве­

личина

 

Y=0^ / .

(1.27)

при малых I Гуд: I и выполнении гипотезы Но приблизительно рас­ пределена по закону Стьюдента с п-1 степенями свободы. Это об­ стоятельство позволяет величину (1.27) использовать для разра-

27

ботки критерия проверки гипотезы Но в соответствии с принци­ пом (1.26). Учитывая четность и, как следствие, симметричность /-распределения, множество Го будем искать в виде отрезка Го = l—g, g], причем величину g найдем из условия

g

J a)(Y|Ho)dY=l-a,

-g

где CO(Y|HO) — плотность вероятности величины у при гипотезе Но, т.е. /-распределение с п-2 степенями свободы.

С учетом нормировки плотности вероятности это равенство можно переписать так:

a = J(o(Y|Ho)dY+ f(o(Y|Ho)dY=2fa)(Y|Ho)dY=27(o(Y|Ho)dY.

^

-оо

- оо

g

Отсюда следует, что - g = Ua/2, g = wiooa/2 («a/2 = -vviooa/2), где Wot/2 — oc/2 — квантиль распределения Стьюдента с п—2 степенями свободы, wiooa/2 ^^ть lOOa/2-процентная точка того же распреде­ ления. Это позволяет сформулировать следующий критерий про­ верки гипотезы Но.

Пусть проведен активный или пассивный эксперимент и на основе полученных данных по формуле (1.21) найдено конкрет­ ное значение эмпирического коэффициента Гух. Тогда если ока­ жется, что

у п-2

^ ^Jn-2

^ух I

_ < V 2

или r^^-j=_>iVioOa/2.

j

^ < V 2

ИЛИ Гу^-т^

^|l-r},

^1

ТО гипотеза Но об отсутствии корреляционной связи между ¥иХ отвергается с вероятностью ошибиться а. Эти оба неравенства можно выразить одним:

\fyx\ I ^^ >>^100а/2-

(1.28)

Таким образом, если по экспериментальным данным найдена величина Гух, а по соответствующим таблицам (или машинным

28

образом - см. далее) ~ величина wiooa/2 и окажется справедли­ вым неравенство (1.28), то гипотеза Но об отсутствии связи меж­ ду переменными У и X отвергается с вероятностью а ошибиться. При противоположном неравенстве гипотеза HQ считается не противоречащей экспериментальным данным с вероятностью 1 — а правильности этого решения. Заметим, что таблицы, содер­ жащие характерные точки различных распределений и приведен­ ные во многих литературных источниках (например, [1], [3], [15], [30] и др.), мы не тиражируем, так как эти данные легко получить средствами большинства современных пакетов прикладных про­ грамм. Так, при а = 0,05 и л = 15 величина Wiooa/2 распределения Стьюдента с л — 2 степенями свободы легко находится с помо­ щью, например, такой микропрограммы в Mathcad'e

а: = 0,05 л: = 15

(

а

^

: 2,161.

rooti pt(x,n-2)-l

+ 'z,

X, 0,10

V

2

у

 

Если найдена оценка (1.21), можно найти доверительный ин­ тервал для истинного значения коэффициента корреляции Гу^. С этой целью используется предложенная Р. Фишером статистика

1,

1 + ^ух

(1.29)

г = - 1

п ^ ,

которая уже при небольших п оказывается приближенно гауссовской с параметрами

1 1 + О'^

''ух

2

1

 

^ 2 1-Гух 2(/2-1)'

^

/7-3'

 

Если задаться доверительной вероятностью 1

- а , то можно

найти соответствующую интервальную оценку величины z, удов­ летворяющую традиционному условию

^ ^ i ^ ^ < ^ 2 ) = l - o c ,

(1.30)

где Zi,Z2- фаницы интервала.

Так как гауссовская плотность симметрична относительно математического ожидания, границы zu ^2 будем искать в виде

29

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]