Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Теор.вероятн. и матем.стат / Практ-ум по Теор.Вер-й и Матем.Статист.,ч.2.doc
Скачиваний:
90
Добавлен:
13.02.2015
Размер:
3.78 Mб
Скачать

6.4.* Выборочные методы частного и множественного

корреляционного анализа.

Необходимо, также, несколько остановиться на задачах, возникающих при необходимости изучения множественной или частной корреляций на основе выборочных данных.

В первой части Практикума, посвящённой разделам теории вероятностей, рассматривались следующие соотношения для расчета коэффициентов частной и множественной корреляции.

Уместно напомнить, что вопрос о частной корреляции возникает тогда, когда требуется оценить наличие и/или степень статистической зависимости между двумя переменными при наличии ещё одного или целой группы других, сопоставимых по значимости для данной задачи с изучаемыми, переменных.

Вопрос же о множественной корреляции возникает при необходимости учёта статистической зависимости каждой из таких переменных от остальных и отсеивании малосущественных факторов.

a. Частная корреляция.

Таким образом, если мы имеем n-мерное невырожденное нормальное распределение и фиксируем n – 2 случайных величины, то получаем частную корреляцию оставшихся двух (скажем, xp и xq):

, (6.62)

где –алгебраическое дополнение парного коэффициента корреляции в корреляционном определителе | C | = det C. В частности, при наличии всего трёх факторов, имеем, например

коэффициент частной корреляции между x1 и x2 при фиксированном x3; ρ12, ρ13 и ρ23 – соответствующие коэффициенты корреляции. При этом принято называть индексы p, q, 1 и 2 и им подобные называть первичными, а оставшиеся – вторичными. Если множество вторичных индексов достаточно велико, то его удобнее обозначать spq , а в коэффициентах, где первичные индексы и так выделены, в виде{s}(sпроизвольное обозначение).

Линейная регрессия в этом случае имеет вид:

M(xj|x1, , xj1, xj + 1, …, xn ) = β0 + β1x1 + … + βnxn, (6.63)

Где под βk, k = 1, …, j – 1, j + 1, …, n понимаются частные коэффициенты регрессии βjk{q}.

Замечание 6.10. Полезно подчеркнуть смысл прилагательного «линейный» в общей модели линейной регрессии: она линейна относительно параметров β, но не обязана быть линейной относительно иксов; она вообще может включать в себя произвольные, а не только полиномиальные функции, например модель регрессии M(x2|x1, x3) = β0 + β1x1 + β2x12 + β3 sinx1∙sinx3 + β4x33 – линейная.

Для многомерного нормального случая имеем:

. (6.64)

Теперь займёмся вопросами оценки рассмотренных величин по заданной выборке объёма n. Подгонка регрессии осуществляется по методу наименьших квадратов, т. е. выбираем так, чтобы минимизировать сумму квадратов уклонений n наблюдений от подгоняемой регрессии:

, (6.65)

где n – объём выборки, pчисло переменных; предполагается n > p. Следует заметить, что аппроксимация по методу наименьших квадратов, даёт те же коэффициенты регрессии, что и в случае точной линейной регрессии.

Если при заданной выборке объёма n мы подгоняем регрессии по методу наименьших квадратов, то все приводимые ранее соотношения для теоретических характеристик выполняются и для выборочных коэффициентов.

Заменяя в (6.64) теоретические коэффициенты регрессии на выборочные коэффициенты b и приравнивая квадратичную форму (6.64) выборочной оценке дисперсии ошибки (см. частьI Практимума) величины xj относительно регрессии, получаем, после дифференцирования этого соотношения по и приравнивания производных нулю, (p – 1) уравнений вида

(6.66)

Как и в случае с теоретическими коэффициентами справедливо равенство и другие, связанные с этим соотношения. В общем случае, если рассматриваемаярегрессия линейна, то, как и в случае регрессий и корреляций нулевого порядка, выборочные коэффициенты b являются несмещёнными оценками соответствующих теоретических коэффициентов β, величины , (выборочные оценки дисперсий ошибок подгоняемой регрессии) – несмещённой оценкой для соответствующих дисперсий; множество вторичных индексовсодержит в этих соотношениях (p1) различных значений.

Замечание 6.11. Из приведённых результатов следует, что вся совокупность частных регрессий, корреляций, а также дисперсий или ковариаций ошибок или остатков, полностью определяется дисперсиями и корреляциями или же дисперсиями и регрессиями нулевого порядка. Интересно дать геометрическую интерпретацию этому результату.

Предположим, имеется n наблюдений над p < n случайными величинами

x11, …, x1p; x21, …, x2p; xn1, …, xnp .

Рассмотрим п-мерное (евклидово) выборочное пространство. Наблюдениям x1k, …, xnk над k-й случайной величиной соответствует в этом пространстве одна точка с соответствующими этим наблюдениям координатами. Следовательно, имеется p точек (по числу величин). Обозначим эти точки Q1, Q2, …, Qp. Предположим, что иксы отличаются от своих средних и пусть точка P является началом координат.

Тогда величину nσl2 можно интерпретировать как квадрат длины вектора PQl Аналогично, ρlm можно представить себе как косинус угла QlPQm, т.к.

,

а это и есть формула угла между векторами PQl и PQm.

Таким образом, все соотношения, связывающие p точек в n-мерном пространстве, могут быть выражены в терминах векторов PQi и углов между ними. То есть, можно сказать, что теория частной корреляции и регрессии формально тождественна с тригонометрией некоторой совокупности точек в n-мерном пространстве.

Касаясь вопроса о выборочных распределениях частных коэффициентов корреляции и регрессии, имеет смысл говорить о нормальном случае для генеральной совокупности. Для больших выборок, с очевидными изменениями, могут быть использованы стандартные ошибки, соответствующие коэффициентам нулевого порядка. Обозначая q множество вторичных индексов, имеем аналогично (6.6)

, (6.67)

а используя (6.63) можно получить

. (6.68)

Для выборки объёма n точное распределение величины такое же как у парного («нулевого») коэффициента ,основанного на nd наблюдениях, где dчисло вторичных индексов множества индексов q, как следствие леммы Фишера о числе степеней свободы. Если d мало по сравнению с n, то распределение частных корреляций, когда n возрастает, по существу такое же как у коэффициентов нулевого порядка.

Для частных коэффициентов регрессии распределение коэффициентов нулевого порядка продолжает иметь место с заменой n на nd, когда повсюду присоединено множество вторичных индексов q. В частности, статистика Стьюдента (6.28) для регрессии x j по xk превращается в

(6.69)

с (nd2) степенями свободы. Если множество q содержит все p2 оставшихся переменных, то число степеней свободы равно np.

b. Множественная корреляция.

Рассмотрим задачу линейной регрессии на случай p величин. Для p совместно нормальных величин xj с нулевыми средними и дисперсиями σj2 математическое ожидание величины xm при условии, что x1, …, xm – 1, xm + 1, …, xp фиксированы, т. е. её регрессия по этим переменным, определяется соотношением (6.63). Дисперсия ошибка xm относительно её регрессии по остальным переменным равна

(6.70)

,

где βmjq – частные коэффициенты регрессии; σmj – коэффициенты ковариации случайной величины xm с остальными p – 1 переменными.

Можно показать, что M(x2mq) = M(xm xmq), то есть

= cov(xm , xmq). (6.71)

Обычно о множественной корреляции говорят тогда, когда рассматривают корреляцию между случайной величиной xm и её условным математическим ожиданием =xmxmq(qqm – множество индексов других переменных, исключая xm).При использовании(6.71), эта корреляция предстаёт в виде

, (6.72)

где и есть коэффициент множественной корреляции между случайной величиной xm и другими p – 1 переменными. При этом следует заметить, что множество вторичных индексов qm , а значит и соответствующее множество переменных, может содержать любое число элементов из p заданных, не совпадающих с xm.

Полезны следующие соотношения:

1 – ,(6.73)

выражающие множественный коэффициент корреляции либо через корреляционный определитель, либо через частные корреляции.

Так как в (6.73) допустима перестановка всех индексов, кроме m, то из этого соотношения следует 1 – ≤ 1– ρ2mjs, гдеρ2mjs–произвольный частный или нулевого порядка коэффициент, содержащий m среди первичных индексов. Таким образом ≥| ρmjs |,т.е. множественный коэффициент корреляции не меньше, чем абсолютная величина любого коэффициента корреляции с таким же первичным индексом. Если = 0, то из этого следует, что и все соответствующие ρmjs = 0. В таком случае величина xm полностью некоррелирована со всеми остальными величинами. С другой стороны, если = 1,то по крайней мереодин из коэффициентов ρmjsдолжен быть равен 1 для того, чтобы правая часть (6.73) обращалась в 0. В этом случае, из определения коэффициента множественной корреляции следует = 0, т.е. все точки в распределении величины xm лежат на линии регрессии и xm является строго линейно функцией от x1, …, xm1, xm +1, …, xp .

Таким образом, коэффициентесть мера линейной зависимости величины xm от x1, …, xm1, xm +1, …, xp .

Выборочный коэффициент множественной корреляции Rm(q) определяется соотношением, аналогичным (6.72) с соответствующей заменой теоретических статистик на их выборочные оценки:

1 – R2m(q) = s2mq /sm2. (6.74)

Все приведённые ранее соотношения остаются в силе с заменой ρ на r, σ на s, β на b.

В связи с необходимостью проверки различных гипотез о характере и свойствах множественной корреляции, возникает вопрос о выборочном распределении R2. Так как значения этого коэффициента не зависят от расположения и масштаба, то его распределение не будет зависеть от параметров расположения и масштаба.

Если рассматривать условное распределение величины R2, то, в условиях нормальности наблюдённых величин, отношение

(6.75)

имеет F-распределение Фишера с (p – 1, np) степенями свободы, где n > p – объём (максимальный объём) выборок.

Соотношение (6.75) представляет собой пример критерия отношения правдоподобия (ОП) для линейной гипотезы. Постулируется, сто среднее значение наблюдений над xm является линейной функцией от p1 других величин с p1 коэффициентами плюс постоянный член, так что всего имеется p параметров. Проверяется гипотеза о том, что все p1 коэффициента равны нулю, т.е. H0: R2 = 0. Если гипотеза H0 неверна, то величина F в (6.75) подчинена нецентральному F-распределение с (p – 1, np) степенями свободы и параметром нецентральности λ = nR2. Рассмотренный критерий является РНМ инвариантным критерием.

Задача получения безусловного распределения R2 весьма сложна, хотя в нормальном случае и разрешима. Для многомерного нормального случая с R2 = 0 получается бета-распределение

(6.76)

В общем случае получается довольно громоздкое выражение, выраженное к тому же через гипергеометрическую функцию. Отметим лишь, что при n → ∞ безусловное распределение nR2 (как и условное) сходится к нецентральному хи-квадрат распределению.

Как показал Уишарт, среднее значение величины R2 в многомерном нормальном случае равно

.

В частности, когда = 0, (6.76) сводится к (6.77)

, (6.78)

что можно получить и из (6.76).

Для дисперсии справедливы соотношения: при = 0

. (6.79)

Тот же результат можно получить из (6.76). При соотношение для дисперсии представимо в виде

. (6.80)

Таким образом, выборочная оценка R2 является состоятельной, но, как это видно из (6.78), смещённой оценкой для .Для больших n M(R2) → R2, а D(R2) → 0. При R ≠ 0 распределение величины R2 асимптотически нормально со средним R2 и дисперсией (6.80). Идиллия нарушается при R = 0. Распределение коэффициента R здесь существенно отличается от нормального, а дисперсия имеет порядок n – 2 .

Распределение коэффициента R ведёт себя в отношении предельной нормальности аналогично распределению R2, хотя его дисперсия всегда имеет порядок 1/n. Это следует из (6.78):

DR ~ (1 – R2)2/n . (6.81)

Это выражение совпадает с асимптотическим выражением для дисперсии обычного коэффициента корреляции при замене R на ρ. Естественно применить к R стабилизирующее дисперсию z-преобразование: z = arcth R. Но это опять же неприменимо вблизи R = 0, т.к. там нарушается (6.81), хотя порядок у дисперсии тот же:

DR = M(R2) – {M(R)}2 ~ (p – 1)/n . (6.82)

Можно ли получить несмещённую оценку коэффициента для R2 в многомерном нормальном случае? Как показали Олкин и Прэтт, формально – да.

Они получили статистику

, (6.83)

которая, являясь несмещённой оценкой от R2, удовлетворяет условию tR2. При R2 = 1 имеем t = 1, но когда R2 мало или равно нулю, то t - отрицательно, хотя имеющая смысл оценка для неотрицательной величины R2 не может быть отрицательной. Таким образом, оценка (6.83) абсурдна.