- •И математической статистике
- •Часть II основные методы математической статистики
- •Владивосток
- •Раздел I основные методы математической статистики
- •1. Генеральная совокупность и выборка
- •1.1 Выборочный метод. Первичная обработка выборочных (экспериментальных) данных.
- •1.2 Выборочные числовые характеристики.
- •Которая называется выборочным средним.
- •2. Точечное оценивание параметров распределений
- •2.1 Свойства оценок; неравенство Крамера – Рао.
- •2.2 Методы получения оценок.
- •3. Интервальное оценивание параметров
- •3.1. Необходимые понятия и функции распределения
- •1) 2) 3)Независимы.
- •3.2 Интервальное оценивание параметров.
- •3.3 Оценки параметров нормального распределения.
- •3.4 Интервальное оценивание параметров распределений, отличных от нормального
- •4.1. Основные определения и используемые понятия.
- •4.2. Критерии согласия
- •1). Критерий Колмогорова
- •2). Критерий хи-квадрат Пирсона
- •3). Критерий Смирнова – Мизеса (критерий ω2)
- •4.3. Проверка гипотез относительно двух выборок
- •4.4. Непараметрические ранговые критерии.
- •5. Дисперсионный анализ: однофакторная модель.
- •6. Элементы прикладного корреляционного анализа
- •6.1. Введение: основные задачи, понятия и терминология.
- •6.2. Корреляция
- •6.3. Ранговая корреляция и сопряжённость
- •6.4.* Выборочные методы частного и множественного
- •Заключение
- •Разлел II вариаты практических заданий
- •1. Общие положения.
- •2. Алгоритмы – формулы расчёта выборок и предлагаемое их
- •Раздел III
- •1. Табулирование данных
- •2. Построение интервального вариационного ряда
- •3. Эмпирическая функция распределения и графическое преставление распеделения частот
- •4. Расчёт числовых характеристик вариационных рядов
- •Приложения Приложение I
- •Приложение II
- •Приложение III
- •Приложение IV Cтатистические таблицы
- •Примечания:1) функция Лапласа и интеграл ошибоксвязаны соотношением; 2)и.
- •Раздел I. Основные методы математической статистики
- •2.2. Методы получения оценок. . . . . . . . 12
- •3. Интервальное оценивание параметров. . . . 15
- •4.3. Проверка гипотез относительно двух выборок. . . . 25
- •4.4. Непараметрические ранговые критерии. . . . . 27
- •5. Основы дисперсионного анализа: однофакторная
- •6.2. Корреляция. . . . . . . . . . 34
- •6.4. Выборочные методы частного и множественного корреляционного
- •1. Общие положения . . . . . . . . . 67
- •2. Алгоритм – формулы расчёта выборок и предлагаемое их
- •Раздел 3. Комментарии и указания к решение типового
- •Часть II
6.4.* Выборочные методы частного и множественного
корреляционного анализа.
Необходимо, также, несколько остановиться на задачах, возникающих при необходимости изучения множественной или частной корреляций на основе выборочных данных.
В первой части Практикума, посвящённой разделам теории вероятностей, рассматривались следующие соотношения для расчета коэффициентов частной и множественной корреляции.
Уместно напомнить, что вопрос о частной корреляции возникает тогда, когда требуется оценить наличие и/или степень статистической зависимости между двумя переменными при наличии ещё одного или целой группы других, сопоставимых по значимости для данной задачи с изучаемыми, переменных.
Вопрос же о множественной корреляции возникает при необходимости учёта статистической зависимости каждой из таких переменных от остальных и отсеивании малосущественных факторов.
a. Частная корреляция.
Таким образом, если мы имеем n-мерное невырожденное нормальное распределение и фиксируем n – 2 случайных величины, то получаем частную корреляцию оставшихся двух (скажем, xp и xq):
, (6.62)
где –алгебраическое дополнение парного коэффициента корреляции в корреляционном определителе | C | = det C. В частности, при наличии всего трёх факторов, имеем, например
коэффициент частной корреляции между x1 и x2 при фиксированном x3; ρ12, ρ13 и ρ23 – соответствующие коэффициенты корреляции. При этом принято называть индексы p, q, 1 и 2 и им подобные называть первичными, а оставшиеся – вторичными. Если множество вторичных индексов достаточно велико, то его удобнее обозначать spq , а в коэффициентах, где первичные индексы и так выделены, в виде{s}(s – произвольное обозначение).
Линейная регрессия в этом случае имеет вид:
M(xj|x1, …, xj – 1, xj + 1, …, xn ) = β0 + β1x1 + … + βnxn, (6.63)
Где под βk, k = 1, …, j – 1, j + 1, …, n понимаются частные коэффициенты регрессии βjk•{q}.
Замечание 6.10. Полезно подчеркнуть смысл прилагательного «линейный» в общей модели линейной регрессии: она линейна относительно параметров β, но не обязана быть линейной относительно иксов; она вообще может включать в себя произвольные, а не только полиномиальные функции, например модель регрессии M(x2|x1, x3) = β0 + β1x1 + β2x12 + β3 sinx1∙sinx3 + β4x33 – линейная.
Для многомерного нормального случая имеем:
. (6.64)
Теперь займёмся вопросами оценки рассмотренных величин по заданной выборке объёма n. Подгонка регрессии осуществляется по методу наименьших квадратов, т. е. выбираем так, чтобы минимизировать сумму квадратов уклонений n наблюдений от подгоняемой регрессии:
, (6.65)
где n – объём выборки, p – число переменных; предполагается n > p. Следует заметить, что аппроксимация по методу наименьших квадратов, даёт те же коэффициенты регрессии, что и в случае точной линейной регрессии.
Если при заданной выборке объёма n мы подгоняем регрессии по методу наименьших квадратов, то все приводимые ранее соотношения для теоретических характеристик выполняются и для выборочных коэффициентов.
Заменяя в (6.64) теоретические коэффициенты регрессии на выборочные коэффициенты b и приравнивая квадратичную форму (6.64) выборочной оценке дисперсии ошибки (см. частьI Практимума) величины xj относительно регрессии, получаем, после дифференцирования этого соотношения по и приравнивания производных нулю, (p – 1) уравнений вида
(6.66)
Как и в случае с теоретическими коэффициентами справедливо равенство и другие, связанные с этим соотношения. В общем случае, если рассматриваемаярегрессия линейна, то, как и в случае регрессий и корреляций нулевого порядка, выборочные коэффициенты b являются несмещёнными оценками соответствующих теоретических коэффициентов β, величины , (выборочные оценки дисперсий ошибок подгоняемой регрессии) – несмещённой оценкой для соответствующих дисперсий; множество вторичных индексовсодержит в этих соотношениях (p – 1) различных значений.
Замечание 6.11. Из приведённых результатов следует, что вся совокупность частных регрессий, корреляций, а также дисперсий или ковариаций ошибок или остатков, полностью определяется дисперсиями и корреляциями или же дисперсиями и регрессиями нулевого порядка. Интересно дать геометрическую интерпретацию этому результату.
Предположим, имеется n наблюдений над p < n случайными величинами
x11, …, x1p; x21, …, x2p; xn1, …, xnp .
Рассмотрим п-мерное (евклидово) выборочное пространство. Наблюдениям x1k, …, xnk над k-й случайной величиной соответствует в этом пространстве одна точка с соответствующими этим наблюдениям координатами. Следовательно, имеется p точек (по числу величин). Обозначим эти точки Q1, Q2, …, Qp. Предположим, что иксы отличаются от своих средних и пусть точка P является началом координат.
Тогда величину nσl2 можно интерпретировать как квадрат длины вектора PQl Аналогично, ρlm можно представить себе как косинус угла QlPQm, т.к.
,
а это и есть формула угла между векторами PQl и PQm.
Таким образом, все соотношения, связывающие p точек в n-мерном пространстве, могут быть выражены в терминах векторов PQi и углов между ними. То есть, можно сказать, что теория частной корреляции и регрессии формально тождественна с тригонометрией некоторой совокупности точек в n-мерном пространстве.
Касаясь вопроса о выборочных распределениях частных коэффициентов корреляции и регрессии, имеет смысл говорить о нормальном случае для генеральной совокупности. Для больших выборок, с очевидными изменениями, могут быть использованы стандартные ошибки, соответствующие коэффициентам нулевого порядка. Обозначая q множество вторичных индексов, имеем аналогично (6.6)
, (6.67)
а используя (6.63) можно получить
. (6.68)
Для выборки объёма n точное распределение величины такое же как у парного («нулевого») коэффициента ,основанного на n – d наблюдениях, где d – число вторичных индексов множества индексов q, как следствие леммы Фишера о числе степеней свободы. Если d мало по сравнению с n, то распределение частных корреляций, когда n возрастает, по существу такое же как у коэффициентов нулевого порядка.
Для частных коэффициентов регрессии распределение коэффициентов нулевого порядка продолжает иметь место с заменой n на n – d, когда повсюду присоединено множество вторичных индексов q. В частности, статистика Стьюдента (6.28) для регрессии x j по xk превращается в
(6.69)
с (n – d – 2) степенями свободы. Если множество q содержит все p – 2 оставшихся переменных, то число степеней свободы равно n – p.
b. Множественная корреляция.
Рассмотрим задачу линейной регрессии на случай p величин. Для p совместно нормальных величин xj с нулевыми средними и дисперсиями σj2 математическое ожидание величины xm при условии, что x1, …, xm – 1, xm + 1, …, xp фиксированы, т. е. её регрессия по этим переменным, определяется соотношением (6.63). Дисперсия ошибка xm относительно её регрессии по остальным переменным равна
(6.70)
,
где βmj•q – частные коэффициенты регрессии; σmj – коэффициенты ковариации случайной величины xm с остальными p – 1 переменными.
Можно показать, что M(x2m•q) = M(xm ∙xm•q), то есть
= cov(xm , xm•q). (6.71)
Обычно о множественной корреляции говорят тогда, когда рассматривают корреляцию между случайной величиной xm и её условным математическим ожиданием =xm – xm•q(q ≡ qm – множество индексов других переменных, исключая xm).При использовании(6.71), эта корреляция предстаёт в виде
, (6.72)
где и есть коэффициент множественной корреляции между случайной величиной xm и другими p – 1 переменными. При этом следует заметить, что множество вторичных индексов qm , а значит и соответствующее множество переменных, может содержать любое число элементов из p заданных, не совпадающих с xm.
Полезны следующие соотношения:
1 – ,(6.73)
выражающие множественный коэффициент корреляции либо через корреляционный определитель, либо через частные корреляции.
Так как в (6.73) допустима перестановка всех индексов, кроме m, то из этого соотношения следует 1 – ≤ 1– ρ2mj•s, гдеρ2mj•s–произвольный частный или нулевого порядка коэффициент, содержащий m среди первичных индексов. Таким образом ≥| ρmj•s |,т.е. множественный коэффициент корреляции не меньше, чем абсолютная величина любого коэффициента корреляции с таким же первичным индексом. Если = 0, то из этого следует, что и все соответствующие ρmj•s = 0. В таком случае величина xm полностью некоррелирована со всеми остальными величинами. С другой стороны, если = 1,то по крайней мереодин из коэффициентов ρmj•sдолжен быть равен 1 для того, чтобы правая часть (6.73) обращалась в 0. В этом случае, из определения коэффициента множественной корреляции следует = 0, т.е. все точки в распределении величины xm лежат на линии регрессии и xm является строго линейно функцией от x1, …, xm – 1, xm +1, …, xp .
Таким образом, коэффициентесть мера линейной зависимости величины xm от x1, …, xm – 1, xm +1, …, xp .
Выборочный коэффициент множественной корреляции Rm(q) определяется соотношением, аналогичным (6.72) с соответствующей заменой теоретических статистик на их выборочные оценки:
1 – R2m(q) = s2m•q /sm2. (6.74)
Все приведённые ранее соотношения остаются в силе с заменой ρ на r, σ на s, β на b.
В связи с необходимостью проверки различных гипотез о характере и свойствах множественной корреляции, возникает вопрос о выборочном распределении R2. Так как значения этого коэффициента не зависят от расположения и масштаба, то его распределение не будет зависеть от параметров расположения и масштаба.
Если рассматривать условное распределение величины R2, то, в условиях нормальности наблюдённых величин, отношение
(6.75)
имеет F-распределение Фишера с (p – 1, n – p) степенями свободы, где n > p – объём (максимальный объём) выборок.
Соотношение (6.75) представляет собой пример критерия отношения правдоподобия (ОП) для линейной гипотезы. Постулируется, сто среднее значение наблюдений над xm является линейной функцией от p – 1 других величин с p – 1 коэффициентами плюс постоянный член, так что всего имеется p параметров. Проверяется гипотеза о том, что все p – 1 коэффициента равны нулю, т.е. H0: R2 = 0. Если гипотеза H0 неверна, то величина F в (6.75) подчинена нецентральному F-распределение с (p – 1, n – p) степенями свободы и параметром нецентральности λ = nR2. Рассмотренный критерий является РНМ инвариантным критерием.
Задача получения безусловного распределения R2 весьма сложна, хотя в нормальном случае и разрешима. Для многомерного нормального случая с R2 = 0 получается бета-распределение
(6.76)
В общем случае получается довольно громоздкое выражение, выраженное к тому же через гипергеометрическую функцию. Отметим лишь, что при n → ∞ безусловное распределение nR2 (как и условное) сходится к нецентральному хи-квадрат распределению.
Как показал Уишарт, среднее значение величины R2 в многомерном нормальном случае равно
.
В частности, когда = 0, (6.76) сводится к (6.77)
, (6.78)
что можно получить и из (6.76).
Для дисперсии справедливы соотношения: при = 0
. (6.79)
Тот же результат можно получить из (6.76). При соотношение для дисперсии представимо в виде
. (6.80)
Таким образом, выборочная оценка R2 является состоятельной, но, как это видно из (6.78), смещённой оценкой для .Для больших n M(R2) → R2, а D(R2) → 0. При R ≠ 0 распределение величины R2 асимптотически нормально со средним R2 и дисперсией (6.80). Идиллия нарушается при R = 0. Распределение коэффициента R здесь существенно отличается от нормального, а дисперсия имеет порядок n – 2 .
Распределение коэффициента R ведёт себя в отношении предельной нормальности аналогично распределению R2, хотя его дисперсия всегда имеет порядок 1/n. Это следует из (6.78):
DR ~ (1 – R2)2/n . (6.81)
Это выражение совпадает с асимптотическим выражением для дисперсии обычного коэффициента корреляции при замене R на ρ. Естественно применить к R стабилизирующее дисперсию z-преобразование: z = arcth R. Но это опять же неприменимо вблизи R = 0, т.к. там нарушается (6.81), хотя порядок у дисперсии тот же:
DR = M(R2) – {M(R)}2 ~ (p – 1)/n . (6.82)
Можно ли получить несмещённую оценку коэффициента для R2 в многомерном нормальном случае? Как показали Олкин и Прэтт, формально – да.
Они получили статистику
, (6.83)
которая, являясь несмещённой оценкой от R2, удовлетворяет условию t ≤ R2. При R2 = 1 имеем t = 1, но когда R2 мало или равно нулю, то t - отрицательно, хотя имеющая смысл оценка для неотрицательной величины R2 не может быть отрицательной. Таким образом, оценка (6.83) абсурдна.