Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
volkov4.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
10.08 Mб
Скачать

9.2. Оценка погрешностей определения коэффициентов корреляции

Коэффициенты корреляции рассчитываются по выборкам и соответственно имеют статистический характер. Фактически они являются функциями случайных величин .у, хь...,л;#. В связи с этим правомерен вопрос о достоверности расчета коэффициен­тов по приведенным соотношениям. Ниже приводится ряд фор­мул, позволяющих оценить указанную достоверность. Формулы

164

получены методами математической статистики на основе ряда весьма существенных допущений, основным из которых являет­ся предположение о нормальности частных распределений вели­чин у, х{,...,хкв генеральной совокупности. Несмотря на грубость такого допущения в большинстве реальных ситуаций, получае­мые на его основе выводы относительно достоверности выбороч­ных оценок коэффициентов корреляции приемлемы с практи­ческой точки зрения.

Стандартная (среднеквадратическая) ошибка определения вы­борочного значения коэффициента парной корреляции при дос­таточно большой выборке (Л^> 50) может быть оценена по фор­муле

1-/-2 При малых выборках (Л"< 30)

Стандартные ошибки определения коэффициента множе­ственной корреляции г у, х\, ..., хкн корреляционного отношения Л могут быть оценены по формулам

в случае #> 50

ад:

1-^2

в случае #00

| 1-Л2

где Ы— объем выборки; К— число факторов.

Значение стандартной ошибки позволяет оценить достовер­ность расчета коэффициентов корреляции. Грубая оценка может быть получена в соответствии с «правилом трех сигм»: если \)\ » Зо>, то выборочная оценка коэффициента корреляции при­емлема. Для более полных оценок погрешностей необходим учет закона распределения коэффициентов корреляции.

При больших выборках (7У> 50) можно приближенно пола­гать, что выборочный коэффициент парной корреляции г рас­пределен по нормальному закону. При таком предположении до-

165

верительный интервал для оценки коэффициента корреляции г0 в генеральной совокупности определяется из соотношения

г-{рсг0<г + 1роп где р — уровень доверительной вероятности.

Величина 1Р определяется из уравнения:

Ф(0 =р, (9.2)

где Ф(?) — функция Лапласа (интеграл вероятностей):

х2

Ф(')=-7=/'~ТЛ-

л/2я о

Решение уравнения (9.2) находится с помощью таблиц значе­ний функции Лапласа (см. Приложение к данной главе).

Приведенные соотношения могут быть использованы для ориентировочной оценки доверительных интервалов для г0 в слу­чае Л"< 50, а также для грубых оценок доверительных интервалов для сводного коэффициента корреляции и корреляционного от­ношения из генеральной совокупности.

Для некоторых частных случаев могут быть получены более точные соотношения.

При малом объеме выборки (ЛК 30) и достаточно сильной корреляции (|а) > 0,7) закон распределения выборочного коэффи­циента парной корреляции существенно отличается от нормаль­ного. В этом случае может быть использована статистика вида

2=-Ы

2

1+г 1-г

Р. Фишером установлено, что статистика ^подчиняется зако­ну, близкому к нормальному, со следующими параметрами: математическое ожидание:

М(2)=±Ы

'IV

\-г0) 2(ЛГ-1)'

дисперсия:

В{2)=а]~ 1

где г0 — коэффициент корреляции в генеральной совокупности.

166

С учетом сказанного доверительный интервал для коэффици­ента /о определяется из соотношения (при Ж 30, \г\ > 0,7)

г 1 _ г 1

где т11~^у_1 +(р дг_з' г,2-^у_1 ~1р~]у^Т> /• —выборочный коэффициент корре­ляции; /,, —величина, определяемая по уравнению (9.2).

Помимо приведенных выше соотношений для определения доверительного интервала, с вероятностью р содержащего значе­ние коэффициента корреляции из генеральной совокупности, в математической статистике выведены формулы для проверки значимости тех или иных гипотез.

Например, для проверки гипотезы о коэффициенте парной корреляции г0 = 0 (то есть предположения о том, что коэффи­циент корреляции из генеральной совокупности с доверитель­ной вероятностью р не отличается значимо от нуля) в случае большого объема выборки (И> 50) используется критерий вида

где 1р имеет тот же смысл, что и в соотношении (9.2).

При выполнении неравенства сформулированная гипотеза считается верной. В противном случае она отвергается, то есть считается, что коэффициент корреляции значимо отличается от нуля.

При объеме выборки Ы< 30 для проверки той же гипотезы строится статистика

V1-'-2

распределенная по закону Стьюдента с числом степеней свободы ^ = N-2.

Критерий подтверждения гипотезы г0 = 0 имеет вид

где 1р и — Р-процентное (Р— 100/)) значение статистики I, определяемое по соответ­ствующим таблицам для распределения Стьюдента с заданной доверительной веро­ятностью р и числу степеней свободы у (см. Приложение к данной главе).

167

9.3. ОЦЕНКА ЗНАЧИМОСТИ ПРЕДСТАВЛЕНИЯ ПРОИЗВОДСТВЕННОЙ ФУНКЦИИ, ПОЛУЧЕННОГО ПО РЕЗУЛЬТАТАМ ВЫБОРОЧНЫХ НАБЛЮДЕНИЙ

Обобщенно задачу, указанную в заголовке данного подразде­ла, можно понимать как оценку соответствия сглаженной зависи­мости у=/{х\,...,х%), используемой в качестве производственной функции, реальной стохастической зависимости результата про­изводства у от производственных факторов хъ...,хК. Частично этот' вопрос мы уже затронули выше, дав содержательную интер­претацию коэффициентов корреляции и корреляционного отно­шения. Рассмотрим теперь его более подробно.

•Анализ выборочных коэффициентов корреляции позволяет сделать некоторые выводы относительно целесообразности ис­пользования сглаженных регрессионных зависимостей результа­та производства у от производственных факторов хи...,хк. Снача­ла целесообразно совместно оценить корреляционное отноше­ние К и сводный коэффициент корреляции гу,х\,.-,хк' Если К<0,3 и гу;Х\,...,хк <0,3 (см. приведенную выше градацию тесно­ты связи по значению коэффициента корреляции), констатиру­ется либо отсутствие значимой связи у с хь...,х^, либо неполнота исходной информации (малость выборки). В противном случае далее отдельно оценивается коэффициент множественной кор­реляции гу;х\,-,хк' При достаточной его величине (например, гу;х\,...,хк -0)8) можно предположить, что зависимость у от хь...,хк близка к линейной и, следовательно, производственную функцию можно представить в форме линейной регрессии; при

этом, однако, уровень «достаточности» величины гу;Х\,-,хк опРе" деляется чисто произвольно. При промежуточных значениях ко­эффициента корреляции О^г^ Хл,<0,8 признаком линейного характера регрессии может служить близость значений К и

гу\х\,-,хк'

При использовании приведенных рекомендаций следует учесть, что в случае сравнительно большого числа производ­ственных факторов (К> 3) реальный нелинейный характер влия­ния одного из них на у при расчете коэффициента множествен­ной корреляции может быть замаскирован линейным характером влияния других. В этом случае дополнительную информацию мо­жет дать анализ всей матрицы коэффициентов парной корреля­ции.

Последнее замечание подчеркивает вспомогательный харак­тер рассмотренной процедуры определения допустимого класса функций при построении регрессии у на хи...,хк.

Рассмотрим теперь вопрос о степени влияния производствен-

168

пых факторов Хх,...,хк на результат производства у. При этом слу­чайной будем считать только величину у, а величины х\,...,хкнеслучайными независимыми переменными.

В математической статистике указанный вопрос решается на основе анализа дисперсий отклонений сглаженных значений

У3 =/[х(>■••>хк) от среднего наблюдаемого у[Х>реГ), а также от­клонений наблюдаемых величин у-1' от сглаженных значений, то есть от линии регрессии (Д,ст):

Помимо указанных дисперсий вводится их сумма:

В случае линейной регрессии указанная сумма равна выбороч­ной дисперсии величины у:

По смыслу введенных дисперсий чем больше отношение /Ррег/Аэбщ. тем большую роль в изменении наблюдаемых значений у играет зависимость результатов производства от факторов х\,...,хк. В пределе при 1\>ег/А>бщ = 1, Т0 есть при Дзст = О, все на­блюдаемые точки лежат на линии (поверхность) регрессии — от­клонения 33) равны нулю и, значит, линия (поверхность) регрессии полностью описывает зависимость у от х{,...,хк. В про­тивном случае величина

п -°рег

7)—'

называемая коэффициентом детерминации, характеризует, какая доля изменений величины у обусловлена изменением факторов хи...,хк. Соответственно отношение В0С1о6щ = 1 — В характери­зует долю изменений величины у, обусловленных действием не­учтенных факторов. Если, например, 5=0,9, то говорят, что по­рядка 90 % изменений величины у вызвано изменением произ­водственных факторов хь...,хк, а около 10 % — влиянием неуч­тенных факторов.

Из определения суммы дисперсий 2)общ следует, что в случае линейной регрессии коэффициент детерминации равен квадрату

169

корреляционного отношения, то есть В = К2. Более того, можно показать, что в этом случае

В=К22

у;х\,...,хк>

где величина гу;х\,...,хк формально рассчитывается по соотноше­нию для выборочного коэффициента множественной корреля­ции, хотя при принятом выше предположении и...,хкнеслу­чайные независимые переменные) таковым не является.

Сохраняя указанное предположение, рассмотрим вопрос о до­верительных границах, в которых расположены истинные (из ге­неральной совокупности) значения у с учетом разброса наблюда­емых значений у относительно линии регрессии и ошибок опре­деления положения самой линии. Ограничимся случаем линей­ной регрессии для однофакторной зависимости у= а{ + а2х. В этом случае доверительные границы для у при заданном уровне доверительной вероятности р определяются соотношением

у{х)-^5^х)-1р^йу{х)< у(х)+ру(х)-(р^,

где 4, „ — значение случайной величины I, имеющей распределение Стьюдента с V = N — 2 степенями свободы, соответствующее заданному уровню р доверительной вероятности; Оу(х) —дисперсия у при заданном значении х.

Дисперсия Ву является функцией независимой переменной х и определяется соотношением

пу(х)=5у

N , . ^

1 (х-х)

где выборочная оценка дисперсии отклонения случайной не­зависимой величины у от линии регрессии по определению рав­на:

при у-112х-'.

Соотношение для дисперсии получено с учетом погрешностей определения коэффициента регрессии а{ и свободного члена а2 в уравнении регрессии (у = щ + а2х).

170

20 I с!

25 30 35 40 45 50

Рис. 10. Доверительные границы для функции регрессии у (задача 8.1)

Для иллюстрации на рисунке 10 показаны доверительные гра­ницы для у при уровне доверительной вероятности р = 0,9, пост­роенные по данным задачи 8.1.

Остановимся кратко на проблеме достаточности числа наблю­дений N.

С формальной точки зрения при построении регрессионной

зависимости у=/(а1,...,а^;х1,...,х^) с Мпараметрами число на­блюдений УУ должно быть не менее М. В противном случае систе­ма нормальных уравнений (при сведении их к линейным алгеб­раическим) будет вырожденной. Таким образом, минимальное ограничение на N таково: N> М. Однако с учетом требования статистической достоверности получаемых результатов ограни­чения на N существенно жестче. Действительно, несмещенная выборочная оценка для дисперсии отклонений случайной вели­чины у от поверхности регрессии определяется соотношением

Следовательно, при N-* М дисперсия стремится к бесконеч­ности, что говорит о статистической недостоверности регресси­онной зависимости. Для получения достаточно надежных оценок параметров уравнения регрессии желательно выполнение нера­венства N>М+ 50. На практике (в случае малых выборок) стре­мятся хотя бы обеспечить выполнение условия N>М+ 10.

171

Более строго вопрос о достаточном числе наблюдений N дол­жен решаться с учетом содержания конкретной статистической задачи, так как оно зависит от вида выборки и от того, для оцен­ки какой характеристики случайной величины она используется. Приведем формулы для расчета Я, если оценивается среднее значение у наблюдаемой случайной величины у. При этом пред­полагается, что уже проведена серия Яш пробных наблюдений над величиной у, которые позволяют оценить ее среднеквадрати-ческий разброс:

В этом случае требуемое число наблюдений N задается следу­ющими соотношениями: для бесповторной выборки

2+<2рс2у'

для повторной выборки

,2„2

д2

где !р — величина, определяемая из уравнения (9.2) по заданной доверительной ве­роятности р; А — допустимая ошибка определения у с доверительной вероятнос­тью, р; Л^ — число возможных значений величины у в генеральной совокупности.

Последняя из приведенных формул может использоваться, в частности, если случайная величина у может принимать любое значение в заданном интервале (то есть Л^ = °°).

Рассмотрим следующий пример: используя данные, приведен­ные в последнем столбце таблицы 13 в качестве результатов пробных наблюдений (Л^, = 12), оценить число наблюдений, при котором ошибка определения средней урожайности пшени­цы в хозяйстве с доверительной вероятностью р = 0,95 не превы­сит А = 1 ц с 1 га. В данном случае среднеквадратический разброс урожайности в пробных наблюдениях а\,= 3,65 ц с 1 га; величина 1р, соответствующая вероятности р = 0,95, равна 1,96 (см. прило­жение). По формуле для бесповторной выборки имеем

^(■,96)'.(3,65)^

2

172

Таким образом, для достижения заданной точности оценки средней урожайности пшеницы число наблюдений должно быть не менее 50.

9.4. ПРИМЕРЫ КОРРЕЛЯЦИОННОГО АНАЛИЗА

Основываясь на приведенной выше методике, проведем кор­реляционный анализ исходных данных и результатов решения рассмотренных выше задач, а также оценим ряд дисперсионных характеристик. Основные результаты расчетов представлены в таблице 25; их анализ показывает следующее.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]