Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Шепелев, И. Г. Математические методы планирования и управления в строительстве конспект лекций

.pdf
Скачиваний:
12
Добавлен:
19.10.2023
Размер:
5.9 Mб
Скачать

так как р =

0, можно записать г — ■—■ - - -< 0. Отсюда, если

t„

/N —Г

то нулевая гипотеза подтверждается и с вероятно-

г - < —.........,

/N - 1

 

стью а можно утверждать, что между двумя величинами может

ta

.

не быть связи в генеральной совокупности. Если г > —

y"N —1

 

то с этой же вероятностью можно утверждать, что такая связь

есть.

,,

Для примера проверим нулевую гипотезу для коэффициента

корреляции между выработкой и коэффициентом текучести (см. § 2.4) при аппроксимации связи прямой линией. Коэффициент корреляции г = 0,197, значение аргумента t функции Ф (t) при­ ложения II при 95-процентном доверительном интервале равно

1,96 при N = 17.

t

_

1,96

_ 1,96 = 0,49 > 0,197.

] / N -

1

1/17 -1

4,0

Так как 0,49 больше коэффициента корреляции г = 0,197, с на­ дежностью 95% надо считать, что нулевая гипотеза подтверди­ лась и коэффициент корреляции р в генеральной совокупности может быть равен нулю.

§ 3.3. Оценка коэффициента регрессии

При аппроксимации корреляционной зависимости получен­ ная линия регрессии отвечает только частичной выборке, т.' е. тем данным, которые были использованы при статистической обработке. Для распространения этой зависимости на генераль­ ную совокупность необходимо оценить значение коэффициента регрессии, ибо может оказаться, что при условии неравенства коэффициента регрессии нулю at ф 0 истинный коэффициент регрессии, отражающий генеральную совокупность, й\ = 0. В этом случае прогнозировать по полученной кривой нельзя. Зна­ чимость отдельных коэффициентов определяют при помощи t-критерия Стьюдента.

Для оценки значимости коэффициентов регрессии t-критерий Стьюдента определяется по формулам:

t„ =

( З А 1,

/

2 (у _ Уу

30

и

tla,

ai.---

( 3 .3 .2 )

 

s l 7^

 

где а,\— коэффициент регрессии при i-ом независимом перемен­

ном, Р — число коэффициентов регрессии,

S — остаточная дисперсия,

Си — диагональный элемент обратной матрицы нормальных уравнений (см. § 4.4). Формула (3.3.1) применяется при одном переменном, формула (3.3.2) применяется при множественной

корреляции

и матричном решении ортогональных

уравнений.

ta сравнивается с йгабл,

которое определяется по таблицам рас­

пределения

Стьюдента

(см. приложение III). Если

tTa6jI <-te

то нулевая гипотеза не отвергается, т. е. можно предполагать, что коэффициент регрессии может быть незначимым, если ta >

> t ia6jl, то нулевая гипотеза отвергается, а это значит, что коэф­ фициент регрессии значим, т. е. имеет значение и в генеральной совокупности.

Оценка по t-критерию Стьюдента основана на предположе­ нии, что t-критерий распределен согласно t-распределения Стью­ дента. Величина t зависит от числа степеней свободы f = N — Р и доверительной вероятности. Для этой вероятности можно по­ строить доверительный интервал

Р (а, — tTS6[ < а, < а, + tTSa[) = 1 — q,

(3.3.3

здесь q — вероятность непопадания щ в интервал (3.3.3). Взяв нижний предел доверительного интервала и приняв гипотезу

a"i = 0, получаем <2, — tTSa < 0 ,

отсюда- ^ - < t Tпри условии под-

1

s °i

тверждения гипотезы cti = 0, так как = -^-, в этом случае t^-ta!

Оценка коэффициентов регрессии при помощи t-критерия Стьюдента применяется только для линейных связей. Но так как при помощи метода наименьших квадратов путем спрямления или замены нелинейного значения независимого переменного определяются только линейные коэффициенты регрессии прак­ тически для любого вида функций, то t-критерий может приме­ няться также для любого вида функций в линеализированном

виде. Например, в параболе вида у = а + Ьх + сх2 для оценки коэффициента регрессии необходимо заменить х2 — и, где и —

31

некоторая искусственная

переменная в первой степени,

тогда

__________ ___

t =

(3.3.4)

 

У ъ ( у - у )2

Степенная зависимость линеализируется и определяется t для параметров Iga и Ь из уравнения:

■lgy = lga + b\gx.

Логарифмы здесь заменяются некоторыми условными перемен­ ными

Ig у = у и lg х — x v

Аналогично в уравнениях периодического типа тригонометриче­ ские функции заменяются условными переменными х*

c o sk x — x*; sin k x — х*.

§ 3.4. Оценка значимости уравнения регрессии

Значимость уравнения регрессии определяется его предска­ зательной силой, т. е. возможностью надежно прогнозировать

средние значения зависимой переменной у по заданным значе­ ниям независимых переменных х1.

Уравнение г/ = f (х1), согласно которому должно проводиться прогнозирование, получено на основании статистической обработ­ ки частичной совокупности. Это уравнение может существенно отличаться от гипотетического уравнения, соответствующего ге­ неральной совокупности. Для оценки надежности уравнения регрессии применяют F-критерий Фишера, который определя­ ется:

 

F -

 

(3.4.1)

где

— дисперсия фактических значений зависимого перемен­

 

ного

 

 

 

ся

2 ( у - у ) »

(3.4.2)

 

г: : I

S^CT— остаточная дисперсия уравнения.

Остаточная дисперсия характеризует степень рассеяния факти­ ческих значений у относительно расчетных значений у.

32

c 2 = S ( y - J f

( 3 .4 .3 )

ост

N — и — 1

'

Знаменатели выражений (3.4.2) и (3.4.3) называются числом степеней свободы Д = N — п — 1 и f2 = N — 1, здесь п — число коэффициентов регрессии. Полагают, что F, соответствующий ге­ неральной совокупности, зависит только от числа степеней сво­ боды fj и f2 и имеет распределение Сиедекора |[6 ], его плотность вероятности

Г [(fi + fa)/2] Г (f1/fa)t,/2 F(f,/2bl [1 - ( Ь т ) Г <f,+w

/0 „ Л.

P(f,/{2) =

------------------------------------------------------------ ,

(3.4.4)

l ,/ s,

Г (П/2) Г (fo/2)

v

где Г(Ж) — гамма-функция.

Интеграл этого распределения приведен в приложении IV. По этой таблице, зная значение числа степеней свободы fi и f2, с заданной доверительной вероятностью 5% или 1%, можно оп­ ределить FTa6 n- Если F ^ FTa6 n, то уравнение считается значи­ мым, т. е. предсказательная сила уравнения регрессии больше,

чем предсказательная сила среднего значения у. Если F < FTa6 n, то гипотеза о значимости уравнения не подтверждается, но это не значит, что подтверждается гипотеза о незначимости урав­ нения.

Пользуясь критерием Фишера, проверим на значимость урав­ нение регрессии

 

у = 0,615 +

0,0035,

 

 

где у — себестоимость

строительства,

в млн.

руб. затрат

на

1 млн. руб. сметной стоимости строительно-монтажных

работ;

 

млн. руб. сметной стоимости.

х — численность рабочих на 1

Дисперсия зависимой

переменной

=

0,0128;

остаточная

дис­

персия уравнения

= 0,0904. Критерий Фишера составит:

 

0,0128

0,142.

 

 

 

0,0904

 

 

 

 

 

 

 

Число наблюдений, согласно которому установлено уравнение, N = 43, число степеней свободы Е = 43—2—1 = 40, f2 = 43— 1=42. Табличное значение критерия Фишера при этом FTa6 n =

— 1,67, что больше, чем расчетное значение F = 0,142. Это зна­ чит, что нулевая гипотеза не отвергнута и уравнение регрессии ненадежно.

Но это не означает, что не нулевая гипотеза отвергнута, т. е. уравнение может быть значимым или незначимым.

2 И. Ш епелев

33

§3. 5. Доверительные интервалы „н уравнению регрессии

Уравнение регрессии из-за вероятностного характера имеет некоторую случайную компоненту I, на величину которой рас­ четные значения зависимой переменной могут отличаться от ее истинных значений.

Укп = У ±1 -

(3.5.1)

Величина I отражает влияние неучтенных факторов и несоот­ ветствие частичной совокупности, по которой определялось

уравнение у = f (х) генеральной совокупности. Для надежного

Рис. 7. Гистограмма и закон распределения остаточной величины модели

прогнозирования необходимо определить максимально возмож­

ное шах ( у ± 1 ) и минимально возможное min ± /) — значе­ ния зависимой случайной величины с заданной вероятностью. Эти значения являются границами доверительного интервала к уравнению (3.5.1).

Если сделать допущение, что частичная выборка, на основа­ нии которой получено уравнение у — f (xi) репрезентативна,

а величина / — у) распределена нормально, (последнее допушениие на практике оправдывается чаще всего), то истинное

34

значение зависимой случайной величины лежит в пределах

У t Уист ^ у “I- t $1, (3.5.2)

здесь a, = K s 2cT-

Остаточная дисперсия S^CT определяется по формуле (3.4.3) и соответствует только частичной совокупности, t ;— аргумент, ха­ рактеризующий вероятность попадания случайной величины в пределы (3.5.2).

Гипотеза о нормальном распределении остаточной величины основывается на теореме Ляпунова о том, что случайная вели-. чина, являющаяся суммой других случайных величин, распре­ делена нормально. На величину I влияет очень много факторов и есть основания ожидать, что она будет распределена нор­ мально. Как показывают исследования, при достаточно боль­ ших выборках эта гипотеза подтверждается. На рис. 7 показана

гистограмма и закон

распределения

остаточной величины мо­

дели

 

 

 

у =

11,998+41,96

cos л: — 27,395

sin л: — 7,88 cos 2л:-—

2,892

sin 2х — 21,102

cos Зл: + 8,251

sin Зл: + 29,39 cos 4л: +

 

+

12,131 sin 4л:,

(3.5.3)

где у — отклонения фактических поставок цемента от плановых по тресту «Челябметаллургстрой».

Проверка гипотезы о нормальном распределении величины

У) по критерию Пирсона показала хорошую сходимость статистического и теоретического законов распределения. Как

правило, математическое ожидание величины у)

близко к

нулю.

 

Вероятность попадания yaCi в пределы

 

р {у — t ^ < y 0CT < y + t^ l =<z

(3.5.4)

обычно принимается равной 0,95 или 0,99.

Конкретная величина а зависит от цели и важности прогно­ за. Этой же вероятностью в некоторой степени учитывается ре­ презентативность выборки; там где выборка более репрезента­ тивна можно принимать меньшую доверительную вероятность и наоборот.

2 *

Г Л А В А I V

МНОЖЕСТВЕННАЯ КОРРЕЛЯЦИЯ

§ 4.1. Факторы

Факторы — это технические, технологические, природные, климатические, организационные, социально-демографические и другие показатели, оказывающие количественное влияние на какой-либо результирующий экономический показатель: произ­

водительность

труда (выработку), себестоимость, прибыль

и т. д. Задача

математического моделирования состоит в выяв­

лении количественной связи между факторами и результирую­ щим экономическим показателем.

Фактор, включаемый в модель, должен соответствовать сле­ дующим требованиям: 1 ) иметь количественное выражение; 2 ) между фактором и регулирующим показателем должна быть логическая, причинная связь; 3) между фактором и результи­ рующим показателем должна быть статистическая связь; 4)факторы не должны быть тесно связаны между собой, то есть между факторами не должно быть мулътиколлинеарности

Не­ многие авторы считают, что все показатели,, включаемые в

корреляционный анализ, должны иметь нормальное распреде­ ление. Однако практика корреляционного анализа показывает следующее: а) в основном экономические показатели не подчи­ няются нормальному закону распределения; б) корреляцион­ ные модели, включающие в себя такие факторы, имеют непло­ хие оценки качества и достаточно высокую предсказательную силу. Поэтому, видимо, нет необходимости считать факторами только те показатели, которые распределяются нормально.

В главе II рассматривались парные связи между результи­ рующим показателем и факторами. В экономике и природе на результирующий показатель всегда влияет не один, а несколь­ ко взаимосвязанных факторов. Поэтому и в моделях, если эти модели претендуют на адекватность, необходимо учитывать со­ вокупное влияние нескольких факторов. Это совокупное влия­ ние факторов определяется методами множественной корреля­ ции.

3G

Вернемся к требованиям, предъявляемым к факторам, сфор­ мулированным в начале параграфа. Первое требование: если какой-то показатель невозможно выразить в виде количества или хотя бы величины V, то, естественно, такой фактор не может быть включен в математическую модель, несмотря на качест­ венную связь его с результирующим показателем.

Особое значение для правильного проведения корреляцион­ ного анализа имеет изучение логических, причинных связей между факторами и результирующим показателем, В экономи­ ческих исследованиях приходится оперировать небольшими не­ случайными совокупностями (выборками), часто может ока­ заться, что в данный выборке какой-нибудь фактор, на самом деле не влияющей на результирующий показатель, может вы­ ражать влияние других факторов и показать статистическую связь с результирующим показателем. Более того, может быть, что этот фактор в действительности влияет в противополож­ ную сторону статистическому влиянию, показанному в выборке.

Но может оказаться, что, несмотря на логическую обосно­ ванность связи, в выборке не будет статистической связи меж­ ду показателем (кандидатом в факторы), и результирующим показателем. В этом случае такой показатель также нельзя включать в модель в качестве фактора, так как количественная оценка связи не может быть выполнена методами корреляции, если статистической связи нет.

Таким образом, для того, чтобы показатель мог рассматри­ ваться в качестве фактора, необходима его логическая и стати­ стическая связь с результирующим показателем.

Требование отсутствия мультиколлинеарности вызвано тем, что если между двумя факторами, отвечающими трем первым требованиям, имеется тесная связь, то нет нужды оба фактора включать в модель, так как один можно выразить через другой. Кроме того, при неосмотрительном включении взаимосвязан­ ных факторов в одну многофакторную модель возникают вычис­ лительные трудности, связанные с тем, что матрица нормаль­ ных уравнений становится неразрешимой.

Остается ответить на вопрос, каковая допустимая теснота связи между факторами, включаемыми в одну экономическую модель?

Ответить на это непросто. Теоретически факторы должны

') Показатель имеет количественное выражение, если его можно измерить, т. е. однозначно выразить с помощью числа. Показатель имеет характер ве­ личины, если его измерить нельзя, но можно оценить и однозначно расставить по порядку, по степени влияния, по сравнению с другими аналогичными пока­ зателями.

37

быть полностью независимы, практически таких факторов в эко­ номике нет. На основании опыта корреляционных исследова­ ний можно рекомендовать включать в многофакторные модели те факторы, коэффициент корреляции между которыми не ока­ зался значимым при вероятности 0,9, т. е. подтвердилась нульпипотеза.

Например, в практике статистического анализа встретился

такой

случай. Исследовалось влияние на себестоимость

строи­

тельно-монтажных работ,

выполняемых собственными

силами

(х5),

механовооруженности

труда

рабочих

(х6), фондоотдачи

(х3),

среднего расстояния

от строительной

организации

до объ­

ектов

(xi), численности рабочих

(х2) и количества объектов

(х^). Все факторы отвечали требованиям. Однако три фактора: механовооруженность труда, фондоотдача и объем строительно­ монтажных работ оказались тесно связанными между собой. Коэффициенты корреляции, выражающие тесноту связи между факторами, составили:

Гз.б = —0,79; Г3.5 = 0,68.

Таким образом, фондоотдача оказалась тесно связанной с механовооруженностью и объемом строительно-монтажных ра­ бот, выполняемых собственными силами. Проверка этих связей на нульгипотезу показывает, что нулевая гипотеза (см. § 3.2) отвергается при уровне значимости 0,9. Напомним, что нулевая гипотеза подтверждается, если

г!<-

 

/ N - 1

 

Для Р = 0,9 tp = 2,576,

при числе наблюдений

N = 43 ну­

левая гипотеза не отвергается,

если коэффициент

корреляции

fp

2,576

 

будет меньше значения —

— 1

= —--..— = 0,396.

 

/ N

/ 4 3 - 1

 

В нашем случае коэффициенты корреляции по модулю боль­ ше, чем 0,396 и поэтому нулевая гипотеза отвергается, связь между факторами надежна и вместо трех факторов в корреля­ ционную модель достаточно включить один.

Часто возникает вопрос, какой из двух тесно связанных между собой факторов надо включить в модель? В рассмотрен­ ном примере такой вопрос не возник, так как фондоотдача ока­ залась тесно связанной с двумя факторами; бесспорно выгод­ нее выразить через один фактор два других, поэтому в модель вошла фондоотдача. Но в случае, когда два фактора оказыва­ ются тесно связанными между собой, в модели надо оставлять

38

тот фактор, который является первопричинным, а отбрасывать тот фактор, который несет в себе больше элементов следствия. Немаловажную роль при этом играет и учет регулируемости факторов, т. е. в модель надо включить факторы, поддающиеся регулированию, с целью последующей оптимизации результиру­ ющего признака за счет изменения факторов.

§ 4.2. Теснота связи при множественной корреляции

Количественно тесноту связи при множественной корреля­ ции можно оценить с помощью множественного (совокупного) коэффициента корреляции R. Для расчета совокупного коэффи­ циента корреляции необходимо определить парные коэффициен­ ты корреляции гц между всеми факторами Хи входящими в, модель, и результирующими показателем у и все парные коэффи­ циенты корреляции между факторами. Все коэффициенты кор­ реляции записываются в квадратную симметричную матрицу.

1

Г у х ,

Г ух3

 

Гула

 

Т У * п

 

 

1

Гх, Х 3

 

 

 

 

Г у л - ,

 

Гх, х 3

 

Г Х , х п

 

Г ух3

г х ,

х„

1

 

Гха х 3

 

Г Х „ Х П

 

h x .

Гх, х 3

Гхя х 3

 

1

 

Гх3 х п

 

Г У Х п

] Т х ‘

 

Т х * х п

 

г х з х п

 

1

 

Множественный коэффициент корреляции определяется по

формуле:

 

 

 

_______

 

 

 

 

 

R = / l

-

J L

,

 

(4.2.1)

где Д — определитель

матрицы

парных

коэффициентов

корре­

ляции;

 

 

 

матрицы

с вычеркнутыми

первой

Ди — определитель той же

строкой и первым столбцом, т. е. определитель

матри­

цы парных

коэффициентов

корреляции между

факто­

рам и.

Вприведенном в предыдущем параграфе примере матрица коэффициентов корреляции имеет вид:

1,000

0,734

0,649

—0,384

—0,325

0,734

1,000

—0,083

0,003

—0,009

39

Соседние файлы в папке книги из ГПНТБ