![](/user_photo/_userpic.png)
книги из ГПНТБ / Маршак, М. И. Теория технологической статистики
.pdf-температура хранения образцов 4-7 день. С,
Хи - влажность хранения 4 -7 день, $ .
|
Статистический анализ |
уравнения показал, что оно значи |
|||
мо, |
фактическое |
значение |
F |
-критерия для |
множественно |
го |
коэффициента |
равно 25 |
, |
2 при табличном |
значении 2,30 |
(для 5$ уровня значимости). Коэффициент множественной кор
реляции |
равен 0 ,7 9 . |
|
|
||
Соответствующие |
значения t |
-критерия для коэффициен |
|||
тов |
регрессии следующие: |
|
|||
|
% |
— 1»80 |
^ ,„ = 3 ,3 0 |
||
|
U , |
= |
8 . 2 0 |
t^, - |
1 , 2 0 |
|
t h |
= |
3 ,3 9 |
t tlJ= |
1,60 |
■ |
t b |
= |
M o |
t i , 3 = |
1,90 |
l(,9 = 3,02 |
|
|
|
|
|
Критическое |
значение |
распределения |
t = 1,98 |
(для 5$ уровня |
|
значимости). |
Откуда |
следует, |
что значения t |
-критерия для |
|
переменных X |
, Xj j , |
X jg , Xj^ |
меньше |
критического.Однако |
множественный коэффициент корреляции для совокупности этих
переменных значим: фактическое |
значение |
F -критерия |
равно |
|
3 ,0 2 , при табличном |
значении 2 |
,9 0 . |
|
|
Исключение одной |
из переменных Xg, |
X j p Xj ^.Xj ^ |
из |
уравнения регрессии делает множественный коэффициент регресоии для оставшихся переменных незначимым, в силучего был сделан вывод о целесообразности оставить все перемен
ные Xg, Xj j , X-j-g, Xj-j в уравнеиии регрессии. Достовер
ность выводов при выборе адекватной регрессионной модели"
часто нарушается наличием так называемой "ложной" корре ляции. Ыы придерживаемся точки зрения Н.С. Четверикова по поводу ложной корреляции, который утверждает, что "теория ложной корреляции имеет своей задачей оградить исследова ние связи от привнесения в него искажений, вызываемых при чинами субъективной природы, т . е . зависящих или от про-
68
извола и усмотрения исследователя, или от ошибок наблю
дения, или от неправильного планирования исследования, отчего исследуемая связь становится в зависимость от обстоятельств, не имеющей к ней объективного отношения и вовлеченных в исследование произволом исследователя"^. И.С.Четвериковым приведен перечень наиболее часто встре чающихся случаев ложной корреляции.
При исследовании производственных процессов ложная корреляция часто возникает в результате наличия неодно родности массива данных, его фактического расслоения на несколько обособленных совокупностей. Это так называе мый случай стратификации (слоистости).
Такое явление мы наблюдали, при изучении производ ственного процесса приготовления бетона. Были построены
регрессионные |
модели качества |
бетона для одних и тех |
не установок |
(бетономешалок) |
по наблюдениям, взятым за |
разные промежутки времени. Они имели различные коэффици енты корреляции и регрессии при одном и том же виде урав нения. Это различие имеет или случайный характер, или же для каждого из рассмотренных периодов выявлены различные регрессионные зависимости.
Для анализа характера этих различий используются раз личные статистические критерии.В табл. 3 .3 и З.Д приведе ны матрицы парных коэффициентов корреляции между фактора ми производственного процесса приготовления бетона марки М-200, полученные по результатам 300 наблюдений в тече ние двух периодов-летнего и зимнего.Как следует из таб лиц коэффициенты парной корреляции между' некоторыми фак торами значительно изменились. Применение статисти"еских критериев, изложенных в данной работе показало, что разли чия в коэффициентах корреляции и регрессии, построенных на основе этих наблюдений являются существенными. Это объ ясняется наличием неоднородности исследуемого материала (явление стратификации).Неоднородность была вызвана изме нением качества составляющих бетона (цемента, крупного за*
I.Четвериков ;1.С. О ложной корееляции.-В об.:"Применение методов корреляции в экономических исследованиях",М..
"Паука",1969.
полнителя), поэтому построение одного уравнения по все му массиву наблюдений будет ошибкой, коэффициенты кор реляции и регрессии такого уравнения не будут адекват но описывать изучаемое явление (ложная корреляция).
Необходимо построение соответствующих уравнений от дельно для летнего и зимнего периодов. Таким образом, если возникает необходимость пользоваться данными иссле дованиями, которые могут привести к ложной корреляции, то необходимо дополнительное исследование с целью вос становления истинного значения силы связи между перемен ными. Следующая проблема, которая часто возникает при по строении регрессионной модели - это явление мультикол линеарности.
Проблема заключается в следующем.Обычно для оценки коэффициентов регрессии уравнения (З.Ф) используется ме^ тод наименьших квадратов, применение которого дает не смещенную, эффективную оценку из соотношения:
Н Х |
ТХ ) " Х ' У , |
|
|
где |
|
|
|
|
|
|
||
- ( L , L , ■ . |
/ i p ) , |
|
X |
-матрица |
наблюдений |
переменных |
||||||
|
|
|
|
|
||||||||
X1, Хг, |
■ |
> Хр , |
|
У |
-матрица |
наблюдений переменного |
||||||
Эта оценка имеет смысл лишь тогда, |
когда |
матрица |
( X X ) |
|||||||||
существует. |
Она не |
существует, когда матрица X X |
осо |
|||||||||
бенная, т . е . определитель |
этой матрицы (| Х*Х\ |
) |
равен • |
|||||||||
нулю.Этот случай будет, например, тогда когда между дву |
||||||||||||
мя из переменных Х^, |
Х2 , . . . Хр существует |
линейная |
зави- |
|||||||||
симость.Б практических исследованиях обычно имеет место |
||||||||||||
случай, |
когда |
между |
переменными XI t X2 |
, . . . . x p не |
существует |
|||||||
линейной |
зависимости, |
но коэффициент корреляции |
между ка |
|||||||||
кими-либо переменными, |
например, Xi |
и |
X ■ |
очень |
велик |
|||||||
|
|
|
|
|
|
- |
|
|
о |
|
|
|
70
О .
н
Таблица 3.3
Матрицы парных коэффициентов корреляции мевду параметрами • производственного процесса приготовления бетона марки Ы- 2 0 0 по
результатам летнего периода
: |
У |
: У |
|
|
: X |
: |
X |
г X |
|
: X |
: |
X |
: |
X |
: |
X |
|||
|
I |
|
3 |
|
I |
|
3 |
|
|
4 |
5 |
|
6 |
|
7 |
|
8 |
||
1 |
, 0 0 |
- 0 |
, |
1 |
0 |
0,05 |
|
0,23 |
- 0 ,0 5 |
- 0 ,1 6 |
0,04 |
|
0,16 |
|
- 0 ,1 4 |
||||
У 1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
уз |
|
1 |
, |
0 |
0 |
0,25 |
|
- 0 ,0 5 |
- 0 |
, |
2 |
2 |
0,03 |
0,1 4 |
|
0,30 |
|
0,15 |
|
|
|
|
|
|
|
|
- |
|
- |
|
|
- |
0,0 4 |
|
- |
|
- |
||
% |
|
|
|
|
|
1 , 0 0 |
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
х з |
|
|
|
|
|
|
|
1 , 0 0 |
|
- |
|
|
- 0 ,1 8 |
- 0 ,2 3 |
|
- |
|
- |
|
* 4 |
|
|
|
|
|
|
|
|
1 |
, |
0 |
0 |
- 0 ,3 7 |
0 |
, 0 2 |
|
0,07 |
|
- |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Х5 |
|
|
|
|
|
|
|
|
|
|
|
|
1 , 0 0 |
- 0 ,7 1 |
|
- 0 ,3 6 |
|
- |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Х 6 |
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
, 0 0 |
|
-0 ,2 3 |
|
- |
х7 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1,00 |
|
|
* 8 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1,00 |
У1
уз
V
хз
Х4
Х5
Х6
х7
Х8
Таблица 3.4
Матрица парных коэффициентов корреляции нейду параметрами производственного
|
процесса |
приготовления |
бетона |
марки М-200 |
по |
результатам |
зимнего |
периода |
||||||||
: |
У |
: |
У |
: |
X |
: X |
: |
X |
: X |
5 |
: |
X |
: |
X |
: X |
|
: |
I |
: |
3 |
: |
1 |
: |
3 |
: |
4 |
: |
: |
6 |
: |
7 |
: 8 |
|
|
1 , 0 0 |
|
- 0 , 0 8 |
|
0 , 0 8 |
|
0 , 2 0 |
|
- 0 , 2 1 |
- 0 , 2 1 |
|
0 , 1 5 |
|
0 , 2 5 |
- 0 , 1 5 |
|
|
|
|
1 , 0 0 |
|
0 , 1 5 |
|
- 0 , 0 1 |
|
- 0 , 3 9 |
0 , 1 3 |
|
0 , 1 2 |
|
0 , 4 0 |
0 , 1 7 |
|
|
|
|
|
|
1 , 0 0 |
|
- |
|
- |
|
- |
|
- 0 , 0 5 |
|
- |
- |
|
|
|
|
|
|
|
1 , 0 0 |
|
- |
0 , 1 0 |
|
- 0 , 2 0 |
|
- |
- |
|
|
|
|
|
|
|
|
|
|
1 , 0 0 |
0 , 4 0 |
|
0 , 2 3 |
|
0 , 2 1 |
- |
|
|
|
|
|
|
|
|
|
|
|
1 , 0 0 |
|
- 0 , 6 9 |
|
0 , 3 2 |
- |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 , 0 0 |
|
- 0 , 3 1 |
- |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 , 0 0 |
- |
1 , 0 0
(коэффициент парной корреляции > 0 , 8 ) . Такое явление называют мультиколлинеарностью. В этих случаях
определитель |
|Л/\| так мал, что |
возникают вычисли |
||||
тельные проблемы обращения матрицы ( X л ) . |
Если жо уда |
|||||
ется |
найти обратную матрицу ()С Х ) |
, то средние квадра |
||||
тические отклонения |
параметров |
&2 , . . . |
«р очень вели |
|||
ки и оценка значимости этих параметров по |
~t |
крите |
||||
рию |
t i = —г- |
не имеет смысла..Множественный |
коэффици |
|||
ент |
корреляции |
К. |
также не может |
служить |
критерием, |
для выбора регрессионной модели, т .к . зависит от степени мультиксилинеарности. Оценки становятся исключительно чувствительными к незначительному изменению результатов наблюдений и объема выборки.
Такое же явление возникает при высокой корреляции
между некоторой группой переменных, взятых из Х р Х о , . . .
Хр.Мультиколлинеарность приводит к невозможности анализа и управления производственным процессом на основе полу ченной регрессионной модели. Проблема ыультиколлинеарнооти требует решения следующих вопросов: выявления мульти коллинеарности, анализ причин мультиколлинеарности,опре деление мер по устранению мультиколлинеарности. Один . из методов выявления мультиколлинеарности • заключается в ана лизе матрицы парных коэффициентов корреляции и выявлении
парных коэффициентов корреляции между переменными X j,X 2 , . . .
Хр больших 0 , 8 . Если такие коэффициенты имеются,то гово рят, что имеется мультиколлинеарность между соответствую щими факторами.
Другой метод заключается в сравнении парных коэффициен тов корреляции между переменными и множественными коэффици
ентами корреляции |
f l . Если Z. * . х ,> |
,то говорят, |
что соответствующие факторы мультиколлиаеарны. |
Однако эти |
методы нельзя распространить для выявления высокой корреля
ции между некоторой группой переменных, Взятых |
из Х р Х 2 , „ . . |
Хр.Поэтому проверяется условие j X TX i'>b t где |
£ > 0 * |
73
Если это условие не выполняется, то регрессионную модель построить нельзя, т . к . некоторые из переменных мультиколлинеарны и вычисления прекращаются.
Феррар и Глаубер^ предлагают для этой цели использо вать статистические критерии. Однако они даны для случая многомерного нормального распределения переменных.Устой - чивость этих критериев в случае отклонения распределения переменных от нормального в их статье не рассматривается. В практических исследованиях производства явление мультиколлонеарности встречается и в регрессионной модели ( т . е . случая когда переменные X ,Х , . , Хр но являются случай
ными величинами) и в |
корреляционной |
модели, когда много |
|
мерное распределение |
отклоняется от |
нормального; |
встреча |
ются также смешанные |
корреляционно-регрессионные |
модели, |
для которых эти критерии неприменимы. Отметим также, что проверка нормальности многомерного распределения пред ставляет собой весьма сложную задачу, сравнимую по труд ности с зидачей выявления мультиколлиноарности. Причина ми мультиколлинеарности при исследовании производственно го процесса могут быть следующие.
Неправильный выбор статистических методов для описания объекта. Например, объект должен быть описан системой взаимосвязанных регрессионных моделей, а его пытаются описать при помощи одного регрессионного уравнения. Мультиколлиноарность может быть тесно связана с ложной корреляцией. Так при выявлении факторов, существенно влия<« ющих на показатель, характеризующий производственный про цесс, часто используется корреляционная матрица-таблица, составленная из коэффициентов парной корреляции.В урав нение множественной регрессии включаются обычно факторы, которые с показателем, характеризующим производственный процесс,имеют существенную парную корреляционную связь, а также анализируется возможность мультиколлинеарности:
выявляются факторы-аргументы, |
имеющие |
между |
собой |
высокий |
|
парный коэу/фициент корреляции, |
обычно |
больший или |
равный |
||
--------------О . |
|
|
|
|
|
1 9 FcLZbdt ОЕ , |
|
|
if) |
SeOlQSSiOf) |
|
f lcJbi,vU |
7/j. |
|
|
|
|
Однако наличие ложной корреляции может исказить реальную картину и привести к неправильному отбору фак торов-аргументов и виду уравнения регрессии, а также к ложному выводу о наличии мультиколлинеарности, в то время как высокий парный коэффициент корреляции между факторами-аргументами вызван ложной корреляцией,
Вработе1 Нарышова Г ,А ,,Демидовича Л.П. приводится такой случай мультиколлинеариости, вызванный наличием тенденции изменения факторов, т . е . колебаниями около пе ременного уровня.
Внаших исследованиях "ложная" ыультиколлинеарность встречалась как результат неоднородности исследуемых данных (стратификация).
При исследовании производственных процессов на ос нове данных пассивного наблюдения многие факторы могут варьироваться лишь в узких пределах, в результате чего данные концентрируются около средних значений, что может служить причиной мультиколлинеариости. При варьировании
вболее широком диапазоне мультиколлинеарность перемен
ных исчезает.Таким образом мультиколлинеарность сущест вует в выборке, но не в генеральной совокупности.
Возможны и другие причины мультиколлинеариости при исследовании производственных процессов. Выявление при чины мультиколлинеариости, как правило, приводит и к оп ределению мер по её устранению.
Неправильный выбор статистических методов описания объекта или вида регрессионной модели требует исправления этой ошибки, мультиколлинаарность, возникаю щая из-за ложной корреляции приводит к необходимости до полнительных исследований о целью восстановления истинной картины изучаемого явления.
I.HupumeB Г .А .,Демидович Л.П.Некоторые проблемы ложной корреляции в экономико-статистическом моделировании.
Ь сб'.ь'Вопросы построения и примонония статистических моделей экономических показателей предпрнятий",ч.П, Новосибирск, 1971 .
75
если в генеральной совокупности имеется линейная за висимость между некоторыми переменными, а в выборке эти переменные имеют ошибки наблюдения, в результате которых нормальные уравнения численно разрешимы, то результаты из-за мультиколлинеарности зависят только от этих ошибок и следует исключить из рассмотрения одно или несколько линейно'зависимых переменных. Если же имеется подозрение, что мультиколлинеарность существует лишь в выборке, а в генеральной совокупности она отсутствует, то необходимо привлечение дополнительной информации. Если исследователь имеет возможность выбирать новые наблюдения по своему ус
мотрению, то, как следует из статьи Силви С .Д .*, выбор но вых множеств значений независимых переменных следует про
изводить в |
направлении собственных векторов матрицы |
( Х ГХ ) , |
соответствующих малым характеристическим чис |
лам. |
|
§ 4 . Применение теории информации при исследованиях взаимосвязи факторов
В богатом арсенале методов статистики, которые могут быть использованы при исследовании производства, в настоя щее время возникла необходимость уделять большее внимание методам теории информации, которые были созданы в период, ко; да такие методы статистики, как теория регрессии,теория вы -
борки и т . д . были извеотны широкому кругу исследователей. При этом некоторые ошибочно рассматривали теорию информа ции в качестве синонима теории связи, в то время, как теория информации является одним из возможных статисти-.I
I. Stlvey 5 O' niulrfColLneaz.,hj and J/npzecise
■tshmaticn, - " \catno-l HcycU biahsiicaC Society"
I 3b 9. SC-Z &, i o l :il, VcJ
76
ческих методов. Её методы дают возмокность получить но вые информационные критерии, применяемые при статисти ческой проверке гипотез и позволяют извлекать более пол ную информацию об интересующих нас явлениях из ограничен
ного запаса данных*.
Б данном параграфе делается попытка наметить некото рые пути применения понятий теории информации в техно логической статистике. Многообразие существенных факто ров, дойствующих на показатели производственного процес са, предопределяет необходимость использования регресси онного анализа, с помощью которого исследуется совокуп ное влияние двух или более факторов на результирующий признак.
В ряде случаев возникает задача выбора интервалов времени, в течение которого можно считать выявленную за висимость достоверной. Устойчивость коэффициентов ре грессии, построенных за разные промежутки времени можно проверить при помощи аналитического аппарата теории ин
формации*1.32 Проверка заключается в следующем^. |
|
|
||||
Допустим мы имеем |
к |
-отрезков времени, в каждом |
из |
|||
которых получено |
наблюдений над переменными У |
, |
Х р |
|||
Х2 . . . |
Хр. |
|
|
|
|
|
Здесь у |
- показатель |
производственного процесса, Х р |
||||
Х2 . . . |
Хр - |
факторы, |
влияющие на этот показатель. |
|
|
|
в |
первый отрезок |
времени при К=1, получено П, |
наблю |
|||
дений: |
|
|
|
|
|
|
1 . |
См.,наппимер, Кульбак С.-Теория |
информации и статистика* |
||
2 . |
М .,АНаукап, 1967. |
такой проверки. |
||
В главе |
П даны другие методы |
|||
3 . |
Кульбак |
С. Теория информации |
и |
статистика.М.,"Наука",196 |
77