Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги из ГПНТБ / Маршак, М. И. Теория технологической статистики

.pdf
Скачиваний:
7
Добавлен:
19.10.2023
Размер:
4.65 Mб
Скачать

ГЛАВА Ш. ИССЛЕДОВАНИЕ ВЗАИМОСВЯЗЕЙ В ТЕХНОЛОГИЧЕСКОЙ СТАТИСТИКЕ

§I . Методы исследования взаимосвязей

Втехнологической статистико могут использоваться следующие методы исследования взаимосвязей между явления­ ми; метод аналитических группировок, корреляционый и ре­

грессионный методы, а также в некоторых случаях факторный анализ и метод главных компонентов.

Примеры применения аналитических группировок для ис­ следования взаимосвязей в технологической статистико рас­ смотрены П.М.Рабиновичем^.

Аналитическая группировка является очень денным мето­ дом исследования взаимосвязей. Сведения, полученные с по­ мощью этого метода, во многих случаях могут быть дополне­ ны данными, полученными с помощью корреляционного и рег­ рессионного методов, которые, наряду с направлением свя­ зей, дают возможность проанализировать степень влияния раз­ личных факторов на результирующий и насколько тесно они между сооой связаны.

Область применения аналитической группировки для вы­ явления взаимосвязей значительно более широкая, чем мето­ дов корреляции и регрессии. Однако в тех случаях, когда последние применимы, они дают более точную и тонкую ин­

формацию для анализа, чем метод аналитических группировок. Предпосылки применении корреляционного и регрессионного анализов в технологической статистике рассматриваются в данной главе.

I.Рабинович П.й.Резервы предприятия и

статистика.М.,

"Статистика", 1 % 7 .

5

48

Факторный анализ и иетод главных компонентов ис1та<-:/. •

эуются для объяснения корреляции между переменными дей­ ствием общих факторов, чаще всего ненаблюдаемых или неиз­ меримых, или таких, которые не могут бытв выражены коли­ чественно. Впервые, в начале двадцатого века факторный анализ нашел применение в области психологии, однако за последние годы он все более широко используется и в дру­ гих областях знаний, в частности, экономике-*-. Факторный анализ применяется к нормированным нормально распределен­ ным случайным переменным. Его цель - объяснить ковари­ ационную матрицу минимальным числом факторов.

В методе главных компонент результирующий фактор предг ставляют в виде взвешенной суммы ортогональных переменных, называемых главными компонентами.

Линейные комбинации исследуемых переменных (главные компоненты) характеризуются тем, что их дисперсии облада­ ют особыми свойствами. Например, первой главной компонен­ той называется нормированная линейная комбинация с наи­ большей дисперсией. Преобразование от исходных величин к главным компонентам сводится к повороту координатных осей.

На наш взгляд, в технологической статистике эти мето­ ды имеют весьма узкую область применения, так кан многие задачи выявления взаимосвязей могут найти решение в резуль­ тате применения аналитических группировок, корреляционного

и регрессионного анализов,

допускающих значительно более

простое толкование.Интепретация жа

объясняющих факторов в

факторном анализе и

методе главных

компонент весьма трудна.,

и во многих случаях

возможно

их различное толкование.

1.См.,например, Харман Г.Современный факторный анализ.М., "Статистика",1972.

ЛоулиД, Максвелл А. Факторный анализ как статистичаокий метод,Я.,"-Мир", 1967.

Ф9

§ 2 . Предпосылки и особенности применения регрессионного анализа в технологической статистике

Использование аппарата корреляционного и регрессион­ ного анализа для исследования взаимосвязей в технологичес­ кой статистике требует выполнения ряда предпосылок.

Регрессионный

анализ включает

выбор формы уравнения

и набор факторов-аргументов, входящих в

модель. Эти эта­

пы называют иногда

спецификацией.

После

этого переходят

к определению оценок коэффициентов регрессии и сопутствую­ щих им характеристик.

Под корреляционным анализом обычно понимается вычисле­ ние показателей тесноты связи факторов между собой ,т.е. парных,частных и множественных коэффициентов корреляции в олучае линейной зависимости, и корреляционных отношений в случае нелинейной зависимости, а также показателей их надежности.

Выбор формы уравнения регрессии во многих случаях в технологической статистике решается сравнительно просто. Дело в том, что в силу ряда причин (технические нормы, ГОСТы и т . д . ) построение регрессионной модели исследуемого процесса в производственных условиях для широкой области варьирования факторов невозможно, поскольку это требует нарушения нормальной работы объекта. Последнее может при­

вести к выпуску

бракованной продукции или аварии,

а в ря­

де случаев требует непомерно больших дополнительных зат­

рат. Обычно вся

полученная информация для построения мо­

дели концентрируется в некоторых, как правило, небольших

интервалах наблюдений, пне этого интервала ход процесса

нан неизвестен.

На рассматриваемом интервале криволинейная,

(в общем случае)

зависимость часто может быть удовлетвори­

тельно аппроксимирована линейной.

 

Оценка коэффициентов регрессии осуществляется

часто

при помощи метода наименьших квадратов, а иногда

приме-

50

няют другие методы: максимального|правдоподобия, двухшаговый и трехшаговый метод наименьших квадратов, метод наи­ меньших модулей и т .д .

Для сравнения и классификации оценок используются по­

нятия несмещенности, эффективности,

в

случае

малых выборок,

т . е . когда число

наблюдений мало,

и

понятия

асимптотически-

несмещенных, состоятельных и асимптотически-эффективных

оценок в случае больших выборок.

 

 

 

 

 

 

Оценка,

являющаяся

несмещенной

и

эффективной

или асим-

птотически-иесмещенной, состоятельной и асимптотически-эф-

фективной в данном классе оценок,

является наилучшей эк­

стремальной оценкой в этом классе.

 

 

 

 

 

 

Рассмотрим математическую

модель

вида

 

 

 

 

 

 

 

*

+ ёрЛр

 

 

 

 

 

 

 

 

у -

Х В

 

)

 

 

или в

матричном виде

 

 

 

 

 

 

 

 

 

 

 

 

где

Ьо,

h,,

. . ,

 

b p

 

-неизвестныо

коэффициенты регрео-

сии,

Хс,

х , ,

 

,

Хр

 

-факторы-аргументы,

у -случайная

величина,

 

t

- неизвестная случайная ошибка.

 

Необходимо найти оценки коэффициентов регрессии.Экстре­

мальные свойства

метода

наименьших

 

 

квадратов связаны со

следующими условиями:

 

 

 

 

 

 

 

 

 

I Случайная ошибка

6

имеет

нулевое математическое

ожидание

и постоянную диоперсию

 

 

;

 

 

 

2 )

 

случайная ошибка

Ь -

не

коррелирует ни с одной нез

висимой переменной и отсутствует автокорреляция;

 

3)

наблюдения

 

независимы в смысле

теории

вероятностей;

Д Отсутствуют

 

ошибки в

переменных

 

х в, Х / ,

, Х р

При наличии этих условий иа теоремы Гаусса-Маркова-выте­

кает, что наилучшими в смысле минимума дисперсии (эффектив­

ными) линейными несмещенными оценками будут такие,которые

получены

по методу

наименьших квадратов

,

 

 

I.Марков А.А.Исчисление вероятностей.М., Госиздат,192Д.

51

Часто вводится условие:

5) случайная ошибка £ имеет нормальное распределе­ ние j f ( О, 6 ) .

Введение последнего условия позволяет провести ста­ тистический анализ оценок: исследовать их распределение, построить доверительные интервалы для истинных значений

!)о,

Л ?

и &

, осуществить

проверку

гипотез видаН0:

l i = О

и т .д .

 

 

 

До сих

пор

переменные Х о , Х о -

■■■> * р

рассматри­

вались как

неслучайные .Бели же

переменные

Х0 , Уи ■■■>др

случайные,

то

как

показал tVa-Li-n v а . и d

экстремаль­

ность оценок для больших выборок сохраняется и в этом случае. В малых выборках эффективность рассматриваемых оценок уменьшается и оценки метода наименьших квадратов перестают быть наилучшими линейными оценками парамет­ ров

Когда распределение случайной ошибки £ предполага­ ется нормальным, то оценки, полученные по методу наимень­ ших квадратов, совпадают с оценками, полученными методом максимального правдоподобия. Бели же закон распределения ошибки £ не будет нормальным, то такого совпадения нет. Например, воли ошибка £ подчиняется закону распределения Лапласа

то

оценки по методу максимального

правдоподобия совпада­

ют с оценками, полученными методом

наименьших модулей^.

 

Поскольку при

проведении наблюдений мы не знаем точно­

го

распределения

ошибки £

, а

можем лишь оценивать21

1.

nlaCm/aad, Е ■Statistical tUethods о/ tconometucs .

 

(tiT is+ eeda-m , 1966.

2 .

Мудров В„И„,Кушко В.Л. Метод наименьших модулей.М.,

 

"Знание", 1971.

52

его, определяя отклонения тактических значений

от расчетных (Д , т . е .

'LJ t ~ У'

то в ряде случаев более целесообразным является метод наименьших модулей. Он выбирается также потому, что позволяет легко учитывать ограничения на оцениваемые параметры, записанные в виде неравенств.

Такого рода ограничения иногда необходимо вводить в

технологической статистике.

Рассмотрим возможность применения метода наименьших квадратов при некотором видоизменении исходных предпо­ сылок. Это вызвано тем, что в технологической статистике эти предпосылки могут нарушаться.

ь ряде случаев возникает автокорреляция ошибок. С этим сталкиваются, когда регрессионная модель строится по результатам наблюдений, полученных за достаточно дли­ тельный промежуток времени. Поэтому очень важны крите­ рии, которые могут установить наличие или отсутствие автокорреляции.

Как уже отмечалось, точное значение ошибок нам не­ известно и оно оценивается по результатам отклонений фак тических значений от расчетных. Поэтому проверка осущес­ твляется на основе этих отклонений.

Один из возможных способов проверки автокорреляции изложен в работе Тинтнера Г . *

Этот метод может применяться для нормально распреде­ ленной исходной совокупности, т . е . в данном случае при нормальном законе распределения ошибок. Другой способ проверки автокорреляции, требующий меньшего количества расчетов и применяемый при менее стесненных предпосыл - ках, основан на критерии Дарбина-Уотсона. Основная идеи

1.Тинтнер Г. Введение в эконометрию М .,"Статистика",1965

53

этого способа состоит в следующей*.

Для проверки автокорреляции вычисляют величину

здесь

 

 

 

(. 5 /

,

А п

-отклонения.

 

 

 

 

d , , A z , .

 

 

 

 

Все значения

d

лежат

в

интервале

( 0 , 4 ) . В приложении

к

 

книге

Лизера С. приведены таблицы,

в

которых даны

 

верхние

d i

, и нижние

 

d a

, границы значений

d

у к а ­

зывающих на положительнуюавтокорреляцию.

 

 

 

 

 

Возможны три'случая:

 

 

 

 

 

 

 

 

1

)

если

d

< d i

« т о

можно

сделать

вывод о

наличии

авто­

 

 

корреляции;

dz .то можно сделать вывод об

 

 

 

2

)

если

d

>

отсутствии •

 

 

автокорреляции;

 

 

 

 

 

 

 

 

 

 

3 )

еели d , $ d

i d ?

1 0

необходимы дальнейшие исследования-

получение дополнительных результатов наблюдений.

 

 

 

 

В таблице#даны критические значения

d ,

и

d a для

1

$, 2 ,5 $

и 5$ уровня значимости.

 

 

 

 

 

 

 

Чтобы проверить значимость отрицательной автокорреля­

ции нужно вычислить величину

4 - d

.

Далее

проверка

осуществляется аналогично тону, как и в случае положитель­ ной автокорреляции.

Метод наименьших квадратов в случае автокорреляции отклонений дает несмещенные, но неэффективные оценки,т.еъ найденные некоторым другим методом могут дать результаты с меньшей дисперсией. Следовательно, и прогнозы,сделанные на основе этих оценок,будут тоже неэффективными, в оилу чего необходимо проанализировать причины автокорреляции ошибок и постараться их устранял,.

Наличие автокорреляции ошибок имеет следующие причины:

1.Лизер С. Экономические методы и задачи.М.,"Статисюкап, 1971,

54

неправильный выбор аналитического уравнения модели, например, выбор линейной функции вместо квадратической или показательной; в модели не учтены существенный фак­ тор или ряд факторов.

В ряде случаев обнаруживается корреляция случайной ошибки <5 и факторов Х р Х2 , Х3 ... . Х р , входящих в по­ строенную модель. Корреляции такого рода возникая»,ес­ ли при построении модели пренебрегли какой-то важной

переменной,

которая сильно скоррелирована с имеющимися

в уравнении факторами Х р Х2 . . . . Хр .

Необходимо эту переменную обнаружить и провести до­

полнительное

исследование.

Условие,

заключающееся в независимости результатов

наблюдений, в технологической статистике обычно выпол­ няются. Для проверки независимости результатов наблюде­ ний можно использовать непараметрический критерий "вос­ ходящих" и "нисходящих" серий1 .

Условие, -заключающееся в отсутствии ошибок в пере­ менных Х р Х2 . . . Хр )также можно считать-в большинстве случаев выполненным, так как факторы Х р Х2 . . . , Хр обычно представляют собой в технологической статистике показатели расходования производственных ресурсов; рабо­

чей силы,

сырья, материалов, полуфабрикатов,

энергии

и

т . д . , которые могут быть получены с достаточно

высокой

степенью точности.

 

 

 

При построении регрессионных зависимостей, кроме

вы­

шеперечисленных условий метода наименьших квадратов,

на­

кладываются

следующие требования;

 

 

 

дисперсия

величины У не зависит от Х р Х 2 .

.

. Хр ;

 

или пропорциональна некоторой известной функции от

 

XI , X 2 , ■

г Xр 7

 

 

 

I.Айвазян С.А. Статистическое исследование зависимостей» М.,"Металлургия"» 1968»

55

>ХР.

h ( x , , X i ;

, Х р ) .

 

 

При построении

корреляционных

зависимостей добавля­

ется такие требование нормальности совместного распре­

деления величии

U , A i , / 2 . - ■■, Хр

 

Если генеральная совокупность

не является

нормально

распределенной,

то

интерпретация коэффициентов

корреляции

ненадежна, в частности, из равенства коэффициента кор­

реляции нулю не следует стохастическая независимость пере­ менных.

Большая часть результатов по регрессионному и корреля­ ционному анализам била получена в предположении нормаль­

ного распределения исследуемых

величин. При регрессион­

ном анализе

зависимая

переменная у

при фиксированных зна­

чениях

............ ....

Хр

распределена нормально.При

корреляционном анализе

совместное

распределение У , Х р

Хр -

нормально.

 

 

 

Однако проведение регрессионного анализа возможно и в случае некоторого отличия распределения случайной вели­

чины от нормального.* Рассмотрим ряд регрессионных моделей производственно­

го процесса приготовления ботона, полученных при наших исследованиях.

Изучались регрессионные зависимости прочности и удобоукладывасмости от рада (факторов производственного процес­ са . Модели строились для двух целей: для прогнозирования качества бетона; для отыскания оптимальных с экономической точки зрения составов бетона, обеспечивающих заданную проч­ ность и удобоукладываемость.

Наблюдение велось за смесью марки М-300, предназначен­ ной для изготовления железобетонных перекрытий.Произведе­ но обследование 265 замесов, по каждому из них фиксирова­ лись факторы, указанные в табл. 2 . 1 .Для статистической про­ верки случайности и независимости результатов наблюдений

I.Айвазян С.А.Статистическое исследование зависимостей.М., "Металлургия",1968. Айвазян С.Л.,Розанов Ь. А.Тр.Матема­ тического института им. Б.А.Стеклова, XXI,М., "Паука",

1964.

56

использовался критерий "восходящих" и "нисходящих" серий. Проверка осуществлялась следующий образом. Имелись резуль­ таты наблюдений некоторого ^актора, например, прочности бетона нормального хранения по каждому замесу , т . е .

Уз, 2 , LbJ / i , У 3'С 63'

На. £ -том месте этой последовательности ставился плюс,ес­

ли 4 l u ~

Чи > 0

.

и минус, если

y it t - f c

с о

(если

два или несколько следующих друг за другом наблюдений

равны между

собой,

то

принималось во

внимание

только

одно

из них). Очевидно, что последовательность подряд идущих плюсов будет соответствовать тогда возрастанию результа­ тов наблюдения ("восходящая серия"), а последовательность минусов - их убивание ("нисходящая серия"). Критерий основаи на соображении: если выборка случайна ( наблюдения независимы), то в образованной нами последовательности

знаков

общее число

серий не

может быть слишком малым, а

их протяженность (

в качестве подряд идущих плюсов и ми­

нусов) слишком большой.

 

При уровне значимости

об = 0,05, количественное выра­

жение этого правила имеет вид:*

ш >

± ( 2 п - 1 )

1' ,9 б \ [ 9 0

 

 

 

(ЗЛ)

X { n ) < Z 0 [ n ) ,

где П - число наблюдений;

V/^)-

общее число

серий;

 

 

 

г С(п )~

количество

подряд

идущих плюсов и минусов в

 

 

самой длинной серии.

 

 

величина

тг = 7 при

153 <

п ^

1170.Если хотя

бы

одно из этих неравенств ( 3 .1 )

окажется

нарушенным, то

ги-

I.Айвазян С.А.Статистическое исследование зависимостей.Ы., "Металлургия",1968 .

57

Соседние файлы в папке книги из ГПНТБ