2 курс Исследование систем управления / isu
.pdf
|
|
|
|
|
|
|
|
|
|
|
|
||
нием множества вероятностей |
|
|
|
|
, где Pi |
– вероятность осуществле- |
|
|
|||||
Pi |
i 1,n |
|||||
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n |
ния события x |
|
( i 1,n ) |
|
и P 1). |
||||
i |
( P P ξ x |
|
||||||
|
|
|
|
i |
|
i |
i 1 i |
|
Зная функцию распределения случайной величины ξ , можно определить |
||||||||
вероятность попадания ξ в любой интервал [ a , b ) : |
||||||||
|
|
|
|
|
P a ξ b F(b) F(a). |
|||
Неотрицательная функция |
p ( x) , при всех значениях x удовлетворяющая |
условию
величины
x
F ( x) p (z)d z , называется плотностью распределения случайной
ξ. Очевидно, что P a ξ b p (z) d z .
ab
x
Случайная величина, удовлетворяющая условию F ( x) p (z)d z , назы-
вается непрерывной.
Совокупность случайных величин ξ1 , ..., ξn называется многомерной слу-
чайной величиной. Закон распределения n-мерной случайной величины ξ n – со-
вместного распределения случайных величин ξ1 , ..., ξn – задается n -мерной
функцией распределения F ( x1 |
|
x1 |
|
,..., xn ) P ξ 1 |
,..., ξ n xn . |
||
|
|
|
|
Вероятность попадания двумерной случайной величины ξ 2 (ξ1 , ξ 2 ) в |
|||
прямоугольник |
|
|
|
x2
b2
ξ 2
a2
a1 |
1 |
1 |
определяется по формуле:
111
|
ξ1 |
b1 , a2 |
ξ 2 |
b2 |
|
F (b1 |
,b2 ) F (b1 ,a2 ) F (a1 ,b2 ) F (a1 |
,a2 ) . |
P a1 |
|
|||||||
|
|
|
|
|
|
|
|
|
Случайные величины η и ξ называются независимыми, если закон рас-
пределения одной из них не зависит от того, какое значение приняла другая 54.
Вероятность совместного осуществления двух независимых случайных со-
бытий X и Y равна произведению вероятностей осуществления каждого из этих событий:
P( X,Y ) P( X ) P(Y ) .
В случае зависимых событий приходится применять другие, более слож-
ные, формулы:
P( X,Y ) P( X ) P(Y / X ) или P( X,Y ) P(Y ) P( X /Y ) ,
где P(Y / X ) и P( X /Y ) – условные вероятности наступления события Y , если произошло событие X , и события X , если произошло событие Y .
Условная функция распределения случайной величины η относительно случайной величины ξ обозначается через F( y / x ) , условная плотность распре-
деления – через p( y / x) .
Основными числовыми характеристиками случайной величины являются функционалы распределения ее вероятностей – математическое ожидание
M(ξ ) (среднее значение случайной величины) и дисперсия D(ξ ) M(ξ M(ξ ))
(рассеяние значений случайной величины около ее математического ожидания):
непрерывный случай
Математическое |
|
|
|
|
|
|||
M( ξ ) x dF ( x) x p ( x) d x |
||||||||
ожидание |
|
|||||||
|
|
|
|
|
|
|||
|
|
|
|
|
||||
Дисперсия |
|
|
|
|
|
|
|
|
|
|
|
D(ξ ) ( x M( ξ ))2 p ( x) d x |
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
, i 1,n или i 1, ) |
|||||||
(Здесь P P ξ x |
|
|||||||
i |
|
i |
|
|
|
|
|
дискретный случай
M(ξ ) xi Pi
i
D(ξ ) ( xi M( ξ ))2 Pi
i
54 Очевидно, что если η не зависит от ξ , то и ξ не зависит от η .
112
При |
достаточно |
большом числе |
испытаний n можно считать, что |
||||||
|
|
|
n |
|
|
1 |
n |
|
|
D(ξ ) |
1 |
|
( xi xср )2 , |
где |
xср |
xi |
– среднее арифметическое значение |
||
|
|
||||||||
|
n i 1 |
|
|
n i 1 |
|
||||
случайной величины ξ . |
|
|
|
|
|
||||
|
|
|
|
||||||
Величина σξ |
D(ξ ) |
называется среднеквадратическим отклонением |
случайной величины ξ .
Совместное математическое ожидание M( ξ , η) двух непрерывных слу-
чайных величин ξ и η с совместной плотностью распределения p( x, y) вы-
числяется по формуле
|
|
|
|
|
|
M( ξ , η) |
x |
y p( x, y) dx dy . |
|
|
|
|
|
|
|
|
|
В дискретном случае, когда случайные величины ξ |
и η задаются набо- |
||||
рами их возможных значений x , ... , x |
и y , ... , y |
и вероятностями |
Pij совме- |
||
1 |
n |
1 |
n |
|
|
стного осуществления случайных событий xi и |
y j ( Pij |
|
|
||
P ξ xi |
, η y j ), |
||||
|
|
|
|
|
|
M( ξ, η) определяется следующим образом: |
|
|
|
||
M( ξ, η) xi y j Pij . |
|
|
|||
|
i |
j |
|
|
|
Методы статистического анализа
Для исследования массовых случайных явлений (процессов) по результа-
там наблюдений и экспериментов применяются методы статистического
анализа [17, 37]. К наиболее известным методам статистического анализа
относятся:
регрессионный анализ;
корреляционный анализ;
канонический анализ;
метод главных компонентов;
факторный анализ;
дисперсионный анализ;
113
ковариационный анализ;
кластерный анализ;
дискриминантный анализ.
Регрессионный и корреляционный анализ
Для выявления функциональной зависимости между двумя или более пе-
ременными по экспериментальным данным используют методы регрессионного
и корреляционного анализа. Регрессионный анализ помогает построить, исходя из экспериментальных данных, аппроксимирующую функцию (функцию рег-
рессии, регрессионную модель), соответствующую исследуемой зависимости, а
корреляционный анализ – проверить, насколько хорошо экспериментальные данные согласуются с этим уравнением.
На практике чаще всего используются следующие аппроксимирующие
функции: |
|
|
|
|
|
|
|
|
|
|
|
|
|
y a0 a1 x |
|
|
|
|
|
– |
прямая линия |
||||||
y a |
|
a |
x a |
|
|
x 2 |
|
|
– |
парабола |
|||
|
|
0 |
|
1 |
|
|
2 |
|
|
|
|
|
|
y a |
|
a x a |
|
x2 |
... a |
n |
xn – |
парабола n - ной степени |
|||||
0 |
|
1 |
2 |
|
|
|
|
|
|||||
y |
|
|
1 |
|
|
|
|
|
|
|
– |
гипербола |
|
a a |
x |
|
|
|
|
|
|
|
|
||||
|
|
0 |
|
1 |
|
|
|
|
|
|
|
|
|
y a b |
x |
|
|
|
|
|
|
|
– |
экспонента |
|||
|
|
|
|
|
|
|
|
|
|
||||
y a0 a1 lg x |
|
|
|
|
|
– |
логарифмическая кривая |
Под приближением аппроксимирующей кривой к экспериментальным данным понимается процесс вычисления констант и параметров аппроксими-
рующей функции таким образом, чтобы сумма квадратичных отклонений была минимальной.
Регрессионные модели делятся на 1) однопараметрические (описываю-
щие зависимость исследуемой переменной от одного регрессора) и многопара-
метрические (от нескольких регрессоров) и 2) линейные (относительно регрес-
соров) и нелинейные (относительно регрессоров и параметров).
114
Простейшая линейная однопараметрическая регрессионная модель имеет
следующий вид:
|
|
|
y a0 a1 x ε , |
|
|
|
|
|
|
|
|
||||
где y – функция регрессии, x – независимая переменная регрессор (фактор), |
ε |
||||||||||||||
– случайная ошибка. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
По имеющимся экспериментальным данным значения коэффициентов a0 |
и |
||||||||||||||
a1 вычисляются следующим образом: |
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
( y |
) ( x 2 ) ( x |
) ( x |
i |
y |
j |
) |
|
|
|||||
|
|
i |
i |
i |
|
|
|
|
|
|
|
|
|||
a0 |
|
i |
i |
i |
|
|
i |
j |
|
|
|
|
|
, |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
n x 2 |
( x |
)2 |
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
i |
|
|
i |
|
|
|
|
|
|
|
|
|
|
|
|
i |
i |
|
|
|
|
|
|
|
|
|
|
|
|
n xi y j ( xi ) ( xi y j ) |
|
|
|
|||||||||||
a1 |
|
i |
j |
i |
|
i |
|
j |
|
|
|
|
. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
n x 2 |
( x |
)2 |
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
i |
|
i |
|
|
|
|
|
|
|
|
|
|
|
|
|
i |
i |
|
|
|
|
|
|
|
|
|
|
|
Задача регрессионного анализа решается и тогда, когда исследуемые пока-
затели не являются случайными величинами.
Одним из важнейших понятий математической статистики является корре-
ляция. В самом общем случае под корреляцией понимается связь между явле-
ниями, когда одно из них входит в число причин, определяющих другие, или ко-
гда имеются общие причины, воздействующие на эти явления. Однако чаще все-
го корреляцией называется вероятностная (стохастическая) зависимость между случайными величинами, не имеющая строго функционального характера (в от-
личие от функциональной корреляционная связь проявляется не в каждом кон-
кретном случае, а лишь в среднем при достаточно большом числе наблюдений).
Из показателей, характеризующих зависимость между случайными вели-
чинами ξ и η , наиболее известны ковариация (корреляционный момент)
COV ( ξ , η) и коэффициент корреляции COR( ξ , η):
|
|
|
|
|
|
|
|
|
M( ξ, η) M( ξ ) M( η) , |
||
COV ( ξ , η) M ξ M( ξ ) |
η M( η) |
||||
|
|
|
|
|
|
|
|
|
|
|
|
115
|
|
|
|
COR( ξ , η) |
COV( ξ , η) |
. |
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
σξ ση |
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
В непрерывном случае COV( ξ , η) |
|
|
|
|
p( x, y) dx dy , |
|||||||||||||
x M( ξ ) |
y M( η) |
|||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
в дискретном – COV( ξ, η) |
|
|
|
|
|
|
|
|
|
|
Pij . |
|
||||||
xi M( ξ ) |
y j |
M( η) |
|
|||||||||||||||
|
|
|
|
|
i j |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Очевидно, что при любых ξ |
и η |
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
COR( ξ , η) |
|
1 . |
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
1 тогда и только тогда, |
|
|||||||||||||||
|
При этом |
COR( ξ , η) |
когда η линейно зависит |
|||||||||||||||
|
|
|
σξ |
|
|
|
|
|
|
|
|
|
|
|
|
|
||
от ξ : |
η COR( ξ , η) |
|
ξ M( ξ ) |
M( η). |
|
|
|
|
|
|
|
|||||||
ση |
|
|
|
|
|
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Случайные величины, коэффициент корреляции которых равен 0, называ-
ются некоррелированными. Некоррелированные величины являются независи-
мыми.
Связь в одном случайном процессе называется автокорреляцией, связь
между процессами – кросс-корреляцией.
Функция, характеризующая степень связи значений случайного процесса
ξ (t ) в моменты времени t1 и t2 |
, называется автокорреляционной функцией: |
|||
|
|
|
|
|
Rξ ξ (t1 |
|
|
||
, t2 ) M ξ ( t1 ) mξ ( t1 ) |
ξ ( t2 ) mξ ( t2 ) . |
|||
|
|
|
|
|
|
|
|
|
|
Функция, характеризующая степень связи между значениями двух случай-
ных процессов ξ (t ) и η(t ) в моменты времени t1 |
и t2 , называется взаимной |
|||
корреляционной функцией: |
|
|
|
|
|
|
|
|
|
Rξ η (t1 |
|
|
||
, t2 ) M ξ ( t1 ) mξ ( t1 ) |
η( t2 ) mη ( t2 ) . |
|||
|
|
|
|
|
|
|
|
|
|
С помощью измерения статистической связи между изучаемыми явления-
ми можно определить, как повлияло бы на функцию изменение одного из ее ар-
116
гументов, если бы другие аргументы оставались неизменными, и оценить сте-
пень искажающего влияния посторонних факторов на изучаемую зависимость.
Установить наличие или отсутствие связи между изучаемыми явлениями или величинами, а также количественно оценить уровень этой связи позволяет
корреляционный анализ. С его помощью можно определить, в какой мере изме-
нение исследуемого показателя обусловлено влиянием другого показателя.
Основные задачи корреляционного анализа заключаются в оценке корре-
ляционных характеристик (ковариации и коэффициента корреляции) и про-
верке статистических гипотез о значимости связи между случайными величина-
ми.
С достаточной степенью точности эти задачи решаются лишь в ситуациях,
когда исследуемые показатели можно рассматривать как случайные величины.
Поскольку в социально-экономических исследованиях это условие, как правило,
не выполняется, методы корреляционного анализа применяются лишь на пред-
варительных стадиях исследования, а окончательные выводы делаются на осно-
ве методов регрессионного анализа.
Различают параметрический и непараметрический корреляционный анализ: в первом случае предполагается, что закон распределения анализируе-
мых данных известен (как правило, для этого анализируемые величины должны быть распределены по нормальному закону), во втором случае анализ проводит-
ся без использования этой информации.
Канонический анализ
Канонический анализ (анализ канонических корреляций) применяется при исследовании структуры корреляционных связей между двумя совокупно-
стями случайных величин – случайными векторами x1 ,..., x p и x p 1 ,..., x p q
( p q ). С помощью линейного преобразования исходные признаки преобразу-
ются в совокупности величин y1 ,..., y p и y p 1 ,..., y p q , представленных в кано-
нической форме. Ковариационная матрица канонических случайных величин имеет следующий вид:
117
R1 0
.
E p |
. |
0 |
.
0 Rp
R1 0
.
. |
E p |
0 |
.
0 Rp
|
0 |
0 |
Eq - p |
|
|
||
|
|
|
|||||
Здесь E p и Eq - p – единичные матрицы порядка p и q - p ( p q ); |
|||||||
R1 |
– максимальный по абсолютной величине коэффициент корреляции |
||||||
|
между случайными величинами y1 |
и y p 1 , |
являющимися линей- |
||||
|
ными комбинациями |
множеств случайных |
величин x1 ,..., x p и |
||||
|
x p 1 ,..., x p q ; |
|
|
|
|
|
|
Ri |
– максимальный по абсолютной величине коэффициент корреляции |
||||||
|
между такими линейными комбинациями yi |
и y p i |
|
исходных мно- |
|||
|
жеств случайных величин x1 ,..., x p |
и x p 1 ,..., x p q , |
которые не кор- |
релированны с yi-1 и y p i-1 ( i 2, p ).
Метод главных компонентов
Метод главных компонентов используется для определения общих фак-
торов (компонентов), от которых зависит множество случайных значений не-
скольких изучаемых показателей. Он предполагает разложение изучаемой кор-
реляционной матрицы на независимые компоненты, число которых равно числу анализируемых переменных. В процессе анализа рассматриваются все компо-
118
ненты, но можно оценить удельный вес каждого из них и выбрать нужное коли-
чество наиболее существенных компонентов.
Факторный анализ
Факторный анализ является разделом многомерного статистического анализа. Главная задача факторного анализа заключается в снижении размер-
ности исследуемого многомерного признака. Предполагается, что большинство наблюдаемых или измеряемых показателей только косвенно характеризует за-
кономерности, присущие изучаемым явлениям (объектам), и что в действитель-
ности существует лишь небольшое число существенных параметров – факто-
ров, которые и определяют значения наблюдаемых показателей. Факторы, свя-
занные с одним показателем, называются характерными, с двумя и более – об-
щими, со всеми показателями – генеральными.
Основная модель факторного анализа (когда значение каждого показателя является результатом воздействия нескольких общих факторов и одного харак-
терного фактора) выглядит следующим образом:
|
m |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
y ji |
a jk |
fki v j g ji |
( i 1, N , |
j |
1,n |
) |
||
|
k 1 |
|
|
|
|
|
|
|
Здесь y ji – нормированное значение j-го показателя у i-го объекта исследования
|
|
|
x ji |
|
j |
|
|
|
|
|
|
|
|
|
||||
( y |
|
x |
, где x |
|
– исходное значение j-го показателя у i-го объекта |
|||||||||||||
ji |
s j |
ji |
||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
|
|
N |
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
исследования, |
x j – среднее значение j-го показателя, s j |
|
|
|
|
x ji |
||||||||||||
|
|
|
||||||||||||||||
n 1 |
||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
i 1 |
|
|
|||
– среднее квадратическое отклонение j-го показателя); |
|
|
|
|
|
|
||||||||||||
fki |
– значение k-го общего фактора на i-м объекте исследования; |
|
|
|
|
|||||||||||||
a jk |
– нагрузка j-го показателя на k-м общем факторе; |
|
|
|
|
|
|
|||||||||||
g ji |
– значение j-го характерного фактора на i-м объекте исследования; |
|
|
|||||||||||||||
v j |
– нагрузка j-го показателя на j-м характерном факторе. |
|
|
|
|
|
|
119
Дисперсионный анализ
С помощью дисперсионного анализа оценивается влияние качественных факторов (не поддающихся количественному измерению и представляемых возможными состояниями объекта исследования) на математическое ожидание случайной величины по характеристикам ее рассеяния (дисперсии).
В основе дисперсионного анализа лежит следующая формула:
σ2 σф2 σост2
(здесь σ2 – общая дисперсия, σф2 – дисперсия факториального комплекса,
σост2 – остаточная дисперсия).
Задача дисперсионного анализа решается с помощью разложения суммы квадратов отклонений наблюдаемых значений результативного признака от об-
щей средней на отдельные части, обусловливающие его изменение.
Ковариационный анализ
Ковариационный анализ применяется в тех случаях, когда в изучаемом процессе присутствуют одновременно качественные и количественные факторы.
Основные теоретические и прикладные проблемы ковариационного анали-
за решаются с использованием линейных моделей. Частные случаи сводятся к моделям дисперсионного и регрессионного анализа.
Кластерный анализ
Под кластерным анализом понимается совокупность многомерных ста-
тистических методов, предназначенных для формирования относительно отда-
ленных друг от друга групп однородных объектов по информации о расстояниях или связях между ними.
Различают две разновидности методов кластерного анализа: в первом слу-
чае кластеры ищут одновременно (вариационные методы, основанные на опти-
мизации того или иного показателя качества выявленной кластерной структуры,
и агломеративные методы, основанные на последовательном объединении пар наиболее близких кластеров), во втором – последовательно (методы, осно-
120