Скачиваний:
40
Добавлен:
07.06.2015
Размер:
2.35 Mб
Скачать

 

 

 

 

 

 

 

 

 

 

 

 

нием множества вероятностей

 

 

 

 

, где Pi

– вероятность осуществле-

 

 

Pi

i 1,n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

ния события x

 

( i 1,n )

 

и P 1).

i

( P P ξ x

 

 

 

 

 

i

 

i

i 1 i

Зная функцию распределения случайной величины ξ , можно определить

вероятность попадания ξ в любой интервал [ a , b ) :

 

 

 

 

 

P a ξ b F(b) F(a).

Неотрицательная функция

p ( x) , при всех значениях x удовлетворяющая

условию

величины

x

F ( x) p (z)d z , называется плотностью распределения случайной

ξ. Очевидно, что P a ξ b p (z) d z .

ab

x

Случайная величина, удовлетворяющая условию F ( x) p (z)d z , назы-

вается непрерывной.

Совокупность случайных величин ξ1 , ..., ξn называется многомерной слу-

чайной величиной. Закон распределения n-мерной случайной величины ξ n со-

вместного распределения случайных величин ξ1 , ..., ξn – задается n -мерной

функцией распределения F ( x1

 

x1

 

,..., xn ) P ξ 1

,..., ξ n xn .

 

 

 

 

Вероятность попадания двумерной случайной величины ξ 2 (ξ1 , ξ 2 ) в

прямоугольник

 

 

 

x2

b2

ξ 2

a2

a1

1

1

определяется по формуле:

111

 

ξ1

b1 , a2

ξ 2

b2

 

F (b1

,b2 ) F (b1 ,a2 ) F (a1 ,b2 ) F (a1

,a2 ) .

P a1

 

 

 

 

 

 

 

 

 

 

Случайные величины η и ξ называются независимыми, если закон рас-

пределения одной из них не зависит от того, какое значение приняла другая 54.

Вероятность совместного осуществления двух независимых случайных со-

бытий X и Y равна произведению вероятностей осуществления каждого из этих событий:

P( X,Y ) P( X ) P(Y ) .

В случае зависимых событий приходится применять другие, более слож-

ные, формулы:

P( X,Y ) P( X ) P(Y / X ) или P( X,Y ) P(Y ) P( X /Y ) ,

где P(Y / X ) и P( X /Y ) – условные вероятности наступления события Y , если произошло событие X , и события X , если произошло событие Y .

Условная функция распределения случайной величины η относительно случайной величины ξ обозначается через F( y / x ) , условная плотность распре-

деления – через p( y / x) .

Основными числовыми характеристиками случайной величины являются функционалы распределения ее вероятностей – математическое ожидание

M(ξ ) (среднее значение случайной величины) и дисперсия D(ξ ) M(ξ M(ξ ))

(рассеяние значений случайной величины около ее математического ожидания):

непрерывный случай

Математическое

 

 

 

 

 

M( ξ ) x dF ( x) x p ( x) d x

ожидание

 

 

 

 

 

 

 

 

 

 

 

 

Дисперсия

 

 

 

 

 

 

 

 

 

 

D(ξ ) ( x M( ξ ))2 p ( x) d x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

, i 1,n или i 1, )

(Здесь P P ξ x

 

i

 

i

 

 

 

 

 

дискретный случай

M(ξ ) xi Pi

i

D(ξ ) ( xi M( ξ ))2 Pi

i

54 Очевидно, что если η не зависит от ξ , то и ξ не зависит от η .

112

При

достаточно

большом числе

испытаний n можно считать, что

 

 

 

n

 

 

1

n

 

D(ξ )

1

 

( xi xср )2 ,

где

xср

xi

среднее арифметическое значение

 

 

 

n i 1

 

 

n i 1

 

случайной величины ξ .

 

 

 

 

 

 

 

 

 

Величина σξ

D(ξ )

называется среднеквадратическим отклонением

случайной величины ξ .

Совместное математическое ожидание M( ξ , η) двух непрерывных слу-

чайных величин ξ и η с совместной плотностью распределения p( x, y) вы-

числяется по формуле

 

 

 

 

 

 

M( ξ , η)

x

y p( x, y) dx dy .

 

 

 

 

 

 

 

 

В дискретном случае, когда случайные величины ξ

и η задаются набо-

рами их возможных значений x , ... , x

и y , ... , y

и вероятностями

Pij совме-

1

n

1

n

 

 

стного осуществления случайных событий xi и

y j ( Pij

 

 

P ξ xi

, η y j ),

 

 

 

 

 

 

M( ξ, η) определяется следующим образом:

 

 

 

M( ξ, η) xi y j Pij .

 

 

 

i

j

 

 

 

Методы статистического анализа

Для исследования массовых случайных явлений (процессов) по результа-

там наблюдений и экспериментов применяются методы статистического

анализа [17, 37]. К наиболее известным методам статистического анализа

относятся:

регрессионный анализ;

корреляционный анализ;

канонический анализ;

метод главных компонентов;

факторный анализ;

дисперсионный анализ;

113

ковариационный анализ;

кластерный анализ;

дискриминантный анализ.

Регрессионный и корреляционный анализ

Для выявления функциональной зависимости между двумя или более пе-

ременными по экспериментальным данным используют методы регрессионного

и корреляционного анализа. Регрессионный анализ помогает построить, исходя из экспериментальных данных, аппроксимирующую функцию (функцию рег-

рессии, регрессионную модель), соответствующую исследуемой зависимости, а

корреляционный анализ – проверить, насколько хорошо экспериментальные данные согласуются с этим уравнением.

На практике чаще всего используются следующие аппроксимирующие

функции:

 

 

 

 

 

 

 

 

 

 

 

 

y a0 a1 x

 

 

 

 

 

прямая линия

y a

 

a

x a

 

 

x 2

 

 

парабола

 

 

0

 

1

 

 

2

 

 

 

 

 

y a

 

a x a

 

x2

... a

n

xn

парабола n - ной степени

0

 

1

2

 

 

 

 

 

y

 

 

1

 

 

 

 

 

 

 

гипербола

a a

x

 

 

 

 

 

 

 

 

 

 

0

 

1

 

 

 

 

 

 

 

 

 

y a b

x

 

 

 

 

 

 

 

экспонента

 

 

 

 

 

 

 

 

 

 

y a0 a1 lg x

 

 

 

 

 

логарифмическая кривая

Под приближением аппроксимирующей кривой к экспериментальным данным понимается процесс вычисления констант и параметров аппроксими-

рующей функции таким образом, чтобы сумма квадратичных отклонений была минимальной.

Регрессионные модели делятся на 1) однопараметрические (описываю-

щие зависимость исследуемой переменной от одного регрессора) и многопара-

метрические (от нескольких регрессоров) и 2) линейные (относительно регрес-

соров) и нелинейные (относительно регрессоров и параметров).

114

Простейшая линейная однопараметрическая регрессионная модель имеет

следующий вид:

 

 

 

y a0 a1 x ε ,

 

 

 

 

 

 

 

 

где y функция регрессии, x – независимая переменная регрессор (фактор),

ε

– случайная ошибка.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

По имеющимся экспериментальным данным значения коэффициентов a0

и

a1 вычисляются следующим образом:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

( y

) ( x 2 ) ( x

) ( x

i

y

j

)

 

 

 

 

i

i

i

 

 

 

 

 

 

 

 

a0

 

i

i

i

 

 

i

j

 

 

 

 

 

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n x 2

( x

)2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

i

i

 

 

 

 

 

 

 

 

 

 

 

 

n xi y j ( xi ) ( xi y j )

 

 

 

a1

 

i

j

i

 

i

 

j

 

 

 

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n x 2

( x

)2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

i

i

 

 

 

 

 

 

 

 

 

 

 

Задача регрессионного анализа решается и тогда, когда исследуемые пока-

затели не являются случайными величинами.

Одним из важнейших понятий математической статистики является корре-

ляция. В самом общем случае под корреляцией понимается связь между явле-

ниями, когда одно из них входит в число причин, определяющих другие, или ко-

гда имеются общие причины, воздействующие на эти явления. Однако чаще все-

го корреляцией называется вероятностная (стохастическая) зависимость между случайными величинами, не имеющая строго функционального характера (в от-

личие от функциональной корреляционная связь проявляется не в каждом кон-

кретном случае, а лишь в среднем при достаточно большом числе наблюдений).

Из показателей, характеризующих зависимость между случайными вели-

чинами ξ и η , наиболее известны ковариация (корреляционный момент)

COV ( ξ , η) и коэффициент корреляции COR( ξ , η):

 

 

 

 

 

 

 

 

 

M( ξ, η) M( ξ ) M( η) ,

COV ( ξ , η) M ξ M( ξ )

η M( η)

 

 

 

 

 

 

 

 

 

 

 

 

115

 

 

 

 

COR( ξ , η)

COV( ξ , η)

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

σξ ση

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

В непрерывном случае COV( ξ , η)

 

 

 

 

p( x, y) dx dy ,

x M( ξ )

y M( η)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

в дискретном – COV( ξ, η)

 

 

 

 

 

 

 

 

 

 

Pij .

 

xi M( ξ )

y j

M( η)

 

 

 

 

 

 

i j

 

 

 

 

 

 

 

 

 

 

 

 

 

Очевидно, что при любых ξ

и η

 

 

 

 

 

 

 

 

 

 

 

 

 

COR( ξ , η)

 

1 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1 тогда и только тогда,

 

 

При этом

COR( ξ , η)

когда η линейно зависит

 

 

 

σξ

 

 

 

 

 

 

 

 

 

 

 

 

 

от ξ :

η COR( ξ , η)

 

ξ M( ξ )

M( η).

 

 

 

 

 

 

 

ση

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Случайные величины, коэффициент корреляции которых равен 0, называ-

ются некоррелированными. Некоррелированные величины являются независи-

мыми.

Связь в одном случайном процессе называется автокорреляцией, связь

между процессами – кросс-корреляцией.

Функция, характеризующая степень связи значений случайного процесса

ξ (t ) в моменты времени t1 и t2

, называется автокорреляционной функцией:

 

 

 

 

 

Rξ ξ (t1

 

 

, t2 ) M ξ ( t1 ) mξ ( t1 )

ξ ( t2 ) mξ ( t2 ) .

 

 

 

 

 

 

 

 

 

 

Функция, характеризующая степень связи между значениями двух случай-

ных процессов ξ (t ) и η(t ) в моменты времени t1

и t2 , называется взаимной

корреляционной функцией:

 

 

 

 

 

 

 

 

Rξ η (t1

 

 

, t2 ) M ξ ( t1 ) mξ ( t1 )

η( t2 ) mη ( t2 ) .

 

 

 

 

 

 

 

 

 

 

С помощью измерения статистической связи между изучаемыми явления-

ми можно определить, как повлияло бы на функцию изменение одного из ее ар-

116

гументов, если бы другие аргументы оставались неизменными, и оценить сте-

пень искажающего влияния посторонних факторов на изучаемую зависимость.

Установить наличие или отсутствие связи между изучаемыми явлениями или величинами, а также количественно оценить уровень этой связи позволяет

корреляционный анализ. С его помощью можно определить, в какой мере изме-

нение исследуемого показателя обусловлено влиянием другого показателя.

Основные задачи корреляционного анализа заключаются в оценке корре-

ляционных характеристик (ковариации и коэффициента корреляции) и про-

верке статистических гипотез о значимости связи между случайными величина-

ми.

С достаточной степенью точности эти задачи решаются лишь в ситуациях,

когда исследуемые показатели можно рассматривать как случайные величины.

Поскольку в социально-экономических исследованиях это условие, как правило,

не выполняется, методы корреляционного анализа применяются лишь на пред-

варительных стадиях исследования, а окончательные выводы делаются на осно-

ве методов регрессионного анализа.

Различают параметрический и непараметрический корреляционный анализ: в первом случае предполагается, что закон распределения анализируе-

мых данных известен (как правило, для этого анализируемые величины должны быть распределены по нормальному закону), во втором случае анализ проводит-

ся без использования этой информации.

Канонический анализ

Канонический анализ (анализ канонических корреляций) применяется при исследовании структуры корреляционных связей между двумя совокупно-

стями случайных величин – случайными векторами x1 ,..., x p и x p 1 ,..., x p q

( p q ). С помощью линейного преобразования исходные признаки преобразу-

ются в совокупности величин y1 ,..., y p и y p 1 ,..., y p q , представленных в кано-

нической форме. Ковариационная матрица канонических случайных величин имеет следующий вид:

117

R1 0

.

E p

.

0

.

0 Rp

R1 0

.

.

E p

0

.

0 Rp

 

0

0

Eq - p

 

 

 

 

 

Здесь E p и Eq - p – единичные матрицы порядка p и q - p ( p q );

R1

– максимальный по абсолютной величине коэффициент корреляции

 

между случайными величинами y1

и y p 1 ,

являющимися линей-

 

ными комбинациями

множеств случайных

величин x1 ,..., x p и

 

x p 1 ,..., x p q ;

 

 

 

 

 

Ri

– максимальный по абсолютной величине коэффициент корреляции

 

между такими линейными комбинациями yi

и y p i

 

исходных мно-

 

жеств случайных величин x1 ,..., x p

и x p 1 ,..., x p q ,

которые не кор-

релированны с yi-1 и y p i-1 ( i 2, p ).

Метод главных компонентов

Метод главных компонентов используется для определения общих фак-

торов (компонентов), от которых зависит множество случайных значений не-

скольких изучаемых показателей. Он предполагает разложение изучаемой кор-

реляционной матрицы на независимые компоненты, число которых равно числу анализируемых переменных. В процессе анализа рассматриваются все компо-

118

ненты, но можно оценить удельный вес каждого из них и выбрать нужное коли-

чество наиболее существенных компонентов.

Факторный анализ

Факторный анализ является разделом многомерного статистического анализа. Главная задача факторного анализа заключается в снижении размер-

ности исследуемого многомерного признака. Предполагается, что большинство наблюдаемых или измеряемых показателей только косвенно характеризует за-

кономерности, присущие изучаемым явлениям (объектам), и что в действитель-

ности существует лишь небольшое число существенных параметров – факто-

ров, которые и определяют значения наблюдаемых показателей. Факторы, свя-

занные с одним показателем, называются характерными, с двумя и более – об-

щими, со всеми показателями – генеральными.

Основная модель факторного анализа (когда значение каждого показателя является результатом воздействия нескольких общих факторов и одного харак-

терного фактора) выглядит следующим образом:

 

m

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y ji

a jk

fki v j g ji

( i 1, N ,

j

1,n

)

 

k 1

 

 

 

 

 

 

 

Здесь y ji – нормированное значение j-го показателя у i-го объекта исследования

 

 

 

x ji

 

j

 

 

 

 

 

 

 

 

 

( y

 

x

, где x

 

– исходное значение j-го показателя у i-го объекта

ji

s j

ji

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

N

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

исследования,

x j – среднее значение j-го показателя, s j

 

 

 

 

x ji

 

 

 

n 1

 

 

 

 

 

 

 

 

 

 

 

 

 

i 1

 

 

– среднее квадратическое отклонение j-го показателя);

 

 

 

 

 

 

fki

– значение k-го общего фактора на i-м объекте исследования;

 

 

 

 

a jk

– нагрузка j-го показателя на k-м общем факторе;

 

 

 

 

 

 

g ji

– значение j-го характерного фактора на i-м объекте исследования;

 

 

v j

– нагрузка j-го показателя на j-м характерном факторе.

 

 

 

 

 

 

119

Дисперсионный анализ

С помощью дисперсионного анализа оценивается влияние качественных факторов (не поддающихся количественному измерению и представляемых возможными состояниями объекта исследования) на математическое ожидание случайной величины по характеристикам ее рассеяния (дисперсии).

В основе дисперсионного анализа лежит следующая формула:

σ2 σф2 σост2

(здесь σ2 – общая дисперсия, σф2 – дисперсия факториального комплекса,

σост2 – остаточная дисперсия).

Задача дисперсионного анализа решается с помощью разложения суммы квадратов отклонений наблюдаемых значений результативного признака от об-

щей средней на отдельные части, обусловливающие его изменение.

Ковариационный анализ

Ковариационный анализ применяется в тех случаях, когда в изучаемом процессе присутствуют одновременно качественные и количественные факторы.

Основные теоретические и прикладные проблемы ковариационного анали-

за решаются с использованием линейных моделей. Частные случаи сводятся к моделям дисперсионного и регрессионного анализа.

Кластерный анализ

Под кластерным анализом понимается совокупность многомерных ста-

тистических методов, предназначенных для формирования относительно отда-

ленных друг от друга групп однородных объектов по информации о расстояниях или связях между ними.

Различают две разновидности методов кластерного анализа: в первом слу-

чае кластеры ищут одновременно (вариационные методы, основанные на опти-

мизации того или иного показателя качества выявленной кластерной структуры,

и агломеративные методы, основанные на последовательном объединении пар наиболее близких кластеров), во втором – последовательно (методы, осно-

120