Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

2117

.pdf
Скачиваний:
2
Добавлен:
15.11.2022
Размер:
1.18 Mб
Скачать

отвергается. Вероятность наступления этого события должна быть равна P(K ) .

В результате проверки статистических гипотез могут возникнуть следующие ситуации:

гипотеза H0 неверна и отклоняется;

гипотеза H0 верна, но ошибочно отклоняется (ошибка

первого рода);

– гипотеза H0 неверна, но ошибочно не отклоняется

(ошибка второго рода);

– гипотеза H 0 верна и не отклоняется.

Чаще всего в статистике проверяются следующие типы гипотез:

соответствие закона распределение исследуемой выборки выбранному теоретическому закону;

принадлежность двух или более выборок одной генеральной совокупности (т.е. равенство свойств выборок);

проверка числовых значений характеристик случайной выборки.

Контрольные вопросы

1.Что такое математическая статистика? Какие ее основные задачи?

2.Что такое генеральная совокупность? Какие требования предъявляются к выборке из генеральной совокупности?

3.Чем относительные показатели отличаются от абсолютных?

4.Что такое вариационный и статистический ряд? Какие частотные характеристики имеют элементы рядов? Чем дискретный ряд отличается от интервального?

5.Какие диаграммы применяются для изображения статистических данных?

6.Какими численными характеристиками описывается центр распределения, степень вариации, форма распределения?

21

Как определить симметричность

и островершинность

распределения?

 

7.Что такое функция распределения и плотность распределения значений выборки? Для описания каких статистических рядов они чаще всего используются?

8.Что такое статистическая гипотеза? Какие этапы включает процедура проверки гипотез?

22

2. МЕТОДЫ АНАЛИЗА СТАТИСТИЧЕСКИХ СВЯЗЕЙ В РЕЗУЛЬТАТАХ НАБЛЮДЕНИЙ

2.1. Классификация

признаков

исследуемых

объектов и связей между ними

 

 

Как правило, объекты или процессы, исследуемые с помощью методов статистического анализа, характеризуются множеством параметров или признаков, возможно, связанных между собой.

В зависимости от шкалы измерения признаки объекта относятся к одной из следующих групп:

количественные – позволяют определить степень проявления изучаемого свойства в принятых единицах измерения (денежный доход, возраст, количество единиц, время выполнения и др.);

порядковые (ординальные) – позволяют отнести анализируемые объекты к одному из классов в зависимости от степени проявления в объектах изучаемого свойства, при этом классы образуют упорядоченную последовательность (уровень образования – среднее, среднее специальное, высшее, квалификационный разряд работника – 1, 2, 3 и т.д.);

качественные (классификационные, номинальные) –

разделяют объекты на неподдающиеся упорядочению классы (профессия работника, отрасль промышленности, вероисповедание и др.).

Для изучения взаимосвязей все параметры или признаки изучаемых объектов разделяют на два класса:

факторные – влияют на изменение других связанных

сними признаков;

результативные – изменяются под действием факторных признаков.

Выделяют следующие виды зависимости между признаками объектов:

парная – связь между двумя признаками (результативным и факторным или двумя факторными);

23

частная – зависимость между результативным и одним факторным признаком при фиксированных значениях других факторных признаков;

множественная – зависимость результативного и двух или более факторных признаков.

При анализе связей между признаками исследуемых объектов и явлений могут использоваться следующие методы статистического анализа:

корреляционный анализ – используется для решения задач установления степени связи между признаками;

регрессионный анализ – применяется в случае необходимости установления количественной зависимости между признаками в аналитическом виде;

дисперсионный анализ – применяется для исследования влияния на результативную переменную одного или нескольких качественных признаков.

2.2. Корреляционный анализ экспериментальных данных

Корреляционный анализ – это метод анализа,

позволяющий сделать вывод о степени статистической зависимости между признаками исследуемого объекта или явления.

Задачами корреляционного анализа являются:

установления наличия связи между исследуемыми признаками;

определение структуры связи;

количественное измерение степени связи. Предварительная оценка структуры связи между

исследуемыми признаками осуществляется с помощью корреляционного поля.

Корреляционное поле (диаграмма рассеяния) двух признаков X и Y – графическое изображение множества точек

(xi , yi ) , i 1,...,n , на плоскости (X, Y) .

24

По корреляционному полю можно сделать вывод о наличии связи между исследуемыми признаками и ее характере (прямая, обратная).

Различные варианты корреляционного поля показаны на

рис. 6.

y

y

y

 

 

 

 

x

x

 

x

 

 

 

 

 

а

б

в

Рис. 6. Корреляционное поле, отражающее линейную независимость (а), прямую (б) и обратную (в) связь двух

переменных

Для измерения степени связи между количественными признаками чаще всего используется выборочный парный коэффициент корреляции Пирсона (коэффициент корреляции), вычисляемый по формуле

 

 

n

 

 

 

 

 

 

 

 

xi

x

yi y

 

 

 

r

 

i 1

 

 

 

 

 

.

 

 

 

 

 

 

 

n

2

 

n

2

 

 

 

 

 

 

 

x x

 

y y

 

 

 

 

i

 

 

i

 

 

 

 

 

i 1

 

 

i 1

 

 

 

В общем случае коэффициент корреляции принимает значения в интервале [ 1, 1] . Степень взаимосвязи между признаками может быть оценена качественно по табл. 4.

25

Таблица 4

 

Значения коэффициента

Качественная оценка

 

 

корреляции

 

линейной связи

 

 

0

 

r

 

 

 

0.3

 

практически

 

 

 

 

 

 

 

 

 

 

 

 

 

 

отсутствует

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0.3

 

 

r

 

 

0.5

 

слабая

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0.5

 

 

r

 

0.8

 

умеренная

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0.8

 

 

 

 

 

r

 

1

 

сильная

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Если r

0 ,

 

 

 

то

связь

между признаками

прямая

(положительная), при r

0 связь обратная (отрицательная).

Коэффициент

 

корреляции используется для

оценки

степени связи признаков, имеющих нормальное распределение, и если зависимость между ними близка к линейной. Если данные условия не выполняются, то малые значения

коэффициента корреляции означают, что

рассматриваемые

признаки являются некоррелированными,

но

при этом

допускается наличие между ними нелинейной зависимости. Пример. Определить степень связи между курсом

доллара и стоимостью персональных компьютеров, исходные данные приведены в табл. 5.

 

Таблица 5

 

 

 

Курс доллара, руб.

Стоимость ПК, тыс. руб.

 

45

15

 

50

18

 

55

20

 

60

24

 

65

27

 

Построим корреляционное поле, отображающее зависимость результирующего признака (стоимости ПК) от факторного (курса доллара) (рис. 7).

26

Рис. 7. Пример корреляционного поля

По графику можно сделать вывод, что стоимость ПК находится в сильной линейной зависимости от курса доллара, т.к. точки образуют практически прямую линию и данная зависимость является прямой (стоимость увеличивается с ростом курса).

Определим значение коэффициента корреляции с учетом средних величин x 55 , y 20.8 : r 0.996 , что

подтверждает сильную положительную связь между двумя исследуемыми признаками.

Если исследуемый объект характеризуется несколькими признаками и необходимо оценить степень попарной зависимости для них всех, то для удобства формируется корреляционная матрица – квадратная матрица, элементами которой являются коэффициенты корреляции rij между i–м и j–

м признаками:

 

 

 

 

 

1

r12

...

r1n

R

r21

1

...

r2n .

 

... ... ... ...

 

rn1

rn2

...

1

 

 

27

 

 

С учетом того, что rij rji , корреляционная матрица

является симметричной относительно главной диагонали. Большие значения коэффициента корреляции

свидетельствуют о наличии тесной связи между признаками x и y. Однако такая связь может быть опосредованной, когда рассматриваемые признаки одновременно изменяются под влиянием некого параметра z.

Рассмотрим случай, когда исследуемые объекты характеризуется тремя признаками, т.е. выборка с наблюдениями имеет вид

x1 y1 z1

x2 y2 z2 .

... ... ...

xn yn zn

Для оценки связи между признаками x и y без учета влияния параметра z, т.е. при z const , используется частный коэффициент корреляции, определяемый по формуле

r12.3

 

r12

r13r23

 

,

 

 

 

 

1 r2

1 r2

 

 

13

23

 

 

где r12 , r13 , r23 – частные парные коэффициенты корреляции между признаками x и y, x и z, y и z, соответственно, обозначение r12.3 показывает, что коэффициент вычисляется в

предположении, что 3–я выборка постоянна.

В трехмерной модели могут быть вычислены частные коэффициенты r12.3 , r13.2 и r23.1.

Если необходимо определить степень связи между признаком x и остальными признаками y и z, то используется

множественный коэффициент корреляции, который для случая трех выборок определяется следующим образом:

r

r 2

r 2

2r r r

,

12

13

12 13 23

1.23

 

1

r 2

 

 

 

 

 

 

 

23

 

28

где запись r1.23 означает, что вычисляется степень зависимости

первого признака от остальных (второго и третьего).

Для трехмерной модели вычисляются множественные коэффициенты корреляции r1.23 , r2.13 и r3.12 .

В случае если распределение хотя бы одного из рассматриваемых количественных признаков отличается от нормального или если хотя бы один из изучаемых признаков порядковый, то для анализа связи между признаками применяется коэффициент ранговой корреляции Спирмена,

вычисляемый по формуле:

 

 

6

 

n

 

y 2 .

s 1

 

 

 

x

 

 

 

 

 

n3

 

n i 1

i

i

Для порядковых переменных в качестве массивов x и y могут выступать ранги, присваиваемые некоторому набору объектов разными экспертами в зависимости от степени проявления изучаемого свойства. Но приведенная формула справедлива только для случая, когда в массивах x и y все ранги различны. В противном случае элементам ряда присваиваются порядковые номера в соответствии с их рангами и для значений с одинаковыми рангами номер заменяется на среднее арифметическое порядковых номеров. Вычисленные таким образом ранги называются связанными.

Коэффициент Спирмена для случая связанных рангов определяется следующим образом:

 

 

1

 

 

n

 

 

2

 

 

 

 

 

 

 

n3

n

 

x

y

T

T

 

 

 

 

 

 

 

 

6

 

 

 

 

i

 

i

x

y

s

 

 

 

i

1

 

 

 

 

 

 

 

 

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

n3

 

 

 

 

1

 

n3

 

 

 

 

 

n 2T

 

n 2T

 

 

 

 

 

 

 

 

6

 

 

x

6

 

 

 

y

 

 

 

 

 

 

 

 

 

 

 

 

 

где Tx , Ty – величины, рассчитываемые для выборок x и y, соответственно, по формуле

T

1 K

t3

t

 

,

 

 

k

 

12 k

k

 

 

 

1

 

 

 

29

где K – число групп с одинаковыми рангами в выборке, tk – число элементов, входящих в k–ю группу с одинаковыми

рангами.

 

 

 

 

Пример.

Двум

экспертам

было

предложено

проранжировать 5 моделей станков с точки зрения их эффективности. Получилось две ранжировки (1, 1, 2, 3, 4) и

(1, 2, 2, 3, 3) . Необходимо определить степень корреляции

между оценками экспертов.

Поскольку в ранжировках есть одинаковые значения, то сначала приведем их к нужному виду. Для этого упорядочим все элементы в соответствии с их рангами и значениям с неразличимыми рангами присвоим среднее арифметическое

порядковых номеров, получим ранжировки

(1.5, 1.5, 3, 4, 5)

и

(1, 2.5, 2.5, 4.5, 4.5) . Вычислим коэффициент

Спирмена

по

следующим формулам:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

T

1

23

 

2

0.5 ,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

12

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

T

1

23

2

 

 

23

2

1,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

12

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

53

5

 

1.5

1 2 ...

 

 

5

4.5 2

0.5 1

s

6

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

53

5

 

2 0.5

 

 

1

53

5

2 1

 

 

 

 

 

 

 

 

 

 

6

 

 

6

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Такое значение коэффициента свидетельствует о сильной положительной корреляции между оценками экспертов.

0.892 .

корреляции

ранговой

2.3. Регрессионный анализ

Коэффициент корреляции позволяет оценить наличие линейной зависимости между признаками исследуемого объекта и определить степень ее проявления. Однако для практического использования результатов статистического анализа (моделирования, прогнозирования и т.д.) необходимо

30

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]