Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

СТАТИСТИКА (пособие 2012)

.pdf
Скачиваний:
67
Добавлен:
13.04.2015
Размер:
2.98 Mб
Скачать

фактора – параболическая

~

a b x c x

2

, гиперболическая

y

 

~

1

 

~

 

 

k

 

 

 

y

a b

 

, степенная

y

a

b x

 

и т.д.);

 

 

x

 

 

 

III.Количество факторов – однофакторная (парная модель, зависимость от

одного фактора) и многофакторная (многомерная модель, зависимость от двух и более факторов)

Уравнение зависимости, выраженное функцией (линейной или нелинейной) и описывающее зависимость условной средней результативного признака от одного факторного - уравнение парной корреляции, а описывающее зависимость результативного от нескольких факторных признаков - уравнение множественной корреляции.

Простейшим

уравнением парной корреляции является линейное

~

 

~

уравнение: y

a b x, где y - среднее значение результативного признака, b-

вариация результативного признака на единицу факторного, a- теоретическое значение результативного признака при значении факторного, равное 0 (x=0), что на практике чаще всего не имеет никакого экономического смысла.

Для вычисления параметров a и b решается система уравнений:

n a b x y

 

 

i

i

 

 

b x 2

x y

a x

 

i

i

i i

Можно применять для расчета параметров уравнения методы линейной алгебры (метод Крамера или метод Гаусса), опуская преобразования, получаем

формулу для расчета: b

(xi

x) ( yi

 

y)

, тогда на основе свойства

(x

x)

2

 

 

 

 

 

 

i

 

 

 

 

средней величины и представленного уравнения a y b x . Если значение b

положительно, то имеет место прямая связь (с увеличением одной переменной вторая увеличивается), и наоборот, если значение b отрицательно, то связь - обратная (с уменьшением одной переменной вторая увеличивается).

Оценка полученного уравнения может быть выполнена несколькими способами, так для линейного уравнения регрессии существует два основных приема: например, проверка равенства эмпирического коэффициента

детерминации и линейного коэффициента корреляции или расчет показателей ta

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

и t

 

( t

 

a

 

n 2

; t

 

b

 

n 2 x

) и проверка t -критерия (табличные

b

a

 

 

b

 

 

 

 

 

 

x

 

 

y

 

 

 

 

 

 

 

 

 

значения t -критерия значимости в зависимости от числа степеней свободы и допустимого уровня значимости - вероятность получения ошибки). Причем

обязательно выполнение следующего условия: ta >t> tb .

61

При линейной корреляционной связи применяют показатель силы связи между изучаемыми признаками - коэффициент корреляции, величина

коэффициента

 

корреляции колеблется в пределах:

1 rxy

1:

rxy

 

(xi x) ( yi

y)

.

 

 

n x

y

 

 

 

 

 

 

 

Шкала Чеддока для определения силы связи в зависимости от коэффициента корреляции

Величина

 

rxy

 

Характер связи

 

 

 

 

До 0,3

Практически отсутствует

0,3-0,5

Заметная

0,5-0,7

Умеренная

0,7-0,9

Сильная

0,9-0,999

Очень сильная

Для коэффициента корреляции также проверяется существенность, которая

определяется на основе расчета t -критерия значимости для tr ( t

 

r

n 2

 

,

r

1 r 2

 

 

 

 

 

 

 

 

 

 

 

( yi

~

 

2

 

 

 

 

причем tr>t). Коэффициент детерминации ( 2

1

yi

)

 

), выраженный

( y

i

y)2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

в процентах, показывает тесноту связи: какая часть результативного признака обусловлена изменениями факторного. Проверка адекватности построенной модели парной корреляции может быть выполнена сравнением коэффициента корреляции и эмпирического коэффициента детерминации , причем обязательно рассмотрение автокорреляции (взаимного влияния признаков друг на друга).

Рассмотрим пример: Установить зависимость затрат на ремонт и возраста станка, проверить адекватность аналитического выражения корреляционной связи, оценить направление, силу и тесноту связи.

Номер станка

Возраст станка, лет

Затраты на ремонт, тыс. руб.

 

 

 

1

4

1,5

2

5

2,0

3

6

3,6

4

7

4,0

5

8

4,7

6

9

4,8

7

10

5,1

62

8

11

6,6

7

 

 

6

 

 

5

 

 

4

 

 

3

 

 

2

1,5

 

 

 

1

 

 

0

 

 

4

 

 

Графическое изображение зависимости представленных в таблице

признаков позволяет предположить наличие линейной связи между ними (

~

a b x ). По тому, что график является восходящим, можно предположить

y

направление связи, как прямое, что обусловлено и экономическим смыслом представленных показателей.

Для расчета параметров в уравнении построим расчетную таблицу, учитывая, что представленные данные несгруппированы (для расчета средних значений фактора и результата используется средняя арифметическая простая).

Номер

Возраст

Затраты на

 

 

(xi x)

 

 

 

 

~

~

 

 

(x x)

2

 

 

 

( y

 

y)

2

 

станка,

ремонт, тыс.

 

( y

 

y)

i

 

y

( yi y)

станка

 

 

i

 

i

 

 

 

 

 

лет

руб.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

4

1,5

12,25

 

8,88

 

6,44

 

1,73

0,05

 

 

 

 

 

 

 

 

 

 

 

2

5

2,0

6,25

 

5,09

 

4,15

 

2,39

0,15

 

 

 

 

 

 

 

 

 

 

 

3

6

3,6

2,25

 

0,66

 

0,19

 

3,05

0,31

 

 

 

 

 

 

 

 

 

 

 

4

7

4,0

0,25

 

0,02

 

0,00

 

3,71

0,09

 

 

 

 

 

 

 

 

 

 

 

5

8

4,7

0,25

 

0,33

 

0,44

 

4,37

0,11

 

 

 

 

 

 

 

 

 

 

 

6

9

4,8

2,25

 

1,14

 

0,58

 

5,03

0,05

 

 

 

 

 

 

 

 

 

 

 

7

10

5,1

6,25

 

2,66

 

1,13

 

5,69

0,35

 

 

 

 

 

 

 

 

 

 

 

8

11

6,6

12,25

 

8,97

 

6,57

 

6,35

0,06

 

 

 

 

 

 

 

 

 

 

Итого

60,00

32,30

42,00

 

27,75

19,50

 

32,30

1,16

 

 

 

 

 

 

 

 

 

 

 

 

 

 

63

x

60

7,5(лет); y

32,3

4,04(тыс.руб.) .

8

8

 

 

 

 

 

Для расчета параметров линейного уравнения достроим соответствующие графы,

b

(xi x) ( yi

 

y)

=0,66,

 

a y b x =-0,92,

получили уравнение

(x x)

2

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

парной линейной

корреляции

~

0,92 0,66 x . Для

оценки адекватности

y

(соответствия) построенной модели необходимо рассчитать коэффициент корреляции и детерминации, в расчете которых используются теоретические значения условной средней, получаемые при подстановке в уравнение линейной корреляции значений результата значений.

Рассчитаем коэффициент корреляции rxy

 

 

(xi

x) ( yi

y)

=0,96969 и

 

 

 

 

 

 

 

 

 

(xi

x)

 

( yi y)

 

 

 

 

 

 

 

 

 

 

 

 

 

~

)

2

 

коэффициент детерминации

1

( yi yi

 

=0,96969, равенство rxy и

( y

i

y)2

 

 

 

 

 

 

 

позволяет сделать заключение об адекватности построенной модели и связи между признаками, из экономического смысла которых можно сделать заключение об отсутствии автокорреляции (затраты на ремонт не влияют на возраст станка). Значение коэффициента корреляции 0,96969 говорит об очень сильной связи между возрастом станка и затратами на его ремонт, причем

2 100% =94%, т.е. 94% затрат на ремонт зависит от возраста станка.

На практике изучаемый признак подвержен влиянию более, чем одного фактора, но часто существенным признаком является один, поэтому наибольшее распространение в построении моделей получила однофакторная модель.

5.3. Непараметрическое методы оценки связей атрибутивных признаков

Методы КРА не универсальны, они применяются для изучения взаимосвязи количественных признаков. Для исследования взаимосвязи атрибутивных признаков используют непараметрические методы. Оценка силы связи качественных признаков производится на базе коэффициентов ассоциации и контингенции, Пирсона-Чупрова.

Вспомогательная таблица для расчета коэффициента взаимной сопряженности

y

I

II

III

Всего

 

 

 

 

 

 

 

64

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

I.

 

nxy

 

nxy

nxy

 

nx

II.

 

 

 

III.

 

nxy

 

nxy

nxy

 

nx

 

 

n

xy

 

n

xy

n

xy

 

nx

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Итого

 

ny

 

ny

ny

 

n

 

 

 

 

 

nxy , ny , nx

- значения

соответствующих

категорий,

находящихся в

указанных местах. Для расчета коэффициентов Пирсона-Чупрова строятся таблицы сопряженности и рассчитываются коэффициенты взаимной сопряженности:

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

Пирсона ( K

п

 

 

 

) и Чупрова ( K

ч

 

 

 

 

 

 

 

 

 

 

),

где

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1 2

 

 

 

 

 

 

 

 

 

(K1 1) (K2 1)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

nxy2

 

 

 

- показатель взаимной сопряженности1 2

ny

, K1 – число значений

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

nx

 

(групп) первого признака, , K2 – число значений (групп) второго признака.

 

 

Коэффициент ассоциации K

 

 

ad bc

 

,

коэффициент контингенции

 

a

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ad

bc

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Kk

 

 

 

 

 

 

ad bc

 

 

 

 

 

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(a b)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(b d ) (a c) (c d )

 

 

 

 

 

 

 

 

 

 

 

Макет таблицы для расчета коэффициента ассоциации и контингенции

 

 

 

 

 

a

 

 

 

 

b

 

 

 

 

 

 

 

 

a+b

 

 

 

 

 

 

c

 

 

 

 

d

 

 

 

 

 

 

 

 

c+d

 

 

 

 

 

 

a+c

 

 

 

b+d

 

 

 

 

 

 

 

 

a+b+c+d

 

Пример. С помощью коэффициента взаимной сопряженности исследуем связь между себестоимостью продукции и накладными расходами на реализацию:

Накладные расходы

 

Себестоимость

 

Итого

Низкая

Средняя

 

Высокая

 

 

 

Низкие

19

12

 

9

40

Средние

7

18

 

15

40

Высокие

4

10

 

26

40

Итого:

30

40

 

50

120

65

 

 

192

 

122

 

92 72

 

182

 

152

42

 

 

102

 

 

262

 

1 2

 

30

 

40

 

50

 

30

 

40

 

50

 

 

30

 

40

 

50

= 0,431 + 0,356 +

 

 

 

 

 

 

 

 

 

 

 

 

40

 

 

 

 

 

40

 

 

 

 

 

40

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

+0,414=1,183 2

0,183 , тогда Кп=

 

 

 

 

0,155 =0,39, а Кч=0,31. Оба коэффициента

говорят о средней связи между себестоимостью и накладными расходами на реализацию.

При построении моделей регрессии должны соблюдаться следующие требования:

1.совокупность должна быть однородной и математически описываться непрерывными функциями;

2.факторный признак должен иметь количественное (цифровое) значение;

3.наличие достаточно большого объема исследуемой выборочной совокупности;

4.причинно-следственные связи должны описываться линейной или приводимой к линейной форме зависимостью;

5.отсутствие количественных ограничений на параметры модели связи;

6.постоянство территориальной и временной структуры изучаемой совокупности.

Соблюдение данных требований позволяет построить модель, наилучшим образом описывающую реальные процессы и явления.

Контрольные вопросы:

1.В чем состоит отличие функциональной и стохастической связи?

2.В чем достоинства и недостатки метода параллельных рядов и аналитических группировок?

3.Какие основные задачи решают с помощью корреляционного и регрессионного анализа?

4.Какие виды уравнений регрессии существуют?

5.Что называется корреляционной связью?

6.Какой признак в статистике является факторным?

7.Какой признак в статистике является результативным?

8.Какие коэффициенты используются для оценки связи атрибутивных признаков?

9.Какие формулы используются для расчета коэффициентов в линейном уравнении регрессии?

10.Можно ли строить уравнение парной корреляции для сгруппированных данных?

11.Что показывает коэффициент корреляции и коэффициент детерминации?

12.Для чего используется шкала Чеддока?

66

13.Каков экономический смысл параметров в уравнении линейной парной корреляции?

14.Какие приемы используются для оценки адекватности линейной регрессионной модели?

15.Охарактеризуйте основные проблемы и правила построения однофакторной линейной регрессионной модели.

16.Исследовалась социально-демографическая характеристика случайных потребителей наркотиков от их семейного положения в одном из регионов РФ (тыс.чел.):

Потребление

Семейное положение

замужем (женат)

не замужем (не женат)

 

Потреблял

10,5

14,5

Не потреблял

2,5

4,5

Рассчитайте коэффициенты ассоциации и контингенции, сформулируйте

выводы, вытекающие из полученных расчетов.

 

Тесты по теме

~

 

1.

 

0,52 3,16 x :

Что можно сказать о направлении связи y

а) связь прямолинейная;

 

 

б) связь прямая;

 

 

в) связь однофакторная;

 

 

г) связь криволинейная;

 

 

д) связь обратная.

 

 

2.

~

0,52 3,16 x :

Какой вид связи описан уравнением y

а) функциональная однофакторная связь; б) множественная корреляционная связь;

в) корреляционная криволинейная парная связь; г) корреляционная линейная парная связь.

3.Если rxy=-0,7, то, какова сила, направление и теснота связи:

а) связь отсутствует, так как коэффициент корреляции отрицателен; б) связь линейная, слабая, 49 % изменений результата происходит под влиянием фактора;

в) связь прямая, умеренная, 70% изменений результата происходит под влиянием фактора; г) связь обратная, сильная, 49 % изменений результата происходит под влиянием фактора.

4.Выберите верные утверждения:

а) стохастическая связь – вероятностным образом определенная связь; б) функциональная и жестко детерминированная связь разные типы связи;

67

в) функциональная и статистическая связь это одно и тоже; г) корреляционная связь – частный случай статистической;

д) уравнение регрессии описывает функциональный вид связи; уравнение регрессии описывает зависимость условной средней величины результата от фактора.

5.Коэффициенты, использующиеся для изучения связи только атрибутивных

признаков (выберите нужные): а) коэффициент ассоциации; б) коэффициент Пирсона-Чупрова;

в) коэффициенты взаимной сопряженности; г) коэффициент контингенции; д) коэффициент детерминации;

е) линейный коэффициент корреляции.

6.Метод, с помощью которого рассчитываются значения параметров уравнения регрессии:

а) метод параллельных рядов; б) метод наименьших квадратов;

в) метод аналитических группировок; г) метод оценки адекватности модели; д) метод сопоставления рядов.

ГЛАВА 6. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ДИНАМИКИ.

6.1. Понятие ряда динамики, классификация рядов

Динамическим рядом (рядом динамики, временным рядом) называются ряды изменяющихся во времени значений статистического показателя, расположенных в хронологическом порядке и описывающих процесс развития, движения социально-экономических явлений.

Ряд динамики – это последовательность упорядоченных во времени числовых показателей, характеризующих уровень развития изучаемого явления. Всякий ряд динамики включает, следовательно, два обязательных элемента: вопервых, время и, во-вторых, конкретное значение показателя, или уровень ряда. Относящиеся к отдельным периодам или датам значения признака - это уровни динамического ряда (yi),периоды или даты, за которые представлены значения показателя - это показатели времени (ti).

Существует следующая классификация рядов динамики:

I. По

II. По способу

III. По способу

IV. В

зависимости от

способу

выражения

выражения

наличия

выражения

показателей

временных

основной

уровней(yi)

времени (ti)

промежутков

тенденции

 

 

 

68

1. Ряд из

1. Интервальный

1. Ряд с

1. Стационарные

абсолютных

ряд

равноотстоящими

ряды.

величин

 

уровнями

 

2. Ряд из

2. Моментный

2.Ряд с не

2.

относительн

ряд.

равноотстоящими

Нестационарные

ых величин

 

уровнями.

ряды.

3. Ряд из

 

 

 

средних

 

 

 

величин.

 

 

 

I.По способу выражения уровней ряда. Ряды динамики, у которых уровни ряда представляют собой абсолютные величины (значения, характеризующие природные и потребительские свойства изучаемого явления или процесса), относительные величины (удельные веса, темпы роста и другие коэффициенты) и средние величины (результат обобщения какого-нибудь свойства изучаемого явления или процесса). Другими словами уровни ряда выражают количественную оценку (меру) развития во времени изучаемого явления;

II.По способу выражения показателей времени. Интервальный рядряд,

составленный из значений признака за периоды, моментныйряд, составленный из значений признака на определенную дату. В качестве показателей времени выступают либо определенные даты (моменты времени), либо отдельные периоды (годы, кварталы, месяцы, дни), т.е. уровни рядов могут относиться либо к определенным датам, либо к определенным периодам;

III.По способу выражения временных промежутков. Ряды с равноотстоящими уровнями – ряды, между уровнями которых проходит одинаковое количество времени, с неравноотстоящими – разное количество времени;

IV. В зависимости от наличия основной тенденции. Стационарные рядыряды,

у которых значения признака и дисперсия постоянны и не зависят от времени, нестационарныевсе остальные, на практике стационарные ряды встречаются крайне редко.

Графическим изображением ряда динамики являются диаграммы: линейные, столбиковые, ленточные, секторные и фигурные, наиболее часто встречаются столбиковые диаграммы (гистограммы).

Рассмотрим примеры рядов динамики:

1.Объем продаж долларов США на ММВБ, млн. долл.

Дата

09.01.08

11.01.08

12.01.08

13.01.08

69

Объем продаж

 

 

 

 

155

 

 

 

 

150

 

 

 

 

145

 

 

 

 

140

126,750

124,300

148,800

141,400

 

135

 

 

 

 

130 126,75

125

120

115

110

на 09.01.2008

На гистограмме проиллюстрированы значения объемов продаж (на оси y) и даты, на которые представлены объемы продаж долларов США на Московской международной валютной бирже (на оси x).

2. Индекс инфляции в текущем году (за период, в % к декабрю предыдущего года)

Период

Январь

Февраль

Март

Апрель

Май

Июнь

Индекс инфляции

126

162

190

221

264

310

В первом примере представлен моментный ряд динамики из абсолютных величин, с неравноотстоящими уровнями, во втором – интервальный, из относительных величин, с равноотстоящими уровнями.

Важнейшим условием правильного построения ряда динамики является сопоставимость всех входящих в него уровней, что достигается либо в процессе сбора данных, либо путем их пересчета. Несопоставимость может возникнуть:

-Вследствие изменений единиц измерения и единиц счета (нельзя сравнивать, например, объемы производства, если они представлены в одни годы в натуральных измерителях, а в другие – в стоимостных), показателей, имеющих разный экономический смысл (например, производство вида продукции, имеющего разное качество: молока

разной жирности в литрах и т.д.). В этом случае необходимо выполнить пересчет показателей:

Производство молока молокозаводом в текущем году характеризуется следующими цифрами (в литрах)

Наименование продукции

Январь

Февраль

Март

 

 

 

 

70