Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Социальная статистика методичка.doc
Скачиваний:
0
Добавлен:
01.07.2025
Размер:
1.01 Mб
Скачать

Контрольные вопросы

  1. Дисперсия – смысл показателя и метод расчета.

  2. Среднее квадратическое отклонение. Правило трех сигм.

  3. Коэффициент вариации. Его интерпретация.

  4. Эмпирическое корреляционное отношение как мера влияния группировочного признака.

5. Изучение корреляционных взаимосвязей

Один из наиболее общих законов объективного мира — закон всеобщей связи и зависимости между явлениями. Естественно, что, исследуя явления в самых различных областях, статистика неиз­бежно сталкивается с зависимостями, как между количественными, так и между качественными показателями, признаками. Ее зада­ча — обнаружить (выявить) такие зависимости и дать их количест­венную характеристику.

Среди взаимосвязанных признаков одни могут рассматриваться как определенные факторы, влияющие на изменение других, а вто­рые — как следствие, результат влияния первых. Соответственно, признаки, влияющие на изменение других, называют факторными, а вторые — результативными.

Следует различать два вида связи: функциональную и стохастическую (ста­тистическую), частным случаем которой является корреляционная связь.

Связь между двумя переменными х и у называется функциональ­ной, если определенному значению переменной х строго соответ­ствует одно или несколько значений другой переменной у, и с из­менением значения х значение у меняется строго определенно. Например, при простой сдельной оплате труда связь между оплатой труда у и количеством изготовленных изде­лий х при фиксированной расценке за одну деталь, например 5 руб., легко выразить формулой у = 5х.

Существуют и иного рода связи, встречающиеся в области эко­номических явлений, где взаимно действуют многие факторы, комбинация которых приводит к вариации зна­чений результативного признака при одинаковом значении фак­торного признака. Например, при изучении зависимости урожайности опре­деленной культуры от количества выпавших осадков (или внесен­ных в почву удобрений) последние будут рассматриваться как фак­торный признак, а урожайность — как результативный. Между ними нет жесткой связи, т.е. при одном и том же количестве выпавших осадков (или внесенных удобрений) уро­жайность в разных хозяйствах, на разных участках земли будет не­одинаковой, так как кроме осадков (или удобрений) на урожай­ность влияет много других факторов (качество семян, густота посева, уход за посевами, своевременность уборки и др.), комби­нация которых вызывает вариацию урожайности.

Там, где взаимодействует множество факторов, в том числе и случайных, выявить зависимости, рассматривая единичный случай, невозможно.

Такие связи можно обнаружить только при массовом наблюде­нии как статистические закономерности (на основе изучения осо­бенностей распределения, поведения средних и других показате­лей). Выявленная таким образом связь именуется стохастической или статистической.

Корреляционная связь — понятие более узкое, чем статистиче­ская связь, это частный случай статистичес­кой (стохастической) связи. Предметом изучения статистики являются в основном стохас­тические и корреляционные связи. Корреляционная связь отражает особенность за­висимости, при которой определенному значению одного фактор­ного признака может соответствовать несколько значений резуль­тативного показателя. На основе этих значений можно определить среднюю величину последнего, соответствующую каждому кон­кретному значению факторного признака.

Связь, проявляющаяся при большом числе наблюдений в виде определенной зависимости между средним значением результатив­ного признака и признаками-факторами, называется корреляционной. То есть корреляционную связь условно можно рассмат­ривать как функциональную связь средней величины одного признака со значением другого (или других). При этом, если рассматривается связь средней величины результативного показа­теля у с одним признаком-фактором х, корреляция называется парной, а если факторных признаков два и более (х1, х2, ..., хт) множественной.

По характеру изменений х и у в парной корреляции различают прямую и обратную связь.

При прямой зависимости значения обоих признаков изменяют­ся в одном направлении, т.е. с увеличением значений х увели­чиваются и значения у, с уменьшением значений факторного при­знака уменьшаются и значения результативного признака. Например, с ростом годового дохода в семье увеличивается (при прочих равных условиях) сумма сбережений за год или при умень­шении расхода электроэнергии на единицу продукции снижается себестоимость продукции.

При обратной зависимости значения факторного и результатив­ного признаков изменяются в разных направлениях: например, при росте производительности труда себестоимость единицы про­дукции снижается или при снижении себестоимости продукции прибыль на предприятиях увеличивается и т.п.

Изучение корреляционных связей сводится в основном к реше­нию следующих задач:

• выявление наличия (или отсутствия) корреляционной связи между изучаемыми признаками. Эта задача может быть ре­шена на основе параллельного сопоставления (сравнения) значений х и у у п единиц совокупности;

• измерение тесноты связи между двумя (и более) признаками с помощью специальных коэффициентов. Эта часть иссле­дования именуется корреляционным анализом;

• определение уравнения регрессии — математической моде­ли, в которой среднее значение результативного признака у рассматривается как функция одной или нескольких пере­менных — факторных признаков. Эта часть исследования именуется регрессионным анализом.

Последовательность рассмотрения перечисленных задач, есте­ственно, может меняться в каждом конкретном исследовании.

Общий термин «корреляционно-регрессионный анализ» подразуме­вает всестороннее исследование корреляционных связей, в том числе нахождение уравнений регрессии, измерение тесноты и на­правления связи, а также определение возможных ошибок, как параметров уравнений регрессии, так и показателей тесноты связи.

Связь между количественными признаками измеряется через их вариацию. Измерить зависимость (связь) между двумя коррелиру­емыми величинами — значит определить, насколько вариация ре­зультативного признака обусловлена вариацией факторного при­знака.

Для измерения тесноты связи между двумя количественными признаками х и у наиболее широко используется линейный коэф­фициент корреляции r. Он применим лишь в случае ли­нейной зависимости между признаками. Если форма связи между х и у еще не определена, его рассчитывают с целью получить ответ на вопрос, можно ли считать зависимость линейной.

Вид формулы линейного коэффициента корреляции:

Линейный коэффициент корреляции может принимать значения от -1 до +1. Положительный знак характеризует прямую зависимость между х и у. Знак «минус» - будет означать обратную связь. Если коэффициент корреляции равен нулю, то это означает отсутствие линейной зависимости между х и у, если r = 1, то связь функциональная. Следовательно, всякое промежуточное значение от 0 до 1 характеризует степень приближения корреляционной связи между х и у к функциональной.

Таким образом, коэффициент корреляции при линейной зависимости служит как мерой тесноты связи, так и показателем, характеризующим степень приближения корреляционной зависимости между х и у к линейной. Поэтому близость значения к нулю в одних случаях может означать отсутствие связи между х и у, а в других свидетельствовать о том, что зависимость не линейная.

Пример. Имеются данные по восьми фирмам о часовой оплате труда (х) и уровне текучести кадров (у). Необходимо измерить тесноту связи между х и у.

Таблица 4. Расчетная таблица для измерения тесноты связи.

Часовая оплата труда, руб.

х

Уровень текучести кадров, %

у

Расчетные показатели

х2

ху

у2

1

2

3

4

5

6

7

8

3

4

5

6

7

8

9

10

34

35

33

28

20

24

15

11

9

16

25

36

49

64

81

100

102

140

165

168

140

192

135

110

1156

1225

1089

784

400

576

225

121

Сумма

52

200

380

1152

5576

Средняя

величина

6,5

25

47,5

144

697

Рассчитаем сначала средние квадратичные отклонения, используемые в формуле коэффициента корреляции:

Линейный коэффициент корреляции равен:

.

Аналогичный результат получим, воспользовавшись другой формулой:

По полученным результатам можно сделать вывод, что между оплатой труда и уровнем текучести кадров существует значительная обратная связь, то есть с увеличением оплаты труда текучесть кадров снижается.

Измерить корреляционную связь между признаками х и у и найти форму этой связи, ее аналитическое выражение (математи­ческую модель) — две важные, неразрывные и дополняющие друг друга задачи корреляционно-регрессионного анализа. Найти уравнение регрессии — значит по эмпирическим (факти­ческим) данным математически описать изменения взаимно кор­релируемых величин.

Уравнение регрессии должно определить, каким будет среднее значение результативного признака у при том или ином значении факторного признака х, если остальные факторы, влияющие на у и не связанные с х, не учитывать, т.е. абстрагироваться от них. Други­ми словами, уравнение регрессии можно рассматривать как связь средней величины результативного признака у со значениями факторного признака х.

Уравнение регрессии можно также назвать теоретической лини­ей регрессии. Рассчитанные по уравнению регрессии значения результативного признака называются теоретическими, обычно обозначаются (читается: «игрек, выравненный по х») и рассмат­риваются как функция от х, т.е. ух = f(x).

Найти в каждом конкретном случае тип функции, с помощью которой можно наиболее адекватно отразить ту или иную зависи­мость между признаками х и у, — одна из основных задач регрес­сионного анализа.

Выбор теоретической линии регрессии часто обусловлен фор­мой эмпирической линии регрессии; теоретическая линия как бы сглаживает изломы эмпирической линии регрессии. Кроме того, необходимо учитывать природу изучаемых показателей и специ­фику их взаимосвязей.

Для аналитической связи между х и у могут использоваться сле­дующие простые виды уравнений:

а) yх = a0+a1 x (прямая);

б) ух = а0 + а1 х + а2 x2 (парабола 2-го порядка);

в) ух = a0 + a1 * 1/x (гипербола);

г) ух = а0 а1x (показательная функция);

д) yx=a + a1 lgx (логарифмическая функция) и др.

Обычно зависимость, выражаемую уравнением прямой, назы­вают линейной (или прямолинейной), а все остальные — криволиней­ными.

Выбрав тип функции, по эмпирическим данным определяют параметры уравнения. При этом отыскиваемые параметры должны быть такими, при которых рассчитанные по уравнению теоретиче­ские значения результативного признака ух были бы максимально близки к эмпирическим данным.

Существует несколько методов нахождения параметров уравне­ния регрессии. Наиболее часто используется метод наименьших квадратов (МНК). Его суть заключается в следующем требовании: искомые теоретические значения результативного признака ух должны быть такими, при которых бы обеспечивалась минимальная сумма квадратов их отклонений от эмпирических значений, т.е.

(минимизируются квадраты отклонений, поскольку ).

Если данное требование соблюдается, легко определить, при каких значениях а0, а1, и т.д. для каждой аналитической кривой эта сумма квадратов отклонений будет минимальной.

Линейная зависимость — наиболее часто используемая форма связи между двумя коррелируемыми признаками, и выражается она при парной корреляции уравнением прямой:

ух = а0 + а1 х.

Гипотеза именно о линейной зависимости между х и у выдвига­ется в том случае, если результативный и факторный признаки воз­растают (или убывают) примерно одинаково.

Параметры а0 и а1, отыскиваются по МНК следующим образом.

Согласно требованию МНК при линейной зависимости в фор­муле вместо записываем его конкретное выражение: а0 + а1 х . Тогда

Дальнейшее решение сводится к задаче на экстремум, т.е. к оп­ределению того, при каком значении а0 и а1, функция двух пере­менных S может достигнуть минимума. Для этого надо найти частные производные S по а0 и а1, приравнять их к нулю и после элементарных преобразова­ний решить систему двух уравнений с двумя неизвестными.

Найдем частные производные:

Сократив каждое уравнение на (-2), раскрыв скобки и перенеся члены с х в одну сторону, а с у — в другую, получим:

Эта система называется системой нормальных уравнений МНК для линейного уравнения регрессии.

Для решения системы по эмпирическим (наблюдаемым) данным опреде­ляется число единиц наблюдения п, и входящие в систему суммы. Подставив вычисленные суммы в систему нормальных уравнений, находятся параметры искомой прямой (линейного уравнения регрессии).

Пример. Рассчитать параметры уравнения регрессии между экспортом х и валовым внутренним продуктом у за последние девять лет по следующим данным:

Таблица 5. Расчетная таблица для нахождения параметров уравнения регрессии.

Экспорт,

млн. руб.

х

ВВП,

млн. руб.

у

Расчетные показатели

х2

ху

1

2

3

4

5

6

7

8

9

418,4

523,5

579,3

821

2084,6

3218,9

3298,9

3800,1

4599,3

1428,5

2007,8

2342,5

2629,6

4823,2

7305,6

8943,6

10834,2

13304,7

175058,56

274052,25

335588,49

674041

4345557,16

10361317,2

10882741,2

14440760

21153560,5

597684,4

1051083,3

1357010,25

2158901,6

10054442,72

23515995,84

29504042,04

41171043,42

61192306,71

1409,301

1685,477

1832,105

2467,229

5787,642

8768,287

8978,506

10295,53

12395,62

Сумма

Параметры уравнения регрессии найдем, решив систему нормальных равнений, предварительно подставив в нее необходимые суммы, рассчитанные в таблице:

Решением данной системы будет: а0 = 309,85, а1 =2,628. Отсюда искомое уравнение регрессии: .

Подставляя в данное уравнение последовательно значения х, находим теоретические (выравненные) значения результативного признака у, которые показывают, каким теоретически должен быть объем валового выпуска продукции при данной стоимости основных фондов хi (при прочих равных условиях для всех предприятий).

Параметр а1 в уравнении линейной регрессии называется коэффициентом регрессии, который показывает, на сколько (в абсолютном выражении) изменяется значение результативного признака у при изменении факторного признака х на единицу.