Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Статистика (лекции).docx
Скачиваний:
20
Добавлен:
27.10.2018
Размер:
743.52 Кб
Скачать

9.2. Методы изучения взаимосвязей социально-экономических явлений

Для изучения функциональных связей применяются балансо­вый и индексный методы.

Для исследования корреляционных связей широко использу­ются следующие методы:

  1. метод сопоставления двух параллельных рядов;

  2. метод аналитических группировок;

  3. графический метод;

  4. корреляционный анализ;

  5. регрессионный анализ.

Метод сопоставления двух параллельных рядов является простейшим из методов и заключается в следующем. Значения факторного признака располагаются в порядке возрастания или убывания (в зависимости от эволюции процесса и цели исследования). Затем строится параллельный ряд, состоящий из соответствующих значений альтернативного признака, и прослеживается зависимость между значениями факторного и результативного признаков. Сопоставление и анализ расположенных таким образом значений изучаемых признаков позволяет установить наличие связи и ее направление. К недостатку метода относится невозможность определения количественной меры связи между изучаемыми признаками.

Метод аналитических группировок состоит в следующем. Производится группировка единиц совокупности по факторному при­знаку. Затем для каждой группы определяется среднее значение ре­зультативного признака. Сопоставление изменений факторного и ре­зультативного признаков позволяет выявить наличие и направление, а также определить тесноту связи путем расчета эмпирического корре­ляционного отношения. Метод имеет недостаток – не позволяет опре­делить форму и аналитическое выражение связи.

Графический метод состоит в том, что взаимосвязь двух при­знаков изображается с помощью поля корреляция. В системе коор­динат на оси абсцисс откладываются значения факторного признака, а на оси ординат - результативного признака. Каждое имеющееся соче­тание значений признаков обозначается точкой. При отсутствий тес­ных связей имеет место беспорядочное расположение точек на графи­ке. Чем сильнее связь между признаками, тем сильнее будут группироваться точки вокруг определенной линии, выражающей формулу связи.

Методы корреляционного и регрессивного анализа, как пра­вило, используются комплексно и позволяют оценить наличие, наличие, направление, тесноту связи и определить ее форму. При этом задачи корреляционного анализа сводятся к измерению тесноты связи ме­жду признаками и оценке факторов, оказывающих наибольшее влия­ние на результативный признак. Задачами регрессионного анализа является выбор формы связи, установление меры влияния факторных признаков на результативный.

9.3. Парная корреляция

Наиболее разработанной в теории статистики является методология однофакторного корреляционно-регрессионного анализа или парной корреляции, рассматривающей влияние вариации факторного признака x на результативный y.

Важнейшим этапом построения регрессионной модели (уравнения регрессии) является установление на основе анализа исходной информации соответствующей математической функции. Сложность заключается а том, что из множества функций необходимо найти такую, которая лучше других выражает реально существующие связи между анализируемыми признаками. Выбор типа функции может опираться на теоретические знания об изучаемом явлении, опыт предыдущих аналогичных исследований или осуществляется эмпирическим перебором и оценкой функций различных типов.

При изучении связи экономических показателей используют различные виды уравнения прямолинейной и криволинейных связей, внимание к линейным связям обеспечивается тем, что в большинстве случаев нелинейные формы для выполнения расчетов путем логарифмирования или замены переменных могут быть преобразованы в линейную форму.

Уравнение парной линейной корреляции имеет вид (9.1):

Где - теоретические значения результативного признака, получен­ные по уравнению регрессии;

- коэффициенты (параметры) уравнения регрессии.

Поскольку является средним значением y в точке x=0, его экономическая интерпретация часто затруднена или вообще невоз­можна.

Коэффициент парной линейной регрессии a1 имеет смысл показателя силы связи между вариацией факторного признака x и вариацией результативного признака. Коэффициент показывает среднее значение изменения результативного признака y при изменении факторного признака x на одну единицу его измерения, т.е. вариацию y, приходящуюся на единицу вариации x. Знак a1 указывает направление этого изменения.

Параметры уравнения a0, a1 находятся методом наименьших квадратов, в основу которого положено требование минимальности сумм квадратов отклонений эмпирических данных y1 от теоретических (9.2):

Для нахождения минимума данной функции ее частные производные приравниваются к нулю и решается следующая система нор­мальных уравнений (9.3):

Решение системы позволяет определить параметры уравнения регрессии. В общем виде параметры определяются следующим образом (9.4):

Параметры уравнения регрессии в ряде случаев удобно вычис­лять по следующим формулам, дающим тот же результат (9.5) и (9.6):

Рассчитанные таким образом значения a0 и a1 подставляются в уравнения регрессии.

Для практического использования моделей регрессии большое значение имеет их адекватность, т. е. соответствие фактическим ста­тистическим данным. Корреляционный и регрессионный анализ за­частую проводится для небольшой по объему совокупности. Поэтому показатели регрессии и корреляции могут быть искажены действием случайных факторов, и требуется проверка адекватности модели.

При численности объектов анализа до 30 единиц возникает не­обходимость проверки значимости (существенности) каждого коэф­фициента регрессии. При этом выясняют, насколько вычисленные па­раметры x характерны для отображения комплекса условий: не явля­ются ли полученные значения параметров результатом, действия слу­чайных причин.

Значимость коэффициентов простой линейной регрессии (при­менительно к совокупностям, у которых n<30) осуществляют с помо­щью t-критерия. При этом вычисляют расчетные (фактические) значе­ния t-критерия:

для параметра a0 (9.7):

для параметра a1 (9.8):

где n – объем выборки;

- среднее квадратическое отклонение фактических значений результативного признака y от теоретических значений (9.9),

- среднее квадратическое отклонение значений факторного признака x от общей средней (9.10):

Вычисленные значения сравнивают с критическими tтабл. , которые определяют по таблице Стьюдента с учетом принятого уров­ня значимости a и числа степеней свободы вариации V=n-K-1, К - число факторных признаков в уравнении.

В социально-экономических исследованиях уровень значимости a обычно принимают равным 0,05. Параметр признается значимым (существенным) при условии, если . В таком случае практически невероятно, что найденные значения параметров обусловлены только случайными совпадениями.

Проверка адекватности регрессионной модели может быть дополнена корреляционным анализом. Для этого необходимо определить тесноту корреляционной связи между переменными x и y. Тесно- корреляционной связи, как и любой другой, может быть измерена эмпирическим корреляционным отношением (9.11):

Где – межгрупповая дисперсия результативного признака, характеризующая отклонение групповых средних этого признака от общей средней.

Говоря о корреляционном отношении как о показателе измерения тесноты зависимости от эмпирического корреляционного отношения следует отличать теоретическое. Теоретическое корреляционное отношение представляет собой относительную величину, получающуюся в результате сравнения среднего квадратического отклонения теоретических значений результативного признака (рас­считанных по уравнению регрессии) со средним квадратическим отклонением эмпирических (фактических) значений результативного признака (9.12), (9.13), (9.14), (9.15):

Где

Тогда представляет собой коэффициент детерминации, ко­торый показывает долю вариации результативного признака под влиянием вариации признака-фактора.

Теоретическое корреляционное отношение применяется для изме­рения тесноты связи при линейной и криволинейной зависимостях стях между результативным и факторным признаками. Теоретическое кор­реляционное отношение часто называют индексом корреляции R. Корреляционное отношение может находиться в пределах от 0 до 1, т. е. ). Чем ближе корреляционное отношение к 1, тем сильнее связь между признаками.

Отметим, что при линейной форме уравнения применяется другой показатель тесноты связи - линейный коэффициент корреляции (9.16):

Где n – число наблюдений.

Для практических вычислений при малом числе наблюдений линейный коэффициент корреляции удобнее вычислять по формуле (9.17):

Значение линейного коэффициента корреляции важно для исследования социально-экономических явлений и процессов, распределение которых близко к нормальному и принимает значение в интервале (9.18):

Отрицательные значения указывают на обратную связь, положительные – на прямую. При r=0 линейная связь отсутствует. Чем ближе коэффициент корреляции по абсолютной величине к 1, тем теснее линейная связь между признаками. При связь линейная функциональная.

Квадрат линейного коэффициента корреляции r2 называется линейным коэффициентом детерминации. При оценке степени тес­ноты связи он полностью соответствует теоретическому корреляционному отношению, которое является более универсальным показате­лем тесноты связи по сравнению с линейным коэффициентом корре­ляции. Факт совпадений значений теоретического корреляционного отношения и линейного коэффициента корреляции r используется для оценки формы связи значения - η и r совпадают только при нали­чии прямолинейной связи.

Несовпадение этих величин свидетельствует, что связь между изучаемыми признаками криволинейная. Установлено, что если разность квадратов η2 и r2 не превышает 0,1, то гипотезу о прямолинейной форме связи можно считать подтвержденной.

Показатели тесноты связи, исчисленные по данным сравнитель­но небольшой статистической совокупности, могут искажаться дейст­вием случайных величин. Это вызывает необходимость проверки их существенности.

Для оценки значимости коэффициента корреляции r используют t-критерий Стьюдента, который применяется при t-распределении, отличном от нормального.

При линейной однофакторной связи t-критерий можно рассчи­тать по формуле (9.19):

гле (n-2) — число степеней свободы при заданном уровне значимости a и объеме выборки n.

Полученное значение tрасч сравнивают с табличным значением t-критерия (для a=0,05 и 0,01). Если рассчитанное значение превос­ходит табличное значение критерия tтабл , то практически невероятно, что найденное значение обусловлено только случайными колебания­ми, т. е. гипотеза о случайности отвергается.

После проверки адекватности построенной модели (уравнение регрессии) ее необходимо проанализировать, дать экономическую ин­терпретацию параметров регрессии. Прежде всего нужно проверить, согласуются ли знаки параметров с теоретическими представлениями и соображениями о направлении влияния признака-фактора на резуль­тативный признак. Далее необходимо проанализировать значение па­раметра a1. Очевидно, что для линейной регрессии параметр a1 говорит о том, на сколько абсолютных единиц изменится результативный признак при изменении факторного на 1. Для удобства интерпретации параметра a1 используют коэффициент эластичности. Он показыва­ет, на сколько процентов от его среднего значения изменится результативный признак при изменении факторного признака на 1% от его средней величины, и вычисляется по формуле (9.20):

Далее имеет смысл вычислить остатки , характери­зующие отклонение i-х наблюдений от значений, которые следует ожидать в среднем (т. е. в соответствии с уравнением регрессии). Наибольший интерес будут представлять наблюдения с наибольшими положительным и отрицательным остатками.

Пример. Методами корреляционного и регрессионного анализа требуется оценить зависимость производительности труда рабочих от стажа их работы по следующим исходным данным.

Распределение рабочих бригады по выработке и стажу работы

Исходные данные

Расчетные данные

Номер

рабо-чего

Стаж

рабо-ты,

годы,

x

Дневная

выработ-ка рабо-чего, шт.

y

x2

y2

xy

1

2

3

4

5

6

7

8

9

10

11

12

13

13

1

4

1

16

4

-3,3

10,89

4,6

-0,6

0,36

-2,7

7,29

1

2

3

4

5

6

7

8

9

10

11

12

13

6

2

5

4

25

10

-2,3

5,29

5,2

-0,2

0,04

-2,1

4,41

3

3

6

9

36

18

-1,3

1,69

5,8

0,2

0,04

-1,5

2,25

1

4

7

16

49

28

-0,3

0,09

6,4

0,6

0,36

-0,9

0,81

2

5

7

25

49

35

-0,3

0,09

7,0

0,0

0,0

-0,3

0,09

7

6

8

36

64

48

0,7

0,49

7,6

0,4

0,16

0,3

0,09

9

7

8

49

64

56

0,7

0,49

8,2

-0,2

0,04

0,9

0,81

10

8

9

64

81

72

1,7

2,89

8,8

0,2

0,04

1,5

2,25

8

9

10

81

100

90

2,7

7,28

9,4

0,6

0,36

2,1

4,41

5

10

9

100

81

90

1,7

2,89

10,0

-1,0

-1,0

2,7

7,29

ИТОГО

55

73

385

565

451

0

32,10

73,0

0

2,40

0

29,70

Среднее

5,5

7,3

38,5

56,5

45,1

0

3,21

7,3

0

0,24

0

2,97

Исходя из экономических соображений стаж является независимой переменной х. Сопоставление данных параллельных рядов признаков х и у показывает, что с возрастанием признака х, как прави­ло, растет результативный признак у (производительность труда). Следовательно, между х и у существует прямая зависимость. Зави­симость неполная, но выраженная достаточно ясно. Для уточнения формы связи между рассматриваемыми признаками используется графический метод. Нанеся на график точки, соответствующие значениям х и у, получим корреляционное поле, а соединив точки от­резками - ломаную регрессии.

Анализируя ломанную линию, можно предположить, что возрастание выработки у идет равномерно, пропорционально росту стажа работы . В основе этой зависимости в данных конкретных условиях лежит прямолинейная связь, которая может быть выра­жена простым линейным уравнением регрессии:

Ломаная регрессии

Дневная выработка рабочего, шт.

Стаж работы, лет

Произведем вспомогательные расчеты в таблице и, пользуясь расчетными значениями, определим параметры уравнения регрессии:

Итак, регрессионная модель распределения выработки в зависимости от стажа работы выглядит следующим образом:

Правильность расчета параметров уравнения регрессии мо­жет быть проверена сравнением сумм . В нашем случае ра­венство выполняется (73=73).

Для проверки значимости коэффициентов регрессии определим t-критерий Стьюдента с V=10-2=8 степенями свободы. Предвари­тельно для этого рассчитаем соответствующие среднеквадратические отклонения.

Расчетные значения t-критерия Стьюдента:

По таблице распределения Стьюдента для V=8 степеней свободы находим критическое значение: tтабл=3,307 при a=0,05.

Поскольку расчетные значения значительно превышают кри­тическое значение, оба параметра признаются значимыми.

Проверку адекватности регрессионной модели дополняем кор­реляционным анализом. Рассчитаем двумя способами теоретическое корреляционное отношение:

Полученное значение теоретического корреляционного отношения свидетельствует о наличии весьма тесной зависимость между рассматриваемыми признаками.

Коэффициент детерминации =0,925 свидетельствует о том, что 92,5% объема вариации выработки в изучаемой бригаде обусловлено вариацией стажа работы рабочих и только 7,5% общей вариации нельзя объяснить изменением стажа работы.

Как известно, при линейной форме уравнения применятся другой показатель тесноты связи - линейный коэффициент корреляции.

Рассчитаем его для данного примера:

Совпадение значений η и r (η=r=0,962) дает основание считать связь между выработкой рабочих и их стажем прямолинейной.

Поскольку изучаемая статистическая совокупность является небольшой, возникает необходимость проверки значений коэффици­ента корреляции с помощью t-критерия Стьюдента:

Рассчитанное значение существенно больше критического зна­чения t для n-2=8 степеней и a=0,05 (tтабл=3,307), что свидетельст­вует о значимости коэффициента корреляции и существовании связи между выработкой и стажем работы.

Таким образом, построенная регрессионная модель в целом адекватна, и можно приступить к ее анализу.

Из уравнения известно, что a1=0,6 >0, следовательно с воз­растанием стажа выработка рабочих увеличивается. Возрастание на 1г. стажа рабочего приводит к увеличению им дневной выработ­ки на 0,6 изделия. Рассчитаем коэффициент эластичности для рас­сматриваемого примера:

Таким образом с возрастанием стажа работы на 1% следует ожидать повышения производительности труда на 0,45%.

Анализируя остатки Е, характеризующие отклонения остальных фактических значений от значений, которые следуют ожидать в среднем , можно говорить о том, что экономический интерес представляет выработки рабочих, обозначенных номерами 5; 1; 4; 8; 7, поскольку они отличаются наибольшими остатками. Тем самым выделяются передовые рабочие – 1; 8; 7 и отстающие – 5;4.