Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

statist

.pdf
Скачиваний:
46
Добавлен:
17.05.2015
Размер:
1.55 Mб
Скачать

заключается в том, что все единицы совокупности разбиваются на группы по величине признака-фактора и для каждой группы определяется средняя величина результативного признака. На основе данных аналитической группировки строится график эмпирической линии связи(линии регрессии), вид которой не только позволяет судить о возможном наличии связи, но и дает некоторое представление о форме корреляционной . Еслисвязи эмпирическая линия связи по своему виду приближается к прямой линии, то можно предположить наличие прямолинейной корреляционной связи; если эмпирическая линия приближается к какой-либо кривой, то это связано с наличием криволинейной связи

4) Изучение парных корреляционных зависимостей с помощью аналитических параметров. Аналитические параметры корреляций в зависимости от совокупности делятся на показатели для количественных и атрибутивных признаков.

Среди

показателей

для

количественных

 

признаков

ш

применяются линейный коэффициент корреляции и индекс корреляции.

 

Если связь между признаками является прямолинейной, то для ее

определения

 

используют линейный

коэффициент

корреляции,

предложенный в начале 1990-х гг. К. Пирсоном. Коэффициент корреляции

 

является

мерой

пропорциональности

степени

зависимости ,

явлен

показателем интенсивности линейной связи и вычисляется по формуле(для

 

несгруппированных данных):

 

 

 

 

 

т.е. среднее произведение отклонений признаков от их средних, называемое ковариацией, разделенное на произведение их средних квадратических отклонений.

где отклонения вариантов значений признака-фактора от их средней величины;

отклонения вариантов значений результативного признака от их средней величины;

п −число единиц в совокупности; , − среднее квадратическое отклонение соответственно признака-

фактора и результативного признака; На практике применяются различные модификации формул расчета

коэффициента корреляции:

71

Для малой совокупности используют следующую формулу:

Линейный

коэффициент корреляции изменяется от(-1) до

(+1). На

практике

приняты

следующие

пределы

 

качественной

характеристик

тесноты связи по абсолютной величине.

 

 

 

 

 

Таблица 8.2.3 – Количественные критерии оценки тесноты связи

 

 

 

 

 

 

 

 

 

 

 

Величина

 

 

 

 

 

 

 

 

коэффициента

 

 

Характер связи

 

 

корреляции

 

 

 

 

 

 

 

 

 

 

 

(по модулю)

 

 

 

 

 

 

 

0-0,1

 

Связь практически отсутствует или не подчиняется уравнению прямой.

 

0,1-0,3

 

Связь слабая

 

 

 

 

 

0,3-0,65

 

Связь средней тесноты (умеренная)

 

 

 

 

0,65-0,8

 

Связь тесная (сильная)

 

 

 

 

 

0,8-0,95

 

Связь очень тесная, практически изменение результативного

 

 

 

 

признака определено изменением факторного

 

 

0,95-1,0

 

Связь функциональная, т.е. все точки (X, Y) лежат на прямой линии,

 

 

 

имеет место строго пропорциональная зависимость в изменении Х и Y.

 

Если линейный коэффициент корреляции принимает положительные

значения, то связь между признаками прямая,

если отрицательные–

обратная. Если r = 0, то линейная корреляция отсутствует, т.е. признаки X и Y

являются независимыми.

 

 

 

 

 

 

Нельзя

 

не

отметить, статистиками

доказано, что

величина

коэффициента корреляции зависит не только от тесноты связи, но и от величины интервалов результативного признака. С укрупнением интервалов коэффициент корреляции обычно повышается. Если интервалы составлены неудачно, то связь может быть завуалирована.

Оценка существенности линейного коэффициента корреляции при

большом

объеме

выборки

проводится

с

использованием

отноше

коэффициента корреляции (r ) к его средней квадратической ошибке ( ):

 

 

 

 

 

 

 

 

 

 

72

Если это отношение окажется больше значенияt-критерия Стьюдента, при числе степеней свободы и с вероятностью, то следует говорить о существенности коэффициента корреляции( - уровень значимости 0,01

или 0,05).

 

 

 

 

В тех случаях, когда r получен

по данным малой выборки, для

проверки

его

существенности

целесообразно

использовать

преобразованной корреляции, предложенный Р. Фишером.

Средняя ошибка Z-распределения зависит только от объема выборки и определяется по формуле:

По установленным соотношениям междуy и Z находят значение Z, соответствующее рассчитанному коэффициенту корреляции.

Если соотношение Z к средней квадратической ошибке (Zz) окажется больше табличного значения критерия Стьюдента при определенном уровне значимости, то можно говорить о наличии связи между признаками в генеральной совокупности.

Если связь между признаками является криволинейной, то используется индекс корреляции (или корреляционное отношение )η.

Различают эмпирическое и теоретическое корреляционное отношение.

Эмпирическое корреляционное отношениерассчитывается по данным группировки:

где δ2 – дисперсия выровненных значений результативного признака, то есть рассчитанного по уравнению регрессии;

σ2 – дисперсия эмпирических (фактических) значений результативного признака.

Теоретическое

корреляционное

отношение рассчитывается

по

формуле:

 

 

 

где σ2 – вариация результативного признака за счет всех факторов– общая дисперсия фактических данных результативного признака;

73

− вариация результативного признака за счет всех факторов, кроме фактора Х – средняя из групповых дисперсий;

δ2 − вариация результативного признака за счет анализируемо фактора

Х– межгрупповая дисперсия.

Вслучае функциональной связи индекс корреляции равен1, а при полном отсутствии связи он принимает значение 0. Следовательно, 0 < η < 1.

Коэффициент корреляции можно рассматривать как частный случай

индекса

корреляции,

так

как

при

линейной

связи

 

эмпиричес

корреляционное

отношение

может

быть

преобразовано

в

линейн

коэффициент корреляции. Корреляционное отношение построено на более

глубоком логическом фундаменте, чем коэффициент корреляции.

 

 

Величина

η2

называется коэффициентом

детерминации.

 

Это

корреляционное

отношение

 

в

квадрате

 

иликоэффициентеще

причинности, который отражает долю факторной дисперсии в общей

дисперсии. Его экономическое значение заключается в том, что он измеряет,

 

насколько

вариация

 

результативного

признака

объяснена

изменение

факторного.

 

 

 

 

 

 

 

Необходимым

и

достаточным

условием

линейности

являе

требование, чтобы выражение (η2 r2) отличалось от нуля на величину, не

 

большую, чем величина случайных колебаний. Общепринятым критерием

 

служит сравнение этой разницы с ее вероятной ошибкой.

 

 

 

Если разница (η2 r2) мала по сравнению с линейным коэффициентом

 

корреляции

или если

значения обоих показателейη и r

малы, то

можно

 

получить следующий критерий:

После преобразований получим:

Если это неравенство выполняется, то связь можно считать линейной. Следует иметь в виду, что сама по себе величина коэффициента

корреляции (индекса корреляции) не является доказательством наличия причинно-следственной связи между изучаемыми признаками, а указывает лишь на степень взаимной согласованности в изменениях признаков. В связи с этим встает вопрос, насколько правомерно по выборочным данным сделано

заключение в отношении действительного наличия связи в генеральной

совокупности, т.е.

встает вопрос, существенна

ли

она

для

данной

совокупности или является ложной.

 

 

 

 

В практике

могут быть использованы и другие показатели д

определения степени тесноты связи.

 

 

 

 

Элементарной

характеристикой степени тесноты связи являетс

коэффициент Фехнера:

 

 

 

 

74

где па количество совпадений знаков отклонений индивидуальных величин факторного признака х и результативного признака у от их средней арифметической величины (например, «плюс» и «плюс», «минус» и «минус», «отсутствие отклонения» и «отсутствие отклонения»);

пь количество несовпадений знаков отклонений индивидуальных значений изучаемых признаков от значения их средней арифметической.

Коэффициент Фехнера целесообразно использовать для установления

факта наличия связи при небольшом объеме исходной

информации.

 

Для определения тесноты связи как между

количественными, так и

между качественными признаками, при условии, что

значения этих

признаков

могут

быть

проранжированы

по

степени

убывания

возрастания, используется коэффициент корреляции рангов Спирмэна:

где разность между величинами рангов признака-фактора результативного признака; п − число показателей (рангов) изучаемого ряда.

Он варьирует в пределах от -1,0 до +1,0.

Ранговый коэффициент обычно исчисляется на основе небольшого объема исходной информации, поэтому необходимо выполнить проверку его существенности. Существует таблица предельных значений коэффициента корреляции рангов Спирмэна при условии верности нулевой гипотезы об отсутствии корреляционной связи при заданном уровне значимости определенном объеме выборочных данных.

Если полученное значение превышает критическую величину при данном уровне значимости, то нулевая гипотеза может быть отвергнута, т. е.

величина

не является результатом случайных совпадений рангов.

Для

исследования

степени тесноты связи между качественным

признаками,

каждый из

которых представлен в виде альтернативны

признаков, может быть использован коэффициент ассоциации Д. Юла или

коэффициент контингенции К. Пирсона.

 

 

 

 

Расчетная таблица в

этом случае

состоит

из четырех ячеек(таблица

«четырех полей»), статистическое сказуемое которой схематически может

быть представлено в следующем виде:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Признаки

 

А (да)

 

(нет)

 

Итого

 

 

 

 

 

 

 

 

 

 

 

75

 

В (да)

 

а

b

 

а + b

 

 

 

 

 

 

 

 

 

 

(нет)

 

с

d

 

с + d

 

 

 

 

 

 

 

 

 

 

Итого

 

а + с

b + d

 

п

 

 

 

 

 

 

 

 

 

где а. b, с, d −

частоты взаимного

сочетания(комбинации) двух

альтернативных признаков А и В ; n − общая сумма частот.

Коэффициент ассоциации исчисляется по формуле

Коэффициент контингенции:

где a, b, с, d − числа в четырехклеточной таблице.

Коэффициент контингенции также изменяется от-1 до +1, но всегда его величина для тех же данных меньше коэффициента ассоциации.

5. Исследование многофакторной зависимости. Основные понятия корреляционного анализа можно распространить и на многомерный случай.

Если при изучении

взаимосвязи

 

переменных

по

двумерной

мод

рассматривались

только

парные

коэффициенты

корреляции, то

для

 

многомерной модели этого недостаточно. Многообразие связей между

 

переменными

находит

отражение

в

множественных

и

 

коэффициентах корреляции, предложенных К. Пирсоном.

Для оценки тесноты связи между альтернативными признаками, принимающими любое число вариантов , значенийприменяется

коэффициент взаимной сопряженности К. Пирсона.

Первичная статистическая информация для исследования этой связи располагается в форме таблицы:

Признаки

А

В

С

Итого

 

 

 

 

 

D

 

 

 

 

 

 

 

 

 

Е

 

 

 

 

 

 

 

 

 

F

 

 

 

 

 

 

 

 

 

Итого

 

 

 

n

 

 

 

 

 

76

где

частоты взаимного сочетания двух атрибутивных признаков;

 

п − число пар наблюдений.

Коэффициент взаимной сопряженности определяется по формуле

где − показатель средней квадратической сопряженности.

Коэффициент взаимной сопряженности изменяется от 0 до 1.

Коэффициент множественной корреляцииизмеряет тесноту связи между результативным признаком и всеми факторными признаками. Он используется при наличии линейной связи между признаками.

Изучение множественной корреляционной зависимости начинается с

анализа

матрицы

парных коэффициентов

 

корреляции, что

позволяет

произвести

 

отбор

факторов, включаемых

в

модель

множественной

зависимости. Матрица имеет следующий вид:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Признак

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

Анализ первой строки матрицы позволяет выявить факторы, у которых степень тесноты связи с результативным показателем значительна, а поэтому

они

могут

быть

включены

в . Однакомодель

при

построении

многофакторных

моделей

должно

соблюдаться

требование

возможн

меньшей коррелированности

 

включенных

в модель признаков-факторов

(отсутствие

мультиколлинеарности).

В

качестве

 

крите

мультиколлинеарности

может

быть

 

принято

соблюдение

следующи

неравенств:

 

 

 

 

 

 

 

 

 

77

Если приведенные неравенства(или хотя бы одно из ) неих выполняются, то исключается тот фактор или , связь которого с результативным признаком у будет менее тесной.

Для измерения степени тесноты связи между изменениями величины результативного признака (у) и изменениями значений факторных признаков определяется коэффициент множественной (совокупной) корреляции ( R ) .

Для случая зависимости результативного признака от двух факторных признаков формула совокупного коэффициента корреляции имеет вид:

Если число факторов-признаков более , тодвух совокупный коэффициент корреляции определяется следующим образом:

где − матрица парных коэффициентов корреляции;

− соответствует матрице парных коэффициентов корреляции( ) без верхней строки и первого столбца.

Величина R2 называется еще коэффициентом детерминации; она показывает, в какой мере вариация результативного признака обусловлена

влиянием признаков-факторов,

включенных

в

уравнение

множественной

зависимости.

 

 

 

 

 

 

 

Величина

совокупного

коэффициента

корреляции

изменяется

пределах от 0

до

1 и численно не может быть меньше, чем любой из

образующих

его

парных коэффициентов

корреляции. Чем

ближе он к

единице, тем меньше роль неучтенных в модели факторов и тем более оснований считать, что параметры регрессионной модели отражают степень эффективности включенных в нее факторов.

Кроме

совокупного

коэффициента

корреляции

познавательн

значение

имеют

частные

коэффициенты

корреляции, позволяющие

установить степень тесноты связи между результативным признакому и каждым из факторных признаков при исключении искажающего влияния других факторных признаков. Следовательно, коэффициенты частной корреляции отражают степень«чистого» влияния факторного признака на результативный признак. Для их расчета могут быть использованы парные коэффициенты корреляции.

78

Для случая зависимости результативного признакау от двух признаков-факторов (х1 и х2) определяются два коэффициента частной корреляции:

частный коэффициент корреляции между результативным признаком

уи фактором х1 при элиминировании фактора х2:

частный коэффициент корреляции между результативным признаком

уи фактором х2 при элиминировании фактора х х :

Для общего случая частные коэффициенты корреляции определяются по формуле:

где коэффициент детерминации результативного признакау с комплексом факторных признаков

− коэффициент детерминации результативного признака комплексом признаков

частный коэффициент корреляции результативного признака у с факторным признаком хк при исключении влияния факторных признаков .

Величина частного коэффициента корреляции лежит в пределах от 0 до 1, а знак определяется знаком соответствующих параметров регрессии.

Рассчитывая величины частных коэффициентов корреляции, следует иметь в виду, что каждый из них по своей абсолютной величине не может

быть

больше

величины

коэффициента

множественной(совокупной)

корреляции

.

 

 

6. Оценка результатов исследования множественной зависимости

осуществляется с помощью расчета ошибок коэффициента множественной корреляции, которая возрастает с увеличением числа взаимосвязанных признаков.

Проверка значимости коэффициента множественной корреляции производится по величине остаточной дисперсии.

Для оценки существенности (значимости) совокупного коэффициента корреляции используется критерий F-Фишера.

79

где у − значения результативного признака, рассчитанные по уравнению регрессии;

остаточная дисперсия:

 

− общая дисперсия результативного признака;

 

 

 

п − число данных;

 

 

 

 

l − число параметров уравнения.

 

 

 

 

По таблице F-распределения следует отыскать табличное значение при

числе

степеней

свободы

и

уровне

значимости

 

.

Если P=0,95, то с

вероятностью0,95

можно

утверждать, что связь между результативным и факторными признаками существенна.

7.Анализ результатов проведения корреляционного анализа состоит

вустановлении соответствия между полученными количественным показателями и качественной стороной влияния факторов на уровен исследуемого показателя.

Таким образом, корреляционный анализ призван охарактеризовать

тесноту и

направление связи между результативным и факторны

признаками.

Он помогает сделать отбор наиболее существенных факторов и

через коэффициент детерминации определить, какую долю вариации результативного признака занимает факторный(или факторные). Эти возможности корреляционного анализа обеспечили его широкое применение в анализе статистических данных.

8.2.2 Регрессионный анализ и его применение в статистике

Регрессионный анализ является завершающим этапом исследования корреляционной связи между признаками. Он позволяет решать следующие задачи:

1)выразить с помощью уравнения зависимость между результативным

ифакторными показателями;

2)дать экономическую трактовку параметрам построенного уравнения;

3)вскрыть резервы производства и сделать прогноз результативного показателя.

Регрессионный анализ тесно связан с корреляционным и логически вытекает из него. Однако это не означает, что эти два вида анализа не имеют различий. Отличия корреляционного и регрессионного анализа заключаются

вследующем:

1)цель корреляционного анализа − выявить, изучить, измерить тесноту

связи

между

признаками; цель

регрессионного

анализа

записать

выявленную связь в виде определенного уравнения;

 

 

 

80

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]