Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
workbook.rtf / workbook.doc
Скачиваний:
34
Добавлен:
22.05.2015
Размер:
2.05 Mб
Скачать

6. Статистические взаимосвязи и их анализ

 

Понятие о статистической зависимости. Исходя из известного положения исторического материализма о всеобщей взаимозависимо­сти и взаимообусловленности явлений общественной жизни, социо­лог-марксист не может ограничиться изучением отдельно взятого явления изолированно от других процессов и событий, а должен стремиться по возможности охватить весь комплекс явлений, отно­сящихся к тому или иному социальному процессу и изучить суще­ствующие между ними зависимости.

Различают два вида зависимостей: функциональные (примером которых могут служить законы Ньютона в классической физике) и статистические.

Закономерности массовых общественных явлений складываются под влиянием Множества причин, которые действуют одновременно и взаимосвязанно. Изучение такого рода закономерностей в стати­стике и называется задачей о статистической зависимости. В этой задаче полезно различать два аспекта: изучение взаимозависимости между несколькими величинами и изучение зависимости одной или большего числа величин от остальных. В основном первый аспект связан с теорией корреляции (корреляционный анализ), второй — с теорией регрессии (регрессионный анализ). Основное внимание в этом параграфе уделено изучению взаимозависимостей нескольких признаков, а основные принципы регрессионного анализа рассмотре­ны очень кратко.

В основе регрессионного анализа статистической зависимости ряда признаков лежит представление о форме, направлении и тес­ноте (плотности) взаимосвязи.

В табл. 7 приведено эмпирическое распределение заработной пла­ты рабочих в зависимости от общего стажа работы (условные

данные) для выборки в 25 человек, а на рис. 9 эти численные данные представлены в виде так называемой диаграммы рассеяния, или разброса. Вообще говоря, визуально не всегда можно определить, су­ществует или нет значимая взаимосвязь между рассматриваемыми признаками и насколько она значима, хотя очень часто уже на диаграмме просматривается общая тенденция в изменении значе­ний признаков и направление связи между изучаемыми признаками. Уравнение регрессии. Статистическая зависимость одного или большего числа признаков от остальных выражается с помощью уравнений регрессии. Рассмотрим две величиных иу, такие, например, как на рис. 9. Зафиксируем какое-либо значение пере­меннойх, тогдау принимает целый ряд значений. Обозначиму среднюю величину этих значенийу при данном фиксированномх. Уравнение, описывающее зависимость средней величиныух отx называется уравнением регрессииу пох:

Аналогичным образом можно дать геометрическую интерпрета­цию регрессионному уравнению22

Уравнение регрессии описывает числовое соотношение между величинами, выраженное в виде тенденции к возрастанию (или убыванию) одной переменной величины при возрастании (убывании) другой. Эта тенденция проявляется на основе некоторого чис­ла наблюдений, когда из общей, массы выделяются, контролируют­ся, измеряются главные, решающие факторы.

Характер связи взаимодействующих признаков отражается в ее форме. В этом отношении полезно различать линейную и нелиней­ную регрессии. На рис. 10, 11 приведены графики линейной и кри­волинейной форм линий регрессии и их диаграммы разброса для случая двух переменных величин.

Направление и плотность (теснота) линейной связи между дву­мя переменными измеряются с помощью коэффициента корреляции.

Меры взаимозависимости для интервального уровня измерения. Наиболее широко известной мерой связи служит коэффициент кор­реляций Пирсона (или, как его иногда называют, коэффициент кор­реляции, равный произведению моментов). Одно из важнейших предположений, на котором покоится использование коэффициента г, состоит в том, что регрессионные уравнения для изучаемых переменных имеют линейную форму23, т. е.

где у — среднее арифметическое для переменнойу; х — среднее арифметическое для переменнойх; b1 иb2 - некоторые коэффи­циенты.

Поскольку вычисление коэффициента корреляции и коэффици­ентов регрессии b1и b2проводится по схожим формулам, то, вычисляя r, получаем сразу же и приближенные регрессионные модели24.

 

Выборочные коэффициенты регрессии и корреляции вычисляются по формулам

Здесь s2x—дисперсия признаках; s2xдисперсия признака у. Величина sxy, называется ковариациейх иу.

Расчет r для не с группированных данных. Для вычислительных целей эти выражения в случае не сгруппированных данных можно переписать в следующем виде:

Рассчитаем коэффициент корреляции и коэффициенты регрессии для данных табл. 7:

Тогда уравнение регрессии имеет вид

Линии регрессии y = F(x) изображены на рис. 10-. Отсюда вид­но, что между заработной платой и общим стажем работы сущест­вует прямая зависимость: по мере увеличения общего стажа рабо­ты на предприятии растет и заработная плата. Величина коэффи­циента корреляции довольно большая и свидетельствует о положи­тельной связи между переменными величинами. Следует отметить, что вопрос о том, какую переменную в данном случае принимать в качестве зависимой величины, а какую — в качестве независимой, исследователь решает на основе качественного анализа и профес­сионального опыта. Коэффициент корреляции по определению яв­ляется симметричным показателем связи: rxy= ryx. Область возмож­ного изменения коэффициента корреляцииг лежит в пределах от +1 до —1.

Вычисление r для сгруппированных данных. Для сгруппирован­ных данных примем ширину интервала по каждой переменной за единицу (если по какой-либо переменной имеются неодинаковые размеры интервала, то возьмем из них наименьший). Выберем так­же начало координат для каждой переменной где-нибудь возле среднего значения, оцененного на глаз.

Для условных данных, помещенных в табл. 8, за нулевую точ­ку отсчета выберем значение у, равное 64, а поx — значение 134,5.

Тогда коэффициент корреляции определяется по следующей формуле:

 

Для вышеприведенного примера порядок вычислений представлен в табл. 9. Для определения Snijaxby вычислим последовательно все произведения частоты в каждой клетке таблицы на ее коор­динаты. Так

В соответствии с формулой вычисляем

Таким образом, величина связи достаточно велика, как, впрочем, и следовало ожидать на основе визуального анализа таблицы.

Статистическая значимость r. После вычисления коэффициента корреляции возникает вопрос, насколько показателен этот коэффи­циент и не обусловлена ли зависимость, которую он фиксирует, случайными отклонениями. Иначе говоря, необходимо проверить гипотезу о том, что полученное значение r значимо отличается от 0.

Если гипотеза H0 (r = 0) будет отвергнута, говорят, что величи­на коэффициента корреляции статистически значима (т. е. эта ве­личина не обусловлена случайностью) при уровне значимостиa.

Для случая, когда п < 50, применяется критерийt, вычисляе­мый по формуле

Распределение t дано в табл. В приложения.

Если п > 50, то необходимо использовать Z-критерий

В табл. А приложения приведены значения величины ZKp для соответствующихa.

Вычислим величину Z для коэффициента корреляции по табл. 7 (вычисление проделаем лишь для иллюстрации, так как число на­блюденийп — 25 и нужно применять критерийt). Величинаr (см. табл. 7) равна 0,86. Тогда

Для уровня значимости a= 0,01 ZKp= 2,33 (см. табл. А прило­жения).

Поскольку Z > ZKp, мы должны констатировать, что коэффици­ент корреляции г = 0,86 значим и лишь в 1 % случаев может ока­заться равным нулю. Аналогичный результат дает и проверка по критериюt для а = 0,01 (односторонняя область); tкр— 2,509, t вы­борочное равно 8,08.

Другой часто встречающейся задачей, является проверка равен­ства на значимом уровне двух коэффициентов корреляции. i = г2при заданном уровне а, т. е. различия между r1и r2обусловлены лишь колебаниями выборочной совокупности.

Критерий для проверки значимости следующий:

где значения zrjиzr находят по табл. Д приложения для r1и r2.

Значения ZКpопределяют по табл. А. приложения аналогично вышеприведенному примеру.

Частная и множественная регрессия и корреляция. Ранее нами было показано, как можно по опытным данным найти зависимость одной переменной от другой, а именно как построить уравнение регрессии видау = а +bх. Если исследователь изучает влияние не­скольких переменныхх1, х2, ..., хk результатирующий признак y, то возникает необходимость в умении строить регрессионное урав­нение более общего вида, т. е.

где a, b1,. b2, ..., bk — постоянные коэффициенты, коэффициенты регрессии.

В связи с уравнением (26) необходимо рассмотреть следующие вопросы: а) как по эмпирическим данным вычислить коэффициенту регрессии а, b1, b2…bк; б) какую интерпретацию можно припи­сать этим коэффициентам; в) оценить тесноту связи междуу и каждым изXi в отдельности (при элиминировании действия остальных); г) оценить тесноту связи междуу и всеми переменнымих1, ...,xк в совокупности.

Рассмотрим этот вопрос на примере построения двухфакторного регрессионного уравнения. Предположим, что изучается зависимость недельного бюджета свободного времени (у) от уровня образованияi) и возраста2) определенной группы трудящихся по данным выборочного обследования. Будем искать эту зависимость в виде линейного уравнения следующего вида:

При расчете коэффициентов уравнения множественной регрессии полезно преобразовать исходные эмпирические данные следующим образом. Пусть в результате обследования п человек получены эм­пирические значения, сведенные в следующую таблицу (в каждом столбце представлены не сгруппированные данные):

Каждое значение переменной в таблице преобразуем по формулам

Коэффициенты с1исг находятся по следующим формулам

с1 и с2называютсястандартизированными коэффициентами регрес­сии. Следовательно, зная коэффициенты корреляции между изучае­мыми признаками, можно подсчитать коэффициенты регрессии. Подставим конкретные значения rijиз следующей таблицы25;

Коэффициенты исходного регрессионного уравнения b0, b1и b2на­ходятся по формулам

Подставляя сюда данные из вышеприведенной таблицы, получим b1= 3,13; b2= -0,17; b0= - 8,56.

Как же следует интерпретировать это уравнение? Например, значение b2 показывает, что в среднем недельный бюджет свободного времени при увеличении возраста на один год и при фиксированном признакеXi уменьшается на 0,17 час. Аналогично интер­претируется b1. (Исходные эмпирические данные можно изобразить на диаграмме рассеяния аналогично тому, как это сделано на рис. 10, но уже в трехмерном пространстве(у, xt, х2).

Коэффициенты х1и х2можно в то же время рассматривать и как показатели тесноты связи между переменнымиу и, например,Xi при постоянствехг.

Аналогичную интерпретацию можно применять и к стандарти­зированным коэффициентам регрессии сi. Однако посколькуci вы­числяются исходя из нормированных переменных, они являются безразмерными и позволяют сравнивать тесноту связи между пере­менными, измеряемыми в различных единицах. Например, в выше­приведенном примереXi измеряется в классах, a x2в годах. C1 и с2позволяют сравнить, насколько z1теснее связан су, чемхг26.

Поскольку коэффициенты bi и сiизмеряют частную односторон­нюю связь, возникает необходимость иметь показатель, характери­зующий связь в обоих направлениях. Таким показателем являетсячастный коэффициент корреляции

Для рассматриваемого примера ry1.2= 0,558, rу2.1i = —0,140.

Для любых трех переменных x1, х2, х3 частный коэффициент корреляции между двумя из них при элиминировании третьей стро­ится следующим образом:

Аналогично можно определить и частные коэффициенты корре­ляции для большего числа переменных (r12,34...). Однако ввиду громоздкости вычисления они применяются достаточно редко.

Для характеристики степени связи результатирующего признака ус совокупностью независимых переменных служитмножествен­ный коэффициент корреляции R2y , который вычисляется по формуле (иногда он выражается в процентах)

Так, для вышеприведенного примера он равен

Множественный коэффициент корреляции показывает, что включе­ние признаков х1 их2 в уравнение

на 32% объясняет изменчивость результатирующего фактора. Чем больше Rt, тем полнее независимые переменныех2 ...,xk описы­вают признаку. Обычно служит критерием включения или ис­ключения новой переменпой в регрессионное уравнение. Если Л мало изменяется при включении новой переменной в уравнение, то такая переменная отбрасывается.

Корреляционное отношение. Наиболее общим показателем связи при любой форме зависимости между переменными является корре­ляционное отношениеh2. Корреляционное отношениеh2у/х опреде­ляется через отношение межгрупповой дисперсии к общей диспер­сии по признакуу:

где уiсреднее значение i-roy-сечения (среднее признакау для объектов, у которыхx=xi, т. е. столбец «г»);xi—среднее значе­ние i-го x-сечения т. е. строка «i» nyi—число наблюдений вyсечении;nXi — число наблюдений вx-сечении;у — среднее зна­чениеу.

Величина h2у/х показывает, какая доля изменчивости значенийу обусловлена изменением значениях. В отличие от коэффициента корреляцииh2у/хне является симметричным показателем связи, т. е,h2у/х не равно h2х/y. Аналогично определяется корреляционное отношениех поу27.

Пример. По данным таблицы сопряженности (табл. 9) найдемh2у/х. Вычислим общую среднюю

Сравнение статистических показателей r и h2у/х. Приведем сравнительную характеристику коэффициента корреляции (будем срав­нивать r2) и корреляционного отношенияh2у/х.

а) r2= 0, если x и у независимы (обратное утверждение не­верно);

б) r2=h2у/х=1 тогда и только тогда, когда имеется строгая ли­нейная функциональная зависимостьу отх.

в) r2=r\y/x<i тогда и только тогда, когда регрессиях и у стро­го линейна, но нет функциональной зависимости;

г) r2<h2у/х < 1 указывает на то, что нет функциональной зави­симости и существует нелинейная кривая регрессии.

Соседние файлы в папке workbook.rtf