Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Осипов Г.В. Социология. Основы общей теории / Социология. Основы общей теории

.pdf
Скачиваний:
1958
Добавлен:
02.05.2014
Размер:
13.93 Mб
Скачать

Глава 21. Анализ и интерпретация эмпирических данных

823

внимание в этом параграфе уделено изучению взаимозависи­ мостей нескольких признаков, а основные принципы регрес­ сионного анализа рассмотрены очень кратко.

В основе регрессионного анализа статистической зависимо­ сти ряда признаков лежит представление о форме, направле­ нии и тесноте (плотности) взаимосвязи.

Уравнение регрессии. Рассмотрим условный пример исполь­ зования уравнения регрессии. На основе выборочного обследо­ вания были получены данные о том, как связаны стаж работы в организации и заработная плата работника. Эти данные нане­ сены на график рис. 21.5.

100 - " °

3

9

15

21

27

33

X

Рис. 21.5. Диаграмма рассеяния для распределения заработной платы и общего стажа работы

По оси X отложен стаж работы, а по оси Y — заработная плата. Каждая точка на рисунке характеризует стаж работы и заработную плату респондента. Видно, что облако точек распо­ ложено некоторым закономерным образом, и можно предпо­ ложить следующую зависимость: с увеличением стажа работы растет и заработная плата. Аналитически эта тенденция может быть описана с помощью уравнения регрессии.

Рассмотрим две величины х и у. Зафиксируем какое-либо значение переменной х, тогда у, как видно из рисунка, при­ нимает целый ряд значений. Обозначим у среднюю величину этих значений у при данном фиксированном х. Уравнение, описывающее зависимость средней величины ух от х, называ­ ется уравнением регрессии у от х.

824

Раздел шестой. Социологическое исследование

Ух = F(x).

Аналогичным образом можно дать геометрическую интер­ претацию регрессионному уравнению:

Уравнение регрессии описывает числовое соотношение между величинами, выраженное в виде тенденции к возраста­ нию (или убыванию) одной переменной величины при возра­ стании (убывании) другой.

Характер связи взаимодействующих признаков отражается в ее форме. В этом отношении различают линейную и нелиней­ ную регрессии. На рис. 21.6 приведен график нелинейной фор­ мы линии регрессии для случая двух переменных величин.

Рис. 21.6. Линия регрессии криволинейной формы

Меры взаимозависимости для интервального уровня измере­

ния. Коэффициент корреляции показывает, насколько плот­ но облако точек на графике концентрируется около линии регрессии.

Наиболее широко известной мерой связи служит коэффици­ ент корреляции Пирсона г (или, как его иногда называют, «ко­ эффициент корреляции, равный произведению моментов»). Одно из важнейших предположений, на котором покоится ис­ пользование коэффициента г, состоит в том, что регрессион­ ные уравнения для изучаемых переменных имеют линейную форму, т. е. либо: л

у = у + Ь{(х-х),

Глава 21. Анализ и интерпретация эмпирических данных

825

либо

ху=х + Ь2(у-у),

где у — среднее арифметическое для переменной у; х —

среднее арифметическое для переменной х; bl и Ь2 — некото­ рые коэффициенты.

Поскольку вычисление коэффициента корреляции и коэф­ фициентов регрессии 6, и Ь2 проводится по схожим формулам, то, вычисляя г, получаем сразу же и приближенные регресси­ онные модели. Линия регрессии, которая «наилучшим» обра­ зом соответствует эмпирическим данным, вычисляется с по­ мощью так называемого метода наименьших квадратов, а именно так, чтобы сумма квадратов отклонений каждой точки (на диаграмме разброса) от линии регрессии была минималь­ ной.

Выборочные коэффициенты регрессии и корреляции вы­ числяются по формулам:

*. ~

Sxy

2

 

Sx

ь2 ~

sxy

2

 

Sy

 

Sxy

 

SxSy

Здесь s2x дисперсия признака х, s2 — дисперсия призна­

ка .у. Величина s называется ковариацией х и у и вычисляется по формуле:

S"7 пЕ (х,-х)(у,-у).

Следует отметить, что вопрос о том, какую переменную в каждом случае принимать в качестве зависимой величины, а какую — в качестве независимой, исследователь решает на ос­ нове качественного анализа и профессионального опыта. Коэф­ фициент корреляции, по определению, является симметрич­

ным показателем связи: г

= г . Область возможного изменения

ху

ух

коэффициента корреляции г лежит в пределах от +1 до —1.

826

Раздел шестой Социологическое исследование

Множественная регрессия. Ранее было показано, как можно по опытным данным найти зависимость одной переменной от другой, а именно как построить уравнение регрессии вида у=а + Ьх Если исследователь изучает влияние нескольких пере­ менных х,, х2, , хк на результатирующий признак у, то возни­ кает необходимость в умении строить регрессионное уравнение общего вида, т е

у = а + ^ х , + Ь2х2 + + Ькхк,

где a, bv bv , bk постоянные коэффициенты, называемые коэффициентами регрессии

С еще более сложной, но более реалистической задачей мы сталкиваемся, когда исследователь предполагает, что есть на­ бор связанных между собой переменных Y (зависимые пере­ менные) и набор независимых переменных X Вычисление па­ раметров такой модели рассматривается в теории «причинных» моделей (этот термин часто используется в социологии) или структурных уравнений1

Корреляционное отношение. Наиболее общим показателем связи при любой форме зависимости между переменными яв­ ляется корреляционное отношение х\г Корреляционное отно­ шение г)* определяется через отношение межгрупповой дис­ персии к общей дисперсии по признаку у

 

а 2м е =

к

3 > »<>".-*">'

=

j_J

'>"/*

ст обш

 

2 Х <у-->г>2

nfi

жЧ

 

 

I

1

где yt — среднее значение /-го j-сечения (среднее признака у для объектов, у которых х = х(, т е столбец «/»), J, — среднее значение /-го х-сечения (т е строка «/»), п — число наблюде­ ний в ^-сечении, пх число наблюдении' в х-сечении, у — среднее значение у

Величина г)2 показывает, какая доля изменчивости значе­ ния у обусловлена изменением значения х В отличие от коэф­ фициента корреляции, Г|2 не является симметричным показа­ телем связи, т е г)2, Ф г)2 Аналогично определяется корреляци­ онное отношение х и у

1 См , например Статистические методы анализа информации в со­ циологических исследованиях М , 1979 Гл 15, Sans W, Stronkhorst H Causal Modelling in Nonexpenmental Research Amsterdam, 1984

Глава 21. Анализ и интерпретация эмпирических данных

827

Сравнение статистических показателей г и г\2. Приведем сравнительную характеристику коэффициента корреляции (бу­ дем сравнивать г2) и корреляционного отношения г|2:

а) г2 = 0, если х и у независимы (обратное утверждение неверно);

б) г2 = г)2, = 1 тогда и только тогда, когда имеется строгая линейная функциональная зависимость у от х;

в) г2 = ц2< 1 тогда и только тогда, когда регрессия х и у строго линейна, но нет функциональной зависимости;

г) г2 < г\:'• < 1 указывает на то, что нет функциональной за­ висимости и существует нелинейная кривая регрессии.

Коэффициенты взаимозависимости для порядкового уровня измерения. К этой группе относятся коэффициенты ранговой корреляции Спирмена гч, Кендалла т и у. Эти коэффициенты ранговой корреляции используются для измерения взаимоза­ висимости между качественными признаками, значения ко­ торых могут быть упорядочены или проранжированы по сте­ пени убывания (или нарастания) данного качества у исследу­ емых социальных объектов. Таким образом, коэффициенты корреляции Спирмена и Кендалла используются как меры взаимосвязи рядов рангов, а не как меры связи между сами­ ми переменными.

Коэффициенты Спирмена и Кендалла обладают примерно одинаковыми свойствами, но т в случае многих рангов, а так­ же при введении дополнительных объектов в ходе исследова­ ния имеет определенные вычислительные преимущества.

Другая мера связи между двумя упорядоченными перемен­ ными — у. Она, так же как и предыдущие коэффициенты, из­ меняется от +1 до - 1 и может быть подсчитана при любом числе связанных рангов.

Множественный коэффициент корреляции W, иногда называ­ емый коэффициентом конкордации, используется для измере­ ния степени согласованности двух или нескольких рядов проранжированных значений переменных.

Коэффициенты взаимозависимости для номинального уровня измерения. Связь в табл. 2 x 2 . Простейшая задача о взаимоза­ висимости возникает тогда, когда имеются два признака, каж­ дый из которых принимает два значения.

828

Раздел шестой. Социологическое исследование

Представим данные о группировке по двум признакам так:

 

В

не В

сумма

А

а

b

a + b

не А

с

d

c + d

сумма

а + с

b+ d

n (либо 100%)

Для характеристики степени связи двух признаков приме­ няется коэффициент Ф, определяемый формулой:

ab-bc

ф =

yl(a + b)(a + c)(b + d)(c + d)

Коэффициент Ф равен 0, если нет соответствия между двумя дихотомическими переменными, и равен 1 или —1, когда имеется полное соответствие между ними. В силу труд­ ностей с интерпретацией знака коэффициента для категоризованных (номинальных) переменных часто используют в анализе лишь абсолютную величину — \ф\. Ф легко интер­ претируется, поскольку показано, что он представляет со­ бой просто коэффициент корреляции г, если значения каж­ дой дихотомической переменной обозначить 0 и 1.

Ф вычисляется для категоризованных данных, представ­ ляющих естественные дихотомии: пол, раса и т. п. Приведе­ ние количественных переменных к дихотомическому виду связано с выбором граничной точки разделения (например, мужчины до 30 лет и мужчины старше 30 лет). Искусствен­ ная дихотомизация, столь часто необходимая в конкретном исследовании при изучении взаимосвязи признаков, может привести к тому, что одна часть дихотомической перемен­ ной по своему воздействию будет более значима для одной связи, другая — для другой, а это дает ошибочный резуль­ тат.

Измерение связи в табл. с х к. Рассмотрим теперь более об­ щую ситуацию, когда две переменные классифицированы на две или более категории (см. табл. 21.7). Запишем это таким об­ разом:

Глава 21. Анализ и интерпретация эмпирических данных

829

«и

«12

"\к

«1-

"21

"22

"2к

п2.

пс{

«с2

"ск

пс.

"•1

"•2

П-к

п

где я — частоты; л,. — маргинальные суммы частот по стро­ кам; п. — маргинальные суммы частот по столбцам.

Нормированным коэффициентом корреляции для таблицы схк является коэффициент сопряженности Пирсона (Р):

Р = V , 0 < Р< 1.

п + х

Коэффициент Р = 0 при полной независимости признаков. Недостатком его является зависимость максимальной величи­

ны Р от размера таблицы (максимум Р достигается

при с = к,

но сама граница изменяется с изменением числа

категорий).

В связи с этим возникают трудности сравнения таблиц разного размера.

Чтобы исправить указанный недостаток, Чупров ввел дру­ гую величину:

т=<

X

1/2

, 0 < Т< 1.

п[(с-1Х*-1)] 1/2

 

При с = кТ достигает +1 в случае полной связи, однако не обладает этим свойством при к Ф с.

Коэффициент Крамера (К) может всегда достигать +1, не­ зависимо от вида таблицы:

1/2

К = - X n-mm(c-l,k -1)

830

Раздел шестой. Социологическое исследование

Для квадратной таблицы коэффициенты Крамера и Чупрова совпадают, а в остальных К > Т.

Величина у} быстро вычисляется с помощью формулы:

Следующая группа коэффициентов связи для категоризованных данных основана на предположении, что если две пе­ ременные связаны, то информация об одной переменной мо­ жет быть использована для предсказания другой. Так, если предположить, что связь между полом индивида и его отноше­ нием к правилам уличного движения абсолютно детерминиро­ вана, то либо все мужчины были бы нарушителями, а женщи­ ны — нет, либо наоборот. Поскольку это не так, то возникает несоответствие, или, как говорят, ошибка предположения аб­ солютной связи (обозначим величину этой ошибки 0А).

Вместе с тем можно предположить, что два признака абсо­ лютно не связаны и нельзя на основе одной переменной пред­ сказать другую. Поскольку это тоже не так, то возникает ошиб­ ка предположения об отсутствии связи (00).

Тогда величина ®о ~^А может служить мерой относитель

00

ного уменьшения ошибки при использовании информации об одной переменной для предсказания другой.

Признак, на основе которого предсказывается другой при­ знак, будем называть независимой переменной, а предсказы­ ваемый — зависимой. Тогда для случая, когда зависимая пере­ менная расположена по строкам таблицы (т. е. категории рас­ положены по строкам), вычисляется коэффициент связи Хг:

У^тахпу - maxn.j

Xr= - e! _ !

,

n-maxn.,

j

'

где max ni наибольшая частота в столбце «i»; max n. — наи­ большая маргинальная частота для строк «j».

Глава 21. Анализ и интерпретация эмпирических данных

831

Если зависимая переменная — это категории столбцов таб­ лицы, то совершенно аналогично предыдущему вычисляется:

У.maxn,j -maxя,.

Х = ^ ^

,

сп - max n,.

i

где max я; — наибольшая частота в строке «j»; max nr — наи­ большая маргинальная частота для столбцов «i». '

Коэффициены Хг и кс имеют пределы изменения от 0 до 1. Чем ближе Хг или Хс к 1, тем больше относительное уменьше­ ние в ошибке и больше соответствие (связь) между переменны­ ми. Эти коэффициенты могут быть использованы для таблиц любого размера.

Вряде случаев удобно использовать симметричную X:

х=А±4.

2 ' Разнообразие корреляционных коэффициентов, применяе­

мых при анализе социологических данных, продиктовано стремлением отразить реально существующее разнообразие ти­ пов связей в обществе. Поэтому данное обстоятельство следует рассматривать скорее как свидетельство достоинств статисти­ ческого аппарата, заключающихся в гибкости и большой при­ способленности его к анализу сложнейших взаимосвязей. Каж­ дый корреляционный коэффициент приспособлен для измере­ ния вполне определенного вида связи.

Обычно предпочитают использовать наиболее распростра­ ненные в практике социологических исследований коэффици­ енты, так как тем самым достигается возможность сравнения полученных результатов с материалами других исследований.

Приложение

Социология в России: современные технологические инновации в эмпирических исследованиях

За последнее десятилетие произошел существенный скачок в техническом обеспечении работы социолога. Особенно это ощутимо в нашей стране. В таких странах, как США, и в про­ шлом работа социолога с вычислительными средствами была

832 Раздел шестой. Социологическое исследование

не столь непосильным трудом, как у нас. Большие и «недруже­ ственные» машины прежних поколений были камнем преткно­ вения для большинства социологов. Быстрое продвижение в нашу жизнь персональных компьютеров и основанных на их использовании технологий коренным образом изменило воз­ можности и стиль работы исследователя. В чем главные досто­ инства этих машин?

Первое и главное достоинство их в том, что они — дей­ ствительно «персональный» инструмент в руках человека напо­ добие ручки, калькулятора. Они позволяют, не обращаясь к программистам и другим специалистам, самостоятельно и эф­ фективно выполнять сложные работы. Этому помогает «друже­ ственность» современных машин и программ для них. Простые очевидные принципы «общения», часто опирающиеся на ин­ туицию, помогают работать с машиной без сколько-нибудь глубоких знаний их устройства, языков программирования; на­ чальное время обучения совсем не велико.

Вместе с тем вычислительные мощности современных пер­ сональных компьютеров могут удовлетворить большую часть потенциальных исследовательских потребностей социологов.

Программное обеспечение — вторая неотъемлемая часть этих инноваций. Развитое программное обеспечение также по­ зволяет решить большую часть стандартных задач.

И наконец, относительно невысокая стоимость делает все эти технологические новшества доступными для небольших исследовательских групп, изменяя организационные принци­ пы самой исследовательской работы.

Рассмотрим несколько подробнее этапы исследовательского цикла.

Подготовка инструментария. Социологическая анкета по своему дизайну представляет собой довольно сложный доку­ мент, к качеству выполнения которого предъявляются весьма серьезные требования. Для ввода и форматирования в нужном виде различных документов используются так называемые тек­ стовые редакторы. Наиболее широкое распространение у нас в стране, как и во всем мире, получили такие текстовые редак­ торы, как MS Word, Word Perfect и другие, а также отече­ ственная разработка Lexicon.

Сбор данных. Сбор данных становится все более технически нагруженным этапом социологического исследования. В главе