Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Осипов Г.В. Социология. Основы общей теории / Социология. Основы общей теории

.pdf
Скачиваний:
1954
Добавлен:
02.05.2014
Размер:
13.93 Mб
Скачать

Глава 21. Анализ и интерпретация эмпирических данных

813

следующих двух совокупностей, отражающих одни и те же эм­ пирические отношения равенства—неравенства и порядка как между респондентами, так и между соответствующими интер­ валами и, кроме того, отвечающих одному и тому же началу отсчета (один и тот же объект (второй) в обоих случаях изоб­ ражается в 0): (2, 0, - 1 , 4, 1) и (3, 0, -3/2, 6, 3/2). Легко за­ метить также, что для обеих совокупностей частные от деления между шкальными значениями любых пар объектов одни и те же (2 : 4 = 3 : 6 и т. д.). Ясно, что рассматриваемые совокупнос­ ти получаются друг из друга с помощью положительного пре­ образования подобия = 3/2х).

Шкапы разностей — это шкалы, которым соответствуют пре­ образования сдвига, т. е. преобразования вида у = х + Ь, где b — произвольное действительное число. Такие преобразования обра­ зуют подсовокупность положительных линейных преобразований. Шкалы разностей получаются из интервальных шкал при фикса­ ции единицы измерения. Для большинства социологических шкал трудно задать естественным образом такую единицу (ис­ ключение составляют шкалы типа возраст, стаж работы, доход и некоторые другие). Однако шкалу разностей можно получить, на­ пример, при отыскании шкальных значений рассматриваемых объектов с помощью некоторых методов парных сравнений.

Социальные характеристики, значения которых получены по порядковой или номинальной шкале, обычно называют ка­ чественными. Для получения значений количественных харак­ теристик использовалась шкала, тип которой ниже интерваль­ ной шкалы.

В соответствии с имеющейся традицией будем говорить, что две шкалы позволяют достичь одного и того же уровня из­ мерения в случае, если эти шкалы являются шкалами одного типа (т. е. если соответствующие этим шкалам совокупности допустимых преобразований совпадают).

Адекватность математических методов. Одним из основных вопросов, который встает перед исследователем после осуще­ ствления измерения, является вопрос о том, какие математи­ ческие методы он имеет право применять для анализа полу­ ченных чисел. Будем называть допустимыми (адекватными) только такие методы, результаты применения которых не за­ висят от того, по какой из возможных шкал получены исход­ ные данные. Необходимым условием такой независимости яв­ ляется инвариантность этих результатов относительно допусти­ мых преобразований используемых шкал.

814

Раздел шестой. Социологическое исследование

Чем уже круг допустимых преобразований, тем большее ко­ личество математических соотношений оставляют эти преобразо­ вания без изменения. Другими словами, чем выше тип шкапы, чем выше уровень измерения, тем большее количество математи­ ческих методов можно применять к шкальным значениям, полу­ чая при этом интерпретируемые результаты. Рассмотрим неко­ торые из них.

Ясно, что любую статистику можно использовать в произ­ вольном контексте только в том случае, если се значение оста­ ется инвариантным относительно применения к исходным данным любого допустимого преобразования соответствующей шкалы. Для номинальной шкалы, удовлетворяющей такому ус­ ловию, средней будет мода, для порядковой шкалы — медиа­ на и другие квантили. Значение среднего арифметического ос­ тается без изменения лишь для абсолютных шкал, поэтому об­ ращение к ним требует известной осторожности. Однако можно показать, что сравнивать по величине средние арифме­ тические значения какого-либо признака можно уже в том случае, если исходные данные получены по интервальной шкале (другими словами, результаты такого сравнения не из­ меняются при применении к исходным данным произвольного положительного линейного преобразования).

Инвариантными относительно допустимых преобразований рассматриваемых шкал являются значения коэффициентов свя­ зи, рекомендуемых далее в настоящей главе для соответствующе­ го уровня измерения. Так, значение коэффициента корреляции г не изменяется при применении к исходным данным произволь­ ного положительного линейного преобразования; значения ко­ эффициентов Кендалла г и Спирмена г, инвариантны относи­ тельно произвольного монотонно возрастающего преобразова­ ния входящих в них величин; значения коэффициентов %2, Ф, Р, К, Т инвариантны относительно произвольного взаимно од­ нозначного преобразования исходных данных.

§2. Элементарные понятия статистики

2.1.Группировка наблюдений

Измеряя характеристики объекта, исследователь собирает первичный 'Статистический материал. Дальнейшая его задача состоит в систематизации и обобщении результатов измерения

Глава 21. Анализ и интерпретация эмпирических данных

815

для выявления характерных, существенных черт тех или иных типов явлений, обнаружения закономерностей изучаемых про­ цессов и проверки гипотез, лежащих в основе исследования. В основе используемых методов обработки полученных мате­ риалов исследования лежит предварительное упорядочение первичных данных главным образом при помощи статистичес­ кой группировки и составления статистических таблиц.

Ряды распределения. Результат группировки единиц наблю­ дения по какому-либо признаку называется статистическим рядом. Обозначим группировочный признак х. Пусть это будет уровень образования каждого человека в данном списке лиц: 10, 5, 7, 8, 8, 10, 10, 10 (классов). Если отдельные наблюде­ ния расположить в порядке возрастания указанных выше зна­

чений

признака, то

получим так называемый вариационный

ряд: 5,

7,

8,

8,

10,

10,

10,

10.

По

вариационному

ряду количественного признака' можно

подсчитать, как часто каждое значение этого признака встре­ чается в совокупности. В результате получим частотное распре­ деление для данного признака. Иногда его называют эмпири­ ческим или статистическим распределением.

Для вышеприведенного примера частотное распределение

выглядит так:

 

 

 

 

 

 

Отдельные значения признака (х)

5 6

7

8

9

10

Частота (п)

'

1 0

1 2

0

4

Объем совокупности (п всего человек)

8

 

 

 

 

Условимся каждое отдельное значение признака х обозначать

хр х2, xv ..., х^ (в данном

примере это 5, 7, 8, 9,

10 классов).

Абсолютное число, показывающее, сколько раз встречается то или иное значение признака х, называется частотой и обо­ значается соответственно я,, п2, nv ..., nk.

Относительной частотой (чаще всего выражаемой в процен­ тах) называется доля значений признака в общем числе на­ блюдений и обозначается mv mv mv ..., тк.

Сгруппированные данные. Как правило, для последующей статистической обработки или более наглядного представле­ ния данных отдельные значения признаков объединяются в группы (интервалы). В этом случае частоты соотносят уже не с каждым отдельным значением признака, как это делалось в предыдущем примере, а с рядом значений, попадающих в оп­ ределенный интервал.

816

Раздел шестой. Социологическое исследование

Например, распределение уровня образования в вышепри­ веденном примере может быть представлено в виде интерваль­ ного ряда следующем образом:

Образование (классы)

(5—7)

(8)

(9—10)

Частота

2

2

4

Статистические таблицы. Предусмотренные программой ис­ следования и методикой обработки группировки объектов по каждому из признаков являются основой статистических таб­ лиц, обобщающих исходные данные. По таким таблицам уста­ навливаются, измеряются и анализируются связи между при­ знаками исследуемой совокупности объектов.

Построение таблицы подчинено определенным правилам. Основное содержание таблицы должно быть отражено в назва­ нии: круг рассматриваемых вопросов, географические границы статистической совокупности, время, единицы измерения.

Простые таблицы представляют собой перечень, список от­ дельных единиц совокупности с количественной (или каче­ ственной) характеристикой каждой из них в отдельности. В бо­ лее сложных таблицах группировка единиц совокупности мо­ жет осуществляться по нескольким признакам.

Примером последнего типа таблиц может служить таблица 21.1.

Таблица 21.1

Распределение голосовавших во втором туре выборов Президента России (3 июля 1996 г.) по полу и возрасту'

 

Проголосовало id

Против обоих

 

Б Ельцина

Г Зюганова

 

Пол голосовавших

 

 

 

мужской

54°/.

41%

5%

женский

56%

39%

5%

Возраст голосовавших

 

 

 

18-29ле-1

71%

23%

6%

30 —44iола

58%

36%

6%

45—59 лет

48%

47%

5%

60 лс! и старше

48%

50%

2%

1 По данным всероссийского Exit Poll (опроса на выходе), проведен­ ного Институтом сравнительных социальных исследований (ЦЕССИ) 3 июля 1996 г Объем выборки — 10 500 человек.

Глава 21. Анализ и интерпретация эмпирических данных

817

Такая таблица представляет собой нечто гораздо большее, чем простой перечень данных, — она является способом и вместе с тем результатом определенной организации данных. Хорошо сконструированная таблица позволяет исследователю более четко представить и описать смысл и сущность изучаемого явления.

§3. Графическая интерпретация эмпирических зависимостей

Частотные распределения изображаются также в виде диаг­ рамм и графиков. Главным достоинством графического изобра­ жения является его наглядность.

Круговые диаграммы. Круговые диаграммы (в виде «пирога» или др.) чаще всего применяются для представления каче­ ственных характеристик. Например, результаты ответов на воп­ рос анкеты о религиозной принадлежности наглядно можно представить в следующем виде.

Затрудняюсь ответить 6%

Рис. 21.2. Распределение ответов на вопрос «Считаете ли Вы себя последователем какого-либо вероучения или нет?»1

Эти же данные могут быть представлены и множеством дру­ гих способов, например в виде столбиковых диаграмм, различ­ ных рисунков.

1 Данные всероссийского опроса «Ценности-96», проведенного ЦЕССИ в марте 1996 г. Репрезентативная выборка населения с 18 лет, объем выборки — 1500 человек.

Раздел шестой. Социологическое исследование

Полигон и гистограмма. Количественные характеристики фафически представляют чаще всего в виде полигона распре­ деления и гистограмм распределения.

Полигон служит для представления неинтервального ряда (рис. 21.3), а гистограмма — это фафическое изображение ин­ тервального ряда (рис. 21.4).

20%

1 2

3

4

5

8

9

10

Не удовлетворен

Удов­

Затрудняюсь

 

 

 

 

лет­

 

ответить

ворен Рис. 21.3. Полигон распределения ответов на вопрос

об удовлетворенности жизнью в целом (10-балльная шкала)1

Левый

9

Ю

 

Правый

Рис. 21.4. Гистограмма распределения ответов на вопрос о политической ориентации респондента (10-балльная шкала)2

1 Данные из того же исследования ЦЕССИ (март 1996 г.).

2 Данные всероссийского опроса ЦЕССИ, объем выборки — 1000 че­ ловек в возрасте 18 лет и более (июнь 1996 г.).

Глава 21. Анализ и интерпретация эмпирических данных

819

§ 4. Средние величины и характеристики рассеяния значений признака

Оговоримся сразу, что в этой главе речь пойдет о выбороч­ ных характеристиках распределения (средней, дисперсии и т. д.).

Группировка и построение частотного распределения — лишь первый этап статистического анализа полученных дан­ ных. Следующим шагом обработки является получение некото­ рых обобщающих характеристик, позволяющих в более ком­ пактной форме понять особенности объекта наблюдения. Сюда относится прежде всего среднее значение признака, вокруг ко­ торого варьируют остальные его значения, и степень колебле­ мости рассматриваемого признака. В математической статисти­ ке различают несколько видов средних величин: среднее ариф­ метическое, медиана, мода и т. д.; существует также несколько показателей колеблемости (мер рассеяния): вариационный размах, среднее квадратическое отклонение, среднее абсолют­ ное отклонение, дисперсия и т. п.

Среднее значение признака. Среднее арифметическое есть ча­ стное от деления суммы всех значений признака на их число. Обозначается оно х . Формула для вычисления имеет вид:

 

 

к

-_Х\ + Х2 + Х3+

... +Хп _

1*.

,= |

л

,

п

 

п

где xv х2, х3, ..., хп — значение признака; п — число наблюде­

ний.

 

 

По следующим данным вычислим среднее число газет, чи­ таемых ежедневно людьми, в выборке из 10 человек:

Номер опрошенного i

1

2

3

4

5

6

7

8 9

10

Число читаемых газет*,

3

4

4

5

4

2

4

5

к*

5 3 X *'= 39

 

х

 

 

 

 

х

 

 

i - i

По формуле для

находим, что

= 39/10 = 3,9 (газеты).

Если необходимо

вычислить

среднее

для

интервального

ряда распределения, то в качестве значения признака для каж­ дого интервала условно принимают его середину.

Медианой называется значение характеристики у той едини­ цы совокупности, которая расположена в середине ряда час-

820

Раздел шестой. Социологическое исследование

тотного распределения. Если в ряду четное число членов (2к), то медиана равна среднему арифметическому из двух середин­ ных значений признака. При нечетном числе членов (2к+ 1) медианой будет значение признака v(k+ 1) объекта.

Предположим, что в выборке из 10 человек респонденты проранжированы по стажу работы в данной организации:

Ранг опрошенного i

1

2

3

4

10

Стаж х.

15

13

10

9

 

Серединные ранги — 5 и 6, поэтому медиана равна (7 + 6)/ /2 = 6,5 лет.

Медиана, как уже отмечалось, делит упорядоченный ряд на две равные по численности группы. Наряду с медианой можно рассматривать величины, называемые квантилями, которые делят ряд распределения на 4 равные части, на 10 частей и т. д. Квантили, которые делят ряд на 4 равные по объему совокуп­ ности, называются квартилями.

Процентили делят множество наблюдений на 100 частей с равным числом наблюдений в каждой. Децили делят множество наблюдений на десять равных частей.

Модой в статистике называется наиболее часто встречающееся значение признака, т. е. значение, с которым наиболее вероятно можно встретиться в серии зарегистрированных наблюдений.

Вдискретном ряду мода 0) — это значение с наибольшей частотой.

Винтервальном ряду (с равными интервалами) модальным является класс с наибольшим числом наблюдений. Значение моды находится в его пределах и вычисляется по формуле:

М0п+8

пмп

-п

2пм0 -п

-п

 

где х0 — нижняя граница модального интервала; 8 — величина интервала; п~ — частота интервала, предшествующего модаль­ ному; пм частота модального класса; п+ — частота интерва­ ла, следующего за модальным.

В совокупностях, в которых может быть произведена лишь операция классификации объектов по какому-нибудь каче­ ственному признаку, вычисление моды является единствен­ ным способом указать некий центр тяжести совокупности.

Глава 21. Анализ и интерпретация эмпирических данных

821

К недостаткам моды следует отнести следующее: невозмож­ ность совершать над ней алгебраические действия; зависимость ее величины от интервала группировки; возможность суще­ ствования в ряду распределения нескольких модальных значе­ ний признака.

Целесообразность использования того или иного типа сред­ ней величины зависит по крайней мере от следующих условий: цели усреднения, вида распределения, уровня измерения ха­ рактеристики, вычислительных соображений. Цель усреднения связана с содержательной трактовкой рассматриваемой задачи. Однако форма распределения может существенно усложнить исследование средних. Если для симметричного распределения мода, медиана и среднее арифметическое тождественны, то для асимметричного распределения это не так. Например, для ряда с открытыми конечными интервалами нельзя вычислить среднее арифметическое, но если распределение близко к симметричному, то можно подсчитать тождественную ему в этом случае медиану.

§ 5. Показатели колеблемости (вариации) значений признаков

Для характеристики рядов распределений недостаточно ука­ зать только среднее значение данного признака, поскольку два ряда могут иметь, к примеру, одинаковые средние арифмети­ ческие, но степень концентрации (или, наоборот, разброса) значений признаков вокруг средней будет совершенно различ­ ной. Характеристикой такого разброса служат показатели колеб­ лемости — разности между максимальным и минимальным зна­ чениями признака в некоторой совокупности (вариационный размах), а также другие показатели — среднее абсолютное (ли­ нейное) отклонение, среднее квадратическое отклонение и т. п.

Дисперсия. Этот показатель вычисляется по формуле:

1>,--)2

S1 = izl

п-\

Если извлечь корень квадратный из этой величины, то ве­ личина s называется средним квадратическим отклонением. Гео-

822

Раздел шестой. Социологическое исследование

метрически среднее квадратическое отклонение является пока­ зателем того, насколько в среднем значения признака откло­ няются от своего среднего арифметического.

Среднее абсолютное отклонение как мера вариации пред­ ставляет собой среднее арифметическое из абсолютных вели­ чин отклонений отдельных значений признака от их среднего арифметического и рассчитывается по формуле:

п

 

d = ^

,

 

_

 

я

отклонений

где |х, - JC | означает,

что суммируются значения

без учета знака этих отклонений; п — объем совокупности.

Среднее линейное

и среднее

квадратическое

отклонение

являются мерами абсолютной колеблемости признака и всегда измеряются в тех же единицах, что и сам признак.

Рассмотренные показатели вариации применимы лишь к количественным признакам, а точнее — к признакам, изме­ ренным не ниже, чем по интервальной шкале. Применение этих мер для номинальных и порядковых признаков, строго говоря, некорректно и требует тщательной интерпретации по­ лученных результатов1.

§ 6. Статистические взаимосвязи и их анализ

Различают два вида зависимостей: функциональные (при­ мером которых могут служить законы Ньютона в классической физике) и статистические. Закономерности массовых обще­ ственных явлений складываются под влиянием множества причин, которые действуют одновременно и взаимосвязанно. Изучение такого рода закономерностей в статистике и называ­ ется задачей о статистической зависимости. В этой задаче по­ лезно различать два аспекта: изучение взаимозависимости не­ скольких величин и изучение зависимости одной или больше­ го числа величин от остальных. В основном первый аспект связан с теорией корреляции (корреляционный анализ), вто­ рой — с теорией регрессии (регрессионный анализ). Главное

1 О некоторых мерах вариации для качественных признаков см.: Рабо­ чая книга социолога. М., 1983. С. 166—167.