
- •Оглавление
- •1. Предмет социологии
- •2. Общество и личность.
- •3. Социальные законы функционирования и развития общества
- •4. Формы проявления и механизмы действия социальных законов
- •1. Общая социологическая теория
- •2. Теоретический и эмпирический уровни социологического познания. Теоретическая и прикладная социология
- •3. Специальные социологические теории и эмпирические исследования
- •1. Основные условия и формы жизнедеятельности общества. Способ производства и образ жизни
- •2. Социальная структура и социальные отношения
- •3. Социально-территориальные общности
- •4. Социально-политическая организация общества и социальные институты
- •5. Духовная жизнь общества. Средства массовой информации и пропаганды Социальные проблемы идеологической деятельности
- •5. Социальное планирование. Социальные показатели
- •1. Постановка проблемы. Цели и задачи исследования
- •2. Определение объекта и предмета исследования
- •3. Интерпретация и операционализация понятий
- •4. Выдвижение и проверка гипотез
- •5. Организационно-методический план исследования
- •6. Рабочий план исследования и подготовка исполнителей
- •1. Понятие измерения в социологии. Уровни измерения
- •2. Группировка материала статистических наблюдений
- •3. Графическая интерпретация эмпирических зависимостей
- •4. Средние величины и характеристики рассеяния значений признака
- •5. Нормальное распределение. Статистические гипотезы
- •6. Статистические взаимосвязи и их анализ
- •7. Новые подходы к анализу данных, измеренных по порядковым и номинальным шкалам
- •1. Основные понятия выборочного метода
- •2. Простой случайный отбор
- •3. Систематическая и серийная выборки
- •4. Стратифицированный отбор
- •5. Многоступенчатые и комбинированные способы формирования выборочной совокупности
- •6. Неслучайные методы отбора и другие подходы к построению выборки
- •1. Виды шкал
- •402. Насколько Вы лично удовлетворены следующими сторонами своей жизни?
- •2. Некоторые методы измерения
- •3. Надежность измерения социальных характеристик
- •1. Понятие документа. Классификация документов
- •2. Методы анализа документов
- •3. Выборка документов и проблемы качества документальной информации
- •1. Понятие наблюдения.
- •2. Программа наблюдения
- •3. Виды наблюдения
- •4. Фиксация результатов. Подготовка наблюдатели
- •1. Понятие опроса
- •2. Критерии качества данных опроса
- •3. Основные фазы опроса
- •4. Типы и виды вопросов
- •5. Разновидности опроса
- •6. Эмпирическое обоснование методики опроса
- •1. Социометрический опрос
- •2. Обработка и анализ результатов социометрического опроса
- •3. Социометрические индексы
- •1. Понятие эксперимента
- •2. Экспериментальные переменные
- •3. Виды экспериментов
- •4. Обработка экспериментального материала
- •1. Подготовка данных к анализу на эвм
- •2. Описание и объяснение в социологическом исследовании
- •3. Способы проверки гипотез
4. Средние величины и характеристики рассеяния значений признака
Группировка и построение частотного распределения — лишь первый этап статистического, анализа полученных данных. Следующим шагом обработки является получение некоторых обобщающих характеристик, позволяющих, глубже понять особенности объекта наблюдения. Сюда относится прежде всего среднее значение признака, вокруг которого варьируют остальные его значения, и степень колеблемости рассматриваемого признака. В математической статистике различают несколько видов средних величин среднее арифметическое, медиана, мода и т. д.; существует также несколько показателей колеблемости (мер рассеяния): вариационный размах, среднее квадратическое отклонение, среднее абсолютное отклонение, дисперсия и т.п.85
Среднее значение признака. Среднее есть абстрактная типическая характеристика всей совокупности. Оно уничтожает, погашает, сглаживает случайные и неслучайные колебания, влияние индивидуальных особенностей и позволяет представить в одной величина некоторую -общую характеристику реальной совокупности единиц. Основное условие научного использования средних заключается в том, чтобы каждое среднее характеризовало такую совокупность единиц, которая в существенном отношении, и в первую очередь в отношении осредняемых значений признака, была бы качественно однородной. Среди всего многообразия средних практически наиболее часто используемой считается среднее арифметическое.
Среднее
арифметическое.
Среднее арифметическое есть часть от
деления суммы всех значений признака
.на их число. Обозначается оно
.
Формула для вычисления имеет вид
,
(1)
где x1, …, xn – значения признака, n – число наблюдений.
По следующим данным вычислим среднее число газет, читаемых ежедневно индивидами в выборке из 10 человек:
Номер опрошенного i |
1 2 3 4 5 6 7 8 9 10 |
Число читаемых газет xi |
3 4 4
5 4 2 4 5 5 3
|
По формуле для находим
|
Формула (1) для сгруппированных данных преобразуется в следующую:
,
где ni — частота для i-го значения признака.
Если находят среднюю для интервального ряда распределения, то в качестве значения признака для каждого интервала условно принимают его середину.
Процедуру вычисления среднего по сгруппированным данным удобно выполнять по следующей схеме (табл. 3).
Таблица 3. Схема вычисления среднего арифметического
Интервал |
Середина интервала (xi) |
Частота (относительная) ni |
Произведение xini |
Последовательно выписываются все интервалы |
x1 x2 . . xл |
n1 n2 . .
|
x1n1 x2n2 . .
|
Существует ряд упрощенных приемов вычисления средних. На с. 163 как промежуточный этап рассмотрено вычисление среднего методом отсчета от условного нуля.
Пример. Вышеприведенные данные о количестве прочитанных газет сгруппируем следующим образом:
Номер опрошенного i |
6 |
1 10 |
2 3 5 7 |
4 8 9 |
|
Число читаемых газет xi |
2 |
3 3 |
4 4 4 4 |
5 5 5 |
|
Частота ni |
1 |
2 |
4 |
3 |
|
Отсюда вычислим :
|
Медиана. Медианой называется значение признака у той единицы совокупности, которая расположена в середине ряда частотного распределения.
Если в ряду четное число членов (2k), то медиана равна среднему арифметическому из двух серединных значений признака. При нечетном числе членов (2k+1) медианным будет значение признака у (k + 1) объекта.
Предположим, что в выборке из 10 человек респонденты проранжированы по стажу работы на данном предприятии:
Ранг опрошенного |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
Стаж |
15 |
13 |
10 |
9 |
7 |
6 |
5 |
4 |
3 |
1 |
Серединные ранги 5 и 6, поэтому медиана равна
лет
В интервальном ряду с различными значениями частот вычисление медианы распадается на два этапа: сначала находят медианный интервал, которому соответствует первая из накопленных частот, превышающая половину всего объема совокупности, а затем находят значение медианы по формуле
,
(2)
где x0
— начало (нижняя граница) медианного
интервала;
— величина медианного интервала;
— сумма частот (относительных частот)
интервалов; nH
— частота (относительная), накопленная
до медианного интервала; nMe
— частота (относительная) медианного
интервала.
Проведем вычисление по данным табл. 2, где в нижней строке приведены накопленные относительные частоты. Первая из них превышающая половину совокупности (100/2 = 50%), равна 57,9% Следовательно, медиана принадлежит интервалу 3—4 года. Поэтому
Таким образом, для данной выборки медиана, равная 3,7 года, показывает, что 50% семей имеют соотношение возрастов, меньше этой величины, а другие 50% — большее. Медиана, может быть легко определена графически по кумуляте распределения (см. рис. 3).
Медиана может быть применена для дискретных переменных, хотя дробные значения, часто не имеют непосредственной содержательной интерпретации.
По данным распределения рабочих по тарифным разрядам (см. с. 156) вычислим медиану этого распределения, используя приведенную выше формулу86. Получим
Узнали, что 50% рабочих имеют разряд, меньший 3,1, и 50% — больший.
Медиана, как уже отмечалось, делит упорядоченный вариационный ряд на две равные но численности группы.
Наряду с медианой можно рассматривать величины, называемые квантилями, которые делят ряд распределения на 4 равные части, на 10 и т. д.
Квантили, которые делят ряд на 4 равные по объему совокупности, называются квартилями. Различают нижний Q1/4 и верхний Q3/4 квартили (рис. 6). Величина Q1/2 является медианой. Вычисление квартилей совершенно аналогично вычислению медианы:
;
(3)
,
(4)
где x0 — минимальная граница интервала, содержащего нижний (верхний) квартиль; nH — частота (относительная частота), накопленная до квартального интервала; nQ — частота (относительная частота) квартильного интервала; — величина квартального интервала.
Процентили делят множество наблюдений на 100 частей с равным числом наблюдений в каждой. Децили делят множество наблюдений на десять равных частей. Квантили легко вычисляются по распределению накопленных частот (по кумуляте).
Мода. Модой в статистике называется наиболее часто встречающееся значение признака, т. е. значение, с которым наиболее вероятно можно встретиться в серии зарегистрированных наблюдений.
В дискретном ряду мода (Мо)—это значение с наибольшей частотой.
В интервальном ряду (с равными интервалами) модальным является класс с наибольшим числом наблюдений. Значение моды находится в его пределах и вычисляется по формуле
где x0
—
нижняя граница модального интервала;
— величина интервала;
— частота
интервала, предшествующего модальному;
nMo
— частота модального класса;
—
частота интервала, следующего за
модальным.
В совокупностях, в которых может быть произведена лишь операция классификации объектов по какому-нибудь качественному признаку, вычисление моды является единственным способом указать некий центр тяжести совокупности.
К недостаткам моды следует отнести следующие: невозможность совершать над ней алгебраические действия; зависимость ее величины от интервала группировки, возможность существования в ряду распределения нескольких модальных значений признака (см., например, рис. 4, в).
Сравнение средних. Целесообразность использования того или иного типа средней величины зависит по крайней мере от следующих условий: цели усреднения, вида распределения, уровня измерения признака, вычислительных соображений. Цель усреднения связана с содержательной трактовкой рассматриваемой задачи. Однако форма распределения может существенно усложнить исследование средних. Если для симметричного распределения (см. рис. 4, а) мода, медиана и среднее арифметическое тождественны, то для асимметричного распределения это не так. На выбор средней может повлиять и вид распределения. Например, для ряда с открытыми конечными интервалами нельзя вычислять среднее арифметическое, но если распределение близко к симметричному, можно подсчитать тождественную ему в этом случае, медиану.
Показатели колеблемости (вариации) значений признаков. Для характеристики рядов распределения оказывается недостаточным указание только средней величины данного признака, поскольку два ряда могут иметь, к примеру, одинаковые средние арифметические, но степень концентрации (или, наоборот, разброса) значений признаков вокруг средней будет совершенно различной. Характеристикой такого разброса служат показатели колеблемости — разность между- максимальным и минимальным значениями признака в некоторой совокупности (вариационный размах), а также другие показатели: среднее абсолютное (линейное) отклонение, среднее квадратическое отклонение и т. п.
Дисперсия. Дисперсией называется величина, равная среднему значению квадрата отклонений отдельных значений признаков от средней арифметической. Обозначается дисперсия s2 и вычисляется по формуле
(6)
Корень квадратный из дисперсии называется средним квадратическим отклонением и обозначается.
Геометрически среднее квадратическое отклонение является показателем того, несколько в среднем кривая распределения размыта относительно ее среднего арифметического. Измеряется в тех же единицах, что и изучаемый признак.
При ручном счете для упрощения вычислений дисперсию (s) рассчитывают по формуле методом отсчета от условного нуля. Для интервального ряда с равными интервалами процедура следующая. Сначала вычисляются центры интервалов. Относительно какого-либо отобранного серединного интервала ряда, например А, вверх и вниз выписывается натуральный ряд чисел (аi) соответственно со знаком «плюс» и «минус»: 0, +1, +2 и т. д.; -1,
-2 и т. д. (табл. 4).
Далее вычисляются
величины
.
В качестве промежуточного результата
по формуле (7)
получаем среднее арифметическое.
Величина дисперсии получается подстановкой
промежуточных величин из табл. 4 в
формулу (8).
Среднее арифметическое находится по формуле87
(лет)
(7)
Тогда дисперсия равна
(8)
(лет)
Приведенные вычисления показывают, что при среднем возрасте 40 лет все остальные члены совокупности имеют возраст, который в среднем отклоняется от 40 лет на 7,8 лет, т. е. примерно на 20%.
Таблица 4 . Пример вычисления дисперсии*
Центр возрастной группы xi |
Частота или относительная частота ni или mi |
|
|
|
|
|
27,5 32,5 37,5 А = 42,5 |
15 37 52 44 |
-15 -10 -5 0 |
-3 -2 -1 0 |
9 4 1 0 |
-45 -74 -52 0 |
135 148 52 0 |
47,5 52,5 57,5 |
20 10 13 |
5 10 15 |
1 2 3 |
1 4 9 |
20 20 39 |
20 41 117 |
= 5 |
|
|
|
|
|
|
* Численные данные о распределении кандидатов наук по возрастным группам в отделении экономики, истории, философии и права АН УССР (Организация науки/ Под ред. Г. М. Доброва, М., 1970, с. 148—149).
Среднее абсолютное отклонение. Эта мера вариации представляет собой среднее арифметическое из абсолютных величин отклонений отдельных значений признака от их среднего арифметического
(9)
где
означает, что суммируются значения
отклонений без учета знака этих
отклонений;
— объем совокупности.
.Вместо среднего арифметического в формуле 9 часто берут моду или медиану. Для симметричных распределений мода, медиана и среднее арифметическое совпадают и выбор средней не представляет труда. Для асимметричного распределения иногда отдают предпочтение медиане.
Величина среднего
квадратического отклонения всегда
больше d
и для достаточно большой выборочной
совокупности с распределением
признака, близкого к нормальному, связана
с
соотношением
Например, для данных табл. 4 вреднее линейное отклонение, подсчитанное по формуле 9, равно d = 6,3 года. Тогда
s = 1,25*6,3 = 7,87
что с учетом погрешности вычислений совпадаете найденным ранее средним квадратическим отклонением. Таким образом, для предварительного анализа можно заменить вычисление менее трудоемким вычислением.
Коэффициент вариации. Среднее линейное и среднее квадратическое отклонение являются мерой абсолютной колеблемости признака и всегда выражаются в тех же единицах измерения, в которых выражен изучаемый признак. Это не позволяет сопоставлять между собой средние отклонения различных признаков (в случае разных единиц измерения) в одной и той же совокупности, а также одного и того же признака в разных совокупностях с различными средними. Чтобы иметь такую возможность, средние отклонения часто выражаются через соотнесение в процентах к среднему арифметическому, т.е. в виде относительных величий.
Отношение среднего линейного или среднего квадратического отклонения к среднему арифметическому называется коэффициентом вариации (V):
(11)
(12)
Очевидно, что тот из рядов имеет большее рассеяние, у которого коэффициент вариации больше.
Рассмотренные выше показатели вариации применимы лишь к количественным признакам, а точнее к признакам, измеренным не ниже чем по интервальной шкале. Применение этих мер для низших уровней, строго говоря, некорректно и требует тщательной интерпретации полученных результатов.
Вариации качественных признаков. Если признак имеет k взаимоисключающих градаций, то для вычисления индекса качественной вариации применяется - процедура, поясняемая .следующим примером.
Пусть получено следующее распределение ответов (взаимоисключающих) на вопросы А, В и С (колонка 1):
|
1 |
2 |
A |
30 |
40 |
B |
20 |
40 |
C |
70 |
40 |
|
120 |
120 |
Во вторую колонку запишем такие частоты, которые получились бы при равномерном заполнении всех трех вопросов, т. е. 120/3 = 40. Теперь вычислим величину
(13)
Этот показатель называется индексом качественной вариации и указывает на степень неоднородности полученных ответов. Если бы все ответы попали лишь в одну градацию, то J=0, что означало бы полное единство в ответах, хотя, конечно, индекс совершенно не учитывает того, в какую именно градацию попали все эти ответы.
Совершенно аналогично индекс вычисляется при любом числе градаций. Но для альтернативных признаков вариация обычно подсчитывается по формуле (14). Она отличается от J на константу, называется дисперсией, выражается в абсолютных числах и обозначается s2:
(14)
Другой мерой вариации признака (независимо от уровня измерения) может служить так называемая энтропия — мера неопределенности, вычисляемая по формуле
.
(15)
Логарифм в этой формуле может быть взят по любому основанию. Энтропия обладает следующими свойствами:
а) энтропия равна нулю лишь в том случае, если вероятность получения одного из значения xi, признака x равна единице (вероятность остальных значений при этом равна нулю). Такой признак не обладает неопределенностью, так как достоверно известно одно единственно возможное его значение. Во всех остальных случаях, когда имеется та или иная неопределенность в значениях xi, энтропия является положительной величиной;
б) наибольшей энтропией обладает признак, когда все, значения xi равновероятны. Для признака с k градациями
Отсюда видно, что максимальная энтропия увеличивается с ростом числа градаций в признаке,