Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Metodika_issledovany_v_sotsialnoy_rabote_Yakur.doc
Скачиваний:
4
Добавлен:
01.03.2025
Размер:
1.98 Mб
Скачать

Тема 14. Базовый анализ данных

1. Частотные линейные распределения

2. Парные (двумерные) распределения

1. Частотные линейные распределения

После того, как данные, полученные в ходе количественных и качественных исследований, подготовлены к обработке, прежде всего, проводится их базовый анализ: расчет частотных распределений, кросс-табуляция и проверка гипотез о связях и о различиях.

Как мы уже говорили, главная цель исследования состоит в том, чтобы проверить гипотезы. Именно на этапе анализа информации проявляется практическая значимость глубоко продуманных рабочих гипотез.

Характер проверки гипотез предопределен видом исследования. Например, в пилотажном исследовании гипотезы проверяются непосредственно путем соотнесения предполагаемого утверждения с выявленной в результате исследования числовой величиной. Например, истинность утверждения о том, что большинство студентов удовлетворены своим обучение в УГТУ-УПИ – считается доказанной, если в результате исследования положительную оценку дали более 50% респондентов (51%). И таким образом, мы проверяем все гипотезы, выдвинутые на этапе составления концепции (программы) исследования.

Однако перед тем как исследователи начинают проверять свои гипотезы, они обычно бросают предварительный общий взгляд на свои данные и пытаются резюмировать или описать их по каждой из переменных, т.е. измерить «среднюю температуру по госпиталю».

Для того чтобы сделать выводы из результатов произведенных измерений одной переменной, используется так называемая описательная статистика.

Соответствующие такому анализу таблицы называются частотными (линейными, одномерными) распределениями и рассчитываются данные таблицы по формуле , где

n – количество респондентов, избравших данный вариант ответа по каждому вопросу;

N – вся совокупность опрашиваемых.

Примером может служить таблица 45, в которой представлены гипотетические данные выборочного опроса 500 владельцев домашних телефонов.

Таблица 45

Частотное (линейное) распределение ежемесячных доходов на междугородние телефонные переговоры

Интервал класса

(расходы в руб.)

Абсолютная частота,

(чел.)

Относительная частота,

(%)

Ранг

До 100

51

11

4

100 – 300

40

8,6

6

300 – 500

135

29,0

1

500 – 700

80

17,2

2

700 – 900

65

14,0

3

900 – 1100

49

10,5

5

1100 - 1300

37

8,0

7

1300 – 1500

8

1,7

8

Всего

465

100%

Не ответили

35

(35,0)

Но полученное частотное распределение носит весьма, общий характер, не отвечая при этом на весьма важные вопросы. Поэтому обычно для обобщенного описания того, что является наиболее характерным для наблюдаемых нами явлений, используют два основных типа (способа) анализа:

1) Измерение основной (центральной) тенденции (т.е. выявление того, какие из значений переменных встречаются в линейных распределениях наиболее часто, а значит, определяют общую или центральную закономерность).

2) Измерение разброса, или дисперсии, которое показывает насколько плотно или слабо распределяются все зафиксированные значения данной переменной вокруг наиболее общего, среднего или центрального значения.

Рассмотрим вначале измерение основной (центральной) тенденции.

Характеристики основной (центральной) тенденции

Основную тенденцию в ответах характеризуют три показателя: мода, медиана и среднее значение.

1. Самой простой из мер центральной тенденции является мода (Мо). Для номинальных и реже интервальных переменных (номинальная и интервальная шкалы) мода – это единственный способ указать наиболее типичное, распространенное значение. Мода – это такое значение переменной, которое встречается среди данных наиболее часто. В распределении, представленном в табл. 46. модальную категорию представляют собою владельцы домашних телефонов, расходующих на переговоры от 300 – 500 рублей в месяц.

2. Другая мера центральной тенденции – медиана (Мd) – используется как для номинальных и интервальных переменных так и для таких переменных, значения которых могут быть упорядочены от меньших к большим значениям т.е. для порядковых переменных). Медиана – это значение, которое делит упорядоченное множество данных пополам, так что одна половина наблюдений оказывается меньше медианы, а другая больше. Например, для ряда: 17баллов, 18 баллов, 20 баллов, 21 балл, 23 балла, медианой будет значение 20 баллов. Таким образом, медиана указывает среднюю позицию.

Медиана может совпадать или не совпадать с модой. Можно посмотреть, как определяется медиана, на примере распределений ответов на вопрос о том, какова частота использования различных источников информации о работе городской администрации г. »Х» (табл.46).

Таблица 46

Распределение источников информации о работе городской администрации

Источники информации

Частота / ранг

Часто

Регулярно

Иногда

Никогда

Нет ответа

4

3

2

1

0

Встречи с мэром и работниками администрации

2

5

39

282

98

Газеты

46

76

171

71

62

Общение с коллегами по работе

30

63

124

104

105

Общение с родными, соседями, друзьями

45

82

167

52

80

Радио

66

88

142

64

66

Телевидение

133

129

121

22

21

Здесь значения переменных – частоты использования того или иного источника – соотнесены с ранговой шкалой, значения которой меняются от категории «часто» (которой присвоен ранг 4) до «не дали ответа» (ранг 0).Учитывая, что общее число опрошенных (или число наблюдений) равно 426, то половина наблюдений составит 213. Это означает, что медиана для такого источника информации как «встречи с мэром и работниками администрации» приходиться на категорию с рангом 1 (никогда); для четырех последующих переменных – на категорию с рангом 2 (иногда); для последней переменной – «телевидение» - медиана приходится на категорию 3 (регулярно).

Повторим, что для измерения позиций номинальной и реже интервальной шкалы подходит только мода. А для измерения позиций порядковой (ранговой) шкалы подходит как мода, так и медиана.

В случаях, когда в числовом ряде (табл. 45 и 46) явно выделяется модальная (наибольшая) величина или медиана, то соотнесение элементов числового ряда заключается в их простом ранжировании. Этот процедура называется внутренним соотнесением. Отметим, что под внутренним соотнесением понимают сравнение между собой элементов числового ряда таблицы. А такие таблицы называют перечневыми.

При анализе рядов распределений, когда мы выявляем центральную тенденцию (Мо или Мd), следует сразу обращать внимание на максимальные и минимальные значения изучаемой переменной. Т.е. анализ следует начинать с акцента на самом большом и самом маленьком значении – это сразу дает представление о масштабах изменения рассматриваемой переменной и дисперсии.

3. И все же для количественных переменных (интервальной шкалы) самой важной и распространенной является другая мера центральной тенденции – среднее арифметическое, которое чаще всего называют просто средним (и обозначают как ).

Процедура определения средней арифметической величины общеизвестна: нужно просуммировать все значения наблюдений и разделить полученную сумму на число наблюдений (позиций).

где - число значений – позиции,

n общее число наблюдений (значений, позиций).

Рассмотрим вычисление средней арифметической величины на примере расчета средней посещаемости занятий в студенческой группе из 30 человек по данным проверок деканата. Данные о посещаемости изложены в табл. 47. Сложив числа в правой колонке и разделив их на 10 (число значений, позиций, наблюдений, проверок), мы получим, что средняя посещаемость в группе составила:

18,6.

Понятно, что полученное число – 18,6 студента – не может иметь реального физического смысла, оно пригодно лишь для сравнения.

Таблица 47

Посещаемость занятий студентами

№ занятия

Число присутствующих

1

17

2

21

3

18

4

14

5

20

6

20

7

16

8

17

9

21

10

22

Или вычислим среднее число газет, читаемых ежедневно индивидами в выборке из 10 человек.

Номер опрошенного i 1 2 3 4 5 6 7 8 9 10

Число читаемых газет

(варианта) 3 4 4 5 4 2 2 4 5 5

газеты.

Среднее может оказаться обманчивым показателем, если в объеме выборочной совокупности среди переменных появится какая-то экстремальная величина. Здесь рассчитывается не среднее арифметическое, а средняя арифметическая взвешенная. Следует также подчеркнуть, что средневзвешенная величина используется в основном для измерения позиций интервальной шкалы.

где веса (частоты) вариант

Так, предположим, что нам требуется вычислить средний возраст респондентов, и распределение по возрасту оказалось таким, как в табл. 48.

Таблица 48

Распределение респондентов по возрастам

Возраст

Абсолютная частота

Относительная частота

18-24

46

10,1

25-29

55

12,0

30-39

97

21,2

40-49

115

25,2

50-59

74

16,2

60-70

70

15,3

Всего

457

100,0

- Здесь вначале мы должны определить середину каждого интервала. Это делается путем вычисления простого среднего, т.е. сумма крайних значений делится пополам (например, 18+24/2=21);

- затем необходимо умножить это значение на число респондентов соответствующего возраста,

- затем сложить полученные произведения и разделить на общий объем выборки.

Различные этапы этого процесса отражены в табл.49.

Таблица 49

Рабочая таблица расчета среднего возраста

Возраст

Абсолютная частота

Середина интервала

Произведение

18-24

46

21

966

25-29

55

27

1485

30-39

97

34,5

3346,5

40-49

115

44,5

5117,5

50-59

74

54,5

4033

60-70

70

65

4550

Всего

457

19498

Разделив полученную сумму на 457 (общее число опрошенных), мы получим средний возраст в 42,6 года. Таким образом, формула для средневзвешенного выглядит так же, как и формула средней арифметической, однако в ней относится к середине интервала:

,

где - числовое значение i – позиции,

- число респондентов, наблюдаемых по i – й позиции переменной,

n – общее число наблюдений по всему массиву.

Далее рассмотрим как измеряется разброс значений или дисперсия.

Измерение дисперсии

Частотное распределение раскрывает не только центральную тенденцию, но и дисперсию данных. Дисперсия характеризует разброс значений переменной. Для данных номинального уровня наибольший уровень дисперсии проявляется, когда наблюдения распределены поровну между категориями. Поэтому можно считать, что данные табл. 25 весьма дисперсны, поскольку имеется приблизительно одинаковое число мужчин и женщин. Полное отсутствие дисперсии проявляется в тех случаях, когда все наблюдаемые значения переменной совершенно однородны, т.е. попадают в одну и ту же категорию, например, в категорию в основном мужчин, или женщин, или к людям пожилого возраста (табл.50).

Проблемы с дисперсией данных могут возникнуть в связи с некачественным составлением выборки, т.е. ошибками выборки. О значении и расчете дисперсии поговорим более подробно далее.

Таблица 50

Распределение респондентов по полу

Пол

Частота

Процент

Мужской

З99

44,3

Женский

496

55,0

Всего

895

100,0

Представьте себе, что вы намереваетесь изучить взаимосвязь между полом и родом занятий, и обнаружили, что в выборке опроса оказались в основном мужчины. Поскольку налицо отсутствие дисперсии (т.е. нет вариации по одной из ключевых переменных – по полу), каких-либо сравнений провести нельзя. А процедура сравнения являет собою, по сути своей, ядро анализа. Нет изменения – нет сравнения.

Показатели разброса данных интервального и пропорционального (номинального) уровня включают среднее отклонение. Среднее отклонение (MD) представляет собой меру разброса, основанную на отклонении каждого из значений от среднего, т.е. она делит упорядоченный вариационный ряд на две равные по численности группы.

Пример ее вычисления приведен ниже в табл. 51.

Таблица 51

Распределение отклонений и среднее распределение доходов среди жильцов подъезда № 2

Номер квартиры

2-й подъезд

11

1000

-1050

1050

12

1000

-1050

1050

13

1200

-850

850

14

1800

-150

150

15

2000

-50

50

16

2200

50

50

17

2500

450

450

18

2800

750

750

19

3000

950

950

20

3000

950

950

Среднее

2050