
- •Часть 1 методы сбора информации
- •1. Организационные аспекты эмпирических политических исследований
- •2. Выборка
- •3. Измерение
- •4. Опросы
- •5. Наблюдение
- •6. Работа с документами
- •7. Эксперимент
- •8. Качественные методы
- •Часть 2 методы анализа информации
- •9. Подготовка данных к обработке
- •10. Элементарные приемы обработки информации
- •10.2. Средние показатели вариационного ряда. Меры вариации и рассеяния
- •11. Анализ временных рядов. Статистическое прогнозирование
- •12. Прикладные методики анализа документов
- •13. Статистический анализ
- •14. Качественный анализ
- •Часть 1. Методы сбора информации
- •Часть 2. Методы анализа информации
10. Элементарные приемы обработки информации
10.1. Группировка и визуализация эмпирических данных
Первая ступень обработки статистической информации связана с группировкой данных. Простая группировка – классификация (упорядочивание) данных по одному признаку. Объединение фактов в систему осуществляется относительно ведущего признака группировки (например, по полу, возрасту, партийному стажу, уровню политической активности, по степени близости высказанных суждений).
Информация может быть
записана в виде динамического или
вариационного рядов, а также в виде
матрицы. Динамический
ряд – совокупность
значений эмпирического показателя за
определенное количество
времени
.
Вариационный ряд -
совокупность
возможных значений показателя X
и частота встречаемости
этого признака в заданной группе объектов
(изменение показателя в пространстве).
Иногда исследователи говорят об атрибутивных рядах (распределение респондентов по качественным признакам) и о вариационном ряде (имея в виду в данном случае распределение респондентов по количественным признакам и рассматривая два варианта: вариационные дискретные и вариационные непрерывные ряды).
Наиболее часто информация представляется в виде матрицы данных, что очень удобно для последующих математических расчетов. Выделяют несколько типов матриц: а) типа «объект – признак» (совокупность значений многомерного признака, рис. 2); б) коэффициентов [c.96] связей между признаками; в) расстояний между объектами; г) таблица сопряженности; д) близостей между объектами или признаками.
Рис. 2. Матрица информации.
Число членов группы, объединенных по какому-либо признаку, называется частотой вариации. Отношение данной группы к общему числу наблюдений – доля, относительная частота. Простейший анализ группировки – исчисление частот в долях или по процентам.
Например, в ходе исследования было опрошено 1500 человек. Из них членов политических объединений 600 человек. Тогда доля партийных среди опрошенных составит 0,4 (n/N = 600/1500), или 40% (n/N х 100% = 600/1500 х 100).
Количественные признаки делят на непрерывные (возраст, доход, партийный стаж) и дискретные (например, число участий в забастовках).
Полученные с помощью простой группировки данные могут быть подвергнуты следующим методам анализа: расчету средней арифметической, моды, медианы, дисперсии и т. д. Необходимо помнить, что к номинальным данным нельзя применять сложные методы статистического анализа, поскольку цифры, приписанные группам респондентов по какому-либо признаку, являются лишь ярлыками для них.
Перекрестная (комбинационная) группировка – связывание информации в систему по ряду признаков, выделенных в гипотезах. Основная цель перекрестной группировки – выявление взаимосвязей между двумя и более переменными (определение плотности и характера связи). Наиболее простой вариант предполагает построение перекрестных таблиц с совместными частотами.
Перекрестная группировка позволяет производить отбраковку и проверку достоверности данных («логический квадрат», «логический прямоугольник»). Логический квадрат строится исходя из ответов на основной и контрольный вопросы. С его помощью оценивается искренность респондента. Например, при оценке патриотизма можно задать такие вопросы: «Представьте себе, что у Вас есть возможность [c.97] изменить гражданство и переехать на постоянное место жительства в другое государство, более благополучное в экономическом отношении. Вы воспользуетесь этой возможностью?» Варианты ответа: а) «да, безусловно»; б) «нет»; в) «мое решение будет зависеть от обстоятельств». Второй вопрос: «Представьте себе, что Ваши дети стоят перед выбором: они могут уехать из России навсегда или остаться здесь. Что Вы им посоветуете?» Варианты ответа: а) «остаться в России»; б) «выехать в другую страну»; в) «затрудняюсь ответить». Таблица сопряженности для этих вопросов будет иметь следующий вид (табл.1):
Таблица 1
Таблица оценки искренности респондентов в косвенных вопросах о патриотизме
«Посоветую детям…» |
«Я уеду…» |
||
Да |
Затрудняюсь ответить |
Нет |
|
Остаться в России |
A |
B |
F |
Затрудняюсь ответить |
B |
C |
D |
Уехать |
F |
D |
E |
Искренность респондентов, попавших в группы А и В, вызывает большое сомнение.
Логический прямоугольник строится аналогичным образом, но в этом случае будет анализироваться соответствие не двух, а большего количества вопросов.
Виды таблиц: перечневая (отражает распределение ряда по одному признаку; табл. 2) и комбинационная (второе название – таблица взаимной сопряженности признаков; она отражает распределение по двум и более признакам; табл. 3).
Таблица 2
Уровень доверия респондентов правительству РФ (Санкт-Петербург, март 1998 г.)
Уровень доверия правительству |
Доверяю полностью |
Скорее доверяю |
Когда как, все зависит от ситуации |
Скорее не доверяю |
Не доверяю абсолютно |
Затрудняюсь ответить |
Итого |
Количество респондентов, чел. |
150 |
200 |
200 |
650 |
200 |
100 |
1500 |
Доля респондентов, в % |
10 |
13,33 |
13,33 |
43,34 |
13,33 |
6,67 |
100 |
[c.98]
Не следует вставлять таблицу в текст отчета, если для нее не требуются текстовые пояснения и интерпретация взаимосвязей данных. Все таблицы последовательно нумеруются (номера и заголовки помещают в центре страницы или справа с отступом от текста и от самой таблицы).
Фиксация данных в таблице выполняет функцию отображения рядов распределения. Числовые данные в таблице поясняются заголовками (общие выступают в качестве названия таблицы, структурные поясняют группировку анализируемой совокупности респондентов или связь между рядами распределения), подлежащими и сказуемыми. Подлежащим в таблице обозначают объект (совокупность респондентов), характеристики (сказуемое) которого представлены в таблице в числовом виде. В правильно оформленной таблице обязательно наличие маргинальных (итоговых) столбцов и строк. В названии (заголовке) таблицы обязательно указывают место и время, к которым имеют отношение отображаемые сведения, а также информацию о единицах измерения (проценты, доли, частоты).
Если в таблице полностью или частично фиксируются данные, выписанные из других исследований, необходимо делать ссылку на источник в примечании. Необходимо помнить, что изучение данных в комбинационных таблицах обязательно должно дополняться корреляционным анализом, в противном случае исследователь, ориентируясь только на эффектные абсолютные значения, рискует сделать выводы о несуществующей связи между двумя переменными. Например, ориентируясь на данные табл. 3, без дополнительных расчетов нельзя сделать вывод о том, что та или иная группа является наиболее лояльной по отношению к власти.
Таблица 3
Уровень доверия правительству РФ в зависимости от образования (Санкт-Петербург, март 1998 г.), в %
Образование |
Уровень доверия правительству |
||||||
Доверяю полностью |
Скорее доверяю |
Когда как, все зависит от ситуации |
Скорее не доверяю |
Не доверяю абсолютно |
Затрудняюсь ответить |
Итого |
|
Неполное среднее |
1 |
4 |
3 |
4 |
2 |
0 |
14 |
Среднее |
4 |
2,23 |
5 |
6 |
2,20 |
0,57 |
20 |
Среднее специальное |
3 |
3,10 |
3 |
10,34 |
3,13 |
4,10 |
26,67 |
Высшее |
2 |
4 |
2,33 |
23 |
6 |
2 |
39,33 |
Итого |
10 |
13,33 |
13,33 |
43,34 |
13,33 |
6,67 |
100 |
[c.99]
Таблицы могут также содержать информацию об изменении признака во времени (в панельных, трендовых исследованиях). Они наглядно демонстрируют динамику процесса (табл. 4).
Таблица 4
Структура активного электората по уровню образования (в % к общей численности группы с соответствующим уровнем образования)
Уровень образования |
Год |
|||
1991 |
1995 |
1996 |
1998 |
|
Неполное среднее |
43 |
41,3 |
42,3 |
39,9 |
Среднее |
39,7 |
37,1 |
38,6 |
43,5 |
Среднее специальное |
15,3 |
17 |
14,2 |
11,4 |
Высшее |
2 |
4,8 |
4,9 |
5,2 |
Итого |
100 |
100 |
100 |
100 |
Помимо таблиц для визуализации данных применяют полигоны (по преимуществу, для дискретных рядов), гистограммы (для непрерывных рядов), круговые диаграммы, кумуляты и другие виды графиков. По большому счету, они нужны для заказчика и обязательно присутствуют в отчете. Сам исследователь обращается к визуализированным данным на начальной стадии анализа с целью ознакомления с характером распределения вариационных рядов.
Полигоны (рис. 3) и гистограммы (рис. 4) строят в прямоугольной системе координат. На оси абсцисс располагают значения признака, на оси ординат - частоты, доли респондентов по группам.
Рис. 3. Уровень доверия респондентов правительству РФ (Санкт-Петербург, март 1998 г.).[c.100]
Линейные диаграммы удобны для изображения трендов (временных рядов). Оформление графиков так же, как и оформление таблиц, подчиняется определенным правилам: обязательны нумерация и точный заголовок, название оси абсцисс помещают под диаграммой, ординат - над номерами градаций.
В линейной диаграмме (полигоне) все значения одной переменной соединяют непрерывной линией. Полигон более удобен для чтения, чем данные таблицы. Достаточно часто на одном графике помещают данные нескольких рядов. В этом случае его масштаб максимально увеличивают, а для изображения выбирают линии разного типа.
Рис. 4. Уровень доверия респондентов правительству РФ (Санкт-Петербург, март 1998 г.).
При оформлении гистограммы допускается штриховка столбцов. При фиксации в осях нескольких графиков одновременно их изображают разными линиями. Под графиком располагают пояснение, дают ключ (показывают, что обозначает каждая из линий). Иногда пояснительный текст помещают прямо на графике.
Кумулятивная кривая (рис. 5) строится на основе накопленных частот. По оси абсцисс откладываются значения наблюдаемого признака, вдоль оси ординат – накопленные частоты. Кумуляту используют для контроля за «накоплением» признака.
Если же по оси абсцисс откладывать частоты, а по ординате – признак по возрастающим его значениям, то полученную кривую' называют огивой. [c.101]
Рис. 5. Уровень доверия респондентов правительству РФ (Санкт-Петербург, март 1998 г.).
Для демонстрации изменчивости какого-либо признака во времени или пространстве используют двустороннюю гистограмму – столбиковый график, расположенный в двух направлениях. Основная его функция заключается в демонстрации колебаний по отношению к среднему значению признака (рис. 6).
Рис. 6. Электоральная активность жителей города А (условный пример).
Секторная диаграмма представляет собой сегментированный круг (рис. 7). Площадь круга отождествляется со 100% респондентов. Сегменты соответствуют группам респондентов, распределенных по какому-либо признаку. [c.102]
Рис. 7. Уровень доверия респондентов правительству РФ (Санкт-Петербург, март 1998 г.).