
8 Анализ данных
Данная глава предполагает знание читателем основ статистической обработки данных и, по сути, носит обзорный характер.
После снятия эмпирических значений каких-либо показателей развития социально-экономических и политических процессов, важной задачей для исследователя становится обработка и анализ полученной информации. Методы, применяемые для анализа данных, весьма многообразны. На сегодняшний день большое значение имеют статистические методы анализа. Вместе с тем необходимо отметить, что применение статистических методов не всегда оправдано по различным причинам. Выбор конкретного метода зависит в первую очередь от характера исследовательских гипотез, т.е. от того на какие вопросы исследователь хочет получить ответ.
Помимо характера исследовательских гипотез на выбор методов статистического анализа влияет и природа полученных данных. К примеру, разные уровни измерения переменных определяют возможности и ограничения анализа. Для того чтобы охарактеризовать распределение по выборке такого номинального признака, как «пол» нельзя воспользоваться среднеарифметическим значением, и, следовательно, необходимы другие приемы представления полученной информации.
Существует два основных класса задач, решаемых с помощью статистических методов анализа. Задачей дескриптивной (описательной) статистики является описание распределения переменной-признака в конкретной выборке. Методы дескриптивной статистики позволяют также анализировать взаимосвязь между различными переменными. Другой класс задач, связанный с необходимостью вывести свойства большой совокупности, основываясь на имеющейся информации о свойствах выборки из этой совокупности, решается с помощью методов индуктивной статистики, основанной на вероятностном подходе к принятию решений. Воспользовавшись какой-то моделью для анализа полученных выборочных данных, исследователь обычно также применяет некоторые методы статистического вывода, позволяющие определить, выполняются ли обнаруженные им при анализе данных отношения на уровне большой совокупности, из которой была извлечена выборка.
8.1 Представление данных
В основе статистических методов обработки полученных в ходе исследования эмпирических данных лежит предварительное упорядочение первичных данных главным образом при помощи статистической группировки и составления статистических таблиц.
Распределение изучаемой совокупности на однородные группы по существенным для нее признакам называется статистической группировкой. Основное назначение группировки состоит в установлении численности каждой отдельно взятой части совокупности, расчлененной в соответствии со значением определенного признака и в изучении влияния причин и зависимости явлений. Главным вопросом метода группировки является правильный выбор группировочных признаков.
В ходе исследования могут быть получены превосходные данные, но эти данные окажутся неинформативными, если их группировка будет проведена неправильно. Основные группировки должны тщательно разрабатываться уже при составлении программы исследования. Стремление к компактности данных не должно вести к крайностям. Руководствуясь соображениями здравого смысла, исследователь должен избегать ситуаций, когда перегруппировка ведет к тому, что полученная переменная оказывается слишком грубым средством классификации наблюдений, не позволяющим выявить существенные для анализа различия. Важно также следить за тем, чтобы объединение категорий или числовых градаций переменной-признака не привело к искусственному созданию отношений и взаимосвязей, которые в действительности отсутствуют в данных.
Независимо от того, какие статистические методы и модели собирается использовать исследователь, первым шагом в анализе данных всегда является построение частотных распределений для каждой изучаемой переменной. Частоты могут быть абсолютными и относительными.
Как правило, для последующей статистической обработки или более наглядного представления данных отдельные значения признаков объединяются в интервалы. В этом случае частоты соотносятся уже не с каждым отдельным значением признака, а с рядом значений, попадающих в определенный интервал. Интервальные ряды могут строиться с равными и неравными интервалами. Кроме того, довольно часто исследователю приходится сталкиваться с ситуацией, когда необходимо произвести перегруппировку материала, задав другие интервалы, но нет возможности при этом обратиться к первоначальным статистическим данным. При расщеплении интервала на несколько частей приходиться вводить априорное предположение о частотном распределении внутри интервала, поскольку истинное распределение неизвестно. Самым простым является предположение о равномерности частотного распределения по отдельным значениям признака.
Для представления данных используют табличный и графический методы.
Построение таблицы подчинено определенным правилам. Основное содержание таблицы должно быть отражено в названии (круг рассматриваемых вопросов, географические границы статистической совокупности, время, единицы наблюдения). Таблицы бывают простые, групповые и комбинационные. Простые таблицы представляют собой перечень отдельных единиц совокупности с количественной характеристикой каждой из них в отдельности. В групповых таблицах содержится группировка единиц совокупности по одному признаку, а в комбинационных — по двум и более признакам.
Частотное распределение отображается в виде диаграмм и графиков (гистограмма, полигон, кумулята). Главным достоинством графического изображения является его наглядность.
Самый распространенный метод графического представления одномерных распределений — это гистограмма (рис. 8.1). Каждый столбик соответствует интервалу значений переменной, причем его середина совмещается с серединой данного интервала. Высота столбика отражает частоту (абсолютную или относительную) попадания наблюдавшихся значений переменной в определенный интервал.
|
Рис. 8.1 — Гистограмма распределения населения по среднедушевому доходу |
Если просто соединить между собой точки, соответствующие абсолютным или относительным частотам (ось ординат) для середин интервалов, получится так называемый полигон распределения (рис. 8.2). Эта операция, разумеется, будет иметь какой-то смысл лишь для количественных переменных, которые мы в принципе можем представить себе как непрерывные.
|
Рис. 8.2 — Полигон распределения населения по среднедушевому доходу |
При построении кумуляты (рис 8.3) на оси абсцисс откладываются границы интервалов (либо значения дискретных признаков), а на оси ординат — накопленные частоты, соответствующие верхним границам интервалов. Кумулята позволяет быстро определить процент лиц, находящихся ниже или выше заданной величины признака.
|
Рис. 8.3 — Кумулята распределения населения по стажу работы |