Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ГОС по социологии - все части.doc
Скачиваний:
2
Добавлен:
01.05.2025
Размер:
3.64 Mб
Скачать

Тема 4. Анализ одномерных и двумерных частотных распределений.

4.1 Виды одномерных распределений. Проблемы, возникающие при их построении.

Независимо от того, какие статистические методы и модели собирается исполь­зовать исследователь, первым шагом в анализе данных всегда является постро­ение частотных распределений для каждой изучавшейся переменной. Полу­ченные результаты принято представлять в виде таблицы частотного распреде­ления (или просто — таблицы распределения) для каждой существенной переменной. Помимо табличного представления частотных распределений обычно исполь­зуют и различные методы графического представления. Самый распространен­ный метод графического представления одномерных распределений это гис­тограмма, или столбиковая диаграмма. Каждый столбик соответствует интервалу значений переменной, причем его середина совмещается с серединой дан­ного интервала. Высота столбика отражает частоту (абсолютную или относи­тельную) попадания наблюдавшихся значений переменной в определенный интервал. Используя при группировке значений переменной неравные интервалы либо ос­тавляя крайние градации открытыми («старше 65 лет», «свыше 24000 рублей» и т. д.), мы все же отображаем эти интервалы на гистограмме с помощью столбиков, имеющих одинаковую ширину.

Если просто соединить между собой точки, соответствующие абсолютным или относительным частотам (ось ординат) для середин интервалов, мы получим так называемый полигон распределения. Эта операция, разумеется, будет иметь какой-то смысл лишь для количественных переменных, которые мы в принци­пе можем представить себе как непрерывные.

Способы заполнения пропусков:

  1. Разделить пропущенные значения поровну по интервалам.

  2. Разделить пропорционально значениям в интервалах.

  3. Посчитать среднее значение, определить, в какой интервал оно попадает, и записать пропущенные значения в этот интервал.

4.2 Основные меры средней тенденции распределения значений признака.

Меры центральной тенденции указывают на расположение среднего, или ти­пичного, значения признака, вокруг которого сгруппированы остальные наблю­дения. Понятие среднего зна­чения может быть строго задано лишь для одномерного распределения пере­менной-признака.

Мода — это такое значение в совокупнос­ти наблюдений, которое встречается чаще всего. Для номи­нальных переменных мода — это единственный способ указать наиболее ти­пичное, распространенное значение. У моды как меры центральной тенденции есть определенные недостатки, ограничивающие ее интерпретацию. Во-первых, в распределении могут быть две и более моды (со­ответственно оно является бимодальным или мультимодальным). Кроме того, мода чрезвы­чайно чувствительна к избранному способу группировки значений переменной.

Квантиль – это такое значение признака q, которое делит диапазон его изменения на две части так, чтобы отношение числа элементов выборки, имеющих значение признака, меньшее q, к числу элементов, имеющих значение признака, большее q, было равно заранее заданной величине. Среди всех возможных квантилей обычно выделяют определенные семейства. Квантили одного семейства делят диапазон изменения признака на заданное число равнонаполненных частей. Семейство определяется тем, сколько частей получается. Наиболее популярными квантилями являются квартили, разбивающие диапазон изменения признака на 4 равнонаполненные части; децили - на 10 равнонаполненных частей; процентили – на 100 частей.

Медианаэто зна­чение, которое делит упорядоченное множество данных пополам, так что одна половина наблюдений оказывается меньше медианы, а другая — боль­ше. Иными словами, медиана — это 50-й процентиль распределения. Обычно используется для ординальных переменных, т. е. таких переменных, значения которых могут быть упорядочены от меньших к большим.

Среднее арифметическое -