
- •Тема 5. Вариационный анализ.
- •Вариация признаков и ее причины
- •Ряды распределения
- •Показатели силы (величины) вариации
- •Показатели интенсивности вариации.
- •Виды дисперсий. Правило сложения дисперсий.
- •7. Показатели характера вариации.
- •Одновершинные
- •Многовершинные
- •8.Вариация альтернативного признака.
Тема 5. Вариационный анализ.
Вариация признаков и ее причины.
Ряды распределения.
Структурные характеристики вариационного ряда.
Показатели силы (величины) вариации.
Показатели интенсивности вариации.
Виды дисперсий. Правило сложения дисперсий.
Показатели характера вариации.
Вариация альтернативного признака.
Вариация признаков и ее причины
Вариацией значений какого-либо признака в совокупности называется различие его значений у разных единиц данной совокупности в один и тот же момент либо за один и тот же период времени.
Вариация присуща всем без исключения явлениям природы и общества, кроме законодательно закрепленных нормативных значений отдельных социальных признаков.
Неварьирующие признаки не представляют интереса для статистики, т.к. предметом изучения статистики является вариация.
Причина вариации – разные условия существования разных единиц статистической совокупности.
Ряды распределения
Первым этапом статистического изучения вариации является построение вариационного ряда – упорядоченного распределения единиц совокупности по возрастающим либо по убывающим значениям признака и подсчет числа единиц с тем или иным значением признака.
Вариационный ряд часто называют рядом распределения.
Формы вариационных рядов:
- ранжированный;
- дискретный;
- интервальный.
Ранжированный ряд – перечень отдельных единиц совокупности в порядке возрастания (убывания) изучаемого признака.
Дискретный ряд – таблица, состоящая
из двух строк (столбцов): конкретных
значений варьирующего признака x
и числа единиц совокупности с данным
значением признака f
- частот (f - начальная
буква слова «frequency»).
Строится в том случае, когда признак принимает дискретные значения и число этих значений невелико. Число групп в дискретном вариационном ряду определяется числом реально существующих значений варьирующего признака.
Интервальный вариационный ряд - таблица, состоящая из двух строк (столбцов): интервалов признака, вариация которого изучается, и числа единиц совокупности, попадающих в данный интервал (частот), или долей этого числа от общей численности совокупности (частостей).
Строится в случаях, когда:
- признак принимает дискретные значения, но число их велико;
- признак принимает любые значения (и дискретные, и дробные);
При построении интервального вариационного ряда необходимо выбрать оптимальное число групп (интервалов признака) и установить длину интервала.
Количество интервалов можно определять двумя способами:
- по формуле Стерджесса (американский статистик);
- по смылу в зависимости от целей исследования.
Формула Стерджесса:
При расчетах обычно получают дробные значения количества интервалов. Так, например, если получилось 8,32, то следует принять количество либо 8, либо 9.
Зная количество интервалов, рассчитывают величину (длину) интервала по формуле:
Для построения ряда и анализа вариации лучше иметь округленные значения величины интервала и его границ. Например, если длина интервала получилась равной 10 834, то следует принять 10 000 либо 10 500, в этом случае и границы интервалов также будут удобными для чтения и восприятия.
Границы интервалов могут указываться по-разному:
1. Интервалы с «пересекающимися» границами, т.е. нижняя граница последующего интервала повторяет верхнюю границу предыдущего интервала.
0-10 10-20 20-30
В таких интервалах обязательно нужно учитывать, какая граница входит в данный интервал. Если нет специальных указаний, то в интервал включается нижняя граница.
2.Интервалы с «непересекающимися» границами – нижняя граница последующего интервала не повторяет верхнюю границу предыдущего интервала. В данном случае в интервал входят обе границы.
1-10 11-20 21-30
3. Интервалы могут быть «открытыми», т.е. верхняя или нижняя граница могут отсутствовать.
До 10 10-20 20-30 свыше 30
При расчетах по интервальному вариационному ряду за величину x принимают середину интервала.
В случае открытого интервала его величину принимают равной величине смежного с ним интервала либо, исходя из логических соображений.
Интервалы могут быть равные и неравные по длине. Если приходится иметь дело с неравными интервалами, то для сопоставимости нужно частоты привести к единице интервала. Полученное соотношение называют плотностью распределения.
В анализе вариационного ряда значительную помощь оказывает его графическое изображение.
Дискретный вариационный ряд изображается с помощью полигона (от греческого слова «многоугольник»).
Интервальный вариационный ряд – изображается с помощью гистограммы (от греческого слова «гистос» - ткань, строение).
Преобразованной формой вариационного ряда является ряд накопленных частот.
По накопленным частотам строят кумуляту ( распределение «меньше, чем …») и огиву (распределение «больше, чем …»).
Структурные характеристики вариационного ряда (ВР)
Структурные характеристики ВР описывают его структуру количественно.
Медиана – величина варьирующего признака, делящая совокупность на две равные части.
Для дискретного ВР сначала рассчитывается номер медианной единицы по формуле:
Затем по рассчитанному номеру находится медианная единица и определяется ее значение.
Для интервального ВР сразу определяется значение медианы по формуле:
Медианным называется первый интервал, накопленная частота которого превышает половину от общей суммы частот.
Графически медиану определяют по кумуляте.
Квартили – значения признака, делящие совокупность на четыре равные части по числу единиц. Рассчитываются чаще в случае достаточно больших ВР,
- нижний квартиль (отделяет ¼ часть совокупности с наименьшими значениями признака);
- средний квартиль (МЕДИАНА);
- верхний квартиль (отделяет ¼ часть совокупности с наибольшими значениями признака).
Для интервального ВР:
Также в больших ВР могут быть определены:
- децили – значения признака, делящие ВР на десять равных частей;
- перцентили – значения признака, делящие ряд на сто равных частей.
Данные характеристики используются в случае необходимости подробного изучения структуры ВР.
Мода – наиболее часто встречающееся значение признака (т.е. значение признака с наибольшей частотой).
В дискретном ВР мода определяется без вычислений как значение признака с набольшей частотой. Обычно встречаются ВР с одним модальным значением признака. Однако встречаются ВР с двумя и больше модами, соответственно «бимодальные» и «мультимодальные». Это говорит о неоднородности совокупности либо о неправильно выполненной группировке данных.
Для интервального ВР мода определяется по формуле:
Модальный интервал – интервал с наибольшей частотой.