
- •Часть I
- •Введение
- •Глава 1. Первичная обработка эксперимента
- •1.1. Статистическое наблюдение
- •1.2. Группировка статических данных
- •1.2.1. Виды группировок
- •1.2.2. Методика проведения группировок
- •1.2.3. Статистические ряды распределения
- •1.3. Формы представления статистических данных
- •1.3.1. Статистические таблицы
- •1.3.2. Статистические графики
- •1.4. Первичная обработка выборки
- •1.4.1. Построение вариационного ряда на основе группировочного признака
- •1.4.2. Графические представления вариационного ряда
- •1.4.3. Построение аналитической группировки
- •1.5. Задания для самостоятельной работы
- •2. Статистические показатели
- •2.1. Классификация статистических показателей
- •2.2. Абсолютные и относительные величины
- •2.2.1. Абсолютные величины (показатели)
- •2.2.2. Относительные величины (показатели)
- •2.3. Средние показатели
- •2.3.1. Сущность и значение средней величины
- •2.3.2. Виды средних величин
- •Распределение цветков лютиков по числу чашелистиков
- •Распределение студентов по росту
- •Рассмотрим основные свойства средней арифметической:
- •2.3.3. Структурные средние величины
- •Распределение проданной обуви по размерам
- •2.4. Показатели вариации
- •2.4.1. Абсолютные показатели вариации
- •2.4.2. Относительные показатели вариации
- •2.5. Показатели формы распределения
- •2.5.1. Асимметрия
- •2.5.2. Эксцесс
- •2.6. Расчет числовых характеристик
- •2.6.1. Числовые характеристики вариационного ряда
- •2.6.2. Анализ взаимосвязи
- •2.7. Задачи для самостоятельной работы
- •Рекомендуемая Литература
- •Приложение
2.4. Показатели вариации
Средняя величина – это абстрактная, обобщающая характеристика признака изучаемой совокупности. Она не показывает строение совокупности, т. е. особенности группировки отдельных значений признака относительно средней (сосредоточены ли они вблизи или значительно отклоняются от нее).
Изменчивость значений признака изучаемой совокупности называется вариацией признака. Она возникает в результате воздействия на единицы совокупности комплекса разнообразных факторов (условий). Например, вариация оценок на экзамене в вузе обусловлена различными способностями студентов, временем, затрачиваемым ими на самостоятельную работу, и т. д.
Вариация является одной из важнейших категорий, применяемых в статистической науке. Явления, подверженные вариации, лежат в области исследования статистики, в то время как явления неизменные, статичные, постоянные не рассматриваются. Если бы все студенты получали одинаковые оценки, то необходимость в статистическом исследовании отпала бы.
Вариацией называется изменчивость только тех явлений, на которые воздействуют внешние факторы и причины. Явления, изменяющиеся в силу своей внутренней природы не подвержены вариации, например, рост человека, меняющийся в течение жизни. Изучение изменчивости роста отдельного человека, который, допустим, к 1 году составляет 0,8 м, а к 25 годам 1,79 м, посредством расчета среднего роста, будет некорректным, так как в начале жизни рост был небольшой в силу естественных причин.
По степени вариации можно судить о многих сторонах процесса развития изучаемых явлений, в частности об однородности совокупности, устойчивости индивидуальных значений признака, типичности средней, о взаимосвязи между признаками одного и того же явления и признаками разных явлений. На основе показателей вариации в статистике разрабатываются другие показатели (теснота связи между признаками, точность выборочного наблюдения) и методы изучения явлений и процессов.
Выделяют несколько видов вариации:
Если изучаемый признак может принять только одно из двух значений, противоположных по своей сути, то вариация называется альтернативной.
Систематическая вариация – изменение признака в определенном направлении. Вариация является систематической только в том случае, если изменение явления не обусловлено его внутренними законами развития.
Случайной называется вариация, не имеющая явно выраженного направления, т. е. изменчивость признака при случайной вариации не предсказуема.
Изменчивость явления в статистическом анализе отображается с помощью системы показателей, в которую входят:
1) абсолютные показатели вариации:
– размах вариации;
– среднее линейное отклонение;
– дисперсии (групповая, межгрупповая и общая) и среднее квадратическое отклонение;
2) относительные показатели вариации:
– коэффициент осцилляции;
– коэффициенты вариации (в том числе линейный);
– коэффициенты детерминации (эмпирические и теоретические).
2.4.1. Абсолютные показатели вариации
Размах вариации. Простейшим (и весьма приближенным) показателем вариации является размах вариации R, равный разности между наибольшим и наименьшим вариантами ряда:
R = xmax – xmin, (2.21)
где xmax и xmin – соответственно максимальное и минимальное значения признака в изучаемой совокупности.
Размах вариации всегда выражается в единицах измерения того признака, степень колеблемости которого он отражает.
Размах вариации отражает пределы изменчивости признака (амплитуду вариации). Он улавливает только крайние отклонения и не отражает отклонений всех вариантов в ряду. Однако легкость вычисления и простота истолкования обусловили широкое применение этого показателя.
Среднее линейное отклонение. Более строгими характеристиками являются показатели колеблемости относительно среднего уровня признака (обычно относительно средней арифметической). Простейший показатель такого типа – среднее линейное отклонение d, которое представляет собой среднюю арифметическую абсолютных величин отклонений вариантов от их средней арифметической. В зависимости от исходных данных среднее линейное отклонение можно вычислить по одной из следующих формул:
1) простой
;
(2.22)
2) взвешенной
,
(2.23)
где
xi
– i-й
вариант изучаемого признака; ni
– частота, соответствующая варианту
xi;
– средняя величина признака.
Среднее линейное отклонение показывает диапазон, в котором лежит основная масса значений признака относительно средней величины. Поскольку сумма отклонений от средней величины равна нулю, то для расчета среднего линейного отклонения применяется модуль. Среднее линейное отклонение имеет такие же единицы измерения, как индивидуальные значения признака.
Пример 2.16. Рассчитаем среднее линейное отклонение, используя данные примера 2.6. Для расчетов используем формулу 2.23. Учитывая, что = 5, получим
Применение модуля при расчете среднего линейного отклонения накладывает ряд ограничений на дальнейшие математические действия с данной величиной: этот показатель усложняет расчеты вероятностного типа и затрудняет применение методов математической статистики в ходе дальнейшего статистического анализа данных. Поэтому он не получил широкого применения в статистике.
Дисперсия и среднее квадратическое отклонение (СКО). Основными обобщающими показателями вариации в статистике являются дисперсия и среднее квадратическое отклонение.
Дисперсия – это средний квадрат отклонений индивидуальных значений признака от их средней величины. В зависимости от исходных данных дисперсия и способа расчета дисперсия делится на следующие виды:
1) простую:
;
(2.24)
2) взвешенную:
,
(2.25)
где xi – i-й вариант изучаемого признака; ni – частота, соответствующая варианту xi; – средняя величина признака.
Дисперсию
часто называют эмпирической
(выборочной),
подчеркивая
этим, что она определяется по опытным
(выборочным) данным в отличие от дисперсии
случайной величины, рассматриваемой в
теории вероятностей.
Если дисперсию приходится рассчитывать "вручную", удобнее использовать формулу, которая получается из формул 2.24 и 2.25 с помощью несложных математических преобразований. Приведем формулу для расчета дисперсии по сгруппированным данным (взвешенную):
.
(2.25а)
В
качестве меры вариации применяется
характеристика, выраженная
в тех же
единицах измерения, что и значения
признака. Такой характеристикой является
среднее
квадратическое отклонение
– показатель, представляющий собой
арифметическое значение корня квадратного
из дисперсии:
.
(2.26)
Среднее квадратическое отклонение – это обобщающая характеристика абсолютных размеров вариации признака в совокупности. Данный показатель рассчитывается в тех же единицах, что и изучаемый признак. Суть СКО, как и среднего линейного отклонения, состоит в определении среднего размера разброса значений признака относительно средней.
Среднее квадратическое отклонение является мерилом надежности средней. Чем меньше среднее квадратическое отклонение, тем лучше средняя арифметическая отражает собой всю представляемую совокупность.
Пример 2.17. Рассчитаем дисперсию и среднее квадратическое отклонение, используя данные примера 2.7 и формулу 2.25. В качестве вариантов xi, как и при расчете среднего, будем использовать средние значения соответствующих интервалов . Результаты расчетов приведем в табл. 2.9.
Таблица 2.9
Данные для расчета дисперсии и среднего квадратического отклонения
Рост |
156 |
160 |
164 |
168 |
172 |
176 |
180 |
Итого |
Число
студентов
|
10 |
14 |
26 |
28 |
12 |
8 |
2 |
100 |
|
100 |
36 |
4 |
4 |
36 |
100 |
196 |
– |
|
1000 |
504 |
104 |
112 |
432 |
800 |
392 |
3344 |
Следовательно, получим дисперсию
и среднее квадратическое отклонение
Необходимо
отметить особенность расчета дисперсии
для интервальных вариационных рядов.
В этом случае первичные значения признака
заменяются условными серединами
интервалов. Если исследуемый ряд
распределения достаточно симметричен
или его распределение близко
к
нормальному, то при расчете дисперсии
как по первичным, так и по сгруппированным
данным ее значения почти не будут
отличаться друг
от друга. Если
распределение ряда не отвечает
вышеуказанным требованиям, то дисперсия
исследуемого ряда, рассчитанная по
первичным данным
,
как правило, будет отличаться от
дисперсии, рассчитанной по сгруппированным
данным
.
Разницу между дисперсиями можно
определить с помощью поправки
Шеппарда:
,
(2.27)
где h – величина интервала.
Применение поправки Шеппарда возможно при выполнении следующих условий:
количество единиц совокупности должно быть больше 500;
при графическом изображении распределения концы кривой необходимо располагать в непосредственной близости с осью абсцисс;
вариация исследуемого признака должна иметь непрерывный характер.
Таким образом, если исследователь располагает первичными и сгруппированными данными, то целесообразнее среднее и дисперсию рассчитывать по несгруппированным данным, чтобы полученные показатели были наиболее точными.
Виды дисперсий
Аналитическая группировка, как правило, проводится по отдельному факторному признаку, влияющему на результативный признак. Иногда в результате группировки даже визуально можно увидеть некоторую закономерность в изменчивости признаков. Например, чем больше значение признака, положенного в основу группировки, тем больше значение исследуемого признака. Однако такая зависимость не всегда очевидна. Чтобы выявить степень влияния признака-фактора на признак-результат, рассчитывают несколько видов дисперсий: общую, межгрупповую и внутригрупповые.
Общая дисперсия измеряет вариацию признака в совокупности под влиянием всех факторов, обусловивших эту вариацию (как учтенных, так и неучтенных при исследовании). Она вычисляется по формулам (2.24) или (2.25).
Межгрупповая
дисперсия
выражает изменчивость изучаемого
признака только под влиянием
признака-фактора, положенного в основу
группировки. Она характеризует
колеблемость групповых средних
около общей средней
.
Эта дисперсия вычисляется по формуле
,
(2.28)
где
– общая средняя;
– средняя по отдельным группам; ni
– численность отдельных групп.
В научной литературе межгрупповую дисперсию называют также факторной дисперсией. Такое название отражает суть данного вида дисперсии, тогда как термин "межгрупповая" отображает ее форму расчета.
Внутригрупповая
дисперсия
отражает изменчивость признака-результата
под влиянием неучтенных в исследовании
признаков (исключая влияние
признака-фактора). Совокупность
распределена на группы по признаку-фактору,
т. е. внутри группы на вариацию изучаемого
признака оказывают влияние уже другие
факторы. Внутригрупповая дисперсия
вычисляется по отдельным группам по
формулам (2.24) или (2.25).
Данный вид дисперсии в научной литературе называется также остаточной дисперсией. Такое название отражает суть этого вида дисперсии, тогда как термин "внутригрупповая" отображает форму расчета.
В результате расчета внутригрупповых дисперсий получается несколько дисперсий, имеющих различные значения вариации признака-результата в группах. Чтобы получить единую величину, отражающую изменчивость результативного признака под влиянием неучтенных признаков, рассчитывают среднее значение на основе внутригрупповых дисперсий:
,
(2.29)
где – дисперсия признака в i-й группе; ni – численность i-й группы.
Все три вида дисперсии взаимосвязаны между собой по правилу сложения дисперсий:
.
(2.30)
Согласно этому правилу, общая дисперсия, возникающая под влиянием всех факторов, равна сумме дисперсии, возникающей за счет группировочного признака, и дисперсии, появляющейся под влиянием всех прочих факторов.
Правило сложения дисперсий широко применяется при исчислении показателей тесноты связи, в процессе дисперсионного анализа, при оценке точности типической выборки и в ряде других случаев.
Пример 2.18. Данные о частоте пульса у детей разделены на группы:
1 группа (дети 1–2 лет): 111, 121, 107, 98, 116, 125, 109, 117, 123, 110, 118, 113;
2 группа (дети 2–3 лет): 102, 87, 107, 100, 90, 105, 107, 110, 90, 103, 99, 100.
Найдем общую, межгрупповую и внутригрупповые дисперсии.
Вычислим средние:
1) групповые:
– 1 группа:
;
– 2 группа:
;
2) общую:
.
Рассчитаем искомые дисперсии.
Внутригрупповые дисперсии рассчитаем для каждой группы по формуле 2.25а (так как данные не сгруппированы, то будем считать, что ni = 1):
– 1 группа:
– 2 группа:
Среднюю из внутригрупповых дисперсий определим по формуле 2.29:
Межгрупповую дисперсию найдем по формуле 2.28:
Общая дисперсия будет иметь следующее значение (формула 2.25а):
Проверим, выполняется ли правило сложения дисперсий:
Таким образом, полученный результат верен.
Дисперсия альтернативного (качественного) признака
В статистке наряду с показателями вариации количественного признака определяются показатели вариации альтернативного признака. Как было сказано выше, альтернативными являются признаки, которыми обладают одни единицы изучаемой совокупности и не обладают другие. Доля вариантов, обладающих изучаемым признаком, обозначается p и рассчитывается по формуле
,
(2.31)
где m – число вариантов, обладающих изучаемым признаком; n – общий объем совокупности.
Доля вариантов, не обладающих этим признаком, обозначается q и вычисляется по формуле
.
(2.32)
Доли вариантов при альтернативной группировке выполняют такую же роль, как и средние величины для вариационных рядов распределения, т. е.
Дисперсия альтернативного признака определяется по формуле
(2.33)
Корень квадратный из этого показателя, т. е.
,
(2.34)
соответствует среднему квадратическому отклонению альтернативного признака. Предельное значение дисперсии альтернативного признака равно 0,25 при p = 0,5. Этот показатель одинаково характеризует варьирование обеих альтернативных групп.
Если количество вариантов, обладающих изучаемым признаком, выражено абсолютными числами, то среднее квадратическое отклонение определяется по формуле
.
(2.35)
Пример 2.19. Проведено исследование популяции зеленых лягушек. Было обследовано 230 лягушек, из них – 105 самок и 125 самца. Вычислим дисперсию альтернативного признака.
Из
общего числа популяции n
= 230 лягушек доля самок составила
а доля самцов
.
Следовательно, дисперсия
и среднее
квадратическое отклонение доли самок
в популяции зеленых лягушек имеют
следующие значения:
,
.